WO2018110540A1 - 分類分析方法、分類分析装置および分類分析用記憶媒体 - Google Patents

分類分析方法、分類分析装置および分類分析用記憶媒体 Download PDF

Info

Publication number
WO2018110540A1
WO2018110540A1 PCT/JP2017/044534 JP2017044534W WO2018110540A1 WO 2018110540 A1 WO2018110540 A1 WO 2018110540A1 JP 2017044534 W JP2017044534 W JP 2017044534W WO 2018110540 A1 WO2018110540 A1 WO 2018110540A1
Authority
WO
WIPO (PCT)
Prior art keywords
pulse
data
waveform
time
classification analysis
Prior art date
Application number
PCT/JP2017/044534
Other languages
English (en)
French (fr)
Inventor
鷲尾 隆
川合 知二
正輝 谷口
真楠 筒井
一道 横田
陽 石井
吉田 剛
Original Assignee
国立大学法人大阪大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人大阪大学 filed Critical 国立大学法人大阪大学
Priority to EP17881653.4A priority Critical patent/EP3557225A4/en
Priority to CN201780077372.6A priority patent/CN110178012B/zh
Priority to US16/470,140 priority patent/US20200251184A1/en
Publication of WO2018110540A1 publication Critical patent/WO2018110540A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/34Measuring or testing with condition measuring or sensing means, e.g. colony counters
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/1031Investigating individual particles by measuring electrical or magnetic effects
    • G01N15/12Investigating individual particles by measuring electrical or magnetic effects by observing changes in resistance or impedance across apertures when traversed by individual particles, e.g. by using the Coulter principle
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N2015/1006Investigating individual particles for cytology
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/1012Calibrating particle analysers; References therefor
    • G01N2015/1014Constitution of reference particles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N2015/1029Particle size
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N2015/103Particle shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present invention relates to a classification analysis method, a classification analysis apparatus, and a classification analysis storage medium that perform classification analysis of particulate or molecular analytes such as fine objects such as viruses and bacteria, or fine dust.
  • biochemical methods Conventionally, microbiological tests for bacteria and the like have been performed by biochemical techniques. In biochemical methods, culture and staining are performed to identify the number and type of bacteria.
  • the time required for the test is about several days (for example, the culture time for E. coli is 1 to 2 days), and specialists are also required for the tester. For this reason, in the modern society where people and goods are increasing, food safety, pandemic prevention, and health damage caused by air pollution caused by microparticulates such as PM2.5 will be used on the spot. There is a need for an inspection technique that can be performed by anyone and that can be performed quickly and easily at low cost.
  • Patent Document 1 discloses a technique for electrically detecting a minute object (bacteria, virus, etc.) using a micro / nanopore device having a micro / nanometer-scale micro through-hole (micropore, hereinafter collectively referred to as nanopore). Has been.
  • the operating principle of the micro / nanopore device is as follows. When voltage is applied to the electrode pair arranged so that the nanopore is sandwiched between the top and bottom of the nanopore and the nanopore filled with the electrolyte solution, it is proportional to the pore diameter, ion concentration and applied voltage, and inversely proportional to the pore depth. A constant current is measured. When a specimen (analyte) such as bacteria passes through the pore (through hole), a part of the ionic current is inhibited by the specimen, so that a pulsed current change appears. By observing this change in current, the specimen present in the electrolyte solution can be detected.
  • the number of detected current changes is the total number of specimens.
  • an analyte of unknown type may be the target of inspection, so when using a nanopore device practically, it cannot be applied to a detailed inspection of an analyte type simply by extracting a current change. There was a problem.
  • An object of the present invention is to provide a classification analysis method, a classification analysis apparatus, and a classification analysis storage medium capable of performing classification analysis of particulate or molecular analytes with high accuracy.
  • the present invention focuses on the fact that the detected pore current waveform reflects the form of the analyte that passes when the nanopore has a low aspect with a sufficiently small pore thickness with respect to the pore diameter.
  • the invention was made based on the knowledge that classification analysis on the type of analyte can be performed on data obtained by mathematically extracting the characteristics of the inhibition current waveform using a classifier based on machine learning.
  • the first form according to the present invention is: A partition formed with a through hole, and an electrode disposed on the front and back sides of the partition through the through hole, Supplying a flowable substance containing a particulate or molecular analyte to one side of the partition; A classification analysis method for performing classification analysis of detection signal data by detecting a change in energization between electrodes caused by the analyte passing through the through-hole by executing a computer control program,
  • the computer control program has a classification analysis program for performing classification analysis using machine learning, Obtaining in advance a feature quantity indicating the characteristics of the waveform form of the pulse signal corresponding to the analyte passage obtained as the detection signal from the fluid substance containing the predetermined analyte, By using the characteristic amount obtained in advance as learning data for the machine learning, and using the characteristic amount obtained from the pulse-like signal of the analyzed data as a variable, the classification analysis program is executed, whereby the predetermined amount in the analyzed data is determined.
  • the second form according to the present invention is:
  • the feature amount is A first type indicating a local characteristic of the waveform of the pulsed signal; It is a classification analysis method that is one of the second types indicating the overall characteristics of the waveform of the pulse signal.
  • the third form according to the present invention is:
  • the feature quantity of the first type is The peak value of the waveform within a predetermined time width, Pulse wavelength t a , Peak position ratio represented by the ratio t b / t a between time t b and t a from the pulse start until the pulse peak, Kurtosis representing the sharpness of the waveform, The depression angle that represents the slope from the pulse start to the pulse peak,
  • This is a classification analysis method that is either the area that represents the sum of the time division areas obtained by dividing the waveform at predetermined time intervals, or the area ratio of the sum of the time division areas from the start of the pulse to the pulse peak to the total waveform area. is there.
  • the 4th form concerning the present invention is:
  • the feature quantity of the second type is Time moment of inertia determined when the time segment area is assumed to be mass with respect to the start point of the pulse, and the time from the center to the time segment area is simulated to the radius of rotation, Normalized moment of inertia when normalized so that wave height becomes a reference value with respect to the moment of inertia of time,
  • the waveform is equally divided in the wave height direction, the average value of the time value is calculated for each division unit before and after the pulse peak, and the average value vector having the average value at the same wave height position as the vector component, Normalized average value vector when the wavelength is standardized with respect to the average value vector,
  • the waveform is equally divided in the direction of the wave height, the average value of the time value is calculated for each division unit before and after the pulse peak, and the difference vector of the average value with the difference of the average value at the same wave height position as the vector component is mass distribution
  • Normalized wave width average moment of inertia when the wavelength is normalized so as to be a reference value with respect to the wave width average moment of inertia It is determined when the waveform is equally divided in the wave height direction, the variance is obtained from the time value for each division unit, the dispersion vector having the variance as a vector component is assumed to be a mass distribution, and the time axis of the waveform base is set as the rotation center. It is a classification analysis method that is any one of a wave width dispersion moment of inertia and a normalized wave width dispersion moment of inertia when a wavelength is normalized to a reference value with respect to the wave width dispersion moment of inertia.
  • the fifth form according to the present invention is:
  • the computer control program is A reference line extraction means for extracting a reference line when there is no analyte passage from the detection signal or a fluctuation component included in the detection signal; Pulse extraction means for extracting signal data exceeding a predetermined range with reference to the reference line as data of the pulse signal; And a feature quantity extraction means for extracting the feature quantity from the extracted pulse signal data.
  • the sixth form according to the present invention is: A partition formed with a through hole, and an electrode disposed on the front and back sides of the partition through the through hole, Supplying a flowable substance containing a particulate or molecular analyte to one side of the partition; A classification analysis device that performs classification analysis of data of detection signals that detect a change in energization between electrodes caused by the analyte passing through the through-hole, by executing a computer control program, The computer control program has a classification analysis program for performing classification analysis using machine learning, Obtaining in advance a feature quantity indicating the characteristics of the waveform form of the pulse signal corresponding to the analyte passage obtained as the detection signal from the fluid substance containing the predetermined analyte, Learning data storage means for storing previously determined feature quantities as learning data for machine learning; Variable storage means for storing, as a variable, a feature amount obtained from a pulse signal of the data to be analyzed, A classification analysis apparatus that performs classification analysis on the predetermined ana
  • the seventh aspect of the present invention is The feature amount is A first type indicating a local characteristic of the waveform of the pulsed signal; It is a classification and analysis apparatus which is one of the second type indicating the overall characteristics of the waveform of the pulse signal.
  • the eighth aspect of the present invention is The feature quantity of the first type is The peak value of the waveform within a predetermined time width, Pulse wavelength t a , Peak position ratio represented by the ratio t b / t a between time t b and t a from the pulse start until the pulse peak, Kurtosis representing the sharpness of the waveform, The depression angle that represents the slope from the pulse start to the pulse peak, A classification analyzer that is either the area that represents the sum of the time division areas obtained by dividing the waveform at predetermined time intervals, or the area ratio of the sum of the time division areas from the start of the pulse to the pulse peak to the total waveform area. is there.
  • the ninth form according to the present invention is The feature quantity of the second type is Time moment of inertia determined when the time segment area is assumed to be mass with respect to the start point of the pulse, and the time from the center to the time segment area is simulated to the radius of rotation, Normalized moment of inertia when normalized so that wave height becomes a reference value with respect to the moment of inertia of time,
  • the waveform is equally divided in the wave height direction, the average value of the time value is calculated for each division unit before and after the pulse peak, and the average value vector having the average value at the same wave height position as the vector component, Normalized average value vector when the wavelength is standardized with respect to the average value vector,
  • the waveform is equally divided in the direction of the wave height, the average value of the time value is calculated for each division unit before and after the pulse peak, and the difference vector of the average value with the difference of the average value at the same wave height position as the vector component is mass distribution
  • Normalized wave width average moment of inertia when the wavelength is normalized so as to be a reference value with respect to the wave width average moment of inertia It is determined when the waveform is equally divided in the wave height direction, the variance is obtained from the time value for each division unit, the dispersion vector having the variance as a vector component is assumed to be a mass distribution, and the time axis of the waveform base is set as the rotation center. It is a classification analyzer that is any one of a wave width dispersion moment of inertia and a normalized wave width dispersion moment of inertia when a wavelength is normalized to a reference value with respect to the wave width dispersion moment of inertia.
  • the tenth form according to the present invention is
  • the computer control program is A reference line extraction means for extracting a reference line when there is no analyte passage from the data of the detection signal or the fluctuation component included therein; and Pulse extraction means for extracting signal data exceeding a predetermined range with reference to the reference line as data of the pulse signal; And a feature amount extraction unit that extracts the feature amount from the extracted data of the pulse signal.
  • the eleventh aspect of the present invention is a classification analysis storage medium characterized by storing the computer control program according to the first aspect.
  • the characteristics of the waveform form of the pulse signal corresponding to the analyte passage obtained as the detection signal as a result of measurement by the nanopore device with respect to the fluid substance containing the predetermined analyte are shown.
  • a feature amount is obtained in advance, the feature amount obtained in advance is used as learning data for machine learning, and the feature amount obtained from the pulse-like signal of the data to be analyzed is used as a variable to execute the classification analysis program. Since the classification analysis regarding the predetermined analyte in the data is performed, it is possible to identify the analyte with high accuracy and to realize simplification and cost reduction in the classification analysis inspection.
  • the feature amount indicates, as a parameter derived from the pulse-like signal, a first type indicating a local feature of the waveform of the pulse-like signal and an overall feature of the waveform of the pulse-like signal.
  • the classification analysis method according to the present invention is not limited to the case of performing classification analysis using at least one feature quantity of the first type type or the second type feature quantity. Classification analysis can be performed using at least one or more feature amounts in combination.
  • the feature quantity of the first type is The peak value of the waveform within a predetermined time width, Pulse wavelength t a , Peak position ratio represented by the ratio t b / t a between time t b and t a from the pulse start until the pulse peak, Kurtosis representing the sharpness of the waveform, The depression angle that represents the slope from the pulse start to the pulse peak, These are either the area that represents the sum of the time division areas obtained by dividing the waveform every predetermined time, or the area ratio of the sum of the time division areas from the start of the pulse to the pulse peak to the total waveform area.
  • the feature quantity of the second type is Time moment of inertia determined when the time segment area is assumed to be mass with respect to the start point of the pulse, and the time from the center to the time segment area is simulated to the radius of rotation, Normalized moment of inertia when normalized so that wave height becomes a reference value with respect to the moment of inertia of time,
  • the waveform is equally divided in the wave height direction, the average value of the time value is calculated for each division unit before and after the pulse peak, and the average value vector having the average value at the same wave height position as the vector component, Normalized average value vector when the wavelength is standardized with respect to the average value vector,
  • the waveform is equally divided in the direction of the wave height, the average value of the time value is calculated for each division unit before and after the pulse peak, and the average value vector with the difference of the average value at the same wave height position as the vector component is simulated as mass distribution
  • the average moment of inertia of the wave width determined when the time base of the waveform base
  • Wavelength-dispersed inertia moment, and normalized wavewidth-dispersed inertia moment when the wavelength is normalized to a reference value with respect to the wave-dispersed inertia moment, one or more of these features By performing classification analysis by machine learning using quantities, classification analysis can be performed with high accuracy, which can contribute to simplification and cost reduction in classification analysis inspection.
  • the reference line extraction unit extracts the reference line when there is no analyte passage from the data of the detection signal or the fluctuation component included therein, and the pulse extraction unit extracts the reference line.
  • the signal data exceeding a predetermined range with respect to the signal is extracted as the data of the pulse-like signal, and the feature quantity is extracted from the extracted data of the pulse-like signal by the feature quantity extraction means.
  • the classification analysis based on the classification analysis method according to the first embodiment can be executed by computer analysis, it has all the effects of the computer control program described in the first embodiment and is highly accurate. Thus, it is possible to provide a classification analyzer that can easily and inexpensively perform classification analysis by identifying analytes.
  • the feature amount indicates a first type indicating a local feature of the waveform of the pulse-like signal as a parameter derived from the pulse-like signal, and an overall feature of the waveform of the pulse-like signal.
  • the classification analysis apparatus is not limited to the case where the classification analysis is performed using at least one feature quantity of the first type type or the second type feature quantity, but the first type feature quantity and the second type type feature quantity. Classification analysis can be performed using at least one or more feature amounts in combination.
  • the feature quantity of the first type is The peak value of the waveform within a predetermined time width, Pulse wavelength t a , Peak position ratio represented by the ratio t b / t a between time t b and t a from the pulse start until the pulse peak, Kurtosis representing the sharpness of the waveform, The depression angle that represents the slope from the pulse start to the pulse peak, These are either the area that represents the sum of the time division areas obtained by dividing the waveform every predetermined time, or the area ratio of the sum of the time division areas from the start of the pulse to the pulse peak to the total waveform area.
  • the feature quantity of the second type is Time moment of inertia determined when the time segment area is assumed to be mass with respect to the start point of the pulse, and the time from the center to the time segment area is simulated to the radius of rotation, Normalized moment of inertia when normalized so that wave height becomes a reference value with respect to the moment of inertia of time,
  • the waveform is equally divided in the wave height direction, the average value of the time value is calculated for each division unit before and after the pulse peak, and the average value vector having the average value at the same wave height position as the vector component, Normalized average value vector when the wavelength is standardized with respect to the average value vector,
  • the waveform is equally divided in the direction of the wave height, the average value of the time value is calculated for each division unit before and after the pulse peak, and the average value vector with the difference of the average value at the same wave height position as the vector component is simulated as mass distribution
  • the average moment of inertia of the wave width determined when the time base of the waveform base
  • Wavelength-dispersed inertia moment, and normalized wavewidth-dispersed inertia moment when the wavelength is normalized to a reference value with respect to the wave-dispersed inertia moment, one or more of these features By performing classification analysis by machine learning using quantities, it is possible to provide a classification analysis apparatus that can perform classification analysis with high accuracy and can perform classification analysis simply and inexpensively.
  • the reference line extraction means extracts the reference line when there is no analyte passage from the data of the detection signal or the fluctuation component included therein, and the pulse extraction means extracts the reference line.
  • the signal data exceeding a predetermined range with respect to the signal is extracted as the data of the pulse-like signal, and the feature quantity is extracted from the extracted data of the pulse-like signal by the feature quantity extraction means.
  • the eleventh aspect it is possible to provide a number analysis storage medium storing the computer control program according to the first aspect. Therefore, since the storage medium according to the present embodiment has the effect of the computer control program described in the first embodiment, the computer control program stored in the classification analysis storage medium is installed in the computer, and the classification analysis operation is performed in the computer. By doing so, classification analysis can be performed easily and inexpensively.
  • any one of computer-readable storage media such as a flexible disk, a magnetic disk, an optical disk, a CD, an MO, a DVD, a hard disk, and a mobile terminal can be selected.
  • classification analysis of analytes such as bacteria, microparticulate matter, and molecular matter can be performed inexpensively, simply and with high accuracy.
  • FIG. 6 is a pulse waveform diagram for explaining a second type of feature quantity related to time (wavelength) and wave width. It is a figure for demonstrating the relationship between a dw- dimensional wave width vector and data sampling.
  • each feature-value combination when it samples at 4 kHz. It is an estimation evaluation table regarding each feature-value combination with respect to all the sampling data.
  • 5 is an estimation evaluation table regarding each feature amount combination when high-density sampling is performed at 1 MHz to 125 kHz.
  • 7 is an estimation evaluation table for each feature amount combination when sampling is performed at a low density of 63 kHz to 4 kHz.
  • a classification analyzer according to an embodiment of the present invention will be described below with reference to the drawings.
  • a description will be given of a particle type analysis form in which microbial particles such as bacteria are classified and analyzed as an example of an analyte.
  • FIG. 54 is a schematic diagram for explaining the outline of the classification analysis method according to the present invention.
  • the classification analysis apparatus can perform classification analysis based on the classification analysis method of the present invention.
  • the classification analysis method of the present invention includes the following analysis procedures (a) to (d).
  • (A) As a result of measurement by a nanopore device 8a on a fluid substance containing a predetermined analyte (for example, E. coli Ec or Bacillus subtilis Bs), the analyte passes through the through-hole 8b obtained as a detection signal for each type.
  • a feature quantity indicating the feature of the waveform form of the corresponding pulse signals De and Db is obtained in advance.
  • the pulse signals De and Db are signals obtained by passing through the through holes 8b of E. coli Ec and Bacillus subtilis Bs, respectively.
  • the computer analysis unit 1a incorporates a classification analysis program for performing classification analysis by machine learning.
  • the feature amount obtained in advance in (a) is a feature amount obtained from known data of E. coli Ec and Bacillus subtilis Bs, and is used in the computer analysis unit 1a as learning data for machine learning.
  • C) For example, when a mixture mixed in a fluid substance with an unknown content ratio or number of Escherichia coli Ec and Bacillus subtilis Bs is used as the classified analyte Mb, the known data acquisition in (a) In the same manner as described above, measurement is performed by the nanopore device 8c.
  • a pulsed signal Dm is obtained as data to be analyzed by passing through the through-hole 8d of the analyte to be classified Mb.
  • D a classification analysis program is executed, whereby a predetermined analyte in the data to be analyzed is obtained. Classification analysis can be performed.
  • classification analysis by machine learning is performed on the basis of feature quantities, and the data to be analyzed is not derived from data 1b derived from passage of E. coli Ec or Bacillus subtilis Bs. Can be classified. That is, the classification analysis apparatus according to this embodiment can perform classification analysis of data to be analyzed as a classifier based on machine learning.
  • the feature quantity according to the present invention may be created by the computer analysis unit 1a, or may be created by using another feature quantity creation program and given to the computer analysis unit 1a.
  • FIG. 1 shows a schematic configuration of the classification analyzer of this embodiment.
  • the classification analysis apparatus includes a personal computer (hereinafter referred to as a PC) 1, and the PC 1 includes a CPU 2, a ROM 3, a RAM 4, and a data file storage unit 5.
  • the ROM 3 stores a computer control program.
  • the computer control program includes various processing programs such as a classification analysis program for performing classification analysis using machine learning and a program for creating feature quantities necessary for classification analysis.
  • Various processing programs such as a classification analysis program can be installed and stored from a storage medium (CD, DVD, etc.) storing each program.
  • An input means 6 such as a keyboard and a display means 7 such as a liquid crystal display are connected to the PC 1 so as to allow input / output.
  • the data file storage unit 5 can store analysis data.
  • FIG. 2 shows a schematic configuration of a particle detection apparatus using the micro / nanopore device 8.
  • the particle detector is composed of a micro / nanopore device 8 and an ion current detector.
  • the micro / nanopore device 8 includes a chamber 9, a partition wall 11 that partitions the chamber 9 into upper and lower accommodation spaces, and a pair of electrodes 13 and 14 disposed on the front and back sides of the partition wall 11.
  • the partition wall 11 is formed on the substrate 10. Near the center of the partition wall 11, a through hole 12 having a small diameter is formed. Below the through hole 12, a recess 18 is provided by removing a part of the substrate 10 in a concave shape downward.
  • the micro / nanopore device 8 is produced by using a manufacturing technique (for example, electron beam lithography or photolithography) such as a semiconductor device. That is, the substrate 10 is made of a Si material, and a partition wall 11 made of a Si 3 N 4 film is formed on the surface thereof. The recess 18 is formed by removing a part of the substrate 10 by etching.
  • a manufacturing technique for example, electron beam lithography or photolithography
  • the partition wall 11 is formed by laminating a SiN film of 50 nm on a Si substrate having a size of 10 mm square and a thickness of 0.6 mm.
  • a resist is applied to the Si 3 N 4 film, a circular opening pattern having a diameter of 3 ⁇ m is formed by an electron beam drawing method, and the through holes 12 are formed.
  • wet etching using KOH is performed to form a 50 ⁇ m square opening, and a recess 18 is provided.
  • the formation of the recess 18 is not limited to wet etching, and can be performed by isotropic etching or the like, for example, by dry etching with a CF 4 gas.
  • an insulating film such as an SiO 2 film, an Al 2 O 3 film, glass, sapphire, ceramic, resin, rubber, or elastomer can be used as the film for the partition wall 11.
  • the substrate material of the substrate 10 is not limited to Si, and glass, sapphire, ceramic, resin, rubber, elastomer, SiO 2 , SiN, Al 2 O 3 or the like can be used.
  • the through-hole 12 is not limited to the case where the through-hole 12 is formed on the thin film on the substrate.
  • the thin-film sheet on which the through-hole 12 is formed is bonded onto the substrate to form a partition having the through-hole. Also good.
  • the ion current detection unit includes an electrode pair of electrodes 13 and 14, a power supply 15, an amplifier 16, and a voltmeter 20.
  • the electrodes 13 and 14 are arranged to face each other through the through hole 12.
  • the amplifier 16 includes an operational amplifier 17 and a feedback resistor 19.
  • the ( ⁇ ) input terminal of the operational amplifier 17 and the electrode 13 are connected.
  • the (+) input terminal of the operational amplifier 17 is grounded.
  • a voltmeter 20 is connected between the output side of the operational amplifier 17 and the power supply 15.
  • An applied voltage of 0.05 to 1 V can be used between the electrodes 13 and 14 by the power supply 15, but 0.05 V is applied in this embodiment.
  • the amplifier 16 amplifies the current flowing between the electrodes and outputs it to the voltmeter 20 side.
  • an electrode material of the electrodes 13 and 14 for example, an Ag / AgCl electrode, a Pt electrode, an Au electrode, or the like can be used, and an Ag / AgCl electrode is preferable.
  • the chamber 9 is a fluid substance container that hermetically surrounds the micro / nanopore device 8 and is electrically and chemically inert material such as glass, sapphire, ceramic, resin, rubber, elastomer, SiO 2. , SiN, Al 2 O 3 or the like.
  • the chamber 9 is filled with an electrolyte solution 24 containing the specimen 21 from an injection port (not shown).
  • the specimen 21 is an analyte such as a bacterium, a microparticulate substance, or a molecular substance.
  • the specimen 21 is mixed in an electrolyte solution 24 that is a fluid substance, and measurement by the micro / nanopore device 8 is performed.
  • the filling solution can be discharged from a discharge port (not shown).
  • the electrolyte solution for example, phosphate buffered saline (PBS), Tris-EDTA (TE) buffer, and their diluted solutions, as well as all electrolyte solutions similar to these, can be used.
  • PBS phosphate buffered saline
  • TE Tris-EDTA
  • the measurement is not limited to the case where the specimen-containing electrolyte solution is introduced into and filled in the chamber 9, but the specimen-containing electrolyte solution (fluid substance) is pumped out of the solution reservoir by a simple pump device into the chamber 9 from the inlet.
  • a continuous measurement system that fills and discharges from the discharge port after measurement, stores another solution reservoir or a new solution in the solution reservoir, draws out a new solution, and performs the next measurement may be configured.
  • a constant ion current proportional to the through hole 12 flows between the electrodes.
  • a specimen such as bacteria in the electrolyte solution 24 passes through the through-hole 12
  • a part of the ionic current is inhibited by the specimen, and therefore, the voltmeter 20 can measure the pulsed ionic current decrease. Therefore, according to the particle detection apparatus using the micro / nanopore device 8, by detecting the change in the waveform of the measurement current, each particle contained in the fluid substance by passing through the through hole 12 for each specimen (for example, particle) is detected. Can be detected with high accuracy.
  • the measurement mode is not limited to the case where measurement is performed while forcing a fluid substance to flow, but can include the case where measurement is performed while the fluid substance is forced to flow.
  • the measurement output of the ionic current by the voltmeter 20 can be output externally.
  • the external output is converted into digital signal data (measured current data) by a conversion circuit device (not shown), temporarily stored in a storage device (not shown), and then stored in the data file storage unit 5.
  • the measurement current data acquired in advance by the particle detection device using the micro / nanopore device 8 can be externally input to the data file storage unit 5.
  • FIG. 55 shows the main control processing by the PC 1.
  • the main control processing includes input processing (step S100), feature amount acquisition processing for acquiring feature amounts from input data (step S101), classification analysis processing (step S104), number analysis processing (step S105), and output processing (step S105).
  • Step S106 is included.
  • various inputs necessary for PC operation start-up input of built-in program, execution instruction input for various analyzes, input of measurement current data and / or feature amount data, input setting of output mode, characteristics during analysis Input of a specified feature amount or the like when specifying an amount is performed.
  • classification analysis processing (step S104) or number analysis processing (step S105) can be executed (steps S102 and S103).
  • the classification analysis process can be classified and analyzed using the vector quantity data of the feature quantity acquired from the input data in the feature quantity acquisition process (step S101).
  • the number analysis process enables the number analysis using the scalar data of the feature quantity acquired from the input data in the feature quantity acquisition process.
  • the present embodiment is an embodiment having a number analysis processing function in addition to the classification analysis processing function, the present invention can be implemented by an embodiment having only a classification analysis processing function.
  • the computer control program includes a number analysis program for analyzing the number of particle types or the number distribution.
  • the number analysis program can be executed.
  • the analysis result data in the classification analysis process (step S104) and the number analysis process (step S105) can be output.
  • various analysis result data are displayed and output on the display means 7.
  • a printer (not shown) is connected to the PC 1 as output means, various analysis result data can be printed out.
  • the classification analysis apparatus applies a fluid substance (electrolyte solution 24) including one or more kinds of particles (an example of an analyte) as an analysis target to the upper surface of the partition wall 11 by executing the number analysis program.
  • the number of particle types or the number distribution is analyzed based on the data (measurement current data) of the detection signal that detects the change in current between the electrodes 13 and 14 that occurs when the particles pass through the through-hole 12.
  • the number analysis process is based on a number analysis method in which probability density estimation is performed from a data group based on a feature amount indicating characteristics of a waveform shape of a pulse signal corresponding to particle passage included in a detection signal, and the number of particle types is derived. Thus, automatic analysis of the number of particle types can be performed.
  • FIG. 3 shows a processing program configuration necessary for explaining the analysis processing of the PC 1.
  • Each processing program is stored in the ROM 3.
  • measured current data pulse extracted data of each particle
  • electrolyte solution 24 containing two kinds of particles E. coli and Bacillus subtilis
  • a probability density function is obtained from a data group based on the feature quantity indicating the characteristics of the waveform of the pulse signal corresponding to the particle passing through the through-hole 12 obtained as a detection signal.
  • a probability density function module program to be obtained and a particle type distribution estimation program for deriving the number of particle types from the result of probability density estimation are included.
  • the processing program used for classification analysis and number analysis includes a feature amount extraction program for extracting feature amounts indicating features of the waveform form of a pulse signal based on a baseline extracted from a data group, and extracted features.
  • a data file creation program for creating a data file based on the pulse feature value data for each particle obtained based on the quantity is included.
  • the classification analysis processing and the number analysis processing are executed on the data created by the data file creation program.
  • the feature quantity extraction program includes a baseline estimation processing program that extracts the baseline from the original measured current data.
  • a feature quantity extraction program and a data file creation program are executed to create a feature quantity from the data input in the input process (step S100) and to store the feature quantity in the RAM 4 Processing to be stored in the data file is performed.
  • the input data for classification analysis is known data necessary for creating feature values provided for learning data and data for analysis (analysis data).
  • Feature quantity data created from known data is stored in a feature quantity storage data file DA based on known data
  • feature quantity data created from analysis data is stored in a feature quantity storage data file DB based on analysis data. .
  • the input data for the number analysis is only data for analysis (analysis data).
  • Feature quantity data created from the input data for number analysis is stored in the data file DC for number analysis, and when performing number analysis, the scalar data of the feature quantity can be taken from the data file DC and analysis processing can be executed. It has become.
  • nonparametric (no function form is specified) probability density estimation called the kernel method is performed by executing the probability density function module program.
  • the original data to be estimated is, for example, pulse appearance distribution data obtained from the pulse-like signal and including the wave height h, time width ⁇ t, number of appearances, and the like.
  • Each data of the original measurement data distribution is represented by a Gaussian distribution with measurement error uncertainty introduced, and a probability density function is obtained by superimposing each Gaussian distribution.
  • Probability density estimation processing is performed by executing a probability density function module program, and the original data is represented by an unknown complex probability density function (for example, pulse height, pulse width, appearance probability of feature quantity) based on the original data. it can.
  • FIG. 33 shows an example of a waveform of a detection signal obtained when three kinds of particles 33a, 33b, and 33c pass through the through-hole 12 using the micro / nanopore device 8, and a probability density function obtained based on the feature amount.
  • FIG. 33A schematically shows a particle detection apparatus using the micro / nanopore device 8.
  • FIGS. 33B to 33D show the waveform data of each detection signal.
  • FIGS. 33E to 33G show three-dimensional distribution diagrams of probability density functions obtained from each waveform data.
  • the x-axis, y-axis, and z-axis indicate the probability density obtained by estimating the pulse height, pulse width, and probability density of the feature amount, respectively.
  • the probability density estimation process is performed based on the kernel method, which is one of the nonparametric density function estimation methods.
  • the kernel method is an estimation method in which a function (kernel function) at one data point is applied, this is performed for all data points, and the arranged functions are overlapped, and is suitable for obtaining a smooth estimated value.
  • the probability density function module program By executing the probability density function module program, it is regarded as multivariable multidimensional probability density from data such as the pulse height and pulse width of the measured current waveform, and is extended to more than two dimensions to estimate the weight distribution and estimate the number distribution of particle types. Processing is performed.
  • the EM algorithm software executed based on Hasselbald iteration is used for the optimal estimation of weights.
  • the EM algorithm is installed in the PC 1 in advance.
  • the particle type number distribution result obtained by the particle type number distribution estimation process can be displayed and output on the display means 7 as a histogram of the appearance frequency (particle number) for the particle type.
  • the feature quantity according to the present invention belongs to the first type indicating the local characteristics of the waveform of the pulsed signal as the parameter derived from the pulsed signal and the second characteristic indicating the overall characteristic of the waveform of the pulsed signal. It is one of those belonging to a type. By performing number analysis using one or more of these feature quantities, it is possible to analyze the number or number distribution according to the analyte type such as particle type with high accuracy.
  • FIG. 11 is an enlarged view of the periphery of the through-hole 12 schematically showing that two types of particles of E. coli 22 and Bacillus subtilis 23 are mixed in the electrolyte solution 24.
  • FIG. 4 shows an example of a pulse waveform due to particle passage measured for Escherichia coli and Bacillus subtilis of the example.
  • (4-1) to (4-9) in FIG. 4 show examples of actually measured pulse waveforms (9 types) of E. coli, and (4-10) to (4-18) show examples of actually measured pulse waveforms of Bacillus subtilis ( 9 types).
  • the present inventors Based on the difference in the attributes of the particle passing pulse waveform form, the present inventors have focused on extracting feature values used for creating a probability distribution for each particle type (E. coli and Bacillus subtilis) from the pulse waveform data. .
  • FIG. 5 is a pulse waveform diagram for explaining various feature amounts according to the present invention.
  • the horizontal axis represents time
  • the vertical axis represents the pulse wave height.
  • the feature quantity of the first type is The peak value of the waveform within a predetermined time width, Pulse wavelength t a , Peak position ratio represented by the ratio t b / t a between time t b and t a from the pulse start until the pulse peak, Kurtosis representing the sharpness of the waveform (spreading of the peak waveform), The depression angle that represents the slope from the pulse start to the pulse peak, Either the area representing the sum of the time division areas obtained by dividing the waveform at predetermined time intervals, or the area ratio of the sum of the time division areas from the start of the pulse to the pulse peak with respect to the total waveform area.
  • BL in FIG. 5 indicates a reference line (hereinafter referred to as a base line) extracted from pulse waveform data (refer to BL extraction processing described later).
  • FIG. 34 is a pulse waveform diagram for describing feature amounts of depression angle, area, and area ratio.
  • the horizontal axis represents time
  • the vertical axis represents the pulse wave height.
  • the depression angle ⁇ is an inclination from the start of the pulse to the pulse peak, as shown in (34A), and is defined by the following formula 2.
  • the area m is defined by the area [m] based on the inner product of the unit vector [u] and the wave height vector [p], as shown in Equation 3 below.
  • the vector notation of the variable A is indicated by [A].
  • FIG. 35 is a diagram for explaining how to obtain the wave height vector.
  • the wavelength is divided into d equal parts, and d data groups are differentiated.
  • the values of the wave heights are averaged for each group (each divided section) and, for example, average values A1 to A10 are obtained when dividing into 10 equal parts.
  • This averaging can include a case where the peak value is not normalized and a case where the peak value is normalized.
  • the area [m] expressed by Equation 3 indicates a case where normalization is not performed.
  • a d-dimensional vector whose component is the average value thus determined is defined as a “wave height vector”.
  • FIG. 36 is a diagram for explaining the relationship between the d-dimensional wave height vector and data sampling.
  • the feature quantity extraction program includes a wave height vector acquisition program for acquiring wave height vector data.
  • a wave height vector acquisition program for acquiring wave height vector data.
  • the area ratio r m is defined as an area ratio to the sum of the total waveform area of the section up to the pulse peak time division area h i illustrated in (34B) from the pulse start. Following Expression 4 shows the area ratio r m.
  • the first type of feature amount is a feature amount that is uniquely derived from the waveform of a pulse-like signal such as a pulse wave height, a pulse wavelength, and a pulse area, and indicates a local feature.
  • the feature quantity of the second type is a feature quantity indicating the overall feature with respect to the local feature of the first type.
  • the feature quantity of the second type is Time moment of inertia determined when the time section area is assumed to be mass around the start of the pulse, and the time from the center to the time section area is simulated as the radius of rotation, Normalized moment of inertia when normalized so that the wave height becomes the reference value with respect to the moment of inertia of time,
  • the waveform is equally divided in the wave height direction, the average value of the time value is calculated for each division unit before and after the pulse peak, and the average value vector having the average value at the same wave height position as the vector component, Normalized average value vector when the wavelength is standardized with respect to the average value vector,
  • the waveform is equally divided in the direction of the wave height, the average value of the time value is calculated for each division unit before and after the pulse peak, and the difference vector of the average value with the difference of the average value at the same wave height position as the vector component is mass distribution
  • the average moment of inertia of the wave width determined when the time axis of the waveform base is
  • Normalized wave width average moment of inertia when the wavelength is normalized to the reference value with respect to the wave width average inertia moment It is determined when the waveform is equally divided in the wave height direction, the variance is obtained from the time value for each division unit, the dispersion vector having the variance as a vector component is assumed to be a mass distribution, and the time axis of the waveform base is set as the rotation center. Wavelength dispersion inertia moment, or normalized wave width dispersion moment of inertia when wavelength is normalized to the reference value with respect to wave dispersion dispersion moment of inertia.
  • FIG. 37 is a pulse waveform diagram for explaining the second type of feature quantity relating to time (wavelength) and wave width.
  • the horizontal axis represents time
  • the vertical axis represents the pulse wave height.
  • the time moment of inertia is obtained by dividing the time division area h i when dividing one waveform into i-dimensions at predetermined time intervals by the mass, and from the center to the time division area h i . It is a feature value that is determined when the time to reach is imitated by the turning radius. That is, the characteristic value of the moment of inertia is defined by [I], which is the inner product of the vector [v] and the wave height vector [p], as shown in Equation 5 below.
  • [I] is the inner product of the vector [v] and the wave height vector [p]
  • the normalized time moment of inertia is obtained by using a waveform normalized in the wave height direction so that the wave height becomes the reference value “1” with respect to the waveform created in the time zone area shown in (8).
  • (8) is a feature amount defined by Equation 5 by the wave height vector h i created.
  • the average vector is obtained by equally dividing one waveform in the i-dimensional direction in the wave height direction, and for each division unit (division region w i ) before and after the pulse peak. An average value of time values is calculated, and this is a feature amount having an average value at the same wave height position in the divided region w i as a vector component.
  • the standardized average value vector is a feature amount when standardized so that the wavelength becomes the reference value with respect to the average value vector of (10).
  • the average wave width inertia moment is obtained by equally dividing one waveform i-dimensionally in the wave height direction, and dividing each unit (division region w i ) before and after the pulse peak.
  • the defining formula is the same as in Equation 5, and the feature quantity of (12) can be obtained from the inner product of the vector [v] and the mass distribution h i .
  • the normalized wave width average value moment of inertia uses a waveform that is normalized in the wavelength direction so that the wavelength becomes “1” of the reference value with respect to the waveform that created the divided region w i . This is the feature amount defined by Equation 5 using the mass distribution h i created in the same manner as (12).
  • the wave-dispersion moment of inertia is the same as the wave-width average moment of inertia, in which one waveform is equally divided i-dimensionally in the wave height direction, and the time value for each division unit (division area w i ) before and after the pulse peak.
  • the normalized wave-dispersion moment of inertia uses a waveform that is normalized in the wavelength direction so that the wavelength becomes the reference value “1” with respect to the waveform that created the divided region w i ( This is a feature amount defined by Equation 5 based on the mass distribution h i created in the same manner as 14).
  • the wave width average moment of inertia and the wave width dispersion moment of inertia are the feature quantities defined by Equation 5, and the vector [p] in the definition is the average of the time values in the case of the wave width average moment of inertia. It is a vector of value differences, and in the case of the wave dispersion dispersion moment of inertia, it is a dispersion vector of time values.
  • the vector [p] at the moment of inertia related to the wave widths of (12) to (15) is represented as [p w ].
  • the wave width vector is a difference vector or a variance vector of the average values shown in the definition of the feature quantity of (12) to (15).
  • the dimension of the wave width vector is 10 dimensions.
  • the time axis At shown in (37B) is a rotation axis line around the pulse base obtained from the wave width vector, unlike the base line BL.
  • FIG. 38 is a diagram for explaining the relationship between the dw- dimensional wave width vector and data sampling.
  • the feature amount extraction program includes a wave width vector acquisition program for acquiring a wave width vector by the following calculation processing of a d w -dimensional wave width vector.
  • the pulse waveform data is distributed at various intervals in the wave height direction, there may be a case where one or two or more non-existing regions Bd in which no data points exist are included in the section divided in the wave height direction.
  • an example of the non-existing region Bd is indicated by an arrow.
  • i 1,..., M of each wave height when the wave height to the pulse peak is equally divided by d w.
  • the component data is acquired by linear interpolation.
  • (38B) shows an example of the linear interpolation point t k for the height k of the non-existing region Bd generated between the data points t i and t i + 1 .
  • the wave width vector is created, as shown in (38C)
  • the side closer to the pulse peak is aligned so as to be closer to the pulse peak.
  • the wave height data Du is discarded.
  • the execution processing of the wave width vector acquisition program includes linear interpolation processing for the nonexistent region Bd and truncation processing of the wave height data Du for discrepancy between the wave height data.
  • FIG. 39 is a diagram for explaining an acquisition process of acquiring the moment of inertia related to the wave width using the wave width vector.
  • (39A) is an example in which the waveform is divided into 10 equal parts in the wave height direction, and the waveform vector divided region 39b and the rotation obtained by performing the above-described linear interpolation processing and truncation processing on one waveform 39a.
  • An axis line 39c is shown.
  • the average value of the time values before and after the pulse peak is calculated, and the difference vector of the average values using the difference between the average values at the same wave height position in the divided region as a vector component Can be obtained.
  • This average value difference vector is assumed to be a mass distribution, and the wave width average moment of inertia of (12) with the rotation axis 39c (time axis) as the rotation center can be created. Further, a variance can be obtained from the time value for each division unit, and a variance vector having the variance as a vector component can be obtained.
  • This dispersion vector is simulated as a mass distribution, and the wave dispersion moment of inertia of (14) with the rotation axis 39c (time axis) as the rotation center can be created.
  • (11) the average value vector of a vector and the respective mean value component of the same height position of the divided area by calculating the average value of the time value, when d w aliquoted, 2d Expressed as a w- dimensional time vector.
  • the vector dimensions of the wave height vector and the wave width vector used to create the feature quantity do not need to be limited to the number of divisions and can be arbitrarily set. Although the wave height vector and the wave width vector are subdivided in one direction of wavelength or wave height, a vector subdivided in a plurality of directions can be used to create the feature amount.
  • FIG. 40 is a diagram for explaining an example of a feature value creation waveform vector when divided in a plurality of directions.
  • (40A) shows a data map 40a obtained by dividing one waveform data into a mesh shape.
  • Data map 40a is to d n divided waveform data in the time axis direction of the horizontal axis shows the distribution of the number of data points in a matrix in a height direction of the longitudinal axis with d w divided.
  • (40B) shows a distribution state in which a part of a matrix-like section (lattice) is enlarged. In the distribution state (40B), 0 to 6 data points are distributed on 11 ⁇ 13 grids.
  • the wave height is obtained by converting a waveform vector having the number of data points / total number of data points in each lattice as a component of a d n ⁇ d w dimensional vector into a vector obtained by rearranging a matrix group of data groups in a scanning manner. It can be used to create a feature quantity instead of a vector or a wave width vector.
  • bacteria and the like are minute objects having finely different forms.
  • the body length is 2-4 ⁇ m and the outer diameter is 0.4-0.7 ⁇ m.
  • the average Bacillus subtilis has a body length of 2-3 ⁇ m and an outer diameter of 0.7-0.8 ⁇ m.
  • E. coli and the like are accompanied by 20-30 nm flagella.
  • the baseline estimation (hereinafter referred to as BL estimation) is preferably performed on-line (immediately) by a computer.
  • a Kalman filter suitable for estimating the amount of change from observation with discrete errors if a Kalman filter suitable for estimating the amount of change from observation with discrete errors is used, disturbances (system noise and observation noise) can be removed.
  • a baseline BL can be estimated.
  • the Kalman filter is a technique in which a discrete control process is defined by the linear difference equation shown in (6A) of FIG. 6, and the value of the updatable state vector [x] at time [t] is estimated.
  • the value of the state vector [x] and the system control input [u t] is assumed to not be observed directly.
  • FIG. 7 is a diagram showing each of the above factors as actual measured current data.
  • particles are clogged in the through-holes 12 and the baseline distortion occurs.
  • it is interrupted at the time of occurrence of distortion, and the cause of the distortion is removed. Since measurement is performed, only data including a baseline without distortion is collected in the original data set.
  • Estimation by Kalman filter is performed by repeated prediction and update.
  • Baseline estimation is performed by repeatedly performing prediction and updating using the Kalman filter.
  • FIG. 8 is a diagram showing details of repetition of prediction (8A) and update (8B) in the Kalman filter.
  • the “hat” symbol added to the vector notation indicates an estimated value.
  • t ⁇ 1” indicates an estimated value of the value at time t based on the value at time (t ⁇ 1).
  • FIG. 9 shows BL estimation processing based on the BL estimation processing program.
  • BL estimation and pulse peak value extraction based on the BL estimation are performed.
  • the start time m and constants k and ⁇ of the adjustment factors necessary for the prediction and update processes in the Kalman filter are adjusted in advance according to the data attributes to be estimated (tuning). It is necessary to decide.
  • the value of ⁇ is a value for adjusting the variance of the estimated value of the baseline.
  • the value of k is a value related to the number of executions of update A in the Kalman filter shown in FIG. 8 (see steps S57 and S62 in FIG. 9).
  • the start time m is time data for the number of steps calculated with one measurement sampling as one step.
  • FIG. 10 shows a waveform diagram of the bead model used for the adjustment.
  • FIG. 2 shows a solution state in the case where microbead balls having the same size as bacteria or the like are mixed as particles (bead model).
  • (10A) in FIG. 10 is waveform data acquired by the ion current detector at a sampling frequency of 900,000 Hz.
  • the waveform of the bead model shown in (10A) shows a waveform that gradually attenuates. A severe drop has occurred in the right end portion of (10A), which is enlarged and shown in (10B).
  • the immediately preceding period is the initial value calculation period.
  • m 100000, 11 to 12 significant pulses can be visually confirmed in the period excluding the initial value calculation period.
  • FIG. 12 is a table showing the number of pulses picked up from the waveform of the bead model in accordance with the combination of adjustment factors m, k, and ⁇ .
  • step S51 the initial value of the Kalman filter at time m is set in the work area of the RAM 23.
  • the pulse waveform data stored in the data file storage unit 5 is read into the work area of the RAM 23.
  • prediction and update (A and B in FIG. 8) of the Kalman filter at time (m + 1) are executed (step S52).
  • prediction and update each calculation of the Kalman filter shown in FIG. 8 is executed and stored in the RAM 23.
  • prediction and update (A and B) are repeatedly executed every predetermined unit time, and when prediction and update A of the Kalman filter at time t are performed, it is determined whether or not the following equation 6 is satisfied.
  • Steps S53 and S54 The unit time is a value determined by the sampling frequency of the original data, and is set in the RAM 23 in advance.
  • the Kalman filter update B at time t is executed, and the processing of steps S53 to S55 is repeated for each data that has passed the unit time.
  • the condition of the above equation 6 is satisfied, the number value is accumulated and stored in the count area of the RAM 23 every time (steps S54 and S56). Next, based on the count value, it is determined whether or not the condition of Formula 6 is satisfied k times continuously from the time s (step S57). If not k times, the process proceeds to step S55, and the update B is performed.
  • step S58 it is determined that the hold necessary period for determining the BL has started.
  • the hold start time of the required hold period is stored in the RAM 23 as s, and the Kalman filter calculation result between the time (s + 1) and the time (s + k ⁇ 1) is discarded without being stored.
  • step S59 The maximum pulse drop at time t is stored in the RAM 23 in an updatable manner at the start of the hold required period (step S59).
  • step S54 it is determined whether or not the following condition 7 is satisfied in the hold necessary period (step S60).
  • step S59 and S60 the pulse fall maximum value is updated.
  • the count value is accumulated and stored in the count area of the RAM 23 every time (steps S60 and S61).
  • step S62 it is determined whether or not the condition of Equation 7 is satisfied continuously k times starting from time s2 (step S62). If not k times, the process returns to step S59.
  • step S63 the pulse drop maximum value updated and stored at this time is stored in the RAM 23 as an estimated value of the pulse peak value.
  • the estimated value of the pulse peak value is stored together with the data of the pulse start time and the pulse end time.
  • the hold end time of the hold required period is stored in the RAM 23 as s2 (step S64).
  • step S65 the value of time s is used as the initial value when the Kalman filter calculation process is resumed, and the Kalman filter calculation is executed retroactively for the period from time s2 to time (s + k-1).
  • step S65 it is determined whether or not the BL estimation process for all pulse waveform data has been performed (step S66), and the process ends upon completion of the estimation of all pulse waveform data. If there is remaining data, the process proceeds to step S53.
  • FIG. 13 shows an outline of the execution processing content of the feature amount extraction program.
  • the feature amount extraction process can be executed on the condition that there is extracted data of a pulse peak value (wave height
  • FIG. 41 shows the execution processing content of the feature amount extraction processing (step S45).
  • Steps S71 to S83 show the calculation of the feature values of the first type and the second type defined in the above (1) to (13), and the storage and storage of the calculated feature values.
  • the feature quantity of the first type is calculated in steps S71 to S76.
  • the wavelength (pulse width) ⁇ t is sequentially calculated and stored in time series for the extracted data group of pulse peak values (step S71).
  • the calculated feature amount is stored in a feature amount storage memory area of the RAM 4.
  • the peak position ratio r is sequentially calculated and stored in time series for the extracted data group of pulse peak values (step S72).
  • the peak kurtosis ⁇ is sequentially calculated and stored in the time series for the extracted data group of pulse peak values (step S73).
  • i at which the pulse peak PP intersects the horizontal line with the wave height of 30%. 1,..., M], and the variance of the data of the time set T is calculated to obtain ⁇ as the pulse waveform spread.
  • the depression angle ⁇ is obtained based on the time and pulse height data from the start of the pulse to the pulse peak and the calculation of Equation 2 described above (step S74).
  • the area m is obtained from the data of the wave height vector, the time division area h i is obtained according to the number of divisions, and the sum total thereof is calculated and stored (step S75).
  • the number of divisions can be arbitrarily set, and is 10, for example.
  • Area ratio r m is the total waveform area, respectively determined and a partial sum of an interval of time division area h i from the pulse start until the pulse peak, to calculate the area ratio to the total waveform area of the partial sum storage (Step S76).
  • the feature quantity of the second type is calculated in steps S77 to S82.
  • the time moment of inertia is obtained from the data of the wave height vector, and is calculated and stored based on the time division area h i obtained in accordance with the number of divisions and the calculation of the above-mentioned number 5 (step S77).
  • the normalized time inertia moment of (9) is normalized in the wave height direction so that the wave height becomes the reference value “1” with respect to the time inertia moment obtained in step S77 (the wave height vector and the normalized vector It is stored as standardized data (inner product) (step S78).
  • the wave width average moment of inertia is a time value calculated for each division unit (preset number of divisions: 10) before and after the pulse peak from the data of the wave width vector (average difference vector) obtained in steps S42 to S44. Is calculated and stored based on the difference between the average values of the above and the calculation of Equation 6 above (step S79).
  • the normalized wave width average moment of inertia of (11) is normalized in the wavelength direction so that the wavelength becomes the reference value “1” with respect to the wave width average moment of inertia obtained in step S79 (difference in average value). This is stored as normalized data obtained by the inner product of the vector and the normalized vector (step S80).
  • the wave width dispersion moment of inertia is calculated and stored from the wave width vector (dispersion vector) data based on the dispersion of the time value calculated for each division unit and the above-described calculation of Equation 6 (step S81).
  • the normalized wave-dispersion inertia moment of (13) is normalized in the wavelength direction (dispersion vector and normalization vector so that the wavelength becomes the reference value “1” with respect to the wave-dispersion inertia moment obtained in step S81. Is stored as normalized data (step S82).
  • each data is saved in a file, and it is determined whether there is another data group (steps S83 and S84). If there is a data group of another file continuously, the above processing (steps S71 to S82) can be repeatedly executed. If there is no more data to be processed, the feature amount extraction process ends (step S85). In the above extraction process, all feature amounts of the first type and the second type are obtained, but a desired feature amount can be designated by the designation input of the input means 6, and only the feature amount by the designation is extracted. Can be possible.
  • FIG. 14 shows a particle type estimation process executed based on the particle type distribution estimation program.
  • FIG. 15 is an image diagram of a probability density function with respect to a pulse waveform obtained by using a pulse width and a pulse height as feature quantities of the pulse waveform in E. coli and Bacillus subtilis particle types. Represents the appearance probability of. (15A) of FIG. 15 shows a part of the first type of feature quantity regarding one waveform data.
  • kernel density estimation using a Gaussian function as a kernel function is used.
  • Kernel density estimation is a technique that assumes a probability density distribution given as a kernel function to measurement data and regards a distribution obtained by superimposing these distributions as a probability density function.
  • a Gaussian function is used as a kernel function, a normal distribution is assumed for each data, and a distribution obtained by superimposing them can be regarded as a probability density function.
  • FIG. 16 is an image diagram of the superposition of probability density distributions obtained from individual particle species of E. coli and Bacillus subtilis.
  • FIG. 16C shows a state in which the probability density distribution (16B) obtained for each particle from the feature amount data (16A) of the pulse width ⁇ t and the pulse height h is superimposed.
  • the probability density function [p (x)] for the input data [x] is expressed by the following equation 8 using the number of teacher data [N], the teacher data [ ⁇ i ], and the variance-covariance matrix [ ⁇ ].
  • the probability density function [p (x)] can be expressed by a product of Gaussian functions of each dimension as shown in the following equation (9).
  • Equation 9 corresponds to the assumption that each pulse attribute is an independent random variable that follows a normal distribution, and this can be extended to three or more dimensions as well. Therefore, in this embodiment, it is possible to analyze two or more kinds of particle types.
  • the probability density function module program has a function to calculate and obtain a probability density function for two types of features. That is, when using estimation target data based on two feature quantities [( ⁇ , ⁇ )], the probability density function [p ( ⁇ , ⁇ )] in kernel density estimation using a Gaussian function as the kernel function is expressed by the following equation (10). Is done.
  • the probability density function estimation processing executed by the probability density function module program based on Equation 10 performs probability density function estimation processing for two feature quantities as will be described in detail later with reference to FIG.
  • FIG. 17 is an image diagram showing the relationship between the total number of particles of k particle types, the appearance probability of the particle types, and the expected value of the appearance frequency of the entire data.
  • FIG. 17A shows the appearance frequency of the entire data. (17-1) to (17-k) in the same figure show the appearance frequency of the particle type.
  • the expected value of the appearance frequency at which the pulse [x] is measured is the sum of the expected values of the appearance frequency at which the pulse [x] is measured according to the probability density function of the particle type. As shown in FIG. 17, from the total number [n i ] of particles of the particle type and the appearance probability [p i (x)] of the particle type, the sum of expected values of the particle type can be expressed by the following formula 11.
  • probability density function data (see Equation 9) obtained by estimating a probability density function of a particle type obtained in advance is stored in the RAM 23 as analysis reference data.
  • the particle type number analysis is performed by determining the appearance frequency of the entire data to be analyzed from the respective analysis data.
  • the number analysis is performed by estimating histograms of different particle types (appearance frequency (number of particles) for particle types).
  • a data file creation process for creating a data file based on feature amounts by editing data
  • a particle number estimation process step S2
  • an estimated particle kind distribution calculation process step S3
  • estimation methods based on the maximum likelihood method, the Lagrange undetermined multiplier method, and the Hasselblad iteration method can be used.
  • the likelihood (likelihood) that the estimated j-th pulse wave height data appears is expressed by the following equation (12).
  • ⁇ Lagrange multiplier method an analytical method that optimizes under constraint conditions. An unknown multiplier is prepared for each constraint condition, and a new linear function that uses these coefficients as a coefficient (a new multiplier is also added) It is a method of solving a binding problem as a normal extreme value problem by regarding Maximizing the likelihood that the data set D appears is equivalent to maximizing the log likelihood that the data set [D] appears. Equation 14 below shows the process of deriving the log likelihood for examining the suitability of the Lagrange multiplier method.
  • Equation 14 the coefficient 1 / N N in the middle it is omitted in the final formula.
  • a constrained log-likelihood maximization expression that performs optimization by the Lagrange undetermined multiplier method can be expressed by the following equation (16).
  • Equation 16 From the constrained log likelihood maximization equation shown in Equation 16, [k] simultaneous equations shown in the following Equation 17 can be derived through the mathematical derivation process shown in FIG.
  • Hasselblad In order to numerically solve the simultaneous equations shown in Equation 17, it is possible to use an iterative method proposed by Hasselblad. According to the Hasselblad iterative method, the following iterative calculation may be performed. Details of this iterative method are described in a proposed paper (Hasselblad V., 1966, Estimation of parameters for a mixture of normal distributions. Technologies, 8, pp. 431-444).
  • Equation 18 The iterative calculation of Equation 18 is performed using commercially available EM algorithm software.
  • the EM algorithm is a method of calculating the probability distribution parameters by maximizing the likelihood function, that is, maximizing the expected value (Expectation) of the probability distribution which is the likelihood function ( It is an algorithm that can be Maximized.
  • the initial value of the parameter to be obtained is set, the likelihood (expected value) is calculated from the value, and in many cases, using the condition that the partial differentiation of the likelihood function is 0, The maximum likelihood parameter can be calculated by iterative calculation.
  • step S1 Data file creation processing (step S1), probability density function estimation processing (step S2), particle number estimation processing (step S3), and calculation of estimated particle species distribution that can be executed in the particle species estimation processing shown in FIG.
  • step S4 will be described in detail below.
  • FIG. 19 shows a data file creation process (step S1) executed by the data file creation program.
  • the input means 6 of the PC 1 it is possible to perform k number (in the embodiment, two) feature amount designation operations for creating a data file.
  • the combination input of the designated feature amount is set in the RAM 23 (step S30).
  • the data of the feature amount data file for each feature amount setting is read into the work area of the RAM 23 (step S31).
  • the feature amount data file is feature amount (pulse peak value, etc.) data estimated and extracted by the BL estimation process of FIG. 9 and the feature amount estimation process of FIG. 13 and stored in a file.
  • step S32 matrix data of N rows and k columns is created (step S32).
  • the created matrix data is output to a particle type distribution estimation data file and stored for each designated feature amount (step S33).
  • step S34 the process ends (step S34).
  • FIG. 20 shows a probability density function estimation process (step S2) executed by the probability density function module program.
  • step S2 the probability density function estimation process for two feature quantities is performed based on Equation 5.
  • step S1 The data of the data file that is the object of probability density function estimation created in the data file creation process (step S1) is read, and an N ⁇ 2 matrix [D] is created (steps S20 and S21).
  • step S22 the dispersion parameter shown in the following equation 20 is set as shown in the following equation 21 using the standard deviation coefficient c (step S23).
  • the probability density function is obtained by substituting each row of the dispersion parameter and the matrix [D] as the teacher data shown in the following Equation 22, and is stored in a predetermined area of the RAM 23 (steps S24 and S25). The processes in steps S20 to S25 are performed until the probability density function is derived from all the processing target data (step S26).
  • FIG. 21 shows a particle number estimation process (step S3).
  • step S10 the data of the data file for which the number of particles is to be estimated created in the data file creation process is read to create a matrix [D] of N rows and 2 columns (step S10). , S11).
  • An estimation process by the Hasselblad iteration method is performed on the matrix [D] data (step S12).
  • FIG. 22 shows a particle number estimation process by the Hasselblad iteration method executed by the EM algorithm.
  • FIG. 23 shows a processing procedure by the EM algorithm.
  • process 19A After setting an initial value (process 19A), number calculation based on a probability density function is sequentially executed (process 19B) (steps S12a and S12b). The number calculation is repeated until the convergence condition shown in (19C) is satisfied (step S12c).
  • the execution result of the EM algorithm (estimated number data for each particle type) is stored in a predetermined area of the RAM 23 (step S12d).
  • the estimated number data for each particle type obtained by the particle number estimation process is edited into the number distribution data of the particle type in step 4 and can be output as a histogram on the display means 7 according to display designation.
  • the particle type scatter diagram based on the feature amount data can be displayed and output.
  • FIG. 24 shows an example of the result of analysis by the particle type number analysis of this embodiment.
  • FIGS. (24A) and (25B) are micrographs of Escherichia coli and Bacillus subtilis that are particle types to be analyzed.
  • (24C) and (25D) show a histogram and a dispersion diagram of the estimated number data for each particle type obtained by executing the particle number estimation process by adding the pulse wave height and the pulse kurtosis as feature amounts.
  • ⁇ Verification 1 of analysis accuracy of the number of particle types by feature amount> The present inventors performed verification 1 of the analysis performance of the number of particle species under the following evaluation conditions using the measured current data of Escherichia coli and Bacillus subtilis in the above examples.
  • Evaluation conditions for verification 1 are as follows.
  • a part of the measured data of the verification particles (E. coli and Bacillus subtilis) is individually analyzed, and the rest are randomly mixed at a predetermined mixing ratio ⁇ , and the number analysis results are compared for verification.
  • a data mixing program for random data mixing is stored in the ROM 3 and random mixing of data is executed using the PC 1 to estimate the number of the random mixed data. That is, the N-by-k random permutation matrix data created by the data mixing program is used as the matrix data in step S32 of FIG.
  • the mixing ratio ⁇ seven types of 10, 20, 30, 35, 40, 45, and 50% are used as the mixing ratio of E. coli.
  • BL estimation parameters (adjustment factors) m, k, and ⁇ are 100,000, 400, and 6, respectively, and the standard deviation coefficient c for estimating the probability density function is set to 0.1.
  • the convergence condition ⁇ at the time of estimating the number of particle types is set to 0.1. Note that, as the value of the adjustment factor used in the evaluation, a value obtained by performing a stricter adjustment in the same manner as the simulation example shown in FIG. 12 is used.
  • (25A) and (25B) in FIG. 25 show estimation result data of a verification example using the pulse wavelength and the wave height as the feature quantity and a verification example using the pulse wavelength and the peak position ratio as the feature quantity.
  • the number of total pulses obtained by this verification was 146 for Escherichia coli and 405 for Bacillus subtilis.
  • FIG. 26 show the respective estimation result data of the verification example using the spread of the waveform near the peak as the feature quantity and the pulse wavelength, and the verification example using the spread of the waveform near the peak and the wave height as the feature quantity. Show.
  • FIG. 26 show the respective estimation result data of the verification example using the spread of the waveform near the peak as the feature quantity and the pulse wavelength, and the verification example using the spread of the waveform near the peak and the wave height as the feature quantity. Show.
  • Evaluation of the number of particle types can be performed by “weighted average relative error” represented by the mathematical formula shown in FIG. 27 (27B).
  • the “weighted average relative error” is a numerical value obtained by multiplying the relative error of each particle size by the true number ratio of the particle size and adding to the total particle size.
  • FIG. 27 shows the number estimation result when kurtosis and pulse height are used as feature quantities.
  • (28A) and (28B) in FIG. 28 show the number estimation results for each mixing ratio ⁇ when the pulse wavelength and the pulse height are used as the feature amount, and the case where the pulse wavelength and the peak position ratio are used as the feature amount. The number estimation result for each mixing ratio ⁇ is shown.
  • 29 (29A) to (29D) are histograms showing the respective number estimation results when the mixing ratio of E. coli and Bacillus subtilis is 1:10, 2:10, 3:10, and 35: 100, respectively.
  • 30 (30A) to (30C) are histograms showing the number estimation results when the mixing ratio of E. coli and Bacillus subtilis is 4:10, 45: 100, and 1: 2, respectively.
  • FIG. 31 are diagrams in which the dispersion state of each particle is synthesized when a pulse wavelength and a pulse wave height are used as feature amounts.
  • (32A), (32B), and (32C) in FIG. 32 are peaks when a waveform near the peak is used as the feature quantity, and when the pulse wavelength is used, the waveform near the peak is used as the feature quantity, and the peak position ratio is used. It is the figure which synthesize
  • the present inventors performed verification 2 of the analysis performance of the number of particle types different from verification 1 using the measured current data of Escherichia coli and Bacillus subtilis in the above examples.
  • the feature amounts of the first type and the second type 13 types (1) to (13) are calculated and used, and the feature amount and the number of sampling data related to these combinations are calculated. And the analysis performance of each combination was verified.
  • FIG. 42 shows the estimation evaluation results for each feature amount combination when sampling is performed at 1 MHz and 500 kHz, respectively, among all data.
  • FIG. 43A) and (43B) in FIG. 43 respectively show the estimation evaluation results regarding each feature amount combination when sampling is performed at 250 kHz and 125 kHz among all the data.
  • (44A) and (44B) of FIG. 44 respectively show the estimation evaluation results regarding each feature amount combination when sampling is performed at 63 kHz and 32 kHz among all the data.
  • (45A) and (45B) of FIG. 45 show the estimation evaluation results for each feature amount combination when sampling is performed at 16 kHz and 8 kHz, respectively, among all data.
  • the estimated evaluation results for each combination in these tables are the average accuracy shown on the upper side and the standard deviation shown in parentheses on the lower side, obtained by the cross-validation method in the same manner as (4) of Verification 1. To express.
  • Inertia I inertia I (normalized), inertia I in the table w, inertia I wv, inertia I w (standardization), inertia I wv (normalization) is (8) time inertia moment, (9) normalized time inertia moment, (10) wave width average inertia moment, (12) wave dispersion inertia moment, (11) ) Shows the normalized wave width average moment of inertia, and (13) shows the characteristic value of the normalized wave width dispersion moment of inertia.
  • FIG. 47 shows the estimation evaluation result regarding each feature amount combination in all sampling data.
  • FIG. 48 shows the estimation evaluation result regarding each feature amount combination when high-density sampling is performed at 1 MHz to 125 kHz among all data.
  • FIG. 49 shows the estimated evaluation results for each feature amount combination when low density sampling is performed at 63 kHz to 4 kHz among all data.
  • FIG. 50 shows the sampling frequency-weighted average relative error (weighted average relative error) for the combination of the top five feature quantities that can obtain high number estimation accuracy when all sampling data is used (50A) and when sampled at a high density (50B). It is a graph of an average value.
  • the combinations of the top five feature quantities in FIG. 50 are: wavelength ⁇ t-area m, wavelength ⁇ t-inertia I, peak position ratio r-inertia I, depression angle ⁇ -inertia I, inertia I-inertia I w (standardization).
  • FIG. 51 is a graph (51A) of sampling frequency-weighted average relative error (average value) regarding the combination of the top five types of feature quantities that can obtain high number estimation accuracy when sampled at low density, and all sampling data. It is a graph (51B) of the sampling frequency-weighted average relative error (average value) regarding the combination of the four types of feature values when used.
  • the values on the vertical axis in FIGS. 50 and 51 are the average values of the weighted average relative errors obtained by performing 50 cross-validations.
  • the combinations of the top five feature quantities in 51A are as follows: wavelength ⁇ t-area m, wavelength ⁇ t-inertia I, peak position ratio r-area m, depression angle ⁇ -area m, area m-inertia I wv (standardization).
  • the combination of the four types of feature values in 51B is wavelength ⁇ t-area m, wavelength ⁇ t-inertia I, kurtosis k-wave height
  • the results obtained from Verification 2 are as follows.
  • (R1) As shown in FIGS. 47 and 50, when all the sampling data is used, the top five combinations, that is, wavelength ⁇ t-inertia I, wavelength ⁇ t-area m, peak position ratio r-inertia I, depression angle ⁇ -Inertia I, Inertia I-Inertia I
  • w standardized feature quantity
  • the number estimation accuracy (weighted average relative error) by the combination of these feature amounts is, for example, about 9 to 10% in the sampling region of 250 to 1000 kHz at the wavelength ⁇ t-inertia I and 125 to 250 kHz at the wavelength ⁇ t-area m.
  • the feature quantity that provides high number estimation accuracy is the wavelength ⁇ t ⁇ inertia if it is shown by the top five combinations.
  • I wavelength ⁇ t-area m
  • peak position ratio r-inertia I inertia I-inertia
  • w depression angle ⁇ -inertia
  • the number estimation accuracy (weighted average relative error) by the combination of these feature amounts is, for example, about 9 to 10% in the sampling region of 250 to 1000 kHz at the wavelength ⁇ t-inertia I and 125 to 250 kHz at the wavelength ⁇ t-area m.
  • the feature quantity that can provide high number estimation accuracy when using low-density sampling data that is smaller than the high-density sampling data can be represented by the wavelength ⁇ t if it is shown by the top five combinations.
  • -Area m wavelength ⁇ t-inertia I, depression angle ⁇ -area m, area m-inertia I
  • wv normalized
  • peak position ratio r-area m peak position ratio r-area m.
  • the number estimation accuracy (weighted average relative error) by the combination of these feature amounts is about 9 to 10% in the sampling region of 250 to 1000 kHz at the wavelength ⁇ t-inertia I, and the sampling region of 125 to 250 kHz in the wavelength ⁇ t-area m. In the sampling region of 16 to 63 kHz at the wavelength ⁇ t-inertia I, about 13 to 16%.
  • (R4) As can be seen from (R1) to (R3), high-precision number estimation can be performed even if a combination of feature quantities of the first type and the second type is used. Furthermore, according to the number analysis method of the present invention, even if the number of samplings is not sufficiently large, the number analysis can be performed with the same degree of accuracy as when a predetermined number of samplings is obtained. For example, the combination of the kurtosis k and the peak position ratio r investigated in the verification 1 produced a maximum error of 12%. For example, when the characteristic amount of the wavelength ⁇ t-inertia I is used, all data is used.
  • the number analysis function according to the present embodiment is not limited to regular number analysis, and is suitable for promptly performing the determination of the presence and number of particles of fungi or the like, for example, in quarantine inspections or medical sites that require urgency. Can be used as an inspection tool.
  • the comparative study example of verification 3 includes 4 of the wavelength ⁇ t ⁇ area m, wavelength ⁇ t ⁇ inertia I, kurtosis k ⁇ wave height
  • the time required for the calculation of the number analysis includes the time required for creating the feature value and the calculation time required for the iterative calculation by the Hasselblad method. Therefore, the calculation time CT1 required for creating the feature value, the calculation required for the iterative calculation by the Hasselblad method.
  • FIG. 52 is a graph (52A) of sampling frequency (kHz) -required calculation time (seconds) showing the total calculation time CT3 for each of the four types of feature quantity combinations, and the calculation time CT1 required for creating the feature quantity for each feature quantity combination.
  • Is a graph (52B) of sampling frequency (kHz) -required calculation time (seconds).
  • FIG. 53 is a graph of sampling frequency-required calculation time (seconds) showing calculation time CT2 for each feature amount combination.
  • the feature amount combination G1 of the wavelength ⁇ t-area m and the wavelength ⁇ t-inertia I has almost the same total calculation time, and the kurtosis k-wave height
  • the feature amount combination G2 of the position ratio r has substantially the same total calculation time.
  • the calculation time required to create each feature value of the feature value combination G1 is the same, and the calculation time required to create each feature value of the feature value combination G2 is the same.
  • the time required for iterative calculation by the Hasselblad method can be processed in a short time of about 3 to 5 seconds or less in the sampling region at 1 MHz to 16 kHz in any of the feature amount combinations G1 and G2. ing.
  • the feature amount is used for the required calculation time regardless of the combination of the first type and the same type of the second type or different mixed combinations. Shortening can be achieved. Therefore, according to the number analysis function according to the present embodiment, not only the regular number analysis, but also, for example, in the quarantine inspection that requires urgency or the medical site, the presence / absence and number of fungi particles are quickly determined. be able to.
  • the detection signal is obtained by executing the particle type distribution estimation program as the number derivation means based on the data group of the detection signal detected by the nanopore device 8. It is possible to estimate the probability density from the data group based on the feature quantity indicating the feature of the waveform form of the pulsed signal corresponding to the passed particle, and to derive the number of particle types. Therefore, by using the number analysis function according to the present embodiment, for example, the number or the number distribution according to the analyte type such as bacteria or microparticulate matter can be analyzed with high accuracy, and simple in the number analysis inspection. And cost reduction can be realized.
  • a particle type integrated analysis system in which inspection and analysis are integrated may be constructed by directly importing a detection signal from the nanopore device 8 into a number analyzer and enabling data storage.
  • the probability density is estimated from the data group based on the feature quantity, and the result of deriving the number of particle types can be displayed on the display means 7 as output means or printed out on a printer. Therefore, according to the present embodiment, a highly accurate derivation result (particle number, particle number distribution, estimation accuracy, etc.) can be notified promptly and recognizable in an output form of, for example, a histogram or a scatter diagram.
  • the number analysis function according to the present embodiment can be used as a useful inspection tool in a medical site or a quarantine station that requires a quick response.
  • the present invention is not limited to a computer terminal such as a specific PC equipped with a number analysis program, but can be applied to a number analysis storage medium that stores a part or all of the number analysis program. That is, the number analysis program stored in the number analysis storage medium can be installed in a predetermined computer terminal so that the desired computer can perform the number analysis operation. Therefore, the number analysis can be performed easily and inexpensively.
  • a storage medium to which the present invention can be applied any one of computer-readable storage media such as a flexible disk, a magnetic disk, an optical disk, a CD, an MO, a DVD, a hard disk, and a mobile terminal can be selected and used. .
  • FIG. 56 shows classification analysis processing according to the present embodiment.
  • the classification analysis process according to the present embodiment can be executed according to the classification procedure of the classification analysis method shown in FIG. 54 corresponds to the PC 1 of the present embodiment.
  • a feature amount is specified, and known data and data to be analyzed are input to the PC1.
  • the feature quantity a part or all of the first type and second type shown in the above (1) to (15), or one or more combinations of feature quantities can be designated in advance by the input processing. For example, when Escherichia coli Ec and Bacillus subtilis Bs are the analytes (specific analytes) whose particle types are specified, each of these specific analytes is measured by the nanopore device 8a, and each pulse-like signal is measured.
  • the pulsed signal data obtained by performing measurement with the nanopore device 8a on the analyte to be analyzed whose specific analyte content is unknown is input to the PC 1 as analysis data, and the input data is an analysis data storage memory area of the RAM 4 Stored in
  • step S110 When the classification analysis process is activated by the activation operation, it is determined whether or not the known data is input (step S110). When the known data has not been input, the display means 7 displays a guidance prompting the user to input the known data. In FIG. 56, the notification processing step by various guidance displays is omitted.
  • the input known data is stored in the memory area for storing the known data in the RAM 4 and is used for creating a feature amount (steps S100 and S101).
  • step S110 and S111 When there is known data input, it is determined whether or not a feature amount is specified (steps S110 and S111).
  • the feature amount is designated, the vector amount data of the feature amount designated from the feature amount storage data file DA based on the known data in the RAM 4 is taken into the learning data storage area of the RAM 4 (step S113). If no feature quantity is specified, vector quantity data of all feature quantities is taken into the learning data storage area of the RAM 4 from the feature quantity storage data file DA based on known data in the RAM 4 (step S112).
  • step S114 it is determined whether or not analysis data is input (step S114).
  • the display means 7 displays a guidance prompting input of analysis data.
  • the analysis data is input, the acquired analysis data is stored in the analysis data storage memory area of the RAM 4 (step S100).
  • a feature amount related to the analysis data is created and stored in the RAM 4 as described (step S101).
  • feature quantity vector quantity data is taken into the variable data storage area of the RAM 4 from the feature quantity storage data file DB based on the analysis data of the RAM 4 (step S115).
  • ⁇ Guidance display prompting the execution of classification analysis is performed in the state where the known data and analysis data have been input and the feature quantity has been acquired.
  • the classification analysis program is started and the classification analysis execution process by machine learning is performed (step S116).
  • a classification analysis program by machine learning configured by an algorithm based on a random forest method is stored in the ROM 3 in advance.
  • the classification analysis program uses the feature amount based on the known data as learning data and the feature amount obtained from the analysis data as a variable, it is possible to perform classification analysis on a specific analyte in the analyzed data.
  • the pulse waveform is converted into a numerical vector of the same dimension, and the classification analysis is performed by identifying individual pulses by determining how each vector is different.
  • the classification analysis method by machine learning is not limited to the random forest method, but is a group such as a k-nearest neighbor method, a naive Bayes classifier, a decision tree, a neural network, a support vector machine, a bagging method, or a boosting method. Learning can be used.
  • the classification analysis process ends, and the classification analysis result output process is performed (step S117).
  • the classification result that is the ratio of those derived from passage of Escherichia coli Ec or Bacillus subtilis Bs that are examples of the specific analyte can be displayed on the display means 7.
  • the display mode that can be output is not limited to the classification result for each analysis data, and the display mode such as the total number of Escherichia coli Ec or Bacillus subtilis Bs, the corresponding ratio of both, and the like can be used.
  • FIG. 57 shows a case where the analysis sample shown in FIG. 57 (B) is used in various combinations of feature quantities (Features) and algorithms of analysis methods based on machine learning (hereinafter referred to as classifiers).
  • Features feature quantities
  • classifiers algorithms of analysis methods based on machine learning
  • Analytical samples are two types of bacterial species (E. coli and Bacillus subtilis) as shown in (57B).
  • a pulse shape obtained by measuring a passing waveform using a micro / nanopore device 8 having an inner diameter of the through-hole 12 of 4.5 ⁇ and a penetration distance (pore depth) of the through-hole 12 of 1500 mm.
  • 42 signal data all of the measurement pulses in the case of Escherichia coli and 42 out of 265 measurement pulses in the case of Bacillus subtilis
  • about 90% of the pulsed signal data was used as learning data, and the remaining data was assigned to variables.
  • the evaluation items are represented by the F-scale (F-Measure), the true positive rate (TPRate), the false positive rate (FPRate), the precision (Precision), the recall (Recall), It consists of items of F value (FMMeasure) and receiver operating characteristic curve area (ROC (Receiver Operating Characteristic) curve Area).
  • FIG. 58 is an explanatory diagram of the F-scale.
  • the F-scale is calculated by assigning the expected value of each bacterial species to the real number of two bacterial species (E. coli real number: P, Bacillus subtilis real number: N). Assuming that the sum of true positive (TP), false positive (FP), true negative (FN) and false negative (TN) in the combination is 1, expressed as 2TP / (2TP + FP + FN) as shown in (58B) .
  • FIG. 57 (57A) is a table showing the classification results within the top 10 excellent F-scales obtained by this verification.
  • the top 10 feature values include a 13-dimensional feature value vector (table) in which 13 types of feature values (1) to (11), (14), and (15) are arranged.
  • hv & F a combination of a wave height vector (abbreviated as “h” in the table) and an average vector of (10) (abbreviated as “wV” in the table) (“h & wV” in the table) (Abbreviation), a combination of a wave height vector and a standardized average value vector (abbreviated as “wNrmdV” in the table) (abbreviated as “h & wNrmdV” in the table).
  • a feature amount indicating the feature of the waveform form of a pulsed signal obtained as a detection signal is obtained in advance and obtained in advance.
  • the classification analysis result obtained by identifying the analyte with high accuracy from the data group based on the feature amount can be displayed on the display means 7 as the output means or printed on the printer.
  • the classification analysis function according to the present embodiment can be used as a useful inspection tool in a medical field or a quarantine station that requires quick response.
  • the present invention is not limited to a computer terminal such as a specific PC on which a classification analysis program is installed, but can be applied to a classification analysis storage medium that stores part or all of the classification analysis program. That is, since the number analysis program stored in the classification analysis storage medium can be installed in a predetermined computer terminal and the desired computer can perform classification analysis operation, analysis analysis can be performed easily and inexpensively.
  • a storage medium to which the present invention can be applied any one of computer-readable storage media such as a flexible disk, a magnetic disk, an optical disk, a CD, an MO, a DVD, a hard disk, and a mobile terminal can be selected and used. .
  • classification analysis of bacteria, microparticulate substances, and the like can be performed with high accuracy, which can contribute to simplification, speed-up, and cost reduction in classification analysis inspection of analytes.
  • the classification analysis technique according to the present invention is useful for, for example, medical examinations that compete for a moment, and can also be applied to examinations of minute amounts of bacteria and viruses before the manifestation of infectious symptoms. It can also be a powerful analytical technique, and can be applied in a wide range such as pre-shipment inspection and quarantine inspection for foods that require quick inspection results.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • Urology & Nephrology (AREA)
  • Dispersion Chemistry (AREA)
  • Hematology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Nanotechnology (AREA)
  • Food Science & Technology (AREA)
  • Sustainable Development (AREA)
  • Toxicology (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)

Abstract

本願発明の課題は、粒子状または分子状の分析物の分類分析を高精度に行うことのできる分類分析方法、分類分析装置および分類分析用記憶媒体を提供することである。上記課題を解決するため、検体の粒子の貫通孔12の通過に応じて、ナノポアデバイス8によって検出した粒子通過検出信号のデータ群をベースにして、所定の分析物の通過に対応するパルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を機械学習のための学習データとし、被分析データのパルス状信号から得られる特徴量を変数にして、機械学習による分類分析プログラムを実行することによって、該被分析データにおける所定の分析物に関する分類分析を行うことができる。

Description

分類分析方法、分類分析装置および分類分析用記憶媒体
 本発明は、例えばウイルス、細菌等の微小物体、あるいは微細な粉塵等の粒子状または分子状の分析物の分類分析を行う分類分析方法、分類分析装置および分類分析用記憶媒体に関する。
 従来より、細菌などを対象にした微生物検査は生化学的手法によって行われている。生化学的手法による検査においては、細菌の数や種類の同定のために培養・染色が行われる。
WO2013-137209号公報
「Weka3:Data Mining Software in Java」、Machine Learning Group at the University of Waikato、インターネット<URL:http://www.cs.waikato.ac.nz/ml/weka/>
 上記従来の生化学的手法による検査においては、検査時間が数日程度(例えば、大腸菌の培養時間は1~2日)要し、また検査実施者にも専門的な技術も要求されていた。このため、人やモノの行来が増大する現代社会においては、食の安全、パンデミック防止、PM2.5のような微小粒子状物質による大気汚染による健康被害の防止のためには、その場で誰もが実施可能で、迅速かつ簡便に低コストで行える検査手法が求められている。
 特許文献1には、マイクロ・ナノメートルスケールの微細貫通孔(マイクロポア、以下ナノポアと総称する。)を有するマイクロ・ナノポアデバイスを用いた微小物体(細菌、ウイルス等)の電気的検出技術が開示されている。
 マイクロ・ナノポアデバイスの動作原理は以下の通りである。ナノポアの上下と、ナノポアは電解質溶液で充填された状態で、ナノポアを挟むようにして配置された電極対に電圧印加を行うと、ポア径、イオン濃度および印加電圧に比例し、かつポア深さに反比例した一定の電流が計測される。細菌などの検体(分析物)がポア(貫通孔)を通過する際、一部のイオン電流が検体により阻害されるため、パルス状の電流変化が現れる。この電流変化を観測することにより、電解質溶液中に存在する検体を検出することができる。
 溶液中の検体の種類が判明している場合には、該電流変化の検出数が検体の総数となる。しかしながら、実際の検査においては、種別不明の分析物を検査対象とする場合があるため、ナノポアデバイスを実用的に使用するうえで、単に電流変化の抽出のみでは分析物種別の詳しい検査に適用できないという問題があった。
 本発明の目的は、粒子状または分子状の分析物の分類分析を高精度に行うことのできる分類分析方法、分類分析装置および分類分析用記憶媒体を提供することである。
 本発明は、上記課題に鑑み、ナノポアがポア径に対してポア厚が十分に小さい低アスペクトの場合には、検出した阻害電流の波形には通過する分析物の形態が反映される点に着目し、阻害電流波形の特徴を数学的に抽出して得られるデータに対して機械学習による分類器を用いて分析物種別に関する分類分析を行えるという知見に基づいてなされた発明である。
 本発明に係る第1の形態は、
 貫通孔を形成した隔壁と、前記貫通孔を介して前記隔壁の表裏側に配置された電極とを配置し、
 粒子状または分子状の分析物を含む流動性物質を前記隔壁の一面側に供給し、
 前記分析物が前記貫通孔を通過することにより生ずる電極間の通電変化を検出した検出信号のデータの分類分析をコンピュータ制御プログラムの実行によって行う分類分析方法であって、
 前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
 所定の分析物を含む流動性物質から前記検出信号として得られた分析物通過に対応するパルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
 あらかじめ求めた特徴量を前記機械学習のための学習データとし、被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって、該被分析データにおける前記所定の分析物に関する分類分析を行うことを特徴とする分類分析方法である。
 本発明に係る第2の形態は、
 前記特徴量は、
 前記パルス状信号の波形の局所的特徴を示す第1類型と、
 前記パルス状信号の波形の全体的特徴を示す第2類型のいずれかである分類分析方法である。
 本発明に係る第3の形態は、
 前記第1類型の特徴量は、
 所定の時間幅内における波形の波高値、
 パルス波長ta
 パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
 該波形の鋭さを表す尖度、
 パルス開始からパルスピークに至る傾きを表す俯角、
 波形を所定の時間毎に区分した時間区分面積の総和を表す面積、および
 パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比のいずれかである分類分析方法である。
 本発明に係る第4の形態は、
 前記第2類型の特徴量は、
 パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
 前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
 前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
 前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
 波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
 前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメントのいずれかである分類分析方法である。
 本発明に係る第5の形態は、
 前記コンピュータ制御プログラムは、
 前記検出信号ないしそれに含まれる揺らぎ成分から、分析物通過のないときの基準ラインを抽出する基準ライン抽出手段と、
 前記基準ラインを基準にして所定範囲を超える信号データを前記パルス状信号のデータとして抽出するパルス抽出手段と、
 抽出した前記パルス状信号のデータから前記特徴量を抽出する特徴量抽出手段と、を含む分類分析方法である。
 本発明に係る第6の形態は、
 貫通孔を形成した隔壁と、前記貫通孔を介して前記隔壁の表裏側に配置された電極とを配置し、
 粒子状または分子状の分析物を含む流動性物質を前記隔壁の一面側に供給し、
 前記分析物が前記貫通孔を通過することにより生ずる電極間の通電変化を検出した検出信号のデータの分類分析をコンピュータ制御プログラムの実行によって行う分類分析装置であって、
 前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
 所定の分析物を含む流動性物質から前記検出信号として得られた分析物通過に対応するパルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
 あらかじめ求めた特徴量を前記機械学習のための学習データとして記憶する学習データ記憶手段と、
 被分析データのパルス状信号から得られる特徴量を変数として記憶する変数記憶手段と、を有し、
 前記分類分析プログラムを実行することによって、前記学習データおよび前記変数に基づき前記被分析データにおける前記所定の分析物に関する分類分析を行うことを特徴とする分類分析装置である。
 本発明に係る第7の形態は、
 前記特徴量は、
 前記パルス状信号の波形の局所的特徴を示す第1類型と、
 前記パルス状信号の波形の全体的特徴を示す第2類型のいずれかである分類分析装置で
ある。
 本発明に係る第8の形態は、
 前記第1類型の特徴量は、
 所定の時間幅内における波形の波高値、
 パルス波長ta
 パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
 該波形の鋭さを表す尖度、
 パルス開始からパルスピークに至る傾きを表す俯角、
 波形を所定の時間毎に分割した時間区分面積の総和を表す面積、および
 パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比のいずれかである分類分析装置である。
 本発明に係る第9の形態は、
 前記第2類型の特徴量は、
 パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
 前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
 前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
 前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
 波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
 前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメントのいずれかである分類分析装置である。
 本発明に係る第10の形態は、
 前記コンピュータ制御プログラムは、
 前記検出信号のデータないしそれに含まれる揺らぎ成分から、分析物通過のないときの基準ラインを抽出する基準ライン抽出手段と、
 前記基準ラインを基準にして所定範囲を超える信号データを前記パルス状信号のデータとして抽出するパルス抽出手段と、
 抽出した前記パルス状信号のデータから前記特徴量を抽出する特徴量抽出手段と、を含む分類分析装置である。
 本発明に係る第11の形態は、第1の形態に係る前記コンピュータ制御プログラムを記憶したことを特徴とする分類分析用記憶媒体である。
 第1の形態によれば、所定の分析物を含む流動性物質に対し上記のナノポアデバイスによる計測の結果、検出信号として得られた分析物通過に対応するパルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を機械学習のための学習データとし、被分析データのパルス状信号から得られる特徴量を変数にして、分類分析プログラムを実行することによって、該被分析データにおける所定の分析物に関する分類分析を行うので、高精度で分析物の識別を行って分類分析検査における簡易化および低コスト化を実現することができる。
 第2の形態によれば、前記特徴量は、パルス状信号由来のパラメータとして、該パルス状信号の波形の局所的特徴を示す第1類型と、該パルス状信号の波形の全体的特徴を示す第2類型のいずれかのうち1または2以上の特徴量を使用して機械学習による分類分析を行うことによって、所定の分析物に関する分類分析を高精度に行うことができ、分類分析検査における簡易化および低コスト化に寄与することができる。
 本発明に係る分類分析方法において、第1類型または第2類型の特徴量の少なくとも1つ以上の特徴量を使用して分類分析する場合に限らず、第1類型の特徴量と第2類型の特徴量をそれぞれ少なくとも1つ以上、組み合わせて使用して分類分析を行うことができる。
 第3の形態によれば、
 前記第1類型の特徴量は、
 所定の時間幅内における波形の波高値、
 パルス波長ta
 パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
 該波形の鋭さを表す尖度、
 パルス開始からパルスピークに至る傾きを表す俯角、
 波形を所定の時間毎に区分した時間区分面積の総和を表す面積、および
 パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比のいずれかであるので、これらのうち1または2以上の特徴量を使用して機械学習による分類分析を行うことによって、高精度に分類分析することができ、分類分析検査における簡易化および低コスト化に寄与することができる。
 第4の形態によれば、
 前記第2類型の特徴量は、
 パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
 前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
 前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
 前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
 波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
 前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメントのいずれかであるので、これらのうち1または2以上の特徴量を使用して機械学習による分類分析を行うことによって、高精度に分類分析することができ、分類分析検査における簡易化および低コスト化に寄与することができる。
 第5の形態によれば、前記基準ライン抽出手段により、前記検出信号のデータないしそれに含まれる揺らぎ成分から、分析物通過のないときの基準ラインを抽出し、前記パルス抽出手段により、前記基準ラインを基準にして所定範囲を超える信号データを前記パルス状信号のデータとして抽出し、前記特徴量抽出手段により、抽出した前記パルス状信号のデータから前記特徴量を抽出するので、パルス状信号由来の特徴量に基づいて機械学習による分類分析を行うことによって、高精度に分類分析することができ、分類分析検査における簡易化および低コスト化に寄与することができる。
 第6の形態によれば、第1の形態に係る分類分析方法に基づく分類分析をコンピュータ解析により実行可能であるので、第1形態で説明したコンピュータ制御プログラムによる全ての効果を有し、高精度で分析物の識別を行って簡便かつ安価に分類分析を行える分類分析装置を提供することができる。
 第7の形態によれば、前記特徴量は、パルス状信号由来のパラメータとして、該パルス状信号の波形の局所的特徴を示す第1類型と、該パルス状信号の波形の全体的特徴を示す第2類型のいずれかのうち1または2以上の特徴量を使用して機械学習による分類分析を行うことによって、所定の分析物に関する分類分析を高精度に行って簡便かつ安価に分類分析を行える分類分析装置を提供することができる。
 本発明に係る分類分析装置において、第1類型または第2類型の特徴量の少なくとも1つ以上の特徴量を使用して分類分析する場合に限らず、第1類型の特徴量と第2類型の特徴量をそれぞれ少なくとも1つ以上、組み合わせて使用して分類分析を行うことができる。
 第8の形態によれば、
 前記第1類型の特徴量は、
 所定の時間幅内における波形の波高値、
 パルス波長ta
 パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
 該波形の鋭さを表す尖度、
 パルス開始からパルスピークに至る傾きを表す俯角、
 波形を所定の時間毎に区分した時間区分面積の総和を表す面積、および
 パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比のいずれかであるので、これらのうち1または2以上の特徴量を使用して機械学習による分類分析を行うことによって高精度に分類分析することができ、簡便かつ安価に分類分析を行える分類分析装置を提供することができる。
 第9の形態によれば、
 前記第2類型の特徴量は、
 パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
 前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
 前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
 前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
 波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
 前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメントのいずれかであるので、これらのうち1または2以上の特徴量を使用して機械学習による分類分析を行うことによって、高精度に分類分析することができ、簡便かつ安価に分類分析を行える分類分析装置を提供することができる。
 第10の形態によれば、前記基準ライン抽出手段により、前記検出信号のデータないしそれに含まれる揺らぎ成分から、分析物通過のないときの基準ラインを抽出し、前記パルス抽出手段により、前記基準ラインを基準にして所定範囲を超える信号データを前記パルス状信号のデータとして抽出し、前記特徴量抽出手段により、抽出した前記パルス状信号のデータから前記特徴量を抽出するので、パルス状信号由来の特徴量に基づいて機械学習による分類分析を行うことによって高精度に分類分析することができ、簡便かつ安価に分類分析を行える分類分析装置を提供することができる。
 第11の形態によれば、第1の形態に係る前記コンピュータ制御プログラムを記憶した個数分析用記憶媒体を提供することができる。したがって、本形態に係る記憶媒体は、第1の形態で説明した前記コンピュータ制御プログラムによる効果を有するので、分類分析用記憶媒体に記憶したコンピュータ制御プログラムをコンピュータにインストールして該コンピュータに分類分析動作させることによって簡便かつ安価に分類分析を行うことができる。
 本発明における記憶媒体としては、フレキシブルディスク、磁気ディスク、光ディスク、CD、MO、DVD、ハードディスク、モバイル端末等、コンピュータにより読み取り可能な記憶媒体のいずれかを選択することができる。
 本発明によれば、コンピュータ端末を利用して、例えば、細菌、微小粒子状物質、分子状物質等の分析物の分類分析を安価で、簡易かつ高精度に行うことができる。
本発明の一実施形態である分類分析装置の概略ブロック図である。 マイクロ・ナノポアデバイスの概略構成を示す概略側断面図である。 前記分類分析装置のPC1による分析処理の説明に必要な処理プログラム構成を示す図である。 実施例の大腸菌と枯草菌につき実測した粒子通過によるパルス波形例を示す図である。 本発明に係る各種特徴量を説明するためのパルス波形図である。 カルマンフィルターを説明するための図である。 カルマンフィルターの各因子を実際の計測電流データで説明するための図である。 カルマンフィルターの予測(8A)と更新(8B)の繰返しの詳細を示す図である。 BL推定処理プログラムに基づくBL推定処理を示すフローチャートである。 カルマンフィルターの因子調整に使用したビーズモデルの波形図である。 大腸菌22と枯草菌23が電解質溶液24中に混在する様子を模式的に示した貫通孔12周辺の拡大図である。 調整因子のm、k、αの組合せに応じてビーズモデルの波形から拾われたパルスの数を示す表である。 特徴量抽出プログラムの実行処理内容の概要を示すフローチャートである。 粒子種推定処理を示すフローチャートである。 1つの波形データに関する各特徴量(15A)と、大腸菌と枯草菌の粒子種における確率密度関数のイメージ図(15B)とを示す図である。 大腸菌と枯草菌の粒子種の個々より得られた確率密度分布の重ね合わせのイメージ図である。 k個の粒子種別の粒子総数と、粒子種別の出現確率と、データ全体の出現頻度の期待値との関係を示すイメージ図である。 ラグランジュ未定乗数法により最適化を行う制約付き対数尤度最大化式の導出過程を説明するための図である。 データファイル作成処理を示すフローチャートである。 確率密度関数の推定処理を示すフローチャートである。 粒子数の推定処理を示すフローチャートである。 Hasselblad反復法による粒子数推定処理を示すフローチャートである。 EMアルゴリズムによる処理手順を示すフローチャートである。 本実施形態に係る個数分析機能により分析した結果の一例を示す図である。 特徴量としてパルス波長、波高を使用した検証例と、特徴量としてパルス波長、ピーク位置比を使用した検証例の各推定結果データを示す表である。 特徴量としてピーク付近波形の広がり、パルス波長を使用した検証例と、特徴量としてピーク付近波形の広がり、波高を使用した検証例の各推定結果データを示す表である。 特徴量として尖度と、パルス波高を使用した場合における個数推結果を示す図である。 BL推定処理プログラムに基づくBL推定処理を示すフローチャートである。 大腸菌と枯草菌の混合比をそれぞれ、1:10、2:10、3:10、35:100とした場合における各個数推定結果を示すヒストグラムである。 大腸菌と枯草菌の混合比をそれぞれ、4:10、45:100、1:2とした場合における各個数推定結果を示すヒストグラムである。 特徴量としてパルス波長、パルス波高を使用した場合における各粒子の散布状態を合成した図である。 特徴量としてピーク付近波形の広がり、パルス波長を使用した場合、特徴量としてピーク付近波形の広がり、ピーク位置比を使用した場合、ピーク付近波形の広がり、パルス波高を使用した場合における各粒子の散布状態を合成した図である。 マイクロ・ナノポアデバイス8を用いて、3種の粒子33a、33b、33cが貫通孔12を通過して得られる検出信号の波形例と、特徴量に基づいて得られる確率密度関数の導出例を示す図である。 俯角および面積の特徴量を説明するためのパルス波形図である。 波高ベクトルの取得の仕方を説明するための図である。 d次元の波高ベクトルとデータサンプリングとの関係を説明するための図である。 時間(波長)および波幅に関する第2類型の特徴量を説明するためのパルス波形図である。 w次元の波幅ベクトルとデータサンプリングとの関係を説明するための図である。 波幅に関する慣性モーメントを波幅ベクトルにより取得する取得過程を説明するための図である。 複数の方向に分割した場合の特徴量作成用波形ベクトルの一例を説明するための図である。 特徴量抽出の処理内容を示すフローチャートである。 1MHz、500kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である 250kHz、125kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 63kHz、32kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 16kHz、8kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 4kHzでサンプリングしたときの各特徴量組合せに関する推定評価表である。 全サンプリングデータに対する各特徴量組合せに関する推定評価表である。 1MHz~125kHzでの高密度サンプリングしたときの各特徴量組合せに関する推定評価表である。 63kHz~4kHzでの低密度サンプリングしたときの各特徴量組合せに関する推定評価表である。 全サンプリングデータを使用したとき(50A)および高密度にサンプリングしたとき(50B)に高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフである。 低密度にサンプリングしたときに高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフ(51A)と、全サンプリングデータを使用したときの4種類の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフ(51B)である。 4種類の各特徴量組合せに対する、特徴量作成に要する計算時間とHasselblad法による反復計算に要する計算時間との合計計算時間を示すサンプリング周波数(kHz)-所要計算時間(秒)のグラフ(52A)と、各特徴量組合せに対する特徴量作成に要する計算時間を示すサンプリング周波数(kHz)-所要計算時間(秒)のグラフ(52B)である。 4種類の各特徴量組合せに対する、Hasselblad法による反復計算に要する計算時間を示すサンプリング周波数-所要計算時間(秒)のグラフである。 本発明に係る分類分析方法の概要を説明するための概要図である。 本実施形態における主な制御処理を示す図である。 本実施形態における分類分析処理を示すフローチャートである。 分類分析処理の検証により評価結果と、該検証における分析試料の詳細を示す表である。 F-尺度(F-Measure)の説明図である。
 本発明の一実施形態に係る分類分析装置を図面を参照して以下に説明する。本実施形態においては、分析物の一例として細菌等の微生物粒子を分類分析する粒子種分析形態で説明する。
 図54は、本発明に係る分類分析方法の概要を説明するための概要図を示す。
 本実施形態に係る分類分析装置は、本発明の分類分析方法に基づく分類分析を行うことができる。本発明の分類分析方法は、以下の分析手順(a)~(d)によって構成されている。
(a)所定の分析物(例えば、大腸菌Ecや枯草菌Bs)を含む流動性物質に対しナノポアデバイス8aによる計測の結果、各種別毎の検出信号として得られた貫通孔8bの分析物通過に対応するパルス状信号De、Dbの波形形態の特徴を示す特徴量をあらかじめ求める。パルス状信号De、Dbは、それぞれ大腸菌Ec、枯草菌Bsの貫通孔8b通過に
よって得られた信号である。
(b)コンピュータ解析部1aには、機械学習による分類分析を行う分類分析プログラムが内蔵されている。(a)においてあらかじめ求めた特徴量は、大腸菌Ec、枯草菌Bsの既知データから得られた特徴量であり、機械学習のための学習データとしてコンピュータ解析部1aにおいて使用される。
(c)例えば、大腸菌Ecおよび枯草菌Bsの含有比ないし含有数が不明の状態で流動性物質中に混入された混合物を被分類分析物Mbとした場合、(a)の既知データ取得の場合と同様に、ナノポアデバイス8cによる計測を行う。この計測により、被分類分析物Mbの貫通孔8d通過によって被分析データとしてパルス状信号Dmが得られる。
(d)既知データによる特徴量を学習データとし、被分析データのパルス状信号Dmから得られる特徴量を変数にして、分類分析プログラムを実行することによって、該被分析データにおける所定の分析物に関する分類分析を行うことができる。
 本発明に係る分類分析方法によれば、特徴量に基づいて機械学習による分類分析を行って、種別の分からない被分析データを大腸菌Ecまたは枯草菌Bsの通過に由来するもの1bと由来しないものに分類することができる。すなわち、本実施形態に係る分類分析装置は、機械学習による分類器として被分析データの分類分析を行うことができる。なお、本発明に係る特徴量は、コンピュータ解析部1aにおいて作成してもよいし、別の特徴量作成プログラムを使用して作成してコンピュータ解析部1aに与えるようにしてもよい。
 図1は本実施形態の分類分析装置の概略構成を示す。この分類分析装置は、パーソナルコンピュータ(以下、PCという。)1により構成され、PC1にはCPU2、ROM3、RAM4およびデータファイル記憶部5を有する。ROM3には、コンピュータ制御プログラムが格納されている。コンピュータ制御プログラムには、機械学習を用いた分類分析を行うための分類分析プログラムおよび分類分析に必要な特徴量の作成用プログラム等の各種処理プログラムが含まれている。分類分析プログラム等の各種処理プログラムは、各プログラムを記憶した記憶媒体(CD、DVD等)からインストールされて格納可能になっている。PC1にはキーボード等の入力手段6および液晶ディスプレイ等の表示手段7が入出力可能に接続されている。データファイル記憶部5には分析用データが格納可能になっている。
 図2はマイクロ・ナノポアデバイス8を用いた粒子検出装置の概略構成を示す。
 粒子検出装置は、マイクロ・ナノポアデバイス8およびイオン電流検出部により構成されている。マイクロ・ナノポアデバイス8は、チャンバー9と、チャンバー9を上下の収容空間に区画する隔壁11と、隔壁11の表裏側に配置された一対の電極13、14とを有する。隔壁11は基板10上に形成されている。隔壁11の中央付近には、微小径の貫通孔12が穿設されている。貫通孔12の下方には、基板10の一部を下向きに凹状に取り除いた凹部18を設けている。
 マイクロ・ナノポアデバイス8は半導体デバイス等の製造技術(例えば、電子線描画法やフォトリソグラフィ)を用いて作成される。すなわち、基板10はSi材で構成され、表面上にSi34膜による隔壁11が薄膜形成されている。凹部18は基板10の一部をエッチングにより除去して形成されている。
 隔壁11は、大きさ10mm角で、厚さ0.6mmのSi基板に50nmのSiN膜を積層して形成されている。Si34膜にレジストを塗布し、電子線描画法により、直径3μmの円形の開口パターンを形成して、貫通孔12が穿設されている。貫通孔12の裏側においては、KOHによるウェットエッチングを行い50μm角の開口を形成して凹部18を設けている。凹部18の形成は、ウェットエッチングに限らず、例えば、CF4系ガスによるドライエッチングなどによる等方的なエッチング等により行うことができる。
 隔壁11用の膜には、SiN膜の他に、SiO2膜、Al23膜、ガラス、サファイア、セラミック、樹脂、ゴム、エラストマー等の絶縁性膜を使用することができる。基板10の基板材料もSiに限定されるものではなく、ガラス、サファイア、セラミック、樹脂、ゴム、エラストマー、SiO2、SiN、Al23等を使用することができる。
 貫通孔12は、上記の基板上の薄膜に形成する場合に限らず、例えば、貫通孔12を形成した薄膜状シートを基板上に接着することによって、貫通孔を有する隔壁を形成するようにしてもよい。
 イオン電流検出部は、電極13、14の電極対と、電源15、増幅器16および電圧計20により構成されている。電極13、14は貫通孔12を介して対向配置されている。増幅器16はオペアンプ17と帰還抵抗19とにより構成されている。オペアンプ17の(-)入力端子と電極13は接続されている。オペアンプ17の(+)入力端子は接地されている。オペアンプ17の出力側と電源15の間に電圧計20が接続配置されている。電源15により電極13、14間には、0.05~1Vの印加電圧を使用できるが、本実施例では0.05Vが印加されるようになっている。増幅器16は電極間に流れる電流を増幅して電圧計20側に出力する。電極13、14の電極材料としては、例えば、Ag/AgCl電極、Pt電極、Au電極等を使用でき、好ましくはAg/AgCl電極である。
 チャンバー9は、マイクロ・ナノポアデバイス8周囲を密閉状に囲む流動性物質収容容器であり、電気的および化学的に不活性な材質、例えば、ガラス、サファイア、セラミック、樹脂、ゴム、エラストマー、SiO2、SiN、Al23等により形成されてよい。
 チャンバー9内には注入口(図示せず)から検体21を含む電解質溶液24が充填される。検体21は、例えば、細菌、微小粒子状物質、分子状物質等の分析物である。検体21を、流動性物質である電解質溶液24に混入して、マイクロ・ナノポアデバイス8による計測が行われる。イオン電流検出部による計測終了時には排出口(図示せず)より充填溶液は排出可能になっている。電解質溶液には、例えば、リン酸緩衝生理食塩水(PBS)、Tris-EDTA(TE)バッファーやそれらの希釈液の他、これらと同様なすべての電解質溶液剤を使用することができる。計測は、検体含有電解質溶液をチャンバー9内に導入、充填するごとに行う場合に限らず、溶液溜から簡易ポンプ装置により検体含有電解質溶液(流動性物質)を汲み出して注入口よりチャンバー9内に充填し、計測後に排出口から排出させ、さらに、別の溶液溜あるいは新たな溶液を溶液溜に貯留し、新たに汲み出して次の計測を行う連続計測システムを構成するようにしてもよい。
 電解質溶液24をチャンバー9内に充填した状態で、貫通孔12の上下の電極13、14間に電源15の電圧印加を行うと、貫通孔12に比例した一定のイオン電流が電極間に流れる。電解質溶液24中の細菌等の検体が貫通孔12を通過する際には、一部のイオン電流が検体により阻害されるため、電圧計20によりパルス状のイオン電流減少を計測することができる。したがって、マイクロ・ナノポアデバイス8を用いた粒子検出装置によれば、計測電流の波形変化を検出することにより、検体(例えば、粒子)毎の貫通孔12通過による流動性物質中に含まれる粒子個々の存在を高精度に検出することができる。計測態様には、流動性物質を強制的に流動させながら計測する場合に限らず、流動性物質を非強制的に流動させながら計測する場合を含むことができる。
 電圧計20によるイオン電流の計測出力は外部出力可能になっている。この外部出力は、変換回路装置(図示せず)によりデジタル信号データ(計測電流データ)に変換されて記憶装置(図示せず)に一旦保存された後、データファイル記憶部5に格納される。データファイル記憶部5には、マイクロ・ナノポアデバイス8を用いた粒子検出装置によりあらかじめ取得した計測電流データを外部入力することができる。
 図55は、PC1による主な制御処理を示す。
 主な制御処理には、入力処理(ステップS100)、入力データから特徴量を取得する特徴量取得処理(ステップS101)、分類分析処理(ステップS104)、個数分析処理(ステップS105)および出力処理(ステップS106)が含まれている。入力処理(ステップS100)において、PC操作に必要な各種入力、内蔵プログラムの起動入力、各種分析の実行指示入力、計測電流データおよび/または特徴量データの入力、出力態様の設定入力、分析時に特徴量を指定する場合の指定特徴量の入力等が行われる。入力手段6による分析種別の指定操作を行うことによって、分類分析処理(ステップS104)または個数分析処理(ステップS105)が実行可能になっている(ステップS102、S103)。分類分析処理は、特徴量取得処理(ステップS101)において入力データから取得した特徴量のベクトル量データを使用して分類分析可能になっている。個数分析処理は、特徴量取得処理において入力データから取得した特徴量のスカラーデータを使用して個数分析可能になっている。本実施形態は、分類分析処理機能に加え、個数分析処理機能を具備する実施形態であるが、本発明は、分類分析処理機能のみを具備した実施形態により実施することができる。
 本実施形態に係るコンピュータ制御プログラムには、粒子種別の個数ないし個数分布を分析するための個数分析プログラムが含まれている。個数分析処理(ステップS105)において、個数分析プログラムの実行が可能になっている。出力処理(ステップS106)において、分類分析処理(ステップS104)および個数分析処理(ステップS105)における分析結果データの出力が可能であり、例えば、表示手段7に各種分析結果データが表示出力される。PC1に出力手段としてプリンタ(図示せず)を接続した場合には、各種分析結果データのプリント出力が可能になっている。
<個数分析処理について>
 本実施形態に係る分類分析装置は、個数分析プログラムの実行によって、分析対象として1種または2種以上の粒子(分析物の一例)を含む流動性物質(電解質溶液24)を隔壁11上側の一面側に供給し、粒子が貫通孔12を通過することにより生ずる電極13、14間の通電変化を検出した検出信号のデータ(計測電流データ)に基づいて粒子種別の個数ないし個数分布を分析する個数分析機能を有する。すなわち、PC1は、CPU2の制御によりROM3に格納した個数分析プログラムを実行することにより、データファイル記憶部5に格納、記憶した計測電流データに対する個数分析処理を行うことができる。個数分析処理は、検出信号に含まれ粒子通過に対応するパルス状信号の波形形態の特徴を示す特徴量に基づくデータ群から確率密度推定を行い、粒子種別の個数を導出する個数分析方法に基づいて、粒子種別個数の自動分析を行うことができる。
 図3は、PC1の分析処理の説明に必要な処理プログラム構成を示す。各処理プログラムはROM3に格納されている。分析対象のデータ実施例としては、分析物としての2種の粒子(大腸菌と枯草菌)を含む電解質溶液24を用いて抽出した計測電流データ(各粒子のパルス抽出データ)を元データに使用している。
 個数分析用処理プログラム(個数分析プログラム)には、検出信号として得られた、貫通孔12の粒子通過に対応するパルス状信号の波形形態の特徴を示す特徴量に基づくデータ群から確率密度関数を求める確率密度関数モジュールプログラムと、確率密度推定の結果から粒子種別の個数を導出する粒子種分布推定プログラムとが含まれている。分類分析および個数分析に使用される処理プログラムには、データ群から抽出したベースラインを基準にして、パルス状信号の波形形態の特徴を示す特徴量を抽出する特徴量抽出プログラムと、抽出した特徴量に基づいて得られる粒子毎のパルス特徴量データによるデータファイルを作成するデータファイル作成プログラムとが含まれれている。分類分析処理および個数分析処理は、データファイル作成プログラムにより作成されたデータに対して実行される。特徴量抽出プログラムには、元の計測電流データから該ベースラインを抽出するベースライン推定処理プログラムを含む。特徴量取得処理(ステップS101)においては、特徴量抽出プログラムおよびデータファイル作成プログラムを実行して、入力処理(ステップS100)で入力されたデータから特徴量を作成して、RAM4の特徴量記憶用データファイルに記憶させる処理が行われる。分類分析用の入力データは、学習データに供される特徴量の作成に必要な既知データと、被分析用のデータ(分析データ)である。既知データから作成された特徴量データは、既知データによる特徴量記憶用データファイルDAに記憶され、分析データから作成された特徴量データは、分析データによる特徴量記憶用データファイルDBに記憶される。分類分析を行う場合、これらのデータファイルDA、DBから特徴量のベクトル量データを取り込んで分析処理が実行可能になっている。個数分析用の入力データは、被分析用のデータ(分析データ)のみである。個数分析用の入力データから作成された特徴量データは、個数分析用データファイルDCに記憶され、個数分析を行う場合、該データファイルDCから特徴量のスカラーデータを取り込んで分析処理が実行可能になっている。
 粒子種分布推定の前提として真の確率密度関数の形式が未知であるから、確率密度関数モジュールプログラムの実行により、カーネル法と呼ばれるノンパラメトリック(関数形式を指定しない)確率密度推定が行われる。推定対象の元データは、パルス状信号から得られた、例えば、波高h・時間幅Δt・出現数等を含むパルス出現分布データである。元の計測データ分布の各データを計測誤差不確定性を導入したガウス分布で表し、各ガウス分布の重ね合わせにより確率密度関数が得られる。確率密度関数モジュールプログラムの実行により確率密度推定処理を行い、元データを該元データに基づいた未知の複雑な確率密度関数(例えば、特徴量のパルス波高・パルス幅・出現確率)で表すことができる。
 図33は、マイクロ・ナノポアデバイス8を用いて、3種の粒子33a、33b、33cが貫通孔12を通過して得られる検出信号の波形例と、特徴量に基づいて得られる確率密度関数の導出例を示す。同図(33A)は、マイクロ・ナノポアデバイス8を用いた粒子検出装置を模式的に示す。同図(33B)~(33D)は、各検出信号の波形データを示す。同図(33E)~(33G)は、各波形データから得られた確率密度関数の3次元分布図を示す。(33E)~(33G)における、x軸、y軸、z軸は、それぞれ、特徴量のパルス波高、パルス幅および確率密度推定により得られた確率密度を示す。
 本実施形態においては、上記のように、ノンパラメトリックな密度関数の推定法の一つであるカーネル法に基づいて確率密度推定処理が行われる。カーネル法は、1つのデータ点にある関数(カーネル関数)を当てはめ、これを全てのデータ点について行い、配置された関数を重ね合わせる推定法であり、滑らかな推定値を得るに適する。
 確率密度関数モジュールプログラムの実行により、計測電流波形のパルス波高、パルス幅等のデータから多変数多次元確率密度とみなして2次元以上に拡張して加重の最適推定を行い粒子種別個数分布の推定処理が行われる。加重の最適推定にはHasselbald反復法に基づいて実行されるEMアルゴリズムソフトウエアが使用される。EMアルゴリズムは、PC1にあらかじめインストールされている。粒子種別個数分布の推定処理により得られた粒子種別個数分布結果は、表示手段7に粒子種別に対する出現頻度(粒子個数)のヒストグラムで表示出力可能になっている。
 本発明に係る特徴量は、パルス状信号由来のパラメータとして、該パルス状信号の波形の局所的特徴を示す第1類型に属するものと、該パルス状信号の波形の全体的特徴を示す第2類型に属するもののいずれかである。これらのうちの1または2以上の特徴量を使用して個数分析を行うことによって、粒子種等の分析物種別に応じた個数ないし個数分布を高精度に分析することができる。
 図11は、大腸菌22と枯草菌23の2種の粒子が電解質溶液24中に混在する様子を模式的に示した貫通孔12周辺の拡大図である。
<特徴量について>
 図4は、実施例の大腸菌と枯草菌につき実測した粒子通過によるパルス波形例を示す。図4の(4-1)~(4-9)は、大腸菌の実測パルス波形例(9種類)を示し、(4-10)~(4-18)は、枯草菌の実測パルス波形例(9種類)を示す。両者を外観で比較すると、両者間に波高や波長には差異はあまりないが、ピーク位置や波形尖度等の粒子通過パルス波形形態の属性に顕著な相違がみられる。例えば、大腸菌の場合、ピークが時間経過に伴い前倒し傾向にあり、全体的に波形が尖っている(波形尖度が大きい)。枯草菌の場合、ピークが時間経過に伴い後倒し傾向にあり、波形尖度が小さい。
 本発明者らは、上記の粒子通過パルス波形形態の属性の違いに基づいて、確率分布作成のベースに用いる特徴量をパルス波形データから粒子種(大腸菌と枯草菌)別に抽出することに着目した。
 図5は、本発明に係る各種特徴量を説明するためのパルス波形図である。図5において、横軸は時間、縦軸はパルス波高を示す。
 第1類型の特徴量は、
 所定の時間幅内における波形の波高値、
 パルス波長ta
 パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
 該波形の鋭さ(ピーク波形の広がり)を表す尖度、
 パルス開始からパルスピークに至る傾きを表す俯角、
 波形を所定の時間毎に区分した時間区分面積の総和を表す面積、および
 パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比のいずれかである。
 図5の5a~5dは、それぞれ、パルス波長、波高値、ピーク位置比、尖度を示す。図5のBLは、パルス波形データから抽出(後述のBL抽出処理参照)した基準ライン(以下、ベースラインという。)を示す。これら4種類のパルス特徴量は、図5に基づいて示すと以下の(1)~(4)で定義される。
 (1)波長(パルス幅)Δt:  Δt=te-ts(tsはパルス波形の開始時間、teはパルス波形の終了時間、Δt=ta
 (2)波高|h|:  h=xp-xo(BLのxoを基準にしてパルスピークPPのxpまでのパルス波形の高さ)
 (3)ピーク位置比r:  r=(tp-ts)/(te-ts)(パルス波長(=Δt)と、パルス開始からパルスピークppに至るまでの時間tb(=tp-ts)との比)
 (4)ピーク尖度κ:  波高|h|=1、ts=0、te=1となるように正規化し、パルスピークPPから波高30%の水平線と交差する時刻の時刻集合[T]=[[ti]|i=1,・・・,m]を収集して、下記数1に示すように、時刻集合[T]のデータの分散をパルス波形広がりとしてκが求められる。
Figure JPOXMLDOC01-appb-M000001
 図34は、俯角、面積および面積比の特徴量を説明するためのパルス波形図である。図34において横軸は時間、縦軸はパルス波高を示す。これら3種類のパルス特徴量は、図34に基づいて示すと以下の(5)、(6)、(7)で定義される。
 (5)俯角θは、(34A)に示すように、パルス開始からパルスピークに至る傾きであり、下記数2により定義される。
Figure JPOXMLDOC01-appb-M000002
 (6)面積mは、下記数3に示すように、単位べクトル[u]と波高ベクトル[p]との内積による面積[m]で定義される。なお、以下の説明において、変数Aのベクトル表記は[A]で示される。例えば、(34B)の10分割例に示すように、面積mは、一つの波形を所定の時間毎に10分割したときの時間区分面積hi(幅hx、高さhyとしたとき、hi=hx×hy、i=1~10)の総和を表す面積である。
Figure JPOXMLDOC01-appb-M000003
 ここで、特徴量計算の準備として、以下に定義するd次元波高ベクトル[p](=(h1,h2,・・・,hd))をあらかじめ計算して求めておく必要がある。
 図35は、波高ベクトルの取得の仕方を説明するための図である。
 (35A)に示すように、一つの波形データにつき、波長をd等分してd個のデータグループの分化が行われる。ついで、(35B)に示すように、各グループ(各分割区間)ごとに波高の値を平均化して、例えば、10等分するときには平均値A1~A10が求められる。この平均化には、波高値を規格化しない場合と、波高値を規格化する場合とを含むことができる。数3で表記した面積[m]は、規格化しない場合を示す。このようにして求めた平均値を成分とするd次元ベクトルが「波高ベクトル」と定義される。
 図36は、d次元の波高ベクトルとデータサンプリングとの関係を説明するための図である。
 (36A)に示すように、パルスデータの取得に関わるサンプリングレートが大きい場合、パルス部分におけるステップ数(データ数)Tがベクトルの次元数dを上回るので、上述の取得手順により各区分の平均値を成分した波高ベクトルを得ることができる。一方、サンプリングレートを下げていくと、パルス部分におけるステップ数Tがベクトルの次元数d(>T)を下回る事態が生ずる。T<dの場合、上述の取得手順により各区分の平均値を取得できないので、3次スプライン補間によってd次元の波高ベクトルを取得することができる。
 特徴量抽出プログラムには、波高ベクトルデータを取得するための波高ベクトル取得プログラムが含まれている。波高ベクトル取得プログラムの実行により、パルスステップ数Tがベクトルの次元数dを上回るか(T>d)同等の場合(T=d)、時間方向にd等分した各区分の平均値を求め、該平均値を成分とするd次元波高ベクトルを取得し、パルスステップ数Tがベクトルの次元数dを下回る場合(T<d)、3次スプライン補間を実行してd次元波高ベクトルを取得するようになっている。すなわち、3次スプライン補間法を用いた補間処理を行うことにより、パルスステップ数が少ない場合にもベクトルの次元数を一定にすることができる。
 (7)面積比rmは、(34B)に図示した時間区分面積hiをパルス開始からパルスピークに至るまでの区間での和の、全波形面積に対する面積比で定義される。下記数4は、面積比rmを示す。
Figure JPOXMLDOC01-appb-M000004
 第1類型の特徴量は、パルス波高、パルス波長、パルス面積等のパルス状信号の波形に一義的に由来し、局所的特徴を示す特徴量である。第2類型の特徴量は、第1類型の局所的特徴に対し全体的特徴を示す特徴量である。
 第2類型の特徴量は、
 パルス開始時点を中心にして時間区分面積を質量に、かつ該中心から時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
 時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
 前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
 波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
 波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
 波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
 波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメントのいずれかである。
 図37は、時間(波長)および波幅に関する第2類型の特徴量を説明するためのパルス波形図である。図37において横軸は時間、縦軸はパルス波高を示す。これらのパルス特徴量は、図37に基づいて示すと、以下の(8)~(15)で定義される。
 (8)時間慣性モーメントは、(34B)と同様に一つの波形を所定の時間毎にi次元で等分割したときの時間区分面積hiを質量に、かつ該中心から時間区分面積hiに至る時間を回転半径に擬制したときに定まる特徴量である。すなわち、時間慣性モーメントの特徴量は、下記数5に示すように、ベクトル[v]と波高ベクトル[p]との内積による[I]で定義される。ここで、ベクトルの次元をnとしたとき、[v]=(12,22,32,・・・n2)および[p]=(h1,h2,・・・,hd)である。例えば、時間慣性モーメントは、(37A)の10分割例に示すように、(34B)と同様に一つの波形を所定の時間毎に10分割したとき、時間区分面積hi(幅hx、高さhyとしたとき、hi=hx×hy、i=1~10)を質量に、かつ該中心から時間区分面積hiに至る時間を回転半径に擬制したときに定まる特徴量であり、(6)の面積mと同様に、波高ベクトルにより求めることができる。
Figure JPOXMLDOC01-appb-M000005
 (9)規格化された時間慣性モーメントは、(8)で示した時間区面積を作成した波形に対して波高が基準値の「1」になるように波高方向に規格化した波形を用いて、(8)と同様にして作成した波高ベクトルhiにより数5で定義される特徴量である。
 (10)平均値ベクトルは、(37B)の10分割例に示すように、一つの波形を波高方向にi次元で等分割し、パルスピーク前後それぞれにおいて各分割単位(分割領域wi)毎に時刻値の平均値を算出し、分割領域wiの同一波高位置の平均値をベクトルの成分とする特徴量である。
 (11)規格化された平均値ベクトルは、(10)の平均値ベクトルに対し波長が基準値になるように規格化した場合の特徴量である。
 (12)波幅平均値慣性モーメントは、(37B)の10分割例に示すように、一つの波形を波高方向にi次元で等分割し、パルスピーク前後それぞれにおいて各分割単位(分割領域wi)毎に時刻値の平均値を算出し、分割領域wiの同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布hi(ベクトルの次元数をnとしたとき、i=1~n)と擬制して波形裾野の時間軸Atを回転中心にした場合の慣性モーメントとして定義される特徴量である。定義式は、数5と同じであり、(12)の特徴量は、ベクトル[v]と質量分布hiとの内積により求めることができる。
 (13)規格化された波幅平均値慣性モーメントは、上記の分割領域wiを作成した波形に対して波長が基準値の「1」になるように波長方向に規格化した波形を用いて、(12)と同様にして作成した質量分布hiにより数5で定義される特徴量である。
 (14)波幅分散慣性モーメントは、波幅平均値慣性モーメントと同様に、一つの波形を波高方向にi次元で等分割し、パルスピーク前後それぞれにおいて各分割単位(分割領域wi)毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布hi(ベクトルの次元数をnとしたとき、i=1~n)と擬制して波形裾野の時間軸Atを回転中心にした場合の慣性モーメントとして定義される特徴量であり、波幅平均値慣性モーメントと同様に、数5で定義される。
 (15)規格化された波幅分散慣性モーメントは、上記の分割領域wiを作成した波形に対して波長が基準値の「1」になるように波長方向に規格化した波形を用いて、(14)と同様にして作成した質量分布hiにより数5で定義される特徴量である。
 波幅平均値慣性モーメントおよび波幅分散慣性モーメントは、上記のように、数5で定義される特徴量であり、該定義中のベクトル[p]は、波幅平均値慣性モーメントの場合、時刻値の平均値の差のベクトルであり、波幅分散慣性モーメントの場合、時刻値の分散ベクトルである。以下の説明で、(12)~(15)の波幅に関する慣性モーメントにおけるベクトル[p]を[pw]と表す。
 (12)~(15)の波幅に関する慣性モーメントのデータ作成演算には、図36に示した波高ベクトルの縦横軸を交換した波幅ベクトル[pw](=[p1,p2,・・・,pdw])を用いて行われる。波幅ベクトルは、(12)~(15)の特徴量の定義で示した平均値の差ベクトルまたは分散ベクトルである。波幅ベクトルを密度分布として捉えることによって、(12)と(13)の波幅平均値慣性モーメントおよび(14)と(15)の波幅分散慣性モーメントを求めることができる。波幅ベクトルは、パルス波形データを波高方向にdw等分し、各区分毎に求めた波高値の平均値の差または分散を成分にもつdw次元ベクトルである。(37B)の場合、波幅ベクトルの次元は10次元である。(37B)に示した時間軸Atは、ベースラインBLと異なり、波幅ベクトルから得られるパルス裾野周りの回転軸ラインである。
 図38は、dw次元の波幅ベクトルとデータサンプリングとの関係を説明するための図である。
 特徴量抽出プログラムには、以下のdw次元の波幅ベクトルの作成演算処理により波幅ベクトルを取得するための波幅ベクトル取得プログラムが含まれている。
 パルス波形データは、波高方向に様々な間隔で分布しているため、波高方向に分割した区画においてデータ点が存在しない不存在領域Bdを1または2以上含む場合が生ずる。(38A)においては、不存在領域Bdの1例を矢印で示している。不存在領域Bdは、データ間隔が粗くなってデータ点が存在せず、上記の数6で定義される波幅に関する慣性モーメントの成分を得ることができない。そこで、前述のパルス波形広がりの場合と同様に、パルスピークまでの波高をdw等分したときの各波高の時刻集合[Tk]=[[ti]|i=1,・・・,m]を収集することにより波幅ベクトルの成分が作成される。このとき、データ点が存在しない不存在領域Bdにおいては、線形補間によって成分データの取得が行われる。該線形補間は、パルスピークの(10k+5)%(k=0,1,2,3、・・・)の値をまたぐ連続した2つのデータに対して行われる。(38B)は、データ点tiとti+1の間に生じた不存在領域Bdの高さkについての線形補間点tkの一例を示している。なお、波幅ベクトルの作成に際して、(38C)に示すように、パルス波形データの裾野領域URに波高データの食い違いが生じている場合、パルスピークに近い方に揃えるように、パルスピークに遠い側の波高データDuは切り捨てられる。波幅ベクトル取得プログラムの実行処理には、不存在領域Bdに対する線形補間処理と、波高データの食い違いに対する波高データDuの切り捨て処理が含まれている。
 図39は、波幅に関する慣性モーメントを波幅ベクトルにより取得する取得過程を説明するための図である。
 (39A)は、波形を波高方向に10等分した例であり、一つの波形39aに対して、上記の線形補間処理および切り捨て処理を行うことにより得られた、波幅ベクトルの分割領域39bおよび回転軸ライン39cを示す。
 (39B)に示すように、各分割単位ごとに、パルスピーク前後それぞれにおいて時刻値の平均値を算出し、分割領域の同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルの波幅ベクトルを取得することができる。この平均値の差ベクトルを質量分布と擬制して回転軸ライン39c(時間軸)を回転中心にした(12)の波幅平均値慣性モーメントを作成することができる。また、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを取得することができる。この分散ベクトルを質量分布と擬制して回転軸ライン39c(時間軸)を回転中心にした(14)の波幅分散慣性モーメントを作成することができる。なお、(10)、(11)の平均値ベクトルは、時刻値の平均値を算出して分割領域の同一波高位置の各平均値を成分としたベクトルであり、dw等分した場合、2dw次元の時刻ベクトルで表わされる。
 特徴量の作成に用いた波高ベクトルおよび波幅ベクトルのベクトル次元数は、分割数に拘泥する必要はなく任意に設定することができる。波高ベクトルおよび波幅ベクトルは、波長ないし波高の一方向に細分化した場合であるが、特徴量の作成には、複数方向に細分化したベクトルを使用することができる。
 図40は、複数の方向に分割した場合の特徴量作成用波形ベクトルの一例を説明するための図である。
 (40A)は、一つの波形データをメッシュ状に分割したデータマップ40aを示す。データマップ40aは、波形データを横軸の時間軸方向にdn分割し、縦軸の波高方向にdw分割してマトリクス状にデータ点の数の分布状態を示す。(40B)は、マトリクス状の区画(格子)の一部を拡大した分布状態を示す。(40B)の分布状態において、11×13個の格子に0~6個のデータ点数が分布している。このマトリクス分割によって、各格子内のデータ点数/総データ点数をdn×dw次元ベクトルの成分とした波形ベクトルを、マトリクス配列のデータ群を走査状に並べ替えたベクトルに変換することにより波高ベクトルや波幅ベクトルに代えて特徴量の作成に使用することができる。
<ベースラインの推定について>
 一般に細菌等は微細に異なる形態を有する微小物体である。例えば、平均的な大腸菌の場合、2~4μmの体長で外径が0.4~0.7μmである。平均的な枯草菌の場合、2~3μmの体長で外径が0.7~0.8μmである。さらに、大腸菌などには20~30nmの鞭毛が付随している。
 検体粒子として細菌等を使用する場合には、パルス波形データから僅かの違いを見逃すと、個数判定精度の低下をもたらしてしまう。このため、特徴量を正確に算出して確率分布の推定基礎とするために、粒子通過パルス波高を正確に把握する必要があり、これには計測信号のベースラインの推定を行う必要がある。しかし、計測信号の元データのベースラインには、ノイズデータや微弱な計測電流による揺らぎが含まれているために、この揺らぎ成分等を除いたベースラインを確定してからパルス波高等を検出する必要がある。ベースラインの推定(以下、BLの推定という。)は実用上、コンピュータによりオンラインで(即時的に)行うのが好ましい。
 BLの推定をコンピュータ上で行う手法として、離散的な誤差のある観測から時々刻々変化する量を推定するに好適なカルマンフィルターを使用すれば、これにより外乱(システム雑音や観測雑音)を取り除いてベースラインBLを推定することができる。
 カルマンフィルターとは、離散的制御過程が図6の(6A)に示す線形差分方程式により定義され、更新可能な状態ベクトル[x]の時刻[t]における値を推定する手法である。カルマンフィルターにおいては、状態ベクトル[x]およびシステム制御入力[ut]の値は直接観測できないものとされる。
 状態ベクトル[x]は、図6の(6B)に示す観測モデルにより、間接的に推定されるものとする。システム制御入力[ut]については、その統計的変動幅[σu,t]のみをパラメータとして仮定する。
 本実施形態における計測電流データ[X]はベクトルではなくスカラーであり、さらに各種行列もスカラーであり、[F]=[G]=[H]=[1]とみなすことができる。したがって、時刻tの実際の電流値のベースラインレベル、時刻tで計測された電流、時刻tの観測ノイズをそれぞれ、[xt]、[yt]、[νt]とすると、[xt]および[yt]は図6の(6C)に示すように表される。[xt]、[ut]、[νt]は観測不可能な因子であり、[yt]は観測可能な因子である。イオン電流検出部による計測周波数をf(Hz)とすると時刻データは1/f(秒)刻みとなる。システム制御入力[ut]の影響は実際上非常に小さいものと仮定してベースラインの推定を行うことができる。
 図7は上記の各因子を実際の計測電流データで示した図である。イオン電流検出部による実際の計測の際には、粒子が貫通孔12に詰まったりして、ベースラインの歪みが生ずるが、計測時には歪みの発生時点で中断して、歪み原因を除去してから計測が行われるので、元のデータ集合には歪みのないベースラインを含むデータのみが収集されている。
 カルマンフィルターによる推定は予測と更新の繰返しにより行われる。ベースラインの推定にもカルマンフィルターによる予測と更新を繰返して実行される。
 図8は、カルマンフィルターにおける予測(8A)と更新(8B)の繰返しの詳細を示す図である。図8において、ベクトル表記に付加した「ハット」記号は推定値を示している。添え字の「t|t-1」は(t-1)時点の値に基づく、t時点の値の推定値であることを示している。
 図9はBL推定処理プログラムに基づくBL推定処理を示す。BL推定処理にいては、BLの推定と、それに基づくパルス波高値の抽出が行われる。
 BL推定処理の実行に際しては、カルマンフィルターにおける予測と更新の処理に必要な調整因子の開始時刻m、定数k、αの値は推定対象のデータ属性に応じて適切な値にあらかじめ調整(チューニング)して決めておく必要がある。αの値はベースラインの推定値の分散を調整するための値である。kの値は図8に示したカルマンフィルターにおける更新Aの実行回数に関係する値である(図9のステップS57、S62参照)。開始時刻mは計測サンプリングの1個分を1ステップとして計算されたステップ数分の時間データである。
 図10は該調整に使用したビーズモデルの波形図を示す。図2においては、粒子として細菌等と同程度の大きさの微小ビーズ玉を混入させた場合(ビーズモデル)の溶液状態を示している。図10の(10A)はイオン電流検出部によってサンプリング周波数900000Hzで取得した波形データである。(10A)に示すビーズモデルの波形はなだらかに減衰していく波形を示している。(10A)の右端部分に激しい落ち込みが生じており、それを拡大して(10B)に示している。
 ビーズモデルの波形から(10B)に示すベースラインの段差部分(10C)が検出された場合に、その直前期間が初期値計算期間となる。例えば、m=100000とした場合、当該初期値計算期間を除いた期間において有意性のあるパルスが11~12個目視で確認することができる。
 図12は、調整因子のm、k、αの組合せに応じてビーズモデルの波形から拾われたパルスの数を示す表である。
 図12の(12A)は、m=10000の場合のk値(10、30、50、70、90)、α値(2、3、4、6)の組合せによるパルス数を示す。同図(12B)は、m=50000の場合のk値(10、30、50、70、90)、α値(2、3、4、6)の組合せによるパルス数を示す。(12C)は、m=100000の場合のk値(10、30、50、70、90)、α値(2、3、4、6)の組合せによるパルス数を示す。
 図12の3種のシミュレーション結果を比較すると、(12A)と(12B)の場合、計測されるべきパルス数は12になり、(12C)では11となっている。したがって、実施例では、パルス数の最大値の最も小さい(12C)を採用して、m=100000、k=50、α=6のチューニング設定を行っている。これらのチューニング設定データはあらかじめRAM23の設定エリアに記憶、設定されている。
 図9のBL推定処理は上記チューニング設定下、図8に示したカルマンフィルターによるBL推定で行われる。まず、ステップS51にて、時刻mにおけるカルマンフィルターの初期値がRAM23のワークエリアに設定される。このとき、データファイル記憶部5に格納したパルス波形データはRAM23のワークエリアに読み込まれる。ついで、時刻(m+1)におけるカルマンフィルターの予測と更新(図8のAおよびB)が実行される(ステップS52)。予測と更新においては、図8に示したカルマンフィルターの各演算が実行され、RAM23に記憶される。以降、所定の単位時間毎に予測と更新(AおよびB)が繰り返し実行され、時刻tにおけるカルマンフィルターの予測と更新Aが行われたとき、下記数6の条件が満たされたか否かが判断される(ステップS53、S54)。単位時間は元データのサンプリング周波数により定まる値であり、あらかじめRAM23にセットされている。
Figure JPOXMLDOC01-appb-M000006
 数6の条件が満たされない場合、時刻tにおけるカルマンフィルターの更新Bが実行され、単位時間経過したデータ毎にステップS53~S55の処理が繰り返される。上記数6の条件が満たされた場合、その回数値が1回ごとにRAM23のカウントエリアに累積記憶される(ステップS54、S56)。ついで、該カウント値に基づき、数6の条件が時刻sを起点としてk回連続して満たされたか否かが判断される(ステップS57)。k回連続していない場合はステップS55に進み、更新Bが行われる。
 k回連続した場合はステップS58に進み、BL確定のためのホールド必要期間が開始したと判定される。このとき、ホールド必要期間のホールド開始時刻をsとしてRAM23に記憶されるとともに、時刻(s+1)~時刻(s+k-1)の間のカルマンフィルターの演算結果は記憶されずに捨てられる。
 ホールド必要期間の開始により、時刻tにおけるパルスの落ち込み最大値がRAM23に更新可能に記憶される(ステップS59)。ついで、ステップS54と同様に、ホールド必要期間における、下記数7の条件が満たされているか否かの判断が行われる(ステップS60)。
Figure JPOXMLDOC01-appb-M000007
 上記数7の条件が満たされない場合、パルスの落ち込み最大値の更新が行われる(ステップS59、S60)。数7の条件が満たされた場合、その回数値が1回ごとにRAM23のカウントエリアに累積記憶される(ステップS60、S61)。ついで、該カウント値に基づき、数7の条件が時刻s2を起点としてk回連続して満たされたか否かが判断される(ステップS62)。k回連続していない場合はステップS59に戻る。
 k回連続した場合はステップS63に進み、このとき更新記憶されたパルスの落ち込み最大値がパルス波高値の推定値としてRAM23に記憶される。パルス波高値の推定値はパルス開始時刻およびパルス終了時刻のデータとともに記憶される。パルス波高値の推定を終えると、ホールド必要期間は終了と判定される。この終了によりホールド必要期間のホールド終了時刻がs2としてRAM23に記憶される(ステップS64)。次に、ステップS65に進み、時刻sの値はカルマンフィルターの演算処理の再開時の初期値として、時刻s2~時刻(s+k-1)の期間について遡及してカルマンフィルターの演算が実行される。ステップS65の後は、全パルス波形データのBL推定処理を行ったか否かが判断されて(ステップS66)、全パルス波形データの推定完了で終了し、残データがあるときはステップS53に移る。
<特徴量抽出について>
 図13は、特徴量抽出プログラムの実行処理内容の概要を示す。
 特徴量抽出処理は、図9の上記BL推定処理の実行によってパルス波高値(波高|h|)の抽出データがあることを条件に実行可能になる(ステップS41)。パルス波高値の抽出データがある場合、前述の波高ベクトル取得プログラムおよび波幅ベクトル取得プログラムが実行されて、各種ベクトルのデータ作成演算が実行される(ステップS42)。波高ベクトルおよび波幅ベクトルの全てのデータ取得を終えると、該ベクトルデータが保存される(ステップS43、S44)。ついで、各種の特徴量の抽出処理が実行される(ステップS45)。波高ベクトルおよび波幅ベクトルのデータ取得に際しては、3次スプライン補間法を用いた補間処理、線形補間処理および切り捨て処理が随時行われる。
 図41は、特徴量の抽出処理(ステップS45)の実行処理内容を示す。ステップS71~S83は、それぞれ上記(1)~(13)で定義された第1類型および第2類型の特徴量の算出と、算出された特徴量の記憶、保存の処理を示す。
 第1類型の特徴量は、ステップS71~S76において算出される。波長(パルス幅)Δtは、パルス波高値の抽出データ群に対し時系列的に順次算出されて記憶される(ステップS71)。算出された特徴量は、RAM4の特徴量記憶用メモリエリアに記憶される。パルス幅は、Δt(=te-ts;sはパルス波形の開始時刻、teはパルス波形の終了時刻)を演算して求められる。ピーク位置比rは、パルス波高値の抽出データ群に対し時系列的に順次算出されて記憶される(ステップS72)。ピーク位置比rは、r=(tp-ts)/(te-ts)(パルス幅Δtと、パルス開始からパルスピークppに至るまでの時間(=tp-ts)との比)を演算して求められる。
 ピーク尖度κは、パルス波高値の抽出データ群に対し時系列的に順次算出されて記憶される(ステップS73)。パルス波高値|h|=1、ts=0、te=1となるように正規化し、パルスピークPPから波高30%の水平線と交差する時刻の時刻集合T=[[ti]|i=1,・・・,m]を収集して、時刻集合Tのデータの分散を演算してパルス波形広がりとしてκが求められる。
 俯角θは、パルス開始からパルスピークまでの時刻と波高のデータと、前掲の数2の演算とに基づいて求められる(ステップS74)。面積mは、波高ベクトルのデータにより求められ、時間区分面積hiを区分数に応じて求め、それらの総和を求めることにより算出、記憶される(ステップS75)。該区分数は、任意に設定可能であり、例えば、10である。面積比rmは、全波形面積と、時間区分面積hiをパルス開始からパルスピークに至るまでの区間での部分和とをそれぞれ求め、部分和の全波形面積に対する面積比を算出して記憶される(ステップS76)。
 第2類型の特徴量は、ステップS77~S82において算出される。時間慣性モーメントは、波高ベクトルのデータにより求められ、区分数に応じて求めた時間区分面積hiと、前掲の数5の演算とに基づいて算出され、記憶される(ステップS77)。(9)の規格化された時間慣性モーメントは、ステップS77において得られた時間慣性モーメントに対し波高が基準値の「1」になるように波高方向に規格化処理(波高ベクトルと規格化ベクトルの内積)した規格化データとして記憶される(ステップS78)。波幅平均値慣性モーメントは、ステップS42~S44で求めた波幅ベクトル(平均値の差ベクトル)のデータから、パルスピーク前後それぞれにおいて分割単位(あらかじめ設定された分割数:10)毎に算出した時刻値の平均値の差と、前掲の数6の演算とに基づいて算出され、記憶される(ステップS79)。(11)の規格化された波幅平均値慣性モーメントは、ステップS79において得られた波幅平均値慣性モーメントに対し波長が基準値「1」になるように波長方向に規格化処理(平均値の差ベクトルと規格化ベクトルの内積)した規格化データとして記憶される(ステップS80)。波幅分散慣性モーメントは、波幅ベクトル(分散ベクトル)のデータから、分割単位毎に算出した時刻値の分散と、前掲の数6の演算とに基づいて算出され、記憶される(ステップS81)。(13)の規格化された波幅分散慣性モーメントは、ステップS81において得られた波幅分散慣性モーメントに対し波長が基準値「1」になるように波長方向に規格化処理(分散ベクトルと規格化ベクトルの内積)した規格化データとして記憶される(ステップS82)。
 全データからの特徴量の抽出を終了すると、各データのファイル保存が行われ、別のデータ群があるか否かが判断される(ステップS83、S84)。引き続き別ファイルのデータ群があれば、上記処理(ステップS71~S82)が繰返し実行可能になっている。処理すべきデータがなくなれば特徴量の抽出処理は終了する(ステップS85)。上記の抽出処理においては、第1類型および第2類型の特徴量を全て求めるようにしているが、入力手段6の指定入力により所望の特徴量を指定可能にし、該指定による特徴量だけを抽出可能にすることができる。
 図14は、粒子種分布推定プログラムに基づいて実行される粒子種推定処理を示す。
<確率密度関数の推定について>
 同種の粒子であっても計測されるパルス波形が一定とは限らないので、粒子種分布推定のための準備として、テストデータから予め粒子種別のパルス波形の確率密度関数の推定が行われる。確率密度関数の推定により導出される確率密度関数によって各パルスの出現確率を表すことができる。
 図15の(15B)は大腸菌と枯草菌の粒子種において、パルス波形の特徴量としてパルス幅とパルス波高が用いて得られたパルス波形に対する確率密度関数のイメージ図であり、図中の濃淡によりパルスの出現確率を表している。図15の(15A)は1つの波形データに関する第1類型の特徴量の一部を示す。
 パルス幅Δtとパルス波高hの真の密度関数は未知であるので、ノンパラメトリックな確率密度関数の推定を行う必要がある。本実施形態では、カーネル関数としてガウス関数を採用したカーネル密度推定を用いている。
 カーネル密度推定とは、計測データにカーネル関数で与えられた確率密度分布を想定し、それらの分布を重ね合わせた分布を確率密度関数とみなす手法である。カーネル関数としてガウス関数を用いた場合は、各データに対して正規分布を想定し、それらを重ね合わせた分布を確率密度関数とみなすことができる。
 図16は、大腸菌と枯草菌の粒子種の個々より得られた確率密度分布の重ね合わせのイメージ図である。同図(16C)は、パルス幅Δtとパルス波高hの特徴量データ(16A)から、各粒子につき求めた確率密度分布(16B)を重ね合わせた状態を示している。
 入力データ[x]に対する確率密度関数[p(x)]は教師データ数[N]、教師データ[μi]、分散共分散行列[Σ]を用いて、下記数8で表される。
Figure JPOXMLDOC01-appb-M000008
 さらに、確率密度関数[p(x)]は下記数9に示すように、各次元のガウス関数の積で表すことができる。
Figure JPOXMLDOC01-appb-M000009
 数9からわかるように、各パルス属性が正規分布に従う独立な確率変数であると仮定していることに相当し、これは3次元以上にも同様に拡張可能である。したがって、本実施形態においては2種以上の粒子種個数の分析が可能である。
 確率密度関数モジュールプログラムは、2種の特徴量に対する確率密度関数を演算して求める機能を有する。すなわち、2つの特徴量[(β,γ)]による推定対象データを使う場合、カーネル関数としてガウス関数を採用したカーネル密度推定における確率密度関数[p(β,γ)]は下記数10で表される。
Figure JPOXMLDOC01-appb-M000010
 数10に基づいて確率密度関数モジュールプログラムにより実行される確率密度関数推定処理は後述の図20により詳述するように、2つの特徴量における確率密度関数の推定処理を行う。
 図17はk個の粒子種別の粒子総数と、粒子種別の出現確率と、データ全体の出現頻度の期待値との関係を示すイメージ図である。同図(17A)はデータ全体の出現頻度を示す。同図(17-1)~(17-k)は粒子種別の出現頻度を示す。パルス[x]が計測される出現頻度の期待値は、粒子種別の確率密度関数に従ってパルス[x]が計測される出現頻度の期待値の和となる。図17に示すように、粒子種別の粒子総数[ni]と、粒子種別出現確率[pi(x)]とから粒子種別の期待値の和として下記数11で表すことができる。
Figure JPOXMLDOC01-appb-M000011
 本実施形態においては、あらかじめ求められた粒子種別の確率密度関数の推定を行った確率密度関数データ(数9参照)が分析参照データとしてRAM23に記憶されている。粒子種別個数分析は、数11に基づいて、分析対象の全体データの出現頻度を各分析データから適合する粒子種別の個数を割り出すことにより行われる。個数分析は異なる粒子種のヒストグラム(粒子種に対する出現頻度(粒子数))を推定することにより行われる。
 図14の粒子種推定処理においては、データの編集によって特徴量によるデータファイルを作成するデータファイル作成処理(ステップS1)と、粒子数の推定処理(ステップS2)と、推定粒子種分布の算出処理(ヒストグラム作成処理)(ステップS3)が行われる。粒子数の推定処理においては、最尤法、ラグランジュ未定乗数法およびHasselblad反復法による推定手法が用いることができる。
<最尤法(maxium likelihood estimation:統計学において与えられたデータからそれが従う確率分布の母数を点推定する方法である。)について>
 今、実際のパルス推定結果として、データセット[D]=[x1,x2,x3,・・・xN]が得られているとする。推定されたj番目のパルス波高データが出現する尤度(尤もらしさ)は下記数12で表わされる。
Figure JPOXMLDOC01-appb-M000012
 するとデータセットDが出現する尤度は下記数13で表される。
Figure JPOXMLDOC01-appb-M000013
 数13の尤度を最大化する様な粒子種分布の値セット[n]=[n1,・・・,nk]Tが最も尤もらしい粒子種分布である。
<ラグランジュ未定乗数法(束縛条件のもとで最適化を行う解析学的方法であり、各束縛条件に対して未定乗数を用意し、これらを係数にする線形結合を新しい関数(未定乗数も新たな変数とする)として捉えることによって束縛問題を通常の極値問題として解く方法である。)について>
 データセットDが出現する尤度を最大化することは、データセット[D]が出現する対数尤度を最大化することに等しい。下記数14はラグランジュ未定乗数法の適否を調べるための対数尤度を導出する過程を示す。
Figure JPOXMLDOC01-appb-M000014
 数14において、途中の係数1/NNは最終式では省略している。
 ここで、粒径個数分布の値セットn=[n1,・・・,nk]Tには、「合計がNである」という制約(下記数15参照)がある。
Figure JPOXMLDOC01-appb-M000015
 したがって、最も尤もらしい粒子種分布を得るという命題は、制約付き対数尤度最大化の問題になるので、ラグランジュ未定乗数法により最適化を行うことが可能である。ラグランジュ未定乗数法により最適化を行う制約付き対数尤度最大化式を下記数16で表すことができる。
Figure JPOXMLDOC01-appb-M000016
 数16に示す制約付き対数尤度最大化式からは、図18に示す数学的導出過程を経て下記数17に示す[k]個の連立方程式を導き出すことができる。
Figure JPOXMLDOC01-appb-M000017
 数17に示す連立方程式を数値的に解くには、Hasselbladが提唱した反復法を用いて行うことができる。Hasselblad反復法によれば、下記数18の反復計算を行えばよい。この反復法の詳細は提唱論文(Hasselblad V .,1966,Estimation of parameters for a mixture of normal distributions. Technomerics,8,pp.431-444)に記述されている。
Figure JPOXMLDOC01-appb-M000018
 数18の反復計算には、市販のEMアルゴリズムのソフトウエアを利用して行われる。EMアルゴリズムは、命名の由来から明らかなように、確率分布のパラメータを、尤度関数を最大化することで計算する方法、つまり尤度関数である確率分布の期待値(Expectation)を最大化(Maximization)することができるアルゴリズムである。EMアルゴリズムによれば、求めたいパラメータの初期値を設定して、その値から尤度(期待値)を計算して、多くの場合、尤度関数の偏微分が0になる条件を使って、繰り返し計算で最大尤度のパラメータを計算することができる。EMアルゴリズムを使用して行うHasselblad反復法の演算処理は、求めるパラメータの初期値を設定して、その値から尤度(期待値)を計算し、さらに尤度関数の偏微分が0になる条件を使って繰り返し計算を行って最大尤度のパラメータを計算する工程を有する。
<粒子種推定処理について>
 図14に示した粒子種推定処理において実行可能な、データファイル作成処理(ステップS1)、確率密度関数の推定処理(ステップS2)、粒子数の推定処理(ステップS3)および推定粒子種分布の算出処理(ステップS4)を以下に詳述する。
 図19はデータファイル作成プログラムにより実行されるデータファイル作成処理(ステップS1)を示す。
 PC1の入力手段6を使用して、データファイルを作成するk個(実施例では2個)ずつの特徴量の指定操作を行うことができる。指定された特徴量の組合せ入力がRAM23に設定される(ステップS30)。特徴量の設定毎の特徴量データファイルのデータがRAM23のワークエリアに読み込まれる(ステップS31)。特徴量データファイルは、図9のBL推定処理および図13の特徴量推定処理で推定され抽出され、ファイル保存されている特徴量(パルス波高値等)データである。
 個数推定に使う特徴量をk個指定することにより、N行k列の行列データが作成される(ステップS32)。作成された行列データは、粒子種分布推定用データファイルに出力され、指定特徴量別に保存される(ステップS33)。指定特徴量に対するすべてのデータファイルの生成を終えると終了する(ステップS34)。
 図20は、確率密度関数モジュールプログラムにより実行される確率密度関数の推定処理(ステップS2)を示す。確率密度関数推定処理は、数5に基づいて2つの特徴量における確率密度関数の推定処理が行われる。
 データファイル作成処理(ステップS1)において作成された、確率密度関数推定対象のデータファイルのデータを読み込んで、N行2列の行列[D]が作成される(ステップS20、S21)。行列[D]の列ごとの下記数19に示す分散
Figure JPOXMLDOC01-appb-M000019
が算出される(ステップS22)。ついで、下記数20に示す分散パラメータが標準偏差係数cを用いて下記数21に示すように設定される(ステップS23)。
Figure JPOXMLDOC01-appb-M000020
Figure JPOXMLDOC01-appb-M000021
 分散パラメータおよび行列[D]の各行を下記数22に示す教師データとして代入されて確率密度関数が求められ、RAM23の所定エリアに記憶される(ステップS24、S25)。上記のステップS20~S25の処理は全ての処理対象データからの確率密度関数の導出を行うまで行われる(ステップS26)。
Figure JPOXMLDOC01-appb-M000022
 図21は粒子数の推定処理(ステップS3)を示す。
 まず、上記のステップS20、S21と同様に、データファイル作成処理において作成された、粒子数推定対象のデータファイルのデータを読み込んで、N行2列の行列[D]が作成される(ステップS10、S11)。行列[D]データに対して、Hasselblad反復法による推定処理が実行される(ステップS12)。
 図22は、EMアルゴリズムによって実行される、Hasselblad反復法による粒子数推定処理を示す。図23はEMアルゴリズムによる処理手順を示す。
 まず、初期値の設定(処理19A)を行った後、確率密度関数に基づく個数計算が順次実行される(処理19B)(ステップS12a、S12b)。個数計算の反復は(19C)に示す収束条件を満たすまで実行される(ステップS12c)。EMアルゴリズムの実行結果(粒子種ごとの推定個数データ)はRAM23の所定エリアに格納される(ステップS12d)。
 粒子数推定処理により得られた粒子種ごとの推定個数データは、ステップ4において、粒子種別の個数分布データに編集され、表示指定に応じて表示手段7にヒストグラム表示出力可能になる。図14では省略しているが、本実施形態においては、分散図出力の指定を受けた場合には、特徴量データによる粒子種別の分散図を表示出力可能になっている。
 図24は、本実施形態の粒子種個数分析により分析した結果の一例を示す。同図(24A)および(25B)は分析対象の粒子種である大腸菌、枯草菌の顕微鏡拡大写真である。(24C)および(25D)は特徴量としてパルス波高およびパルス尖度を注して粒子数推定処理の実行により得られた粒子種ごとの推定個数データのヒストグラム、分散図を示す。
<特徴量による粒子種個数の分析精度の検証1について>
 本発明者らは、上記実施例の大腸菌と枯草菌の計測電流データを用いて下記の評価条件下で粒子種個数の分析性能の検証1を行った。
 検証1の評価条件は以下の通りである。
 (1)大腸菌と枯草菌の1000kHz実験測定データで評価を行う。
 (2)特徴量には、波長Δt、波高h、ピーク位置比r、ピーク尖度kの4つの第1類型の特徴量を算出して用いる。
 (3)各特徴量の組合せについて個数推定処理を実施する。
 (4)大腸菌と枯草菌の実測データをランダムに学習用とテスト用に分けて推定評価する。この推定評価を10回反復して実施し、それらの平均精度と標準偏差を算出する。この場合、実際に近い精度を評価する交差検定法(cross validation)により行う。
 (5)検証粒子(大腸菌と枯草菌)の実測データの一部を個別に個数分析し、残りを所定の混合比δによりランダムに混合して検証用として、個数分析結果を比較する。ランダムデータ混合用データ混合プログラムをROM3に格納しPC1を利用してデータのランダム混合を実行して、そのランダム混合したデータに対する個数推定を行う。すなわち、図19のステップS32における行列データには、データ混合プログラムにより作成されたN行k列のランダム置換行列データを使用する。混合比δには、大腸菌の混合率として10、20、30、35、40、45、50%の7種類を使用する。BL推定用のパラメータ(調整因子)m、k、αの値はそれぞれ、100000、400、6を使用し、確率密度関数の推定用の標準偏差係数cには0.1を設定する。粒子種個数推定時の収束条件αは0.1に設定する。なお、評価に使用した上記調整因子の値には、図12で示したシミュレーション例と同様にしてより厳密な調整を行って得られた値が使用されている。
 図25の(25A)および(25B)は、特徴量としてパルス波長、波高を使用した検証例と、特徴量としてパルス波長、ピーク位置比を使用した検証例の各推定結果データを示す。
 本検証により得られた全パルスの数は大腸菌で146個、枯草菌で405個であった。
 図26の(26A)および(26B)は特徴量としてピーク付近波形の広がり、パルス波長を使用した検証例と、特徴量としてピーク付近波形の広がり、波高を使用した検証例の各推定結果データを示す。
 図26の(26A)および(26B)は特徴量としてピーク付近波形の広がり、パルス波長を使用した検証例と、特徴量としてピーク付近波形の広がり、波高を使用した検証例の各推定結果データを示す。
 粒子種別個数の評価は、図27の(27B)に示す数式で表わされる「重み付き平均相対誤差」により行うことができる。「重み付き平均相対誤差」は各粒径の相対誤差にその粒径の真の個数割合を掛けたものを、全粒径について足した数値である。
 図27の(27A)は特徴量として尖度と、パルス波高を使用した場合における個数推定結果を示す。
 図28の(28A)および(28B)は特徴量としてパルス波長、パルス波高を使用した場合における各混合比δ別の個数推定結果と、特徴量としてパルス波長、ピーク位置比を使用した場合における各混合比δ別の個数推定結果を示す。
 図29の(29A)~(29D)は大腸菌と枯草菌の混合比をそれぞれ、1:10、2:10、3:10、35:100とした場合における各個数推定結果を示すヒストグラムである。
 図30の(30A)~(30C)は、大腸菌と枯草菌の混合比をそれぞれ、4:10、45:100、1:2とした場合における各個数推定結果を示すヒストグラムである。
 図31の(31A)および(31B)は、特徴量としてパルス波長、パルス波高を使用した場合における各粒子の散布状態を合成した図である。
 図32の(32A)、(32B)および(32C)は、特徴量としてピーク付近波形の広がり、パルス波長を使用した場合、特徴量としてピーク付近波形の広がり、ピーク位置比を使用した場合、ピーク付近波形の広がり、パルス波高を使用した場合における各粒子の散布状態を合成した図である。
 上記の性能評価実験から、以下の評価結果が得られた。
 (1)図31および図32のデータ散布図では、4つの特徴量に関して、大腸菌と枯草菌の特徴は大きく重なるが、明らかな相違があることが認められる。
 (2)図27の(27A)等に示す種別個数分布の推定結果からは、この評価検証の特徴量の中でパルス波高とピーク尖度の特徴量を組み合わせた場合が最も精度がよく、重み付き平均相対誤差の評価で4~12%の分析精度を得ることができる。上記実施形態においては4種類全部の特徴量を抽出しているが、上記検証結果を踏まえて一部の特徴量(例えば、パルス波高とピーク尖度)だけを抽出して個数分析するようにしてもよい。
<特徴量による粒子種個数の分析精度の検証2について>
 本発明者らは、上記実施例の大腸菌と枯草菌の計測電流データを用いて、検証1とは別の粒子種個数の分析性能の検証2を行った。検証2においては、検証1とは異なり、第1類型および第2類型の特徴量((1)~(13)の13種類)を算出して用い、これらの組合せに係る特徴量とサンプリングデータ数との関連性および各組合せの分析性能を検証した。
 図42の(42A)および(42B)は、それぞれ、全データのうち、1MHz、500kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図43の(43A)および(43B)は、それぞれ、全データのうち、250kHz、125kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図44の(44A)および(44B)は、それぞれ、全データのうち、63kHz、32kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図45の(45A)および(45B)は、それぞれ、全データのうち、16kHz、8kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図46は、4kHzでサンプリングしたときの各特徴量組合せに関する推定評価結果を示す。これらの表中の各組合せごとの推定評価結果は、検証1の(4)と同様に交差検定法により得られた、上側に記載の平均精度と、下側に括弧書きで示した標準偏差を表す。表中の慣性I、慣性I(規格化)、慣性I w、慣性I wv、慣性I w(規格化)、慣性I wv(規格化)は、それぞれ、(8)の時間慣性モーメント、(9)の規格化された時間慣性モーメント、(10)の波幅平均値慣性モーメント、(12)の波幅分散慣性モーメント、(11)の規格化された波幅平均値慣性モーメント、(13)の規格化された波幅分散慣性モーメントの特徴量を示す。
 図47は、全サンプリングデータにおける各特徴量組合せに関する推定評価結果を示す。図48は、全データのうち1MHz~125kHzでの高密度サンプリングしたときの各特徴量組合せに関する推定評価結果を示す。図49は、全データのうち63kHz~4kHzでの低密度サンプリングしたときの各特徴量組合せに関する推定評価結果を示す。
 図50は、全サンプリングデータを使用したとき(50A)および高密度にサンプリングしたとき(50B)に高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフである。図50における上位5種の特徴量の組合せは、波長Δt-面積m、波長Δt-慣性I、ピーク位置比r-慣性I、俯角θ-慣性I、慣性I-慣性I w(規格化)である。
 図51は、低密度にサンプリングしたときに高い個数推定精度が得られる上位5種の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフ(51A)と、全サンプリングデータを使用したときの4種類の特徴量の組合せに関するサンプリング周波数-重み付き平均相対誤差(平均値)のグラフ(51B)である。図50および図51の縦軸の値は、50回の交差検定を行って得られた重み付き平均相対誤差の平均値である。51Aにおける上位5種の特徴量の組合せは、波長Δt-面積m、波長Δt-慣性I、ピーク位置比r-面積m、俯角θ-面積m、面積m-慣性I wv(規格化)である。51Bにおける4種類の特徴量の組合せは、波長Δt-面積m、波長Δt-慣性I、尖度k-波高|h|、尖度k-ピーク位置比rである。
 検証2から得られた結果は、以下の通りである。
(R1)図47および図50に示すように、全サンプリングデータを使用したときには、上位5種の組合せ、すなわち、波長Δt-慣性I、波長Δt-面積m、ピーク位置比r-慣性I、俯角θ-慣性I、慣性I-慣性I w(規格化)の特徴量の場合、高い個数推定精度を得ることができる。これらの特徴量の組合せによる個数推定精度(重み付き平均相対誤差)は、例えば、波長Δt-慣性Iで250~1000kHzのサンプリング領域において約9~10%、波長Δt-面積mで125~250kHzのサンプリング領域において約9~10%、波長Δt-慣性Iで16~63kHzのサンプリング領域において約13~15%である。
(R2)図48に示すように、全サンプリングデータより少ないが高密度なサンプリングデータを使用したときに高い個数推定精度が得られる特徴量は、上位5種の組合せで示せば、波長Δt-慣性I、波長Δt-面積m、ピーク位置比r-慣性I、慣性I-慣性I w、俯角θ-慣性Iの5種である。これらの特徴量の組合せによる個数推定精度(重み付き平均相対誤差)は、例えば、波長Δt-慣性Iで250~1000kHzのサンプリング領域において約9~10%、波長Δt-面積mで125~250kHzのサンプリング領域において約9~10%、波長Δt-慣性Iで16~63kHzのサンプリング領域において約13~15%である。
(R3)図49に示すように、高密度サンプリングデータと比べてさらに少ない低密度サンプリングデータを使用した場合に高い個数推定精度が得られる特徴量は、上位5種の組合せで示せば、波長Δt-面積m、波長Δt-慣性I、俯角θ-面積m、面積m-慣性I wv(規格化)、ピーク位置比r-面積mの5種である。これらの特徴量の組合せによる個数推定精度(重み付き平均相対誤差)は、波長Δt-慣性Iで250~1000kHzのサンプリング領域において約9~10%、波長Δt-面積mで125~250kHzのサンプリング領域において約9~10%、波長Δt-慣性Iで16~63kHzのサンプリング領域において約13~16%である。
(R4)(R1)~(R3)からわかるように、第1類型と第2類型の特徴量の組合せを使用しても高精度の個数推定を行うことができる。さらに、本発明に係る個数分析方法によれば、サンプリング数が十分に多くなくても、所定のサンプリング数が得られれば十分あるときと同程度の精度で個数分析を行うことができる。例えば、検証1で調べた尖度kとピーク位置比rとの組合せでは、12%の最大誤差を生じていたが、例えば、波長Δt-慣性Iの特徴量による場合には、全データを使用しなくとも1MHz~125kHzでの高密度サンプリングデータを使用して、つまり部分的なデータであっても個数推定処理を約9%の高精度で行うことができる。したがって、本実施形態に係る個数分析機能は、定常的な個数分析にとどまらず、例えば、緊急性を要する検疫検査や医療現場において、菌類等の粒子有無や個数の判別に即応的実施に好適な検査ツールとして使用することができる。
<個数分析処理時間の検証3について>
 個数推定には、Hasselblad法による反復計算に要する所要計算時間がかかるので、この所要計算時間とサンプリング周波数との関係について特徴量の比較検討を検証3で検証した。検証3の比較検討例には、図51の(51B)に示した、波長Δt-面積m、波長Δt-慣性I、尖度k-波高|h|、尖度k-ピーク位置比rの4種類の特徴量の組合せを使用した。これらの組合せは、他の組合せと比較して交差検定精度の良い組合せである。個数分析の計算に要する時間には、特徴量作成に要する時間と、Hasselblad法による反復計算に要する計算時間とが含まれるので、特徴量作成に要する計算時間CT1、Hasselblad法による反復計算に要する計算時間CT2およびそれらの合計計算時間CT3(=CT1+CT2)について比較検討を行った。この場合も、それぞれの所要計算時間は、50回の交差検定を行って得られた各計算時間の平均値である。
 図52は、4種類の各特徴量組合せに対する合計計算時間CT3を示すサンプリング周波数(kHz)-所要計算時間(秒)のグラフ(52A)と、各特徴量組合せに対する特徴量作成に要する計算時間CT1を示すサンプリング周波数(kHz)-所要計算時間(秒)のグラフ(52B)である。図53は、各特徴量組合せに対する計算時間CT2を示すサンプリング周波数-所要計算時間(秒)のグラフである。
 (52A)に示すように、波長Δt-面積mと波長Δt-慣性Iの特徴量組合せG1は、ほぼ同じ合計計算時間になっており、尖度k-波高|h|と尖度k-ピーク位置比rの特徴量組合せG2は、ほぼ同じ合計計算時間になっている。(52B)に示すように、特徴量組合せG1のそれぞれの特徴量作成に要する計算時間は同じであり、特徴量組合せG2のそれぞれの特徴量作成に要する計算時間は同じになっている。図53に示すように、Hasselblad法による反復計算に要する時間は、特徴量組合せG1、G2のいずれにおいても、1MHz~16kHzでのサンプリング領域において約3,5秒以下の短時間で処理可能になっている。
 検証3の特徴量組合せG1、G2の比較結果から明らかに、第1類型と第2類型の同一類型との組合せであっても異なる混合組合せであっても特徴量を使用して所要計算時間の短縮化を図ることができる。したがって、本実施形態に係る個数分析機能によれば、定常的な個数分析にとどまらず、例えば、緊急性を要する検疫検査や医療現場において、菌類等の粒子有無や個数の判別処理を迅速に行うことができる。
 以上の性能評価からわかるように、本実施形態において、ナノポアデバイス8により検出した検出信号のデータ群をベースにして、個数導出手段である粒子種分布推定プログラムの実行によって、該検出信号として得られた粒子通過に対応するパルス状信号の波形形態の特徴を示す特徴量に基づくデータ群から確率密度推定を行い、粒子種別の個数を導出することができる。したがって、本実施形態に係る個数分析機能を用いることによって、例えば、細菌や微小粒子状物質等の分析物種別に応じた個数ないし個数分布を高精度に分析することができ、個数分析検査における簡易化および低コスト化を実現することができる。ナノポアデバイス8による検出信号を個数分析装置に直接的に取り込んでデータ保存可能にすることにより、検査・分析を統合した粒子種統合分析システムを構築するようにしてもよい。
 本実施形態において、特徴量に基づくデータ群から確率密度推定を行い、粒子種別の個数を導出した結果を、出力手段である表示手段7に表示出力あるいはプリンタにプリント出力することができる。したがって、本実施形態によれば、高精度の導出結果(粒子個数、粒子個数分布、推定精度等)を、例えば、ヒストグラムや散布図の出力形態で認知可能に即応的に報知することができるので、例えば、迅速な対応を要する医療現場や検疫場における有用な検査ツールとして本実施形態に係る個数分析機能を使用することができる。
 本発明は、個数分析プログラムを搭載した特定のPC等のコンピュータ端末に限らず、該個数分析プログラムの一部ないし全部を記憶した個数分析用記憶媒体に適用することができる。すなわち、所定のコンピュータ端末に該個数分析用記憶媒体に記憶した個数分析プログラムをインストールして所望のコンピュータに個数分析動作させることができるので、簡便かつ安価に個数分析を行うことができる。本発明の適用可能な記憶媒体には、フレキシブルディスク、磁気ディスク、光ディスク、CD、MO、DVD、ハードディスク、モバイル端末等、コンピュータにより読み取り可能な記憶媒体のいずれかを選択して使用することができる。
 図56は、本実施形態に係る分類分析処理を示す。
 本実施形態に係る分類分析処理は、図54で示した分類分析方法の分類手順に従って実行可能になっている。図54のコンピュータ解析部1aは、本実施形態のPC1に対応する。分析処理の準備作業として、入力処理(ステップS100)において特徴量の指定、既知データおよび被分析データのPC1への入力が行われる。特徴量は、前述の(1)~(15)に示した第1類型および第2類型の一部または全部あるいは1以上の組合せの特徴量を該入力処理であらかじめ指定しておくことができる。例えば、大腸菌Ecおよび枯草菌Bsを、粒子種別が特定された分析物(特定分析物)とする場合、これらの特定分析物の個々につき、ナノポアデバイス8aによる計測を行って、それぞれのパルス状信号のデータが既知データとしてPC1に入力され、入力データは、RAM4の既知データ記憶用メモリエリアに格納される。特定分析物の含有状態が不明の被分析対象に対するナノポアデバイス8aによる計測を行って得られたパルス状信号のデータが分析データとしてPC1に入力され、入力データは、RAM4の分析データ記憶用メモリエリアに格納される。
 分類分析処理が起動操作により起動されると、既知データの入力有無が判別される(ステップS110)。既知データの未入力の場合、表示手段7により既知データの入力を促すガイダンス表示が行われる。図56において各種のガイダンス表示による報知処理ステップは省略している。既知データが入力されると、入力された既知データは、RAM4の既知データ記憶用メモリエリアに格納され、特徴量の作成に供される(ステップS100、S101)。
 既知データ入力がある場合、特徴量の指定があるか否かが判断される(ステップS110、S111)。特徴量の指定がある場合、RAM4の既知データによる特徴量記憶用データファイルDAから指定された特徴量のベクトル量データがRAM4の学習データ記憶エリアに取り込まれる(ステップS113)。特徴量の指定がない場合は、RAM4の既知データによる特徴量記憶用データファイルDAからすべての特徴量のベクトル量データがRAM4の学習データ記憶エリアに取り込まれる(ステップS112)。
 ついで、分析データの入力有無が判別される(ステップS114)。分析データ入力がない場合、表示手段7により分析データ入力を促すガイダンス表示が行われる。分析データが入力されると、取得した分析データはRAM4の分析データ記憶用メモリエリアに格納される(ステップS100)。分析データが入力されると、記述のように、分析データに関する特徴量が作成され、RAM4に記憶される(ステップS101)。分析データの入力がある場合、RAM4の分析データによる特徴量記憶用データファイルDBから特徴量のベクトル量データがRAM4の変数データ記憶エリアに取り込まれる(ステップS115)。
 既知データおよび分析データの入力済みで特徴量の取得状態において、分類分析の実行を促すガイダンス表示が行われる。該ガイダンス表示にしたがって所定の指示操作を行うことにより、分類分析プログラムが起動されて機械学習による分類分析の実行処理が行われる(ステップS116)。本実施形態において、例えば、ランダムフォレスト法に基づくアルゴリズムで構成された機械学習による分類分析プログラムがROM3にあらかじめ格納されている。既知データによる特徴量を学習データとし、分析データから得られる特徴量を変数にして、該分類分析プログラムを実行することによって、該被分析データにおける特定分析物に関する分類分析を行うことができる。該分類分析プログラムの実行に際しては、パルス波形を同一次元の数値ベクトルに変換し、各ベクトルがどのように異なっているかを判別することにより個別のパルスを識別して分類分析が行われる。
 本発明に係る機械学習による分類分析手法には、ランダムフォレスト法に限らず、例えば、k近傍法、ナイーブベイズ分類器、決定木、ニューラルネットワーク、サポートベクターマシン、バギング法、ブースティング法等の集団学習によるものを使用することができる。
 機械学習による分類分析の実行処理が、分析データによる特徴量のすべてについて実行されると、分類分析処理が終了し、分類分析結果の出力処理が行われる(ステップS117)。出力処理において、種別の分からない分析データの個々について、特定分析物の例示である大腸菌Ecまたは枯草菌Bsの通過に由来するものの割合である分類結果が表示手段7に表示可能になっている。出力可能な表示態様には、各分析データ毎の分類結果に限らず、大腸菌Ecまたは枯草菌Bsの該当総数、両者の該当比率等の表示態様を使用することができる。
<分類分析処理の処理精度の検証>
 上記の分類分析処理の処理精度について、種々の機械学習による分析手法を適用して分類分析を試行して本実施形態による分類分析処理の精度を検証した。
 図57の(57A)は、同図(57B)に示す分析試料を用いて、特徴量(Feature)と機械学習による分析手法のアルゴリズム(以下、分類器という。)とを種々組み合わせた場合に、本発明に係る分類分析処理(図56参照)を実行した評価結果を示す。
 分析試料は、(57B)に示すように、2種類の細菌種(大腸菌、枯草菌)である。各細菌種に対し、貫通孔12の内径が4.5Φで、貫通孔12の貫通距離(ポア深さ)が1500mmのマイクロ・ナノポアデバイス8を用いて通過波形を計測して得られたパルス状信号データを42個(大腸菌の場合、計測パルスのすべてで、枯草菌の場合、計測パルス数265個のうちの42個である。)を使用した。分類器の実行の際には、パルス状信号データのうち約9割を学習データとし、残りのデータを変数に振り分けた。
 評価項目は、(57A)に示すように、F-尺度(F-Measure)で表され、真陽性率(TPRate)、偽陽性率(FPRate)、適合率(Precision)、再現率(Recall)、F値(FMeasure)、受信者操作特性曲線面積(ROC(Receiver Operating Characteristic )curve Area)の項目からなる。
 図58は、F-尺度の説明図である。
 F-尺度は、(58A)に示すように、2種類の細菌種の実数(大腸菌の実数:P、枯草菌の実数:N)に対し、各細菌種の予想値を割り付けた場合に、各組合せにおける真陽性(TP)、偽陽性(FP)、真陰性(FN)および偽陰性(TN)の総和が1であるとして、(58B)に示すように、2TP/(2TP+FP+FN)で表される。
 この検証において、アルゴリズムが異なる67種類の分類器を用いて、各種特徴量ないし特徴量の組合せを用いて約4000種のパターンに対して分類分析を試行した。この結果、60種の特徴量の組合せに対して有意な分析結果が得られた。図57の(57A)は、この検証で得られたF-尺度の優れた上位10位内の分類結果を示す表である。
 上位10位内における特徴量には、(57A)に示すように、(1)~(11)、(14)および(15)の13種類の特徴量を並べた13次元の特徴量ベクトル(表中に「hv&F」で略記)、波高ベクトル(表中に「h」で略記)と(10)の平均値ベクトル(表中に「wV」で略記)との組合せ(表中に「h&wV」で略記)、波高ベクトルと(11)の規格化された平均値ベクトル(表中に「wNrmdV」で略記)との組合せ(表中に「h&wNrmdV」で略記)が含まれている。(57A)で最も優れた分類精度によるものは、特徴量としてh&wVの組わせを使用した、ランダムホレスト法による分類器(「4meta.Random Commitee」)による場合であり、その分類精度約98.9%の高精度であった。
 本実施形態によれば、所定の分析物を含む流動性物質に対しナノポアデバイスによる計測の結果、検出信号として得られたパルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、あらかじめ求めた特徴量を機械学習のための学習データとし、被分析データのパルス状信号から得られる特徴量を変数にして分類器を実行することによって、該被分析データにおける所定の分析物に関する分類分析を行うことができるので、高精度で分析物の識別を行って分類分析検査における簡易化および低コスト化を実現することができる。
 本実施形態において、特徴量に基づくデータ群から高精度で分析物の識別を行って得た分類分析結果を、出力手段である表示手段7に表示出力あるいはプリンタにプリント出力することができるので、例えば、迅速な対応を要する医療現場や検疫場における有用な検査ツールとして本実施形態に係る分類分析機能を使用することができる。
 本発明は、分類分析プログラムを搭載した特定のPC等のコンピュータ端末に限らず、該分類分析プログラムの一部ないし全部を記憶した分類分析用記憶媒体に適用することができる。すなわち、所定のコンピュータ端末に該分類分析用記憶媒体に記憶した個数分析プログラムをインストールして所望のコンピュータに分類分析動作させることができるので、簡便かつ安価に分析分析を行うことができる。本発明の適用可能な記憶媒体には、フレキシブルディスク、磁気ディスク、光ディスク、CD、MO、DVD、ハードディスク、モバイル端末等、コンピュータにより読み取り可能な記憶媒体のいずれかを選択して使用することができる。
 尚、本発明は上記実施形態に限定されるものではなく、本発明の技術的思想を逸脱しない範囲における種々変形例、設計変更などをその技術的範囲内に包含するものであることは云うまでもない。
 本発明によれば、例えば、細菌や微小粒子状物質等の分類分析を高精度に行うことができ、分析物の分類分析検査における簡易化、迅速化および低コスト化に寄与することができる。本発明に係る分類分析技術は、例えば、一刻を争う医療検査に有用であるとともに、感染症状が顕在化する前の微量な細菌・ウイルスの検査にも適応でき、近年注目されている先制医療に対する有力な分析技術にもなり、さらに、迅速な検査結果を必要とする食品の出荷前検査や検疫検査など広範囲に適用することができる。
1   パーソナルコンピュータ
2   CPU
3   ROM
4   RAM
5   データファイル記憶部
6   入力手段
7   表示手段
8   マイクロ・ナノポアデバイス
9   チャンバー
10  基板
11  隔壁
12  貫通孔
13  電極
14  電極
15  電源
16  増幅器
17  オペアンプ
18  凹部
19  帰還抵抗
20  電圧計
21  検体
22  大腸菌
23  枯草菌
24  電解質溶液

Claims (11)

  1.  貫通孔を形成した隔壁と、前記貫通孔を介して前記隔壁の表裏側に配置された電極とを配置し、
     粒子状または分子状の分析物を含む流動性物質を前記隔壁の一面側に供給し、
     前記分析物が前記貫通孔を通過することにより生ずる電極間の通電変化を検出した検出信号のデータの分類分析をコンピュータ制御プログラムの実行によって行う分類分析方法であって、
     前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
     所定の分析物を含む流動性物質から前記検出信号として得られた分析物通過に対応するパルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
     あらかじめ求めた特徴量を前記機械学習のための学習データとし、被分析データのパルス状信号から得られる特徴量を変数にして、前記分類分析プログラムを実行することによって、該被分析データにおける前記所定の分析物に関する分類分析を行うことを特徴とする分類分析方法。
  2.  前記特徴量は、
     前記パルス状信号の波形の局所的特徴を示す第1類型と、
     前記パルス状信号の波形の全体的特徴を示す第2類型のいずれかである請求項1に記載の分類分析方法。
  3.  前記第1類型の特徴量は、
     所定の時間幅内における波形の波高値、
     パルス波長ta
     パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
     該波形の鋭さを表す尖度、
     パルス開始からパルスピークに至る傾きを表す俯角、
     波形を所定の時間毎に区分した時間区分面積の総和を表す面積、および
     パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比のいずれかである請求項2に記載の分類分析方法。
  4.  前記第2類型の特徴量は、
     パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
     前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
     波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
     前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
     波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
     前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
     波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
     前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメントのいずれかである請求項2に記載の分類分析方法。
  5.  前記コンピュータ制御プログラムは、
     前記検出信号ないしそれに含まれる揺らぎ成分から、分析物通過のないときの基準ラインを抽出する基準ライン抽出手段と、
     前記基準ラインを基準にして所定範囲を超える信号データを前記パルス状信号のデータとして抽出するパルス抽出手段と、
     抽出した前記パルス状信号のデータから前記特徴量を抽出する特徴量抽出手段と、を含む請求項1~4のいずれかに記載の分類分析方法。
  6.  貫通孔を形成した隔壁と、前記貫通孔を介して前記隔壁の表裏側に配置された電極とを配置し、
     粒子状または分子状の分析物を含む流動性物質を前記隔壁の一面側に供給し、
     前記分析物が前記貫通孔を通過することにより生ずる電極間の通電変化を検出した検出信号のデータの分類分析をコンピュータ制御プログラムの実行によって行う分類分析装置であって、
     前記コンピュータ制御プログラムは、機械学習を用いた分類分析を行う分類分析プログラムを有し、
     所定の分析物を含む流動性物質から前記検出信号として得られた分析物通過に対応するパルス状信号の波形形態の特徴を示す特徴量をあらかじめ求め、
     あらかじめ求めた特徴量を前記機械学習のための学習データとして記憶する学習データ記憶手段と、
     被分析データのパルス状信号から得られる特徴量を変数として記憶する変数記憶手段と、を有し、
     前記分類分析プログラムを実行することによって、前記学習データおよび前記変数に基づき前記被分析データにおける前記所定の分析物に関する分類分析を行うことを特徴とする分類分析装置。
  7.  前記特徴量は、
     前記パルス状信号の波形の局所的特徴を示す第1類型と、
     前記パルス状信号の波形の全体的特徴を示す第2類型のいずれかである請求項6に記載の分類分析装置。
  8.  前記第1類型の特徴量は、
     所定の時間幅内における波形の波高値、
     パルス波長ta
     パルス開始からパルスピークに至るまでの時間tbとtaとの比tb/taで表わされるピーク位置比、
     該波形の鋭さを表す尖度、
     パルス開始からパルスピークに至る傾きを表す俯角、
     波形を所定の時間毎に分割した時間区分面積の総和を表す面積、および
     パルス開始からパルスピークに至るまでの時間区分面積の和の、全波形面積に対する面積比のいずれかである請求項7に記載の分類分析装置。
  9.  前記第2類型の特徴量は、
     パルス開始時点を中心にして前記時間区分面積を質量に、かつ該中心から前記時間区分面積に至る時間を回転半径に擬制したときに定まる時間慣性モーメント、
     前記時間慣性モーメントに対し波高が基準値になるように規格化した場合の規格化された時間慣性モーメント、
     波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値をベクトルの成分とする平均値ベクトル、
     前記平均値ベクトルに対し波長が基準値になるように規格化した場合の規格化された平均値ベクトル、
     波形を波高方向に等分割し、パルスピーク前後それぞれにおいて各分割単位毎に時刻値の平均値を算出し、同一波高位置の平均値の差をベクトルの成分とする平均値の差ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅平均値慣性モーメント、
     前記波幅平均値慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅平均値慣性モーメント、
     波形を波高方向に等分割し、分割単位毎の時刻値から分散を求め、該分散をベクトルの成分とする分散ベクトルを質量分布と擬制して波形裾野の時間軸を回転中心にしたときに定まる波幅分散慣性モーメント、および
     前記波幅分散慣性モーメントに対し波長が基準値になるように規格化した場合の規格化された波幅分散慣性モーメントのいずれかである請求項7に記載の分類分析装置。
  10.  前記コンピュータ制御プログラムは、
     前記検出信号のデータないしそれに含まれる揺らぎ成分から、分析物通過のないときの基準ラインを抽出する基準ライン抽出手段と、
     前記基準ラインを基準にして所定範囲を超える信号データを前記パルス状信号のデータとして抽出するパルス抽出手段と、
     抽出した前記パルス状信号のデータから前記特徴量を抽出する特徴量抽出手段と、を含む請求項6~9のいずれかに記載の分類分析装置。
  11.  請求項1に記載の前記コンピュータ制御プログラムを記憶したことを特徴とする分類分析用記憶媒体。
PCT/JP2017/044534 2015-12-25 2017-12-12 分類分析方法、分類分析装置および分類分析用記憶媒体 WO2018110540A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP17881653.4A EP3557225A4 (en) 2015-12-25 2017-12-12 CLASSIFICATION ANALYSIS METHOD AND DEVICE, AND ASSOCIATED RECORDING MEDIUM
CN201780077372.6A CN110178012B (zh) 2016-12-16 2017-12-12 分类分析方法、分类分析装置及分类分析用记录介质
US16/470,140 US20200251184A1 (en) 2016-12-16 2017-12-12 Classification analysis method, classification analysis device, and storage medium for classification analysis

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015254398 2015-12-25
JP2016244326A JP6719773B2 (ja) 2015-12-25 2016-12-16 分類分析方法、分類分析装置および分類分析用記憶媒体
JP2016-244326 2016-12-16

Publications (1)

Publication Number Publication Date
WO2018110540A1 true WO2018110540A1 (ja) 2018-06-21

Family

ID=67979611

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2016/087821 WO2017110753A1 (ja) 2015-12-25 2016-12-19 個数分析方法、個数分析装置および個数分析用記憶媒体
PCT/JP2017/044534 WO2018110540A1 (ja) 2015-12-25 2017-12-12 分類分析方法、分類分析装置および分類分析用記憶媒体

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/087821 WO2017110753A1 (ja) 2015-12-25 2016-12-19 個数分析方法、個数分析装置および個数分析用記憶媒体

Country Status (5)

Country Link
US (1) US11597898B2 (ja)
EP (2) EP3396354B1 (ja)
JP (3) JP6719773B2 (ja)
CN (1) CN108474726B (ja)
WO (2) WO2017110753A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020017608A1 (ja) * 2018-07-19 2020-01-23 国立大学法人大阪大学 ウイルス計測方法、ウイルス計測装置、ウイルス判定プログラム、ストレス判定方法、およびストレス判定装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11781099B2 (en) * 2015-12-25 2023-10-10 Aipore Inc. Number analyzing method, number analyzing device, and storage medium for number analysis
DE112016007312T5 (de) * 2016-10-03 2019-07-04 Mitsubishi Electric Corporation Netzwerk-bildungsvorrichtung und netzwerk-bildungsverfahren
JP7082013B2 (ja) 2018-09-04 2022-06-07 株式会社アドバンテスト 微粒子測定システム、計測装置
CN113316713A (zh) 2018-10-17 2021-08-27 贝克顿·迪金森公司 颗粒分析仪的自适应分选
EP3951372A4 (en) 2019-04-01 2022-04-13 Aipore Inc. MACHINE LEARNING PROGRAM, METHOD, AND APPARATUS FOR MEASURING, BY AN ELECTRICAL PORE RESISTANCE METHOD, A TRANSIENT CHANGE IN ION CURRENT ASSOCIATED WITH THE PASSAGE OF MEASURED PARTICLES THROUGH PORES AND FOR ANALYZING A PULSE WAVEFORM OF SAID TRANSITIONAL CHANGE
US20220155207A1 (en) 2019-05-10 2022-05-19 Aipore Inc. Particle Identification Sensor and Particle Identification Device
EP4043861A4 (en) * 2019-10-11 2022-10-12 Aipore Inc. PARTICLE IDENTIFICATION SENSOR, MEASURING INSTRUMENT, COMPUTER DEVICE AND SYSTEM
CN111999490B (zh) 2019-12-19 2021-07-30 瑞芯智造(深圳)科技有限公司 一种检测样品体系中微量蛋白的方法
FR3106412A1 (fr) * 2020-01-17 2021-07-23 Horiba Abx Sas Dispositif d’analyses médicales à traitement de signaux d’impédance
JP2021156712A (ja) * 2020-03-26 2021-10-07 株式会社アドバンテスト 微粒子測定システム、計測装置
CN111554351B (zh) * 2020-04-26 2021-05-04 深圳市儒翰基因科技有限公司 病毒识别的方法、终端及存储介质
JPWO2022024389A1 (ja) * 2020-07-31 2022-02-03

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013137209A1 (ja) 2012-03-13 2013-09-19 株式会社 東芝 一粒子解析装置および解析方法
WO2016094720A1 (en) * 2014-12-10 2016-06-16 Neogenomics Laboratories, Inc. Automated flow cytometry analysis method and system

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3961249A (en) 1973-10-15 1976-06-01 Coulter Electronics, Inc. Particle size distribution analyzation employing trailing edge differentiation
JPS5841336A (ja) * 1981-09-04 1983-03-10 Toa Medical Electronics Co Ltd 粒子分析装置
JPS5883234A (ja) * 1981-11-13 1983-05-19 Toa Medical Electronics Co Ltd 粒子分析装置
JPS58189543A (ja) * 1982-04-28 1983-11-05 Toa Medical Electronics Co Ltd 血液分析装置
JPS61153545A (ja) * 1984-12-27 1986-07-12 Toshiba Corp 粒子分析装置
JP2667867B2 (ja) * 1988-03-30 1997-10-27 東亜医用電子株式会社 粒子解析装置
JP3347495B2 (ja) * 1994-11-14 2002-11-20 シスメックス株式会社 粒子分析装置
US6337564B2 (en) * 1999-04-13 2002-01-08 Alcoa Inc. Detecting and classifying hard and soft inclusions in liquid metal
JP3611771B2 (ja) 2000-04-21 2005-01-19 シスメックス株式会社 粒子信号処理装置およびそれを用いた粒子測定装置
AU2008232616B2 (en) * 2007-03-28 2014-08-07 Bionano Genomics, Inc. Methods of macromolecular analysis using nanochannel arrays
WO2009045472A1 (en) * 2007-10-02 2009-04-09 President And Fellows Of Harvard College Capture, recapture, and trapping of molecules with a nanopore
CN101842688B (zh) * 2007-10-29 2017-02-08 希森美康株式会社 细胞分析仪及细胞分析方法
GB201113309D0 (en) * 2011-08-02 2011-09-14 Izon Science Ltd Characterisation of particles
US8702940B2 (en) * 2012-07-27 2014-04-22 International Business Machines Corporation Increased molecule capture rate into a nanopore
WO2014138253A1 (en) * 2013-03-05 2014-09-12 Arizona Board Of Regents, Acting For And On Behalf Of Arizona State University Translocation of a polymer through a nanopore
JP2015087176A (ja) * 2013-10-29 2015-05-07 シスメックス株式会社 尿検体分析装置および尿検体分析方法
WO2015099116A1 (ja) 2013-12-27 2015-07-02 株式会社堀場製作所 粒子計数方法および粒子計数装置
US9804116B2 (en) * 2014-12-26 2017-10-31 Kabushiki Kaisha Toshiba Method and device for detecting sample
JP7082013B2 (ja) * 2018-09-04 2022-06-07 株式会社アドバンテスト 微粒子測定システム、計測装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013137209A1 (ja) 2012-03-13 2013-09-19 株式会社 東芝 一粒子解析装置および解析方法
WO2016094720A1 (en) * 2014-12-10 2016-06-16 Neogenomics Laboratories, Inc. Automated flow cytometry analysis method and system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HASSELBLAD V.: "Estimation of parameters for a mixture of normal distributions", TECHNOMERICS, vol. 8, 1966, pages 431 - 444
See also references of EP3557225A4

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020017608A1 (ja) * 2018-07-19 2020-01-23 国立大学法人大阪大学 ウイルス計測方法、ウイルス計測装置、ウイルス判定プログラム、ストレス判定方法、およびストレス判定装置
JPWO2020017608A1 (ja) * 2018-07-19 2021-08-02 国立大学法人大阪大学 ウイルス計測方法、ウイルス計測装置、ウイルス判定プログラム、ストレス判定方法、およびストレス判定装置
EP3825682A4 (en) * 2018-07-19 2021-08-25 Osaka University VIRUS MEASUREMENT METHOD, VIRUS MEASUREMENT DEVICE, VIRUS DETERMINATION PROGRAM, STRESS DETERMINATION METHOD AND STRESS DETERMINATION DEVICE
JP7194458B2 (ja) 2018-07-19 2022-12-22 国立大学法人大阪大学 ウイルス計測方法、ウイルス計測装置、およびストレス判定装置

Also Published As

Publication number Publication date
EP3396354A4 (en) 2019-08-28
JP6971499B2 (ja) 2021-11-24
EP3557225A4 (en) 2020-02-26
US20190257787A1 (en) 2019-08-22
CN108474726A (zh) 2018-08-31
JP2020173259A (ja) 2020-10-22
JP2017120257A (ja) 2017-07-06
JP6719773B2 (ja) 2020-07-08
EP3396354A1 (en) 2018-10-31
US11597898B2 (en) 2023-03-07
EP3557225A1 (en) 2019-10-23
EP3396354B1 (en) 2022-08-17
WO2017110753A1 (ja) 2017-06-29
JP6621039B2 (ja) 2019-12-18
CN108474726B (zh) 2021-10-22
JPWO2017110753A1 (ja) 2018-10-25

Similar Documents

Publication Publication Date Title
WO2018110540A1 (ja) 分類分析方法、分類分析装置および分類分析用記憶媒体
WO2018207524A1 (ja) 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体
CN110178012B (zh) 分类分析方法、分类分析装置及分类分析用记录介质
JP7086803B2 (ja) 異常検知装置、異常検知方法及びプログラム
JP5403621B2 (ja) 匂い識別方法
Ahmadou et al. Reduction of drift impact in gas sensor response to improve quantitative odor analysis
AU2020203717A1 (en) Detecting a transient error in a body fluid sample
CN114880940A (zh) 基于多域分析和人工神经网络的压实质量检测方法及装置
CN105223140A (zh) 同源物质的快速识别方法
TWI595229B (zh) 訊號分析裝置、訊號分析方法及電腦程式產品
KR101290928B1 (ko) 음질인자를 이용한 고장 진단 장치 및 방법
JP2004510974A (ja) 異常な粒子集団を分析する為の方法
US11781099B2 (en) Number analyzing method, number analyzing device, and storage medium for number analysis
San Millán-Castillo et al. A practical method for vibration frequency response characterization of handheld probes using Bootstrap in building acoustics
Barros et al. Application of a computer sound card for measurement of mechanical vibrations
EP4339602A1 (en) Method of performing machine learning of a small angle x-ray scattering measurement data analysis model
JP6678177B2 (ja) 二項分類に対するエキスパート判断のキャラクタライゼーションおよび再現
CN111077346A (zh) 基于微悬臂梁的土壤湿度监测方法、装置、设备及介质
JP2892746B2 (ja) 粒子測定方法
Brock et al. Toolbox for chemical acoustic emission data acquisition and analysis
Szczurek et al. Semi-quantitative Monitoring of VOCs Emission Decay based on Gas Sensor Array and Graphical Display
Mastrofini Curve fitting and compensation for impedance cytometry signals
WO2008056693A1 (fr) Procédé de traitement de données de micro-réseau d&#39;adn, dispositif de traitement et programme de traitement

Legal Events

Date Code Title Description
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17881653

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017881653

Country of ref document: EP

Effective date: 20190716