WO2020202446A1 - 細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置 - Google Patents

細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置 Download PDF

Info

Publication number
WO2020202446A1
WO2020202446A1 PCT/JP2019/014544 JP2019014544W WO2020202446A1 WO 2020202446 A1 WO2020202446 A1 WO 2020202446A1 JP 2019014544 W JP2019014544 W JP 2019014544W WO 2020202446 A1 WO2020202446 A1 WO 2020202446A1
Authority
WO
WIPO (PCT)
Prior art keywords
host
teacher
machine learning
feature amount
particles
Prior art date
Application number
PCT/JP2019/014544
Other languages
English (en)
French (fr)
Inventor
典彦 直野
Original Assignee
アイポア株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイポア株式会社 filed Critical アイポア株式会社
Priority to US17/440,486 priority Critical patent/US20220155277A1/en
Priority to EP19923152.3A priority patent/EP3951372A4/en
Priority to JP2021511812A priority patent/JP7309227B2/ja
Priority to PCT/JP2019/014544 priority patent/WO2020202446A1/ja
Publication of WO2020202446A1 publication Critical patent/WO2020202446A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/1031Investigating individual particles by measuring electrical or magnetic effects
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • G01N27/416Systems
    • G01N27/4161Systems measuring the voltage and using a constant current supply, e.g. chronopotentiometry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/1031Investigating individual particles by measuring electrical or magnetic effects
    • G01N15/12Investigating individual particles by measuring electrical or magnetic effects by observing changes in resistance or impedance across apertures when traversed by individual particles, e.g. by using the Coulter principle
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N2015/0038Investigating nanoparticles

Definitions

  • the present invention relates to a machine learning program, a method, and an apparatus for measuring a transient change of an ion current accompanying a passage of a particle to be measured by a pore electric resistance method and analyzing a pulse waveform thereof.
  • the conventional pore electrical resistance method described in these patent documents utilizes a sensor having a structure in which two chambers are connected by pores.
  • an electrolytic solution containing particles
  • a voltage is applied between the two electrodes in contact with the electrolytic solution in each chamber, an ionic current flows.
  • the charged particles move by electrophoresis or the like and pass through the pores.
  • the electrical resistance between the two electrodes changes transiently. This transient current change is extracted as a pulse waveform, and the waveform information is analyzed by a machine learning program to identify the type of particles that have passed through the pores.
  • Supervised learning is used for such machine learning, and it is performed by two steps, first learning and second identification.
  • Learning which is the first step, is performed as follows, for example.
  • a particle sample of a known type is introduced into an electrolytic solution, and one waveform is obtained each time one of these particles passes through the pores.
  • a large number of waveforms are usually obtained by one measurement. Therefore, in the machine learning program in the pore electrical resistance method, the teacher features extracted from a large number of waveform information obtained in this way are used as teacher data, and the type of this sample is used as the correct label for all the waveform information. Then, the optimization parameters of the machine learning model are calculated so that the error function is minimized.
  • the second step, identification is performed, for example, as follows.
  • a sample containing unknown particles is introduced into an electrolytic solution to obtain a pulse of unknown particles.
  • the machine learning program gives the feature quantities to be analyzed extracted from each of the waveforms obtained here to the machine learning model having the optimization parameters calculated in step 1, so that each particle that has passed through the pores can be transferred.
  • the probability of being the same type as the particle is calculated as a teacher label. According to the combination of the pore electric resistance method and machine learning, it is possible to identify each type of particles to be analyzed in this way.
  • Non-Patent Document 1 the accuracy of identification has been evaluated by the following cross-validation.
  • this group of X-type virus particles is introduced into an electrolytic solution, and a pulse caused by the passage of X-type particles through the pores by the pore electrical resistance method. Get a swarm.
  • a virus strain known to be Y-type is propagated by culturing, and then this Y-type virus particle group is introduced into an electrolytic solution, and the Y-type particles pass through the pores by the pore electrical resistance method. Acquire the resulting pulse group.
  • a part of the X-type particle pulse group and a part of the Y-type particle pulse group are divided into teacher data and the rest into test data.
  • the teacher label "X” is attached to the pulse group of the X-type particles divided as the teacher data
  • the teacher label "Y” is attached to the pulse group of the Y-type particles divided as the teacher data, and they are input to the machine learning model. Calculate machine learning optimization parameters.
  • each of the pulses divided as the remaining test data is input to a machine learning model having parameters optimized by the teacher data, and the test is performed.
  • the true correct answer of this machine learning model without using a lot of measurement data by performing the test multiple times and averaging the correct answer rate while changing the separation of the teacher data and the test data of the acquired pulse group. It is possible to derive a correct answer rate close to the rate.
  • the first reason is that the pulse used for learning and the pulse used for the test are pulse points obtained by one measurement.
  • the identification of micron to nano-sized particles such as real viruses and bacteria learning and identification cannot be performed with the pulse group obtained by one measurement.
  • the correct answer particle type is not known, so if the measurement is for a particle with a correct answer label that can be learned, it is not necessary to identify the particle. Practically, the pulse measurement for learning and the pulse measurement for identification must be different.
  • the second reason is that the pulse in learning and the pulse used in the test were generated in the same environment. This cannot happen in real particle identification either.
  • the virus is of the same type, the shape and surface charge state of the virus obtained by culturing using a developing chicken egg and the virus collected from the human body are different.
  • the virus is of the same type, it is highly possible that the virus has different properties depending on the host.
  • allogeneic viruses generated in different environments must be able to be identified as allogeneic, and allogeneic viruses with different hosts must be able to be identified as allogeneic.
  • the present invention has been made in view of such circumstances, and in the embodiment of the present invention, the following aspects that can be used for clinical examination can be provided by using a pulse by the pore electrical resistance method.
  • a sensor having a structure in which two chambers filled with an electrolytic solution containing particles are connected by pores through which particles can pass, and each of the two chambers has an electrode in contact with the electrolytic solution.
  • Machine learning is performed using the feature amount extracted from the pulse waveform that represents the transient change of the ion current flowing between the electrodes when a voltage is applied between the electrodes of the sensor and the particles pass through the pores as training data and analysis target data.
  • the device includes storage means The storage means Machine learning program and Searcher and A host attribute table that stores the host attribute information of the particle in association with the host ID that identifies the host of the particle, It has a feature amount group extracted from the pulse waveform output by the sensor and a feature amount table that stores grain type information indicating the particle type in association with the host ID.
  • the search device searches the host attribute table using the first host attribute information as a search key, and extracts the first host ID and the second host ID associated with the first host attribute information.
  • the search device searches the feature amount table using the first host ID as a search key to extract a first teacher feature amount group obtained from the first known particles belonging to the first type, and also It is configured to search the feature amount table using the second host ID as a search key and extract a second teacher feature amount group obtained from the second known particles belonging to the first type.
  • the machine learning program learns the first teacher feature group and the second teacher feature group together as teacher data, and the first grain type information representing the first type as a teacher label. It is configured to calculate machine learning optimization parameters.
  • the unknown particle belongs to the first type by using the machine learning optimization parameter with the analysis target feature amount group obtained from the unknown particle having the first host attribute information as an input value by the machine learning program.
  • a device characterized in that it is configured to determine whether or not it is present.
  • the transient change of the ion current flowing between the electrodes when the known particles pass through the pores is acquired as a teacher waveform, the teacher feature amount is extracted from the teacher waveform, and the teacher feature amount is extracted.
  • the machine learning optimization parameters are calculated by learning the learning data and the known particle types as teacher data.
  • a voltage is applied between the electrodes of the sensor, the transient change of the ion current between the electrodes when unknown particles pass through the pores is acquired as the waveform to be analyzed, and the feature quantity to be analyzed and machine learning extracted from the waveform to be analyzed.
  • a machine learning program that identifies the type of unknown particles using optimization parameters. From the first teacher features derived from the first host and obtained from the first known particles belonging to the first type, and from the second known particles originating from the second host and belonging to the first type. The obtained second teacher feature amount is used as training data, and the machine learning optimization parameter is calculated by learning the first teacher feature amount and the second teacher feature amount together as teacher data. Using the first analysis target feature amount obtained from the first unknown particle generated from the third host as an input value and using the machine learning optimization parameter, the first unknown particle is classified into the first type.
  • a machine learning program that determines which belongs.
  • the transient change of the ion current flowing between the electrodes when the known particles pass through the pores is acquired as a teacher waveform, the teacher feature amount is extracted from the teacher waveform, and the teacher feature amount is extracted.
  • the machine learning optimization parameters are calculated by learning the learning data and the known particle types as teacher data.
  • a voltage is applied between the electrodes of the sensor, the transient change of the ion current between the electrodes when unknown particles pass through the pores is acquired as the waveform to be analyzed, and the feature quantity to be analyzed and machine learning extracted from the waveform to be analyzed.
  • a machine learning program that identifies the type of unknown particles using optimization parameters.
  • a first teacher feature group derived from a first host having a first host attribute and obtained from a first known particle belonging to the first type and a first host attribute representing the first host attribute.
  • a second representing the information and the second teacher feature group and the second host attribute generated from the second host having the second host attribute and obtained from the second known particle belonging to the first type.
  • the machine learning optimization parameter is calculated by learning the host attribute information of 2 as teacher data and the first grain type information representing the first type as a teacher label.
  • the machine learning using the first analysis target feature quantity group obtained from the unknown particle generated from the third host having the third host attribute and the third host attribute information representing the third host as input values.
  • a machine learning program characterized in that it is determined whether or not the unknown particle belongs to the first type by using an optimization parameter.
  • FIG. 3 An example of the configuration of the information terminal shown in FIG. 3 is shown.
  • An example of the configuration of the server included in the machine learning system of FIG. 3 is shown.
  • the flow chart of the information processing of learning which can be performed by a certain embodiment of this invention is shown.
  • An example of the feature table is shown.
  • An example of the host attribute table is shown.
  • An example of information processing related to identification following the information processing of FIG. 6 is shown.
  • FIG. 1 schematically shows an example of the structure of the sensor module by the pore electrical resistance method.
  • the sensor modules 101 to 103 have two pores 140 formed by processing an electrolytic solution introduction port 111 and 121, chambers 110 and 120, a silicon wafer 141 and a thin film (membrane) 142 formed on the silicon wafer 141, respectively.
  • the partition 130 separating the chambers, the electrodes 112 and 122 in the chambers 110 and 120, the power supply 152 that gives a potential difference to these electrodes, the ammeter 151 that measures the ion current flowing between these electrodes, and the amplifier 150 that amplifies the signal. Consists of.
  • the chamber may be a microchamber.
  • the number of each section shown in FIG. 1 means a component of a sensor having the same structure, and does not indicate only a part of a specific sensor module.
  • an electrolytic solution containing the identification target particle 190 is introduced from the introduction port 111 or 121 and filled into the chambers 110, 120 and the pores 140.
  • the particles to be identified may be in both chambers 110 and 120, or may be in only one of them.
  • the power supply 152 then applies a voltage between the electrodes 112 and 122.
  • the particles 190 to be measured in the charged chamber move from the chamber 110 to the chamber 120 via the pores 140 by the voltage, for example. At this time, the ionic current between the electrodes 112 and 122 is reduced by excluding the electrolytic solution in the pores 140.
  • FIG. 1 is merely an example of a sensor structure that can be used in the embodiment of the present invention, and is a sensor capable of performing particle identification by machine learning using the transient time change of the current by the pore electrical resistance method. You can use anything you have.
  • FIG. 2 shows a schematic example of the pulse waveform detected by the sensor modules 101 to 103.
  • the horizontal axis represents time
  • the vertical axis represents ion current flowing between the electrodes 112 and 122.
  • the current value 201 is a state in which the particles to be identified are separated from the pores 140 in the chamber 110
  • the current value 202 is a state in which the ions in the pores 140 are excluded by the particles when passing through the pores 140, so that the current value decreases.
  • the current value 203 corresponds to the state in which the particles are separated from the pores 140 in the chamber 120 after passing through the pores 140.
  • a large number of pulse waveforms as illustrated in FIG. 2 can be observed in one measurement.
  • FIG. 3 shows an example of a machine learning system (or device) according to the embodiment of the present invention.
  • the term "device” as used herein may be considered to collectively (including) a plurality of hardware included in the system, or may be a term that refers to only one of the hardware.
  • the pulse waveform due to the transient change of the ion current generated in the sensor modules 101 to 103 is sent to the measuring instrument 320 which is responsible for amplification, measurement of the current value, and digitization.
  • the measuring instrument 320 may provide the amplifier 150, the ammeter 151, and the power supply 152 in FIG.
  • the pulse waveform converted into a digital signal is sent to the information terminal 340.
  • FIG. 3 shows an example of a machine learning system (or device) according to the embodiment of the present invention.
  • the term “device” as used herein may be considered to collectively (including) a plurality of hardware included in the system, or may be a term that refers to only one of the hardware.
  • the information terminal 340 is connected to the server 360 via the network 399 (that is, the information terminal 340 may be a client terminal).
  • the network 399 may be a wireless network or a wired network.
  • the information terminal 340 may be a mobile terminal capable of connecting to a wireless network.
  • the machine learning program according to the embodiment of the present invention which will be described later, may be implemented on the information terminal 340 or the server 260. Further, the system configuration for acquiring the pulse waveform used by the machine learning program is not limited to that shown in FIG. 3, and any configuration may be used. The dotted line shown in FIG.
  • the sensor modules 101 to 103 are appropriately reconnected and used, and the sensor modules 101 to 103 are not used by being connected to the measuring instrument 320 at the same time. It means that it may be. However, in another embodiment, a measuring instrument that can be used by connecting a plurality of sensor modules at the same time may be used.
  • FIG. 4 shows an example of the configuration of the information terminal 340 shown in FIG.
  • the information terminal 340 extracts the feature amount and the learning / discrimination is performed by another device.
  • the feature amount extraction and learning / discrimination may be performed by a device other than the information terminal 340, or the information terminal 340 may perform both the feature amount extraction and learning / discrimination.
  • the information terminal 340 may have a processor 410, a memory 430, a storage 420, a display 440, an I / O (input / output means) 450, and a network I / O 460.
  • the processor 410 may be single-core or multi-core, and may physically include a plurality of processors.
  • the I / O 450 receives the digitized pulse waveform information received from the measuring instrument 320 (via the keyboard 551, the optical sensor 552, etc.) and stores it in the storage 420.
  • the processor 410 can read and use any or all of the feature amount extractor (feature amount extraction program) 411, the learner 412, and the searcher 413 as software from the storage 420 or the memory 430 or other storage means. .. In the example shown in FIG. 4, the processor 410 reads the feature extractor 411, and the learner 412 and the searcher 413 surrounded by the dotted line do not have to read.
  • the feature amount extractor 411 read into the processor 410 extracts the feature amount (feature value) from the pulse waveform information.
  • the feature amount referred to here is a set of values expressing the features of the pulse waveform extracted from the pulse waveform and used as teacher data or identification data for machine learning.
  • a set of features generated from a one-pulse waveform is referred to as a feature set (feature group).
  • feature set group a set of features generated from a one-pulse waveform.
  • the feature extractor 411 since a plurality of pulse waveform information is observed in one measurement, the feature extractor 411 generates a large number of feature sets (also referred to as "feature set group") for the number of observed pulses. I often do it.
  • the storage 420 shows a case where the table does not have to be held.
  • the storage 420 may hold the feature table 421 and / or the host attribute table 422 surrounded by a dotted line.
  • the feature amount (group) extracted from the pulse waveform accompanying the pore passage of the known particle is the teacher feature amount (group), and the feature amount (group) extracted from the pore passage of the unknown particle is the feature amount to be analyzed. Called (group).
  • FIG. 5 shows an example of the configuration of the server 360 included in the machine learning system of FIG.
  • the server 360 may have a processor 510, memory 520, storage 530, display 540, and network I / O 550.
  • the processor 510 may be single-core or multi-core, and may physically include a plurality of processors.
  • the network I / O 550 receives the host ID, the teacher label indicating the type of known particles, and the teacher feature amount set from the information terminal 340 and stores them in the storage 530.
  • the processor 510 can read and use any or all of the learner 511 as software, the feature extractor 512, and the searcher 513 from the storage 530 or the memory 520 or other storage means. In the example shown in FIG.
  • the processor 510 is reading the learner 511 and the searcher 513.
  • the learner 511 in the processor 510 calculates the machine learning optimization parameters using the teacher label and the teacher feature set.
  • Machine learning optimization parameters are a group of parameters optimized to maximize the probability that the output obtained by inputting a teacher feature set into a machine learning algorithm matches the true value of the teacher label. It is a generic term.
  • the machine learning algorithm used in the present invention may be, for example, deep learning model, ensemble learning by decision tree, k-nearest neighbor method, support vector machine, or ensemble learning of a part thereof, or is not limited thereto. It can be any mathematical model.
  • the storage 530 can hold the feature amount table 531 and the host attribute table 532, and the optimization parameter table 533. The role of these tables will be described in detail later.
  • the host ID is an ID for specifying the place where the known particles to be the teacher and the unknown particles to be analyzed are generated, the environment, the generation process, the production conditions, and the like.
  • the particle when the particle is a virus, it may be an ID that identifies the living body from which the virus was generated.
  • a host ID is assigned to each of the virus particles collected from patient A and the virus particles collected from patient B in order to distinguish them.
  • the use of the host ID is not limited to the distinction of the individual from which the particle is derived, but may be used to distinguish part or all of the information regarding the place where the particle was generated, the environment, the method of generation, the process of formation, and the like.
  • the server 360 After calculating the machine learning optimization parameters, the server 360 receives the host ID of the unknown particle and the feature amount set to be analyzed from the network I / O 550 and stores them in the storage 530. Then, the received analysis target feature set is input to the machine learning algorithm having the machine learning optimization parameter, and the probability that the particle from which the analysis target feature set is derived is the same type of particle as the teacher label is calculated. calculate. From this, the type of unknown particle can be estimated.
  • One set of features to be analyzed is generated for each pulse waveform generated by the passage of one particle through the pores. Therefore, according to this method, it is possible to estimate what the particles are for each particle that passes through the pores.
  • the particles are described as viruses, and the host ID is described as an ID for identifying the living body from which the virus was collected, but these are only examples, and the particles are pore-electric. Any particle that can be measured by the resistance method may be used, and the host ID may be any information that can specify the place where the particle was generated, the environment, the production method, the generation process, the production condition, and the like.
  • FIG. 6 shows a flow chart of learning information processing that can be performed in the embodiment of the present invention.
  • the components shown in FIGS. 1, 3, 4, and 5 will be cited and described as examples. Of course, in another embodiment, another component may be used.
  • an electrolytic solution containing virus particles is generated from the first sample of the first known particles collected from the first living body, and this is introduced into the sensor module 101.
  • a voltage is applied to the electrodes of the sensor module 101, a transient change in the ion current occurs each time the virus particles pass through the pores, which is amplified and digitized by the measuring instrument 320 and sent to the information terminal 340 as the first pulse waveform.
  • the I / O 450 receives this, it sends it to the storage 420.
  • the information terminal 340 uses the keyboard 551 to provide information indicating the type of the first known particle, the first host ID for identifying the first living body, and the first host attribute information indicating the attributes of the first host.
  • step S602 It is acquired from the sensor 552 and the like, and these are stored in the storage 420 via the I / O 450 (step S602).
  • the information terminal 340 acquires this information from the keyboard or the optical sensor, but it may be acquired via the network I / O 450 via the network.
  • Information indicating the type of known particles is referred to as a teacher label below. Since a sample usually contains a large number of particles, a large number of pulse waveforms can be obtained from one measurement. Therefore, in step S601, a plurality of pulse waveforms are stored. Hereinafter, this is referred to as a first pulse waveform group.
  • the processor 410 inputs the first pulse waveform group to the feature extractor 411, and generates a first feature set from each of the first pulse waveform groups. As many feature sets as the number of first pulse waveforms are generated (step S603). Hereinafter, these sets are referred to as the first feature set group.
  • the network I / O 460 sends the first teacher feature set group, the first teacher label, the first host ID and the first host attribute information to the server 360 via the network 399.
  • the server 360 stores these information received by the network I / O 550 in the feature amount table 531 and the host attribute table 532 of the storage 530 by the processor 510 (step S604).
  • each feature amount 711 to 713, and the like are stored in association with the host ID that identifies the host (the heading row 710 is described for each column).
  • a pulse depth of 711 in nanoamperes, a pulse width of 712 in microseconds, a pulse skewness of 713 as a percentage, etc. are used as features, and these sets are used as the respective host ID and teacher. It is stored in association with the label.
  • the pulse depth 711 in the example of FIG. 7 is, for example, the depth from the baseline to the deepest part in the pulse of FIG.
  • the pulse skewness 713 is, for example, the degree of asymmetry of the pulse of FIG.
  • the type of feature amount that can be used in the embodiment of the present invention is not limited to the example of FIG. 7, and may be any amount as long as it represents the feature of the teacher pulse waveform and the pulse waveform to be analyzed.
  • a teacher feature set of one pulse waveform is a set of values stored in row 722.
  • a plurality of pulse waveforms are acquired from a sample obtained from a living body represented by the host ID 720 of the first living body and known to contain particles having the teacher label 721. I understand. Then, the teacher feature sets 722, 723, 724, ... Obtained from each pulse waveform in association with the host ID 720 and the teacher label 721 are stored.
  • the server 360 can receive the attribute information for each host from the information terminal 340 and store it in the host attribute table 532 in association with the host ID.
  • FIG. 8 shows an example of such a host attribute table.
  • gender 851, age 852, region 853, etc. related to the living body that was the host in association with the host ID are stored in each column (see heading row 810).
  • the host attribute information that can be used in the embodiment of the present invention is not limited to the example shown in FIG. 8, and may be any information that expresses the host attribute.
  • the types of tables edited and managed by the information terminal and the server may be different from the above example, the storage means may be the same or distributed, and physical. It does not matter if they are separate.
  • the sensor then also processes a second sample of the second known particle collected from the second living body. That is, an electrolytic solution containing virus particles is generated from the second sample of the second known particles collected from the second living body, and this is introduced into the sensor module 102.
  • a voltage is applied to the electrodes of the sensor module 102, a transient change in the ion current occurs each time the virus particles pass through the pores, which is amplified and digitized by the measuring instrument 320 to the information terminal 340 as a second pulse waveform. It is sent (step S601). For example, in the example shown in FIG.
  • a sample containing the first known particle is introduced into the sensor module 101, and a sample containing the second known particle is introduced into the sensor module 102, respectively, and the pulse waveform and the feature amount are extracted. Can be done.
  • the dotted line in the example of FIG. 3 indicates that these sensor modules are not always connected to the measuring instrument 320 at the same time. In another embodiment, these plurality of sensor modules may be connected to the measuring instrument 320 at the same time.
  • steps S601 to S604 are executed for the second known particles in the same manner as for the first known particles.
  • the feature amount table 531 is associated with the second host ID to provide the second teacher feature amount set group
  • the host attribute table 532 is associated with the second host ID to provide the second host attribute information.
  • the first host ID is 720
  • the second host ID is 730
  • the first teacher label is 721
  • the second teacher label is 731.
  • the processor 510 inputs the teacher label stored in the feature amount table 531 and the stored teacher feature amount set together as teacher data to the learner 511.
  • the learner 511 optimizes a number of machine learning parameters of the learner 511 itself so as to minimize the error function.
  • the machine learning parameters optimized here are called machine learning optimization parameters.
  • the processor 510 stores the calculated machine learning optimization parameters in the optimization parameter table 533 (step S605).
  • FIG. 9 shows an example of information processing related to identification following the information processing of FIG.
  • an electrolytic solution containing virus particles is generated from a third sample of unknown particles collected from a third living body that was not used in the process of FIG. 6, and this is introduced into the sensor module 103. ..
  • a voltage is applied to the electrodes of the sensor module 103, a transient change in ion current occurs each time an unknown particle passes through the pores, which is amplified and digitized by the measuring instrument 320 to form an information terminal as a third pulse waveform group. It is sent to 340 (step S901).
  • the first sample containing the first known particle is in the sensor module 101
  • the second sample containing the second known particle is in the sensor module 102
  • the third sample containing the unknown particle is included.
  • the dotted line in the example of FIG. 3 indicates that these sensor modules are not always connected to the measuring instrument 320 at the same time.
  • these plurality of sensor modules may be connected to the measuring instrument 320 at the same time.
  • the I / O 450 When the I / O 450 receives the third pulse waveform group, it sends it to the storage 420. Further, the information terminal 340 acquires the third host ID that identifies the third living body and the third host attribute information that represents the attributes of the third host from the keyboard 551, the optical sensor 552, and the like, and via the I / O 450. Then, these are stored in the storage 240 (step S902). Since a sample usually contains a large number of particles, a large number of pulse waveforms can be obtained from one measurement. Therefore, a plurality of pulse waveforms are stored. Hereinafter, these are referred to as a third pulse waveform group.
  • the processor 410 inputs a third pulse waveform group to the feature extractor 411, and generates a feature set to be analyzed from each of the third pulse waveform groups. From the third pulse waveform group, the same number of feature sets as the number of pulses is generated (step S903). Since there are a plurality of feature sets, these are referred to as a third feature set group below.
  • the feature amount extracted from the third sample is referred to as an analysis target feature amount in the sense that it is a feature generated from an unknown particle to be analyzed.
  • the network I / O 460 sends the analysis target feature amount set group, the third host ID, and the third host attribute information to the server 360 via the network 399.
  • the server 360 stores these information received by the network I / O 550 in the feature amount table 531 and the host attribute table 532 of the storage 530 by the processor 510 (step S904).
  • host ID 740 is the host ID of a third host from which unknown particles were generated. Since it is an unknown particle, there is no teacher label (the corresponding cell indicated by 741 is blank).
  • the feature amount set groups 742 to 744 are analysis target feature amount set groups generated from the third waveform pulse group.
  • the teacher feature amount set group and the analysis target feature amount set group are stored in the same feature amount table, but in another embodiment, the teacher feature amount set group and the analysis target feature amount set group are stored. May be stored in another table.
  • the processor 510 inputs the machine learning optimization parameter stored in the optimization parameter table 533 in step S605 and the analysis target feature amount set group stored in the feature amount table in step S904 to the learner 511. Then, the learner 511 calculates the probability that each pulse is the same type of pulse as the first known sample for each unknown particle pulse (step S905). In this method, a large number of pulse waveforms of unknown particles are usually observed in one measurement, and the probability that each pulse waveform is of the same type as a known sample is calculated. The probabilities for each of these pulses are combined to identify whether or not the unknown sample is of the same type as the known sample (step S906).
  • the feature amount extractor is arranged on the information terminal and the learner is arranged on the server.
  • the feature amount extractor is arranged on the server and the steps S603 and S903 are performed.
  • Feature extraction may be performed on the server 360.
  • the fact that the feature amount extractor 512 is displayed with a dotted line in FIG. 5 indicates that it may be arranged on the server.
  • the learning device may be arranged in the information terminal, and the machine learning optimization parameter in step S605 may be derived and the steps S905 to S906 may be identified in the information terminal.
  • the fact that the learner 412 of FIG. 4 is displayed with a dotted line indicates that it may be in the information terminal.
  • the feature amount table and the host attribute table may be in the information terminal 340.
  • the feature amount table 421 and the host attribute table 422 are represented by dotted lines, indicating that they may be in the information terminal 340.
  • either the feature table or the host attribute table may be on the server.
  • the server and the information terminal may be collectively considered as a "device".
  • the host attribute information is further used to realize highly accurate unknown particle identification. Can be done.
  • the viruses belong to the same type, if there are variants that depend on the attributes of the host, such as the area where the host lives, learning a machine learning program by the conventional method will result in learning.
  • the vessel learning by mixing different characteristics of multiple subspecies, it was not possible to identify particles with high accuracy.
  • the pore electrical resistance method produces pulse waveforms with different tendencies depending on the attributes of the host. There are also particles. In this case as well, highly accurate particle identification could not be performed for the same reason.
  • a feature set group is extracted from a pulse waveform obtained only from known particles derived from a host having the same host attribute information, and only the feature set group is used.
  • Machine learning optimization parameters can be calculated.
  • An example of such processing is shown as a flow chart of FIG.
  • the search device 513 in the processor 510 of the server has the host attribute information of "USA" by searching for "USA" in column 853 of the host attribute table 532.
  • the host ID is extracted (step S1001).
  • the search device 513 extracts the teacher label and the teacher feature set stored in association with the extracted host ID from the teacher data in the feature table (step S1002).
  • the learning described in step S605 is performed, and the machine learning optimization parameter using only the sample having specific host attribute information is calculated.
  • the machine learning optimization parameter using only the sample having specific host attribute information.
  • different machine learning optimization parameters are calculated for each host attribute information.
  • Each of these machine learning optimization parameters represents the characteristics of the particles for each host attribute.
  • the storage 530 of the server may have a host attribute machine learning optimization parameter table that stores the host attribute information and the corresponding machine learning optimization parameters in association with each other.
  • the host attribute table may be searched using one attribute information as a search key, or the host attribute table may be searched using a plurality of attribute information as a search key. You may search. In this case, learning provides machine learning optimization parameters for each combination of host attributes.
  • the machine learning optimization parameters learned in the teacher feature set having the same attributes as the attribute information of the unknown particles to be identified are used.
  • Particle identification is performed.
  • the host attribute table 532 the host ID 840 associated with "USA" 873 is searched for in the host attribute information of the unknown particle, and the feature amount table is used with this host ID. Search 531 to obtain feature sets 743 to 744 and the like.
  • Such processing according to the embodiment of the present invention enables particle identification with high identification accuracy, which is not affected by the difference in attributes possessed by the host.
  • the search device described here may be on the server or the information terminal, and the above processing may be performed on the server or the information terminal.
  • the fact that the search device 413 in FIG. 4 is displayed with a dotted line indicates that it may be in the information terminal.
  • the host attribute information stored in the host attribute table 532 is characterized. May be given as a quantity.
  • the teacher data in addition to the feature amount set stored in the feature amount table 531 in step S604, the host attribute information stored in the host attribute table 532 is characterized. May be given as a quantity.
  • the teacher data in addition to the feature amount sets 722, 723, 724 ...
  • the teacher data Stored as teacher data in association with the host ID 720 in the feature amount table 531, they are stored in association with the host ID 820 in the host attribute table 532.
  • the host attribute information 863 may be used as the feature quantity
  • the teacher label 721 may be used as the correct answer for learning.
  • a plurality of attribute information stored in the host attribute table 532 may be used as teacher data used for learning in step S605.
  • the attribute information 863 but also 862 and 861 may be used as teacher data together with the feature set associated with the host ID 720.
  • the machine learning parameters of the machine learning model can be optimized including the difference in particles depending on the host.
  • the machine learning model learned by the embodiment of the present invention can be used as a machine learning model for particle identification having a wider versatility.
  • a device in addition to being able to provide the above-described method, a device (hardware), a program, and a product (arbitrary) that stores a part or all of the program in a user-executable format.
  • Medium, carrier, module, etc. can also be provided.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Urology & Nephrology (AREA)
  • Food Science & Technology (AREA)
  • Hematology (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Nanotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Electrochemistry (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Dispersion Chemistry (AREA)
  • Investigating Or Analyzing Materials By The Use Of Electric Means (AREA)

Abstract

粒子の細孔通過時の電極間イオン電流の過渡変化のパルス波形より抽出する特徴量を教師データと分析対象データとし機械学習する装置。機械学習プログラムと検索器と宿主属性テーブルと特徴量テーブルを有し、第1宿主属性情報を検索キーとし宿主属性テーブルを検索し第1宿主属性情報に関連付いた第1宿主IDと第2宿主IDを抽出し、第1宿主IDを検索キーとし特徴量テーブルを検索し第1種類に属する第1既知粒子より得られた第1教師特徴量群を抽出し第2宿主IDを検索キーとし特徴量テーブルを検索し第1種類に属する第2既知粒子より得られた第2教師特徴量群を抽出し、第1教師特徴量群と第2教師特徴量群を教師データとし第1種類を表す第1粒種情報を教師ラベルとして学習し機械学習最適化パラメタを計算し、第1宿主属性を有する未知粒子より得る分析対象特徴量群を入力値として機械学習最適化パラメタを用い未知粒子が第1種類に属するか判別する。

Description

細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置
本発明は、細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置に関する。
ウイルス、細菌等のミクロンからサブミクロンサイズの粒子の電荷を計測する手段として、電解液中の測定対象粒子が細孔を通過する際のイオン電流の過渡変化を測定する提案がなされている(特許文献1)。以下ではこのように粒子の細孔通過にともなうイオン電流の過渡変化を測定する方法を、細孔電気抵抗法という。近年は、シリコン薄膜を使った細孔を形成し細孔の厚さを50nm程度と薄くすることで、測定対象粒子の体積のみでなく微細な構造や表面電荷などの情報を計測することができるようになった(特許文献2)。また、このイオン電流の過渡変化と機械学習による情報処理を組み合わせて、測定対象粒子の種類が何であるかを高精度で識別する技術が提案されている(特許文献3)。
これらの特許文献に記載される従来の細孔電気抵抗法では、2つのチャンバが細孔で接続された構造のセンサーを利用する。2つのチャンバおよび細孔を、粒子を含む電解液で充填した上、各々のチャンバで電解液と接触する2つの電極の間に電圧を印加すると、イオン電流が流れる。電荷をもった粒子は、電気泳動等によって移動し、細孔を通過する。この通過の際、前記2つの電極の間の電気抵抗が過渡的に変化する。この過渡的電流変化をパルス波形として取り出し、その波形情報を機械学習プログラムによって解析をすることで、細孔を通過した粒子の種類を識別する。
このような機械学習には教師あり学習が用いられ、第1に学習、第2に識別の二つのステップによっておこなわれる。
第1のステップである学習は、たとえば次のように行われる。まず種類が既知の粒子検体を電解液に導入して、これらの粒子の中の1つが細孔を通過するごとに1つの波形を得る。ウイルスや細菌などの粒子測定では、電解液中には多数の粒子が含まれるため、通常1度の測定で多数の波形を得る。したがって、細孔電気抵抗法における機械学習プログラムには、このようにして得られた多数の波形情報から抽出した教師特徴量を教師データとし、またこれらすべての波形情報の正解ラベルとしてこの検体の種類を与えた上で、誤差関数が最小となるように、機械学習モデルの最適化パラメタを算出する。
第2のステップである識別はたとえば次のように行われる。未知の粒子を含む検体を電解液に導入し未知粒子のパルスを得る。これら未知の粒子の中の1つが細孔を通過するごとに1つの波形を得る。機械学習プログラムは、ここで得られた各々の波形から抽出した分析対象特徴量を、ステップ1で算出した最適化パラメタを有する機械学習モデルに与えることで、細孔を通過した各々の粒子が、学習の際教師ラベルとして粒子と同じ種類である確率を算出する。細孔電気抵抗法と機械学習との組み合わせによれば、このように分析対象粒子の1つ1つの種類を識別することができる。
これまで開示されている技術によれば(非特許文献1)、以下のような交差検定によって識別の正確性が評価されてきた。
たとえば種類がX型とわかっているウイルス株を培養によって増殖させた上で、このX型ウイルス粒子群を電解液に導入し、細孔電気抵抗法によってX型粒子の細孔通過に起因するパルス群を取得する。同様に、たとえば種類がY型とわかっているウイルス株を培養によって増殖させた上で、このY型ウイルス粒子群を電解液に導入し、細孔電気抵抗法によってY型粒子の細孔通過に起因するパルス群を取得する。
次にX型粒子パルス群の一部とY型粒子パルス群の一部を教師データ、残りを検定用データに分ける。まず教師データとして分けたX型粒子のパルス群に教師ラベル「X」を、また教師データとして分けたY型粒子のパルス群に教師ラベル「Y」を各々付けて、機械学習モデルに入力し、機械学習最適化パラメタを計算する。
次に、残る検定用データとして分けたパルスの1つ1つを上記教師データで最適化したパラメタを有する機械学習モデルに入力して検定を行う。取得したパルス群の、教師データおよび検定用データの切り分けを変えながら、複数回検定を行いその正解率の平均をとることで、多くの測定データを用いずに、この機械学習モデルの真の正解率に近い正解率を導くことができる。
特表2014-521962号公報 特許第5866652号公報 特開2017-120257号公報
ARIMA et al、SCIETNIFIC REPORTS (2018)8:16305
しかし、このようなこれまでの方法によって良好な正解率を得たとしても、以下2つの理由によってその学習モデルが実用的価値を持つ保証にはならなかった。
第1の理由は、学習に用いるパルスと検定に用いるパルスが一度の測定によって取得されたパルス点である。現実のウイルス、細菌をはじめとするミクロンからナノサイズの粒子の識別においては、学習と識別をひとつの測定によって得られたパルス群で行うことはあり得ない。識別のための測定では、その正解である粒子の種類がわからないから測定するのであって、学習が可能な正解ラベルの付いた粒子の測定であるなら、識別をする必要がもとよりない。実用的には、学習のためのパルス測定と、識別のためのパルス測定は異なるものでなければならない。
第2の理由は、学習におけるパルスと検定に用いるパルスが同じ環境で発生した点である。現実の粒子識別ではこれも起こりえない。たとえば、同じ型のウイルスであっても、発育鶏卵を用いた培養によるウイルスと、人体より採取したウイルスでは、その形状や表面電荷の状態が異なる。また、同じ型のウイルスであっても、宿主によって、ウイルスが異なる性質を有している可能性が高い。このように実用的には、異なる環境で発生した同種ウイルスを同種と識別できなければ、また異なる宿主を持つ同種ウイルスを同種と識別できなければならない。
これまで提案されている技術では、このような実用的識別を可能とする方法が実現できていない。
本発明は、このような状況に鑑みてなされたものであり、本発明の実施形態では細孔電気抵抗法によるパルスを用いて、臨床検査に利用可能な以下の態様を提供できる。
粒子を含む電解液で充填される2つのチャンバの間で、粒子が通過可能な細孔で接続された構造を有し、前記2つのチャンバが各々電解液と接触する電極をもつ構造を有するセンサを利用し、
前記センサの電極間に電圧を印加し、粒子が細孔を通過する際の電極間を流れるイオン電流の過渡変化を表すパルス波形より抽出された特徴量を教師データおよび分析対象データとして機械学習を行う装置であって、
前記装置は記憶手段を含み、
前記記憶手段は、
 機械学習プログラムと、
 検索器と、
 粒子の宿主属性情報を、粒子の宿主を特定する宿主IDと関連付けて記憶する宿主属性テーブルと、
 前記センサの出力するパルス波形より抽出された特徴量群と粒子の種類を示す粒種情報を、宿主IDと関連付けて記憶する特徴量テーブルと
を有し、
前記検索器が、第1の宿主属性情報を検索キーとして前記宿主属性テーブルを検索し、前記第1の宿主属性情報に関連付けられた第1の宿主IDと第2の宿主IDを抽出するように構成され、
前記検索器が、前記第1の宿主IDを検索キーとして前記特徴量テーブルを検索して第1の種類に属する第1の既知粒子より得られた第1の教師特徴量群を抽出し、また前記第2の宿主IDを検索キーとして前記特徴量テーブルを検索して前記第1の種類に属する第2の既知粒子より得られた第2の教師特徴量群を抽出するように構成され、
前記機械学習プログラムが、前記第1の教師特徴量群と前記第2の教師特徴量群をあわせて教師データとして、かつ前記第1の種類を表す第1の粒種情報を教師ラベルとして学習することで機械学習最適化パラメタを計算するように構成され、
前記機械学習プログラムが前記第1の宿主属性情報を有する未知粒子より得られた分析対象特徴量群を入力値として前記機械学習最適化パラメタを用いて、前記未知粒子が前記第1の種類に属するか否かを判別するように構成される
ことを特徴とする装置。
既知粒子を含む電解液で充填される2つのチャンバの間で、既知粒子が通過可能な細孔で接続された構造を有し、前記2つのチャンバが各々電解液と接触する電極をもつ構造を有するセンサに接続し、
前記センサの電極間に電圧を印加し、既知粒子が細孔を通過する際の電極間を流れるイオン電流の過渡変化を教師波形として取得し、教師波形より教師特徴量を抽出し、教師特徴量を学習データ、既知粒子の種類を教師データとして学習することで機械学習最適化パラメタを計算し、
前記センサの電極間に電圧を印加し、未知粒子が細孔を通過する際の電極間のイオン電流の過渡変化を分析対象波形として取得し、分析対象波形より抽出した分析対象特徴量と機械学習最適化パラメタを用いて、前記未知粒子の種類を特定する機械学習プログラムであって、
第1の宿主より生じかつ第1の種類に属する第1の既知粒子から得られた第1の教師特徴量、および第2の宿主から生じかつ前記第1の種類に属する第2の既知粒子から得られた第2の教師特徴量を学習データとし、前記第1の教師特徴量および前記第2の教師特徴量をあわせて教師データとして学習することで機械学習最適化パラメタを計算し、
第3の宿主より生じた第1の未知粒子から得られた第1の分析対象特徴量を入力値として、前記機械学習最適化パラメタを用いて前記第1の未知粒子が前記第1の種類に属することを判別する機械学習プログラム。
既知粒子を含む電解液で充填される2つのチャンバの間で、既知粒子が通過可能な細孔で接続された構造を有し、前記2つのチャンバが各々電解液と接触する電極をもつ構造を有するセンサに接続し、
前記センサの電極間に電圧を印加し、既知粒子が細孔を通過する際の電極間を流れるイオン電流の過渡変化を教師波形として取得し、教師波形より教師特徴量を抽出し、教師特徴量を学習データ、既知粒子の種類を教師データとして学習することで機械学習最適化パラメタを計算し、
前記センサの電極間に電圧を印加し、未知粒子が細孔を通過する際の電極間のイオン電流の過渡変化を分析対象波形として取得し、分析対象波形より抽出した分析対象特徴量と機械学習最適化パラメタを用いて、前記未知粒子の種類を特定する機械学習プログラムであって、
第1の宿主属性を有する第1の宿主より生じかつ第1の種類に属する第1の既知粒子から得られた第1の教師特徴量群および前記第1の宿主属性を表す第1の宿主属性情報と、第2の宿主属性を有する第2の宿主より生じかつ前記第1の種類に属する第2の既知粒子から得られた第2の教師特徴量群および前記第2の宿主属性を表す第2の宿主属性情報と、をあわせて教師データとして、かつ前記第1の種類を表す第1の粒種情報を教師ラベルとして、学習することで、機械学習最適化パラメタを計算し、
第3の宿主属性を有する第3の宿主より生じた未知粒子から得られた第1の分析対象特徴量群と前記第3の宿主を表す第3の宿主属性情報を入力値として、前記機械学習最適化パラメタを用いて、前記未知粒子が前記第1の種類に属するか否かを判別することを特徴とする機械学習プログラム。
本発明の実施形態によれば、細孔電気抵抗法によるパルス信号を用いて、臨床検査等に利用可能な、粒子の実用的な識別を行うことができる。
細孔電気抵抗法によるセンサモジュールの構造の一例の模式図である。 センサモジュールによって検知するパルス波形の模式的な一例を示す。 本発明の或る実施形態に係る機械学習システムまたは装置の一例を示す。 図3に示した情報端末の構成の一例を示す。 図3の機械学習システムに含まれるサーバの構成の一例を示す。 本発明の或る実施形態で行うことができる学習の情報処理のフロー図を示す。 特徴量テーブルの一例を示す。 宿主属性テーブルの一例を示す。 図6の情報処理に後続する、識別に関する情報処理の一例を示す。 同じ宿主属性情報を有する宿主由来の既知粒子のみから得られたパルス波形から特徴量セット群を抽出し、その特徴量セット群のみを使って機械学習最適化パラメタを計算する処理の一例を示すフロー図である。
(構成)
図1に、細孔電気抵抗法によるセンサモジュールの構造の一例を模式的に示す。センサモジュール101乃至103はそれぞれ、電解液導入口111および121、チャンバ110および120、シリコンウェハ141およびその上に成膜された薄膜(メンブレン)142を加工して成形される細孔140、2つのチャンバを隔てる隔壁130、チャンバ110および120内に各々ある電極112および122、これらの電極に電位差を与える電源152およびこれらの電極間を流れるイオン電流を測定する電流計151、信号を増幅するアンプ150より成る。当該チャンバは、マイクロチャンバであってもよい。図1に示す各区の番号は、同じ構造を有するセンサの構成要素を意味する番号であり、特定のセンサモジュールの一部だけを指し示すものではない。
識別対象粒子の種類を識別(判別)するためには、まず識別対象粒子190を含む電解液が導入口111または121より導入され、チャンバ110、120および細孔140内に充填される。識別対象粒子はチャンバ110、120の両方にあってもよく、また片方のみにあってもよい。次に電源152が電極112および122間に電圧を印加する。帯電したチャンバ内の測定対象粒子190が、たとえば前記電圧によりチャンバ110より細孔140を経由してチャンバ120に移動する。この際、細孔140内にある電解液を排斥することで電極112および122間のイオン電流が減少する。このイオン電流の過渡的時間変化をアンプ150で増幅の後、電流計151が観測する。なお図1は本発明の実施形態で利用できるセンサ構造の一例を示すものに過ぎず、細孔電気抵抗法による電流の過渡的時間変化を用いて機械学習で粒子識別をおこなうことのできるセンサであればどのようなものでも利用できる。
図2に、センサモジュール101乃至103によって検知したパルス波形の模式的な一例を示す。図2の例では、横軸は時間(time)、縦軸が電極112と電極122の間を流れるイオン電流(ion current)を表す。電流値201は識別対象粒子がチャンバ110内で細孔140から離れている状態、電流値202は細孔140の通過時で細孔140内のイオンが粒子によって排斥されることで電流値が低下した状態、電流値203は細孔140の通過後に粒子がチャンバ120内で細孔140から離れた状態に、それぞれ対応する。一般に、チャンバ110には多数の識別対象粒子が存在するため、一度の測定で図2に例示するようなパルス波形が多数観測されることになる。
図3に、本発明の実施形態に係る機械学習システム(または装置)の一例を示す。ここで言う「装置」は、システムに含まれる複数のハードウェアをまとめて総称する(まとめて含む)ものと考えてもよいし、あるいはいずれかのハードウェアのみを指す語であってもよい。センサモジュール101乃至103で発生したイオン電流の過渡変化によるパルス波形は、増幅および電流値の計測およびデジタイズを担う測定器320に送られる。図1におけるアンプ150、電流計151、および電源152を、この測定器320が提供してもよい。デジタル信号に変換されたパルス波形は情報端末340に送られる。図3の一例では、情報端末340はネットワーク399を経由してサーバ360と接続される(すなわち、情報端末340はクライアント端末であってよい)。ネットワーク399は無線ネットワークであってもよいし有線ネットワークでもよい。ある態様では、情報端末340が、無線ネットワークに接続できるモバイル端末であってもよい。後述する本発明の実施形態に係る機械学習プログラムは、情報端末340に実装されていても、サーバ260に実装されていてもよい。また本機械学習プログラムが利用する、パルス波形を取得するシステム構成は図3に示したものに限定されず、どのような構成でもよい。以下の説明のために示す図3に示す点線は、センサモジュール101乃至103を適宜接続し直して利用することを表しており、センサモジュール101乃至103を同時に測定器320に接続して利用しなくてもよいことを意味する。しかしながら別の実施形態では、複数のセンサモジュールを同時に接続して利用可能な測定器を用いていてもよい。
図4に、図3に示した情報端末340の構成の一例を示す。この実施形態では、情報端末340が特徴量の抽出を行い、学習・判別は別の装置が行う例を示す。別の実施形態では、特徴量の抽出や学習・判別は情報端末340以外の装置が行ってもよいし、あるいは情報端末340が特徴量の抽出と学習・判別の双方を行ってもよい。情報端末340は、プロセッサ410、メモリ430、ストレージ420、ディスプレイ440、I/O(入出力手段)450、ネットワークI/O460を有してよい。プロセッサ410は、シングルコアでもマルチコアでもよく、また物理的に複数のプロセッサを含んでいてもよい。I/O450は、測定器320より(キーボード551や光学センサ552などを介して)受け取った、デジタル化されたパルス波形情報を受信し、ストレージ420に記憶する。プロセッサ410は、ストレージ420もしくはメモリ430またはその他の記憶手段から、ソフトウェアとしての特徴量抽出器(特徴量抽出プログラム)411、学習器412、および検索器413のいずれかまたはその全てを読み出して使用できる。図4に示した例では、プロセッサ410は特徴量抽出器411を読み込むものとしており、点線で囲まれた学習器412および検索器413は読み込まなくてもよいものとしている。プロセッサ410内に読み込まれた特徴量抽出器411が、パルス波形情報より特徴量(feature value)を抽出する。ここで言う特徴量とは、パルス波形から抽出され、機械学習の教師データまたは識別データとして利用する、パルス波形の特徴を表現する値の集合である。以下では1パルス波形から生成される特徴量の集合を特徴量セット(特徴量群)という。一般に、1度の測定で複数のパルス波形情報が観測されるので、特徴量抽出器411は、観測されたパルス数分の、多数の特徴量セット(「特徴量セット群」とも称する)を生成することが多い。
図4の例では、ストレージ420は、テーブルを保持しなくてもよい場合を示している。別の実施形態では、点線で囲まれた特徴量テーブル421もしくは宿主属性テーブル422またはその双方を、ストレージ420が保持してもよい。
以下では、既知粒子の細孔通過にともなうパルス波形より抽出された特徴量(群)を教師特徴量(群)、未知粒子の細孔通過により抽出された特徴量(群)を分析対象特徴量(群)と呼ぶ。
図5に、図3の機械学習システムに含まれるサーバ360の構成の一例を示す。サーバ360は、プロセッサ510、メモリ520、ストレージ530、ディスプレイ540、ネットワークI/O550を有してよい。プロセッサ510は、シングルコアでもマルチコアでもよく、また物理的に複数のプロセッサを含んでいてもよい。ネットワークI/O550は、情報端末340より宿主ID、既知粒子の種類を表す教師ラベル、および教師特徴量セットを受信して、ストレージ530に記憶する。プロセッサ510は、ストレージ530もしくはメモリ520またはその他の記憶手段から、ソフトウェアとしての学習器511、特徴量抽出器512、および検索器513のいずれかまたは全部を読み込んで利用できる。図5に示す例では、プロセッサ510は学習器511および検索器513を読み込んでいる。プロセッサ510内の学習器511が、教師ラベルおよび教師特徴量セットを利用して機械学習最適化パラメタを計算する。機械学習最適化パラメタとは、機械学習アルゴリズムに、教師特徴量セットを入力して得られた出力が、真値である教師ラベルと一致する確率を最大化するように最適化されたパラメタ群の総称である。本発明に用いる機械学習アルゴリズムは、たとえば深層学習モデル、決定木などによるアンサンブル学習、k最近傍法、サポートベクターマシン、またはこれらの一部のアンサンブル学習などであってよく、またはこれらに限定されず任意の数理モデルであってよい。
ストレージ530は、特徴量テーブル531、宿主属性テーブル532、および最適化パラメタテーブル533を保持できる。これらのテーブルの役割については後に詳述する。
ここで、宿主IDとは、教師となる既知粒子および分析対象となる未知粒子の生成された場所、環境、生成過程、生成条件等を特定するためのIDである。たとえば、粒子がウイルスである場合、そのウイルスが生成された生体を特定するIDであってよい。たとえば、本発明の実施形態を臨床におけるウイルス識別に応用する場合、患者Aより採取したウイルス粒子と、患者Bより採取したウイルス粒子を区別するために、各々に宿主IDが付与される。宿主IDの用途は、粒子の由来となる個体の区別に限らず、粒子の生成された場所、環境、生成方法、生成過程などに関する情報の一部または全部を区別するために用いられてよい。
サーバ360は、機械学習最適化パラメタを計算した後、ネットワークI/O550より未知粒子の宿主IDおよび分析対象特徴量セットを受信して、ストレージ530に記憶する。そして、機械学習最適化パラメタを有する機械学習アルゴリズムに、受信した分析対象特徴量セットを入力して、分析対象特徴量セットの由来である粒子が、上記教師ラベルと同じ種類の粒子である確率を計算する。これにより、未知粒子の種類が推定できる。
1個の粒子の細孔通過によって生成されるパルス波形ごとに1つの分析対象特徴量セットが生成される。したがって、この方法によれば細孔を通過する粒子1個ごとに、その粒子が何であるかを推定することができる。
次に、本発明の実施形態によって行われる情報処理について、図6および図9に示すフロー図を参照して説明する。以下の説明では理解しやすいように、粒子をウイルスとし、また宿主IDをウイルスが採取された生体を特定するためのIDであるとして説明するが、これらは一例にすぎず、粒子は細孔電気抵抗法で測定可能な粒子であれば何でもよく、また宿主IDも粒子の生成された場所、環境、生成方法、生成過程、生成条件等を特定できる情報であれば何でもよい。
(学習)
図6に本発明の実施形態で行うことができる学習の情報処理のフロー図を示す。以下の説明ではわかりやすさのため例示として、図1、図3、図4、図5に示したコンポーネントを引用して説明する。別の実施形態では、別のコンポーネントを使ってもかまわないのは当然である。
まず、第1の生体より採取された第1の既知粒子の第1の検体から、ウイルス粒子を含む電解液を生成し、これをセンサモジュール101に導入する。センサモジュール101の電極に電圧を印加すると、ウイルス粒子が細孔を通過する毎に、イオン電流の過渡変化が生じこれが測定器320によって増幅およびデジタイズされ、第1のパルス波形として情報端末340に送られる(ステップS601)。I/O450がこれを受信すると、ストレージ420に送る。また情報端末340は、第1の既知粒子の種類を表す情報、および第1の生体を特定する第1の宿主IDおよび第1の宿主の属性を表す第1の宿主属性情報をキーボード551、光学センサ552などより取得し、I/O450を経由してストレージ420でこれらを記憶する(ステップS602)。図6の一例では、情報端末340はこれらの情報をキーボードや光学センサより取得したが、ネットワークを経由してネットワークI/O450経由で取得してもよい。既知粒子の種類を表す情報は、以下で教師ラベルと呼ぶ。通常、検体には多数の粒子が含まれていることから、1度の測定から多数のパルス波形が取得される。したがって、ステップS601では複数のパルス波形が記憶される。これを以下では第1のパルス波形群と呼ぶ。次にプロセッサ410は、特徴量抽出器411に第1のパルス波形群を入力し、第1のパルス波形群の各々より第1の特徴量セットを生成する。第1のパルス波形の数と同数の特徴量セットが生成される(ステップS603)。これらの集合を以下では第1の特徴量セット群という。
次に、ネットワークI/O460が第1の教師特徴量セット群、第1の教師ラベル、第1の宿主IDおよび第1の宿主属性情報をネットワーク399を経由してサーバ360に送る。サーバ360は、ネットワークI/O550が受信したこれらの情報を、プロセッサ510によりストレージ530の特徴量テーブル531と宿主属性テーブル532に記憶する(ステップS604)。
ここで一旦図7を参照して、上述した特徴量テーブルの一例を示す。図7の一例では、宿主を特定する宿主IDに関連付けて、教師ラベル700、各特徴量711乃至713等が記憶されている(見出し行710に列毎に説明を付した)。図7の一例では、ナノアンペア単位のパルス深さ711、マイクロ秒単位のパルス幅712、パーセンテージで示すパルス偏度713などが特徴量として使われており、これらの集合が各々の宿主IDおよび教師ラベルと関連付けて記憶されている。図7の一例におけるパルス深さ711とは、たとえば図2のパルスにおけるベースラインから最深部までの深さ、パルス偏度713とはたとえば図2のパルスの非対称性の程度である。本発明の実施形態において利用できる特徴量の種類は、図7の例示に限定されず、教師パルス波形および分析対象パルス波形の特徴を表す量であれば、どのようなものでもよい。
図7の一例では、たとえばパルス波形1つの教師特徴量セットが、行722に記憶された値の集合となる。図7ではたとえば、第1の生体の宿主ID720で表される生体より取得された、その教師ラベル721である粒子を含むことが分かっている検体からは、複数のパルス波形が取得されていることがわかる。そしてこの宿主ID720および教師ラベル721と関連付けて各々のパルス波形より取得された教師特徴量セット722、723、724、・・・が記憶されている。
この実施形態では、加えてサーバ360が、宿主毎の属性情報を情報端末340より受信し、これを宿主属性テーブル532に宿主IDと関連付けて記憶できる。図8に、そのような宿主属性テーブルの一例を示す。図8の一例では、宿主IDに関連付けて宿主であった生体に関する性別851、年齢852、地域853などが各列に記憶されている(見出し行810参照)。本発明の実施形態において利用できる宿主属性情報は、図8の例示に限定されず、宿主の属性を表現する情報であれば、どのようなものでもよい。別の実施形態では、情報端末とサーバが編集管理するテーブルの種類が、上記の例とは異なっていてもよいし、記憶手段は同一であってもよいし分散していてもよく、また物理的に別々であってもかまわない。
ふたたび図6を参照すると、次に、センサが第2の生体より採取された第2の既知粒子の、第2の検体についても処理する。すなわち、第2の生体より採取された第2の既知粒子の、第2の検体からウイルス粒子を含む電解液を生成し、これをセンサモジュール102に導入する。センサモジュール102の電極に電圧を印加すると、ウイルス粒子が細孔を通過する毎に、イオン電流の過渡変化が生じこれが測定器320によって増幅およびデジタイズされて、第2のパルス波形として情報端末340に送られる(ステップS601)。例えば、図3に示す一例にて、第1の既知粒子を含む検体をセンサモジュール101に、また第2の既知粒子を含む検体をセンサモジュール102に各々導入してパルス波形および特徴量を抽出するようにできる。図3の一例における点線は、これらセンサモジュールが同時に測定器320に接続されるとは限らないことを表している。別の実施形態では、これら複数のセンサモジュールが同時に測定器320に接続されていてもよい。
以下第2の既知粒子についても、第1の既知粒子と同様にステップS601乃至S604を実行する。このような処理の結果、特徴量テーブル531が第2の宿主IDと関連付けて第2の教師特徴量セット群を、宿主属性テーブル532が第2の宿主IDと関連付けて第2の宿主属性情報を記憶する。図7の一例では、第1の宿主IDが720、第2の宿主IDが730、第1の教師ラベルが721、第2の教師ラベルが731である。このようにステップS601乃至S604を繰り返すことで、3種以上の既知粒子より取得した教師特徴量セットおよび宿主属性情報を記憶してもよい。
次にプロセッサ510が、特徴量テーブル531に記憶された教師ラベルと記憶された教師特徴量セットをあわせて教師データとして、学習器511に入力する。学習器511は、誤差関数を最小化するように、学習器511自身のもつ多数の機械学習パラメタを最適化する。ここで最適化された機械学習パラメタを、機械学習最適化パラメタという。プロセッサ510は、計算された機械学習最適化パラメタを最適化パラメタテーブル533に記憶する(ステップS605)。
(識別)
続いて図9に、図6の情報処理に後続する、識別に関する情報処理の一例を示す。この実施形態では、図6の処理には用いられなかった第3の生体より採取された未知粒子の、第3の検体からウイルス粒子を含む電解液を生成し、これをセンサモジュール103に導入する。センサモジュール103の電極に電圧を印加すると、未知粒子が細孔を通過する毎に、イオン電流の過渡変化が生じ、これが測定器320によって増幅およびデジタイズされて、第3のパルス波形群として情報端末340に送られる(ステップS901)。なお、図3に示す一例では、第1の既知粒子を含む第1の検体をセンサモジュール101に、第2の既知粒子を含む第2の検体をセンサモジュール102に、そして未知粒子を含む第3の検体をセンサモジュール103に各々導入して、各々よりパルス波形を測定できる。図3の一例における点線は、これらセンサモジュールが同時に測定器320に接続されるとは限らないことを表している。一方、別の実施形態では、これら複数のセンサモジュールが同時に測定器320に接続されていてもよい。
I/O450が第3のパルス波形群を受信すると、ストレージ420に送る。また情報端末340は、第3の生体を特定する第3の宿主IDおよび第3の宿主の属性を表す第3の宿主属性情報をキーボード551、光学センサ552などより取得し、I/O450を経由してストレージ240でこれらを記憶する(ステップS902)。通常、検体には多数の粒子が含まれていることから、1度の測定から多数のパルス波形が取得される。したがって、複数のパルス波形が記憶される。以下、これらを第3のパルス波形群という。次にプロセッサ410は、特徴量抽出器411に第3のパルス波形群を入力し、第3のパルス波形群の各々より分析対象特徴量セットを生成する。第3のパルス波形群より、パルス数と同数の特徴量セットが生成される(ステップS903)。複数の特徴セットがあることから以下ではこれらを第3の特徴量セット群とよぶ。ここで、第3の検体から抽出された特徴量は、分析対象たる未知粒子から生成された特徴という意味で、分析対象特徴量と呼ぶ。
次に、ネットワークI/O460が分析対象特徴量セット群、第3の宿主ID、第3の宿主属性情報をネットワーク399を経由してサーバ360に送る。サーバ360は、ネットワークI/O550が受信したこれらの情報を、プロセッサ510によりストレージ530の特徴量テーブル531と宿主属性テーブル532に記憶する(ステップS904)。図7の一例では、宿主ID740が、未知粒子が生成された第3の宿主の宿主IDである。未知粒子であるので、教師ラベルはない(対応する741で示されるセルは空白になっている)。また、特徴量セット群742乃至744が第3の波形パルス群より生成された分析対象特徴量セット群である。図7に示す一例では、教師特徴量セット群と分析対象特徴量セット群が、同一の特徴量テーブルに記憶されているが、別の実施形態では教師特徴量セット群と分析対象特徴量セット群は別のテーブルに記憶されていてもよい。
次に、プロセッサ510が、ステップS605で最適化パラメタテーブル533に記憶した機械学習最適化パラメタと、ステップS904で特徴量テーブルに記憶した分析対象特徴量セット群を学習器511に入力する。すると学習器511が、未知粒子パルス1つ1つについて、各々のパルスが第1の既知サンプルと同じ種類のパルスである確率を計算する(ステップS905)。この方法では、通常1度の測定で未知粒子のパルス波形が多数観測され、そのパルス波形各々について既知サンプルと同じ種類である確率が計算される。これらパルス毎の確率をあわせて、未知サンプルが既知サンプルと同じ種類であるか否かを識別する(ステップS906)。個々のパルス波形の確率の集合より、未知サンプルが既知サンプルと同じ種類であるか否かを識別する方法は、たとえばパルス毎の確率の平均を計算する方法があるが、本発明の実施形態ではこの計算方法はどのようなものでもよい。
以上本発明の一実施形態として、特徴量抽出器が情報端末に、学習器がサーバに配置されている例を用いて説明したが、特徴量抽出器がサーバに配置され、ステップS603およびS903の特徴量抽出がサーバ360でおこなわれてもよい。図5で特徴量抽出器512が点線で表示されているのは、これがサーバに配置されていてもよいことを表している。あるいは、学習器が情報端末に配置され、ステップS605の機械学習最適化パラメタの導出およびステップS905乃至S906の識別を情報端末でおこなってもよい。図4の学習器412が点線で表示されているのは、これが情報端末にあってもよいことを表している。あるいは、特徴量テーブルと宿主属性テーブルは情報端末340にあってもよい。図4で特徴量テーブル421と宿主属性テーブル422が点線で表されているのは、これが情報端末340にあってもよいことを表している。さらにあるいは、特徴量テーブル、宿主属性テーブルのどちらかがサーバにあってもよい。本明細書においては、サーバと情報端末とをまとめて「装置」であると考えてもよい。
(宿主属性情報による高精度識別)
他の実施形態では、図6で説明した機械学習プログラムの学習、および図9で説明した機械学習プログラムによる識別において、さらに宿主属性情報を利用することで、高い精度の未知粒子識別を実現することができる。
たとえば、同じ種類に属するとされるウイルスであっても、宿主の生存する地域等、宿主の属性に依存する亜種が存在するような場合、従来の方法で機械学習プログラムを学習させると、学習器が、複数の亜種の異なる特徴を混合して学習してしまう結果、精度の高い粒子識別ができなかった。またたとえば、生物学的には同じ選択性を持って生体細胞に作用するという意味において同種の粒子であっても、細孔電気抵抗法では宿主の属性によって異なる傾向を持つ形状のパルス波形を生ずる粒子もある。この場合も、同様の理由で精度の高い粒子識別ができなかった。
しかし本発明の実施形態では、従来技術とは異なり、たとえば同じ宿主属性情報を有する宿主由来の既知粒子のみから得られたパルス波形から特徴量セット群を抽出し、その特徴量セット群のみを使って機械学習最適化パラメタを計算することができる。そうした処理の一例を、図10のフロー図として示す。図8を参照して例示的に説明すると、たとえばサーバのプロセッサ510にある検索器513が、宿主属性テーブル532の列853を「USA」を検索することで、「USA」という宿主属性情報を有する宿主IDを抽出する(ステップS1001)。次に検索器513が、特徴量テーブル中の教師データから、抽出した宿主IDに関連付けて記憶された教師ラベルおよび教師特徴量セットを抽出する(ステップS1002)。ここで抽出された教師ラベルおよび教師特徴量セットを用いてステップS605で説明した学習をおこない、特定の宿主属性情報を有する検体のみによる機械学習最適化パラメタを計算する。このことにより、「USA」の属性を持つ宿主由来粒子によるパルス波形と、その他の宿主由来粒子によるパルス波形のもつ異なる特徴を学習することがなくなり、より高い精度での粒子識別が可能となる。図10のようなフローによって学習を行うことで、宿主属性情報ごとに各々異なる機械学習最適化パラメタを計算することになる。これらの機械学習最適化パラメタのひとつひとつが、宿主の属性ごとの粒子の特徴を表している。サーバのストレージ530は、宿主属性情報とそれに対応する機械学習最適化パラメタを関連付けて記憶する、宿主属性機械学習最適化パラメタテーブルを持っていてよい。
本発明の実施形態に係る手法では、ここで説明した一例のように、1つの属性情報を検索キーとして宿主属性テーブルを検索してもよく、または複数の属性情報を検索キーとして宿主属性テーブルを検索してもよい。この場合は、学習によって、宿主属性の組み合わせごとの機械学習最適化パラメタが得られる。
次に、未知粒子の識別については、図9に示す識別フローに先立って、識別しようとする未知粒子の属性情報と同じ属性を持つ教師特徴量セットで学習した機械学習最適化パラメタを利用して、粒子識別を行う。図8と図7を参照して例示すれば、まず宿主属性テーブル532で、未知粒子の宿主属性情報のなかで「USA」873に関連付けられた宿主ID840を検索し、この宿主IDで特徴量テーブル531を検索し、特徴量セット743乃至744等を得る。これらの特徴量セットの各々について、図9で示した識別の処理を行うことで、宿主ID「32010」を持つ未知粒子について、より高い精度での識別が可能である。
本発明の実施形態によるこのような処理によって、宿主の有する属性の違いに影響されない、識別精度の高い粒子識別が可能になる。なお、ここで説明した検索器はサーバにあっても、情報端末にあってもよく、また上記の処理はサーバで行われていても情報端末で行われていてもよい。例えば図4における検索器413が点線で表示されているのは、これが情報端末にあってもよいことを表している。
また他の実施形態では、ステップS605における学習で学習器に与える教師データとして、ステップS604で特徴量テーブル531に記憶した特徴量セットに加えて、宿主属性テーブル532に記憶された宿主属性情報を特徴量として与えてよい。たとえば、ステップS605の学習において、教師データとして特徴量テーブル531で宿主ID720と関連付けて記憶された特徴量セット722、723、724・・・に加えて、宿主属性テーブル532で宿主ID820に関連付けて記憶された宿主属性情報863を特徴量とし、教師ラベル721を正解として学習させてもよい。
別の実施形態ではさらに、宿主属性テーブル532に記憶された属性情報を複数をステップS605における学習に用いる教師データとして用いてよい。たとえば、属性情報863のみならず862や861も宿主ID720に関連付けられた特徴量セットとともに、教師データとして用いてよい。このようにすることで、機械学習モデルの機械学習パラメタを、宿主に依存した粒子の違いを含む最適化を施すことができる。このように本発明の実施形態により学習した機械学習モデルは、より広い汎用性をもった粒子識別のための機械学習モデルとして利用できる。
本発明の実施形態では、上述した方法を提供できる他、当該方法を実施できる装置(ハードウェア)、プログラム、および当該プログラムの一部または全部をユーザーが実行可能な形式で格納する製品(任意の媒体、搬送波、モジュールなど)も提供できる。
101      センサモジュール
102      センサモジュール
103      センサモジュール
110      チャンバ
111      電解液導入口
112      電極
120      チャンバ
121      電解液導入口
122      電極
130      隔壁
140      細孔
141      シリコンウェハ
142      薄膜
150      アンプ
151      電流計
152      電源
190      測定対象粒子
201      電流値
202      電流値
203      電流値
320      測定器
340      情報端末
360      サーバ
399      ネットワーク
410      プロセッサ
411      特徴量抽出器
412      学習器
413      検索器
420      ストレージ
421      特徴量テーブル
422      宿主属性テーブル
430      メモリ
440      ディスプレイ
450      I/O
460      ネットワークI/O
510      プロセッサ
511      学習器
512      特徴量抽出器
513      検索器
520      メモリ
530      ストレージ
531      特徴量テーブル
532      宿主属性テーブル
533      最適化パラメタテーブル
540      ディスプレイ
550      ネットワークI/O
551      キーボード
552      光学センサ
700      教師ラベル
710      見出し行
711      特徴量(パルス深さ)を示す列
712      特徴量(パルス幅)を示す列
713      特徴量(パルス偏度)を示す列
720      第1の宿主ID
721      教師ラベル
722      教師特徴量セット
723      教師特徴量セット
724      教師特徴量セット
730      第2の宿主ID
731      教師ラベル
732      教師特徴量セット
733      教師特徴量セット
734      教師特徴量セット
740      第3の宿主ID
741      空白
742      分析対象特徴量セット
743      分析対象特徴量セット
744      分析対象特徴量セット
810      見出し行
820      第1の宿主ID
830      第2の宿主ID
840      第3の宿主ID
851      宿主属性情報(性別)を示す列
852      宿主属性情報(年齢)を示す列
853      宿主属性情報(地域)を示す列
861      宿主属性情報
862      宿主属性情報
863      宿主属性情報
873      宿主属性情報

Claims (8)

  1. 粒子を含む電解液で充填される2つのチャンバの間で、粒子が通過可能な細孔で接続された構造を有し、前記2つのチャンバが各々電解液と接触する電極をもつ構造を有するセンサを利用し、
    前記センサの電極間に電圧を印加し、粒子が細孔を通過する際の電極間を流れるイオン電流の過渡変化を表すパルス波形より抽出された特徴量を教師データおよび分析対象データとして機械学習を行う装置であって、
    前記装置は記憶手段を含み、
    前記記憶手段は、
     機械学習プログラムと、
     検索器と、
     粒子の宿主属性情報を、粒子の宿主を特定する宿主IDと関連付けて記憶する宿主属性テーブルと、
     前記センサの出力するパルス波形より抽出された特徴量群と粒子の種類を示す粒種情報を、宿主IDと関連付けて記憶する特徴量テーブルと
    を有し、
    前記検索器が、第1の宿主属性情報を検索キーとして前記宿主属性テーブルを検索し、前記第1の宿主属性情報に関連付けられた第1の宿主IDと第2の宿主IDを抽出するように構成され、
    前記検索器が、前記第1の宿主IDを検索キーとして前記特徴量テーブルを検索して第1の種類に属する第1の既知粒子より得られた第1の教師特徴量群を抽出し、また前記第2の宿主IDを検索キーとして前記特徴量テーブルを検索して前記第1の種類に属する第2の既知粒子より得られた第2の教師特徴量群を抽出するように構成され、
    前記機械学習プログラムが、前記第1の教師特徴量群と前記第2の教師特徴量群をあわせて教師データとして、かつ前記第1の種類を表す第1の粒種情報を教師ラベルとして学習することで機械学習最適化パラメタを計算するように構成され、
    前記機械学習プログラムが前記第1の宿主属性情報を有する未知粒子より得られた分析対象特徴量群を入力値として前記機械学習最適化パラメタを用いて、前記未知粒子が前記第1の種類に属するか否かを判別するように構成される
    ことを特徴とする装置。
  2. 前記センサとネットワークを介して接続可能なサーバである、請求項1に記載の装置。
  3. 既知粒子を含む電解液で充填される2つのチャンバの間で、既知粒子が通過可能な細孔で接続された構造を有し、前記2つのチャンバが各々電解液と接触する電極をもつ構造を有するセンサに接続し、
    前記センサの電極間に電圧を印加し、既知粒子が細孔を通過する際の電極間を流れるイオン電流の過渡変化を教師波形として取得し、教師波形より教師特徴量を抽出し、教師特徴量を学習データ、既知粒子の種類を教師データとして学習することで機械学習最適化パラメタを計算し、
    前記センサの電極間に電圧を印加し、未知粒子が細孔を通過する際の電極間のイオン電流の過渡変化を分析対象波形として取得し、分析対象波形より抽出した分析対象特徴量と機械学習最適化パラメタを用いて、前記未知粒子の種類を特定する機械学習プログラムであって、
    第1の宿主より生じかつ第1の種類に属する第1の既知粒子から得られた第1の教師特徴量、および第2の宿主から生じかつ前記第1の種類に属する第2の既知粒子から得られた第2の教師特徴量を学習データとし、前記第1の教師特徴量および前記第2の教師特徴量をあわせて教師データとして学習することで機械学習最適化パラメタを計算し、
    第3の宿主より生じた第1の未知粒子から得られた第1の分析対象特徴量を入力値として、前記機械学習最適化パラメタを用いて前記第1の未知粒子が前記第1の種類に属することを判別する機械学習プログラム。
  4. 既知粒子を含む電解液で充填される2つのチャンバの間で、既知粒子が通過可能な細孔で接続された構造を有し、前記2つのチャンバが各々電解液と接触する電極をもつ構造を有するセンサに接続し、
    前記センサの電極間に電圧を印加し、既知粒子が細孔を通過する際の電極間を流れるイオン電流の過渡変化を教師波形として取得し、教師波形より教師特徴量を抽出し、教師特徴量を学習データ、既知粒子の種類を教師データとして学習することで機械学習最適化パラメタを計算し、
    前記センサの電極間に電圧を印加し、未知粒子が細孔を通過する際の電極間のイオン電流の過渡変化を分析対象波形として取得し、分析対象波形より抽出した分析対象特徴量と機械学習最適化パラメタを用いて、前記未知粒子の種類を特定する機械学習プログラムであって、
    第1の宿主属性を有する第1の宿主より生じかつ第1の種類に属する第1の既知粒子から得られた第1の教師特徴量群および前記第1の宿主属性を表す第1の宿主属性情報と、第2の宿主属性を有する第2の宿主より生じかつ前記第1の種類に属する第2の既知粒子から得られた第2の教師特徴量群および前記第2の宿主属性を表す第2の宿主属性情報と、をあわせて教師データとして、かつ前記第1の種類を表す第1の粒種情報を教師ラベルとして、学習することで、機械学習最適化パラメタを計算し、
    第3の宿主属性を有する第3の宿主より生じた未知粒子から得られた第1の分析対象特徴量群と前記第3の宿主を表す第3の宿主属性情報を入力値として、前記機械学習最適化パラメタを用いて、前記未知粒子が前記第1の種類に属するか否かを判別することを特徴とする機械学習プログラム。
  5. 前記既知粒子および前記未知粒子がウイルスであることを特徴とする請求項3乃至請求項4記載の機械学習プログラム。
  6. 前記既知粒子および前記未知粒子が細菌であることを特徴とする請求項3乃至請求項4記載の機械学習プログラム。
  7. 前記機械学習プログラムがさらに、
    前記第1の教師特徴量、前記第2の教師特徴量、および前記第1の分析対象特徴量を、前記センサより前記教師波形および前記分析対象波形を受け取った情報端末が生成し、
    前記第1の教師特徴量、前記第2の教師特徴量、および前記第1の分析対象特徴量を、前記情報端末からネットワークを経由してサーバに送り、
    前記サーバが学習および判別を実行することを特徴とする請求項3に記載の機械学習プログラム。
  8. 前記機械学習プログラムがさらに、
    前記第1の教師特徴量群、前記第2の教師特徴量群、および前記第1の分析対象特徴量群を、前記センサより前記教師波形および前記分析対象波形を受け取った情報端末が生成し、
    前記第1の教師特徴量群、前記第2の教師特徴量群、および前記第1の分析対象特徴量群を、前記情報端末からネットワークを経由してサーバに送り、
    前記サーバが学習および判別を実行することを特徴とする請求項4に記載の機械学習プログラム。
PCT/JP2019/014544 2019-04-01 2019-04-01 細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置 WO2020202446A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US17/440,486 US20220155277A1 (en) 2019-04-01 2019-04-01 Machine-Learning Program, Method, and Apparatus for Measuring, by Pore Electric Resistance Method, Transient Change in Ion Current Associated with Passage of Target Particles through Pores and for Analyzing Pulse Waveform of Said Transient Change
EP19923152.3A EP3951372A4 (en) 2019-04-01 2019-04-01 MACHINE LEARNING PROGRAM, METHOD, AND APPARATUS FOR MEASURING, BY AN ELECTRICAL PORE RESISTANCE METHOD, A TRANSIENT CHANGE IN ION CURRENT ASSOCIATED WITH THE PASSAGE OF MEASURED PARTICLES THROUGH PORES AND FOR ANALYZING A PULSE WAVEFORM OF SAID TRANSITIONAL CHANGE
JP2021511812A JP7309227B2 (ja) 2019-04-01 2019-04-01 細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置
PCT/JP2019/014544 WO2020202446A1 (ja) 2019-04-01 2019-04-01 細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/014544 WO2020202446A1 (ja) 2019-04-01 2019-04-01 細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置

Publications (1)

Publication Number Publication Date
WO2020202446A1 true WO2020202446A1 (ja) 2020-10-08

Family

ID=72666741

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/014544 WO2020202446A1 (ja) 2019-04-01 2019-04-01 細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置

Country Status (4)

Country Link
US (1) US20220155277A1 (ja)
EP (1) EP3951372A4 (ja)
JP (1) JP7309227B2 (ja)
WO (1) WO2020202446A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006105943A (ja) * 2004-10-08 2006-04-20 Omron Corp 知識作成装置及びパラメータ探索方法並びにプログラム製品
JP2014521962A (ja) 2011-08-02 2014-08-28 アイゾン・サイエンス・リミテッド 粒子の特性評価
JP5866652B2 (ja) 2012-03-13 2016-02-17 株式会社東芝 一粒子解析装置および解析方法
JP2017120257A (ja) 2015-12-25 2017-07-06 国立大学法人大阪大学 分類分析方法、分類分析装置および分類分析用記憶媒体
WO2017217185A1 (ja) * 2016-06-14 2017-12-21 富士フイルム株式会社 サーバ装置、画像処理システム及び画像処理方法
JP2018180993A (ja) * 2017-04-14 2018-11-15 株式会社日立製作所 データ分析支援システム及びデータ分析支援方法
WO2018207524A1 (ja) * 2017-05-07 2018-11-15 国立大学法人大阪大学 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体
JP2018205948A (ja) * 2017-06-01 2018-12-27 株式会社日立製作所 トレーサビリティシステムおよびトレーサビリティの方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070202495A1 (en) * 2006-02-06 2007-08-30 Michael Mayer Use of resistive-pulse sensing with submicrometer pores or nanopores for the detection of the assembly of submicrometer or nanometer sized objects
JP5951527B2 (ja) * 2013-03-07 2016-07-13 株式会社東芝 検体検出装置及び検出方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006105943A (ja) * 2004-10-08 2006-04-20 Omron Corp 知識作成装置及びパラメータ探索方法並びにプログラム製品
JP2014521962A (ja) 2011-08-02 2014-08-28 アイゾン・サイエンス・リミテッド 粒子の特性評価
JP5866652B2 (ja) 2012-03-13 2016-02-17 株式会社東芝 一粒子解析装置および解析方法
JP2017120257A (ja) 2015-12-25 2017-07-06 国立大学法人大阪大学 分類分析方法、分類分析装置および分類分析用記憶媒体
WO2017217185A1 (ja) * 2016-06-14 2017-12-21 富士フイルム株式会社 サーバ装置、画像処理システム及び画像処理方法
JP2018180993A (ja) * 2017-04-14 2018-11-15 株式会社日立製作所 データ分析支援システム及びデータ分析支援方法
WO2018207524A1 (ja) * 2017-05-07 2018-11-15 国立大学法人大阪大学 識別方法、分類分析方法、識別装置、分類分析装置および記憶媒体
JP2018205948A (ja) * 2017-06-01 2018-12-27 株式会社日立製作所 トレーサビリティシステムおよびトレーサビリティの方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARIMA ET AL., SCIENTIFIC REPORTS, vol. 8, 2018, pages 16305
See also references of EP3951372A4

Also Published As

Publication number Publication date
JP7309227B2 (ja) 2023-07-18
EP3951372A1 (en) 2022-02-09
EP3951372A4 (en) 2022-04-13
JPWO2020202446A1 (ja) 2020-10-08
US20220155277A1 (en) 2022-05-19

Similar Documents

Publication Publication Date Title
Clarke et al. Tutorial: guidelines for annotating single-cell transcriptomic maps using automated and manual methods
Munsky et al. Distribution shapes govern the discovery of predictive models for gene regulation
Kang et al. Improving drug discovery with high-content phenotypic screens by systematic selection of reporter cell lines
JP6029683B2 (ja) データ解析装置、データ解析プログラム
CN105986008A (zh) Cnv检测方法和装置
McCready et al. Multielectrode arrays for functional phenotyping of neurons from induced pluripotent stem cell models of neurodevelopmental disorders
CN112634987B (zh) 一种单样本肿瘤dna拷贝数变异检测的方法和装置
CN107267613A (zh) 测序数据处理系统和smn基因检测系统
Raman et al. Evolvability and robustness in a complex signalling circuit
US11933709B2 (en) Sensor for particle identification, measurement instrument, computer device, and system
Gayoso et al. Joint probabilistic modeling of paired transcriptome and proteome measurements in single cells
WO2020202446A1 (ja) 細孔電気抵抗法による測定対象粒子の細孔通過にともなうイオン電流の過渡変化を計測し、そのパルス波形を解析するための機械学習プログラム、方法、および装置
CN110277139B (zh) 一种基于互联网的微生物限度检查系统及方法
Qu et al. Gene trajectory inference for single-cell data by optimal transport metrics
Košuta et al. Bayesian analysis of data from segmented super-resolution images for quantifying protein clustering
Hall et al. Strain-level sample characterisation using long reads and mapq scores
Zhang et al. Towards a Post-Clustering Test for Differential Expression.
Faucon et al. SNaResim: synthetic nanopore read simulator
Parikh et al. LI Detector: a framework for sensitive colony-based screens regardless of the distribution of fitness effects
JP7164862B2 (ja) 心筋細胞型判定システム、心筋細胞型判定方法
CN108090325B (zh) 一种应用β-稳定性分析单细胞测序数据的方法
WO2019011987A1 (en) HOME METHOD BASED ON SATURATION TRANSFER DIFFERENCE NMR DATA, AND MEANS FOR ITS IMPLEMENTATION
CN117012274B (zh) 基于高通量测序识别基因缺失的装置
Rahman et al. Major functional bias for mitochondrial complexes in genome-wide CRISPR screens
Ye et al. Predicting pathology of missense mutations through protein-specific evolutionary pattern

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19923152

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021511812

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019923152

Country of ref document: EP

Effective date: 20211102