WO2023053585A1 - 学習用データの取得方法、学習用データ取得システム、ソフトセンサの構築方法、ソフトセンサ、学習用データ - Google Patents

学習用データの取得方法、学習用データ取得システム、ソフトセンサの構築方法、ソフトセンサ、学習用データ Download PDF

Info

Publication number
WO2023053585A1
WO2023053585A1 PCT/JP2022/023317 JP2022023317W WO2023053585A1 WO 2023053585 A1 WO2023053585 A1 WO 2023053585A1 JP 2022023317 W JP2022023317 W JP 2022023317W WO 2023053585 A1 WO2023053585 A1 WO 2023053585A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
data
series data
liquid
sensor
Prior art date
Application number
PCT/JP2022/023317
Other languages
English (en)
French (fr)
Inventor
惟 杉田
直貴 中村
優 増田
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2023551066A priority Critical patent/JPWO2023053585A1/ja
Priority to EP22875464.4A priority patent/EP4390379A1/en
Priority to CN202280061879.3A priority patent/CN117980998A/zh
Publication of WO2023053585A1 publication Critical patent/WO2023053585A1/ja
Priority to US18/612,135 priority patent/US20240232723A1/en

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • G01N21/85Investigating moving fluids or granular solids
    • G01N21/8507Probe photometers, i.e. with optical measuring part dipped into fluid sample
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N2021/6417Spectrofluorimetric devices
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/3577Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing liquids, e.g. polluted water
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2201/00Features of devices classified in G01N21/00
    • G01N2201/12Circuits of general importance; Signal processing
    • G01N2201/129Using chemometrical methods
    • G01N2201/1296Using chemometrical methods using neural networks

Definitions

  • the disclosed technology relates to a learning data acquisition method, a learning data acquisition system, a soft sensor construction method, a soft sensor, and learning data.
  • Japanese Patent Application Laid-Open No. 2020-101543 discloses that a plurality of waveforms obtained by adding together random noise and waveforms indicated by spectral information of a test substance are generated as spectral information of a virtual sample containing the test substance and contaminants. It is described that the peak height specified from the spectral information of the test substance, which is used as (learning spectral information) and is the basis of the generated spectral information, is used as correct data.
  • proteins such as antibodies, which are bioactive substances produced from cultured cells, are purified and formulated.
  • the protein purification process for example, by continuously performing purification treatment by different chromatographic techniques such as cation chromatography, anion chromatography, immunoaffinity chromatography and gel filtration chromatography, stepwise Efforts are being made to increase the purity of the target protein. It is preferable to monitor the refining state in order to verify whether the refining process is appropriately performed in each step. For example, by quantifying the target protein finally obtained by the purification process, it becomes possible to control the switching timing of the valve for recovering it. It is also important to know the concentration of contaminants separated from the protein of interest at each step.
  • a soft sensor is a sensor that estimates a parameter that is difficult to measure based on input data that is relatively easy to measure.
  • a soft sensor that can be used in the manufacturing process of biopharmaceuticals for example, the one that derives the concentration of a specific component contained in a liquid based on the spectrum data that indicates the intensity of each wavenumber or wavelength of the electromagnetic waves affected by the liquid. is assumed.
  • the above soft sensor is constructed by machine learning using learning data in which spectral data and concentrations of specific components corresponding thereto are associated one-to-one.
  • the disclosed technology has been made in view of the above points, and aims to efficiently acquire learning data used for machine learning of soft sensors.
  • a learning data acquisition method is a software sensor that derives the concentration of a specific component contained in a liquid based on spectrum data indicating the intensity of each wavenumber or wavelength of an electromagnetic wave affected by the liquid.
  • a method of acquiring learning data used for machine learning in which a sample solution with a known concentration of a specific component is prepared, and the sample solution and diluent are mixed while continuously changing their flow rate ratio. , while the sample liquid and the diluent are being mixed, the first time-series data indicating the transition of the mixing ratio and the second time-series data indicating the transition of the spectrum data are acquired for the mixed liquid obtained by mixing.
  • the spectral data may be based on Raman spectrum, infrared absorption spectrum, fluorescence spectrum or UV-Vis absorption spectrum.
  • the first time-series data may be obtained based on the optically detected absorbance, conductivity, hydrogen ion concentration, refractive index, or light scattering measured for the mixed liquid.
  • the sample liquid may be a treated liquid that has undergone a separation process to separate specific components. Separation may be by chromatography.
  • the specific component may be protein.
  • the specific component may be a contaminant other than the antibody contained in the culture medium obtained by cell culture.
  • the contaminants may include at least one of antibody aggregates, antibody fragments, charge isomers, immature sugar chains, cell-derived proteins, and cell-derived DNA.
  • the diluent may contain specific components contained in the sample liquid.
  • the diluent may contain only components other than the specific components contained in the sample liquid.
  • the first time-series data may be acquired by a first sensor provided on the channel through which the mixed liquid flows, and the second time-series data may be acquired by a second sensor provided on the channel.
  • Fourth time-series data indicating changes in at least one measurement value measured for the mixed liquid while the sample liquid and the diluent are being mixed; Learning data in which measured values, spectral data, and concentrations of specific components are associated with each other may be obtained from the time-series data of (1) and the time-series data of the fourth time-series data.
  • a learning data acquisition system is a learning data acquisition system for implementing the acquisition method described above, and includes a first channel through which a sample liquid flows and a second channel through which a diluent flows. a flow path, a third flow path through which the mixed liquid flows, a first pump for feeding the sample liquid, a second pump for feeding the diluent, the first pump and the second pump.
  • a control unit that controls the pump, a first sensor that is provided on the third flow path and acquires first time-series data, and a first sensor that is provided on the third flow path and acquires second time-series data a second sensor; and a recording processing unit that performs processing for recording outputs of the first sensor and the second sensor on a recording medium.
  • the method of constructing a soft sensor according to the disclosed technique is to learn a soft sensor model using the learning data acquired by the acquisition method described above.
  • a soft sensor according to the disclosed technique is a soft sensor learned using learning data acquired by the acquisition method described above.
  • the learning data according to the disclosed technology is the learning data acquired by the acquisition method described above.
  • FIG. 4 is a diagram illustrating an example of the functionality of a soft sensor according to an embodiment of the disclosed technology; It is a figure which shows an example of the method of acquiring the spectral data by Raman scattered light. It is a figure which shows an example of the data for learning concerning embodiment of the disclosed technique.
  • 1 is a diagram showing an example of a configuration of a learning data acquisition system according to an embodiment of technology disclosed herein;
  • FIG. 4 is a diagram showing an example of a method of sending a sample liquid and a diluent according to an embodiment of technology disclosed herein;
  • 1 is a diagram illustrating an example of a hardware configuration of an information processing device according to an embodiment of technology disclosed herein;
  • FIG. 4 is a flow chart showing an example of the flow of processing performed by executing a learning data generation program according to an embodiment of technology disclosed herein;
  • FIG. 4 is a diagram illustrating an example of the structure of an estimation model according to an embodiment of technology disclosed; 4 is a flow chart showing an example of the flow of processing performed by executing a soft sensor construction program according to an embodiment of technology disclosed herein; 4 is a flowchart showing an example of the flow of processing performed by executing an estimation program according to an embodiment of technology disclosed herein;
  • FIG. 10 is a graph comparing the antibody concentration indicated by the third time series data and the antibody concentration actually measured by off-line analysis of the sampled mixture.
  • the disclosed technology relates to a method of acquiring learning data for soft sensors.
  • the soft sensor 10 detects a specific component contained in the liquid based on spectral data indicating the intensity of the electromagnetic waves affected by the liquid for each wavenumber or wavelength. It has a function of deriving concentration data indicating an estimated value of concentration.
  • the concentration data output from the soft sensor 10 has correlation with the spectral data. That is, spectrum data is input to the software sensor 10 as an explanatory variable, and concentration data is output from the software sensor 10 as an objective variable. Concentration data is not easily monitored in-line by actual measurement. By using the soft sensor 10, concentration data can be acquired in-line based on spectrum data, which is relatively easy to monitor in-line by actual measurement.
  • the software sensor 10 applies an analysis method based on Raman spectroscopy. That is, in the present embodiment, spectral data by Raman scattered light is applied as the spectral data input to the soft sensor 10 .
  • Raman spectroscopy is a spectroscopic method that evaluates substances using Raman scattered light. When a material is irradiated with light, the light interacts with the material to generate Raman scattered light with a wavelength different from that of the incident light. Since the wavelength difference between the incident light and the Raman scattered light corresponds to the molecular vibrational energy of the substance, Raman scattered light with different wavelengths (wavenumbers) can be obtained between substances with different molecular structures.
  • Raman scattered light can be used to estimate various physical properties such as stress, temperature, electrical properties, orientation, and crystallinity. Of the Stokes line and the anti-Stokes line, the Raman scattered light preferably uses the Stokes line.
  • the soft sensor 10 can be used, for example, to estimate the concentration of a specific component contained in the treatment liquid obtained in the manufacturing process of biopharmaceuticals.
  • An example of a manufacturing process in which the soft sensor 10 is used is an antibody purification process.
  • the “specific component” for which concentration data is to be derived by the soft sensor 10 may be protein, for example.
  • the protein may be, for example, an immunoglobulin produced from cultured cells, ie an antibody.
  • FIG. 2 is a diagram showing an example of a method of acquiring spectral data of the liquid 30 using Raman scattered light.
  • Spectral data can be obtained using a known Raman spectrophotometer 20 .
  • the Raman spectrophotometer includes a probe 21 and an analyzer 22.
  • FIG. As shown in FIG. 2, the tip of probe 21 is immersed in liquid 30 contained in container 31 .
  • the liquid 30 is irradiated with excitation light emitted from a light emitting portion (not shown) provided at the tip of the probe 21 .
  • Raman scattered light generated by interaction between the excitation light and the liquid 30 is received by a light receiving section (not shown) provided at the tip of the probe 21 .
  • the acquired Raman scattered light is decomposed for each wavenumber (reciprocal of wavelength) by the analyzer 22 to generate spectral data, which is a spectral intensity value for each wavenumber.
  • spectral data may be spectral intensity values for each wavelength.
  • Spectral data is input to the soft sensor 10 .
  • the soft sensor 10 outputs concentration data indicating an estimated concentration of a specific component contained in the liquid 30 based on the spectrum data. It is also possible to obtain spectral data in-line by irradiating the liquid 30 with excitation light through a flow cell (not shown) provided on a channel through which the liquid 30 flows.
  • the soft sensor 10 is constructed by machine learning using multiple combinations of spectral data and concentration data as learning data.
  • FIG. 3 is a diagram showing an example of learning data.
  • FIG. 3 exemplifies the case where the concentration data is antibody concentration.
  • the soft sensor 10 receives spectral data from Raman scattered light and derives an estimated value of the antibody concentration contained in the liquid based on the spectral data.
  • FIG. 4 is a diagram showing an example of the configuration of the learning data acquisition system 40 according to the embodiment of the technology disclosed.
  • the learning data acquisition system 40 includes a first container 41, a second container 42, a first channel 43A, a second channel 43B, a third channel 43C, a first pump 44A, a second It includes a pump 44B, a control section 48, a first sensor 47A, a second sensor 47B, a collection container 49, and an information processing device 100.
  • FIG. 4 is a diagram showing an example of the configuration of the learning data acquisition system 40 according to the embodiment of the technology disclosed.
  • the learning data acquisition system 40 includes a first container 41, a second container 42, a first channel 43A, a second channel 43B, a third channel 43C, a first pump 44A, a second It includes a pump 44B, a control section 48, a first sensor 47A, a second sensor 47B, a collection container 49, and an information processing device 100.
  • a sample liquid 50 is contained in the first container 41 .
  • the sample liquid 50 is a liquid containing a "specific component” (here, an antibody) for which concentration data in learning data is to be obtained.
  • a specific component here, an antibody
  • concentration of a specific component (antibody) in sample liquid 50 is known.
  • the antibody concentration in the sample liquid 50 may be measured, for example, by off-line analysis using HPLC (High Performance Liquid Chromatography).
  • the sample liquid 50 preferably contains the same components as those contained in the liquid from which concentration data is derived by the soft sensor 10, in addition to the specific components (antibodies).
  • the sample liquid 50 is subjected to a separation process to concentrate antibodies from the culture medium obtained by cell culture. It is preferable to use a processing liquid or a liquid simulating it.
  • the sample liquid 50 preferably contains, in addition to the antibody, buffer components containing one or more of phosphoric acid, acetic acid, tris, and citric acid.
  • the separation processing performed on the sample liquid 50 is preferably by chromatography.
  • the chromatographic treatment described above is preferably an immunoaffinity chromatographic treatment.
  • a diluent 51 is contained in the second container 42 .
  • a diluent 51 is used to change the concentration of the antibody contained in the sample liquid 50 .
  • the diluent 51 preferably contains components other than the “specific component” (ie, antibody) contained in the sample liquid 50 .
  • the diluent 51 may contain no antibody and may contain the buffer components described above.
  • the diluent 51 may contain a “specific component” (that is, an antibody) contained in the sample liquid 50 .
  • the concentration of the antibody contained in the diluent 51 should be known.
  • the diluent 51 may contain specific impurities assumed in the actual process.
  • the diluent 51 contains an antibody or an impurity
  • the first channel 43A is connected to the first container 41, and the sample liquid 50 flows through the first channel 43A.
  • the second channel 43B is connected to the second container 42, and the diluent 51 flows through the second channel 43B.
  • the first pump 44A is provided on the first flow path 43A and feeds the sample liquid 50 .
  • the second pump 44B is provided on the second flow path 43B and feeds the diluent 51 .
  • the control unit 48 controls the flow rate of the sample liquid 50 flowing through the first channel 43A and the flow rate of the diluent 51 flowing through the second channel 43B by controlling the first pump 44A and the second pump 44B. do.
  • the controller 48 controls the first pump 44A and the second pump 44B so as to continuously change the flow rate ratio between the sample liquid 50 and the diluent 51 . More specifically, as shown in FIG.
  • the control unit 48 keeps the total value of the flow rate A of the sample liquid 50 and the flow rate B of the diluent 51 constant (for example, 1 mL/min), and
  • the liquid feed of the sample liquid 50 and the diluent 51 is controlled so that the flow rate ratio (A:B) changes linearly from 0:1 to 1:0 in (for example, 10 minutes).
  • Such liquid transfer is called linear gradient liquid transfer.
  • the liquid feeding of the sample liquid 50 and the diluted liquid 51 may be controlled so that the flow rate ratio (A:B) changes linearly from 1:0 to 0:1.
  • the flow rate ratio of the sample liquid 50 and the diluent 52 may be changed stepwise.
  • the range in which the flow path ratio (A:B) is changed is not limited to the entire range from 0:1 to 1:0, but a partial range (for example, 0.2:0.8 to 0.8: range up to 0.2). In this case, it is preferable to cover the concentration range handled in the actual process. However, from the viewpoint of comprehensively acquiring learning data, the range in which the flow rate ratio (A:B) is changed is preferably the entire range from 0:1 to 1:0. Moreover, it is preferable to perform channel replacement liquid feeding with the sample liquid 50 and the diluent 51 before starting the linear gradient liquid feeding.
  • the first flow path 43A, the second flow path 43B and the third flow path 43C are connected at the connecting portion 55.
  • the sample liquid 50 flowing through the first flow path 43A and the diluent liquid 51 flowing through the second flow path 43B join together at the connecting portion 55 and are mixed.
  • a mixed liquid obtained by mixing the sample liquid 50 and the diluent 51 flows through the third channel 43C.
  • a static mixer 45 is provided on the third flow path 43C.
  • the sample liquid 50 and diluent 51 contained in the mixed liquid are stirred by passing through the inside of the static mixer 45 .
  • the mixing ratio of the liquid mixture flowing through the third channel 43C changes continuously as the flow rate ratio (A:B) of the sample liquid 50 and the diluent 51 changes continuously. That is, the mixing ratio has a correlation with the flow ratio (A:B) between the sample liquid 50 and the diluent 51 .
  • a first flow cell 46A and a second flow cell 46B are provided downstream of the static mixer 45 in the third channel 43C.
  • the first sensor 47A acquires first time-series data indicating changes in the mixing ratio of the liquid mixture flowing through the first flow cell 46A.
  • the first sensor 47A may be any sensor capable of outputting a measured value having a correlation with the mixing ratio of the sample liquid 50 and the diluent 51 .
  • a UV-vis (ultraviolet visible light) spectrophotometer can be used as the first sensor 47A.
  • the UV-vis spectrophotometer irradiates the liquid mixture flowing through the first flow cell 46A with light divided by wavelength, and detects the intensity of the light transmitted through the liquid mixture, thereby detecting a specific wavelength of the liquid mixture (for example, 280 nm) is output.
  • the absorbance output from the first sensor 47A has a correlation with the mixing ratio of the sample liquid 50 and the diluent 51 in the liquid mixture. For example, as the ratio of the sample liquid 50 contained in the mixture decreases, the concentration of the antibody contained in the mixture decreases. This reduces the absorbance in the mixed liquid. If the absorbance exceeds the range depending on the concentration of the mixed solution or the linearity of the absorbance with respect to the mixture ratio is lost, the wavelength for measuring the absorbance may be changed.
  • the first sensor 47A outputs, as first time-series data, the change in the absorbance of the mixed liquid that changes continuously with the continuous change in the flow rate ratio (A:B) of the sample liquid 50 and the diluent 51. do.
  • the first time-series data output from the first sensor 47A is transmitted to the information processing device 100 .
  • the second sensor 47B acquires second time-series data indicating changes in spectral data of the liquid mixture flowing through the second flow cell 46B.
  • This spectral data is the same spectral data that is input to the soft sensor 10 .
  • the Raman spectrophotometer 20 illustrated in FIG. 2 can be used as the second sensor 47B.
  • the second sensor 47B captures the transition of the spectral data of the liquid mixture that changes continuously with the continuous change in the flow rate ratio (A:B) of the sample liquid 50 and the diluent 51 as second time-series data. output as The second time-series data output from the second sensor 47B is transmitted to the information processing device 100.
  • the number of samplings in the first time-series data and the second time-series data is preferably 25 or more, more preferably 50 or more, and most preferably 100 or more.
  • the liquid mixture that has passed through the first flow cell 46A and the second flow cell 46B is recovered in the recovery container 49.
  • FIG. 6 is a diagram showing an example of the hardware configuration of the information processing device 100. As shown in FIG. FIG. 6 illustrates a configuration in which the information processing apparatus 100 has a function of generating learning data, a function of constructing the software sensor 10 using the learning data, and a function of operating as the software sensor 10. ing.
  • the information processing device 100 is an example of a “recording processing unit” in technology disclosed herein.
  • the information processing apparatus 100 includes a CPU (Central Processing Unit) 101, a RAM (Random Access Memory) 102 as a temporary storage area, a nonvolatile memory 103, a display 104, an input device 105 such as a keyboard and a mouse, and a first sensor 47A. and an external interface 106 to which the second sensor 47B is connected.
  • CPU 101 , memory 102 , nonvolatile memory 103 , display 104 , input device 105 and external interface 106 are connected to bus 107 .
  • the nonvolatile memory 103 is a nonvolatile recording medium such as an HDD (Hard Disk Drive), SSD (Solid State Drive), or flash memory.
  • a learning data generation program 110 , an estimation model 111 , a software sensor construction program 112 and an estimation program 113 are stored in the nonvolatile memory 103 .
  • the learning data generation program 110 relates to the function of generating learning data.
  • Estimation model 111 and soft sensor construction program 112 are associated with the function of constructing soft sensor 10 .
  • Estimation program 113 is associated with the function of operating as soft sensor 10 .
  • a RAM 102 is a work memory for the CPU 101 to execute processing. The CPU 101 loads each program stored in the nonvolatile memory 103 to the RAM 102 and executes processing according to each program.
  • the function of generating learning data, the function of constructing the software sensor 10 using the learning data, and the function of operating as the software sensor 10 may be realized by different information processing devices (hardware).
  • FIG. 7 is a flowchart showing an example of the flow of processing executed by the CPU 101 executing the learning data generation program 110.
  • the learning data generation program 110 is executed, for example, when the user operates the input device 105 to give an instruction to start processing.
  • step S1 the CPU 101 transmits first time-series data indicating changes in the mixing ratio of the liquid mixture and second time-series data indicating changes in spectrum data of the liquid mixture to the first sensor 47A and the second sensor 47A, respectively. is acquired from the sensor 47B.
  • step S2 the CPU 101 records the first time-series data and the second time-series data in the non-volatile memory 103 with time information indicating the time when they were acquired.
  • the time information may be given by the first sensor 47A and the second sensor 47B.
  • the time information indicates the measurement times of the first time-series data and the second time-series data.
  • the first time-series data and the second time-series data are obtained based on the flow path length between the sensors and the flow rate of the mixed liquid. You may correct
  • step S3 the CPU 101 normalizes the first time-series data acquired in step S1. Specifically, the CPU 101 normalizes the absorbance output from the UV-vis spectrophotometer, which is the first sensor 47A, so that its maximum value is "1". That is, "1" is assigned to the absorbance obtained when the flow rate ratio (A:B) of the sample liquid 50 and the diluent liquid 51 is 1:0, and when the flow rate ratio (A:B) is 0:1 A "0" is assigned to the absorbance obtained in .
  • Absorbances obtained at intermediate stages of the flow ratio (A:B) from 0:1 to 1:0 are assigned numerical values greater than "0" and less than "1" according to the values.
  • step S4 the CPU 101 derives the third time-series data showing the transition of the concentration of the antibody contained in the mixture based on the standardized first time-series data. Specifically, the CPU 101 determines the mixture ratio C (0 ⁇ C ⁇ 1) at each time indicated by the standardized first time-series data and the known concentration Q1 of the antibody in the sample liquid 50.
  • a third time series data is derived by calculating the product (Q1*C).
  • the product (Q1 ⁇ C) indicates the concentration of antibody at that point in the mixture.
  • the third time series data can be obtained by arranging the products (Q1 ⁇ C) in time series. Time information is added to the third time series data based on the time information added to the first time series data.
  • the first time-series data and the third time-series data may be subjected to preprocessing such as time averaging in order to smooth noise.
  • step S5 the CPU 101 generates learning data based on the second time-series data acquired in step S1 and the third time-series data derived in step S4. Specifically, the CPU 101 generates a plurality of learning data in which spectrum data at a plurality of time points of the second time-series data are associated with antibody concentrations at corresponding time points of the third time-series data. do. The CPU 101 associates data at the same point in time of the second time-series data and the third time-series data with each other based on the time information given to them. As a result, a plurality of pieces of learning data can be obtained, each unit of which is a combination of spectrum data and antibody concentration that are in correspondence with each other.
  • the second time-series data and the third time-series data if there is no data at the same point in time, at least one of the second time-series data and the third time-series data is obtained at the sampling point by linear interpolation or the like. may be interpolated.
  • step S6 the CPU 101 records the plurality of learning data generated in step S5 in the nonvolatile memory 103.
  • the learning data acquisition method continuously changes the flow rate ratio of the sample liquid 50 and the diluent liquid 51 in which the concentration of a specific component (antibody) is known. While the sample liquid 50 and the diluent 51 are being mixed, the first time-series data showing the transition of the mixing ratio and the second data showing the transition of the spectrum data of the mixed liquid obtained by mixing.
  • time-series data deriving third time-series data showing changes in the concentration of a specific component (antibody) contained in the mixture based on the first time-series data, and generating second time-series data and acquiring learning data in which the spectrum data and the concentration of a specific component (antibody) are associated from the and third time-series data.
  • the learning data generated by the information processing device 100 is used to construct the soft sensor 10.
  • the construction of the soft sensor 10 is performed by the information processing device 100 .
  • the construction of the soft sensor 10 may be performed by an information processing apparatus different from the information processing apparatus used to generate the learning data.
  • the soft sensor 10 is constructed by making the estimation model 111 learn using learning data according to the soft sensor construction program 112 .
  • FIG. 8 is a diagram showing an example of the structure of the estimation model 111. As shown in FIG.
  • the estimation model 111 is assumed to be a neural network including an input layer, multiple intermediate layers, and an output layer.
  • the input layer of the estimation model 111 receives spectral data from Raman scattered light.
  • the output layer of the estimation model 111 outputs concentration data corresponding to the spectral data input to the input layer.
  • FIG. 9 is a flowchart showing an example of the flow of processing executed by the CPU 101 executing the software sensor construction program 112.
  • FIG. The soft sensor construction program 112 is executed, for example, when the user inputs a process execution instruction via the input device 105 after acquiring the learning data.
  • step S11 the CPU 101 extracts one of the plurality of learning data recorded in the nonvolatile memory 103 in step S6 (see FIG. 7) of the learning data generation process.
  • step S12 the CPU 101 inputs the learning spectrum data included in the learning data extracted in step S11 to the estimation model 111.
  • the learning data may be preprocessed as described in Japanese Patent Application No. 2020-075480.
  • step S13 the CPU 101 adjusts the estimation model so that the difference between the density data output from the estimation model 111 and the learning density data (that is, correct data) included in the learning data extracted in step S11 is small.
  • the estimation model 111 is learned. For example, an error backpropagation method may be applied as a learning method for the estimation model 111 .
  • step S14 the CPU 101 determines whether or not the processing from steps S11 to S13 has been completed for all learning data.
  • the processing returns to step S11. This routine ends when the processing for all the learning data is completed.
  • the soft sensor 10 is constructed by making the estimation model 111 learn using the learning data.
  • the soft sensor 10 constructed as described above estimates the concentration of antibodies contained in a liquid based on spectral data obtained for a liquid with an unknown antibody concentration. It is possible to derive
  • the information processing apparatus 100 functions as the software sensor 10 by the CPU 101 executing the estimation program 113 . Note that the function of operating as the software sensor 10 may be realized on an information processing apparatus different from the information processing apparatus used to generate the learning data and the information processing apparatus used to construct the software sensor 10 .
  • FIG. 10 is a flowchart showing an example of the flow of processing performed by the CPU 101 executing the estimation program 113.
  • the estimation program 113 is executed, for example, when the user inputs a process execution instruction via the input device 105 after the software sensor 10 is constructed.
  • step S21 the CPU 101 acquires spectral data measured using a Raman spectrophotometer or the like for a liquid with an unknown antibody concentration.
  • Spectral data may be obtained in-line, for example, in an antibody purification process.
  • step S22 the CPU 101 inputs the spectral data acquired in step S21 to the learned estimation model 111. Based on the spectral data, the trained estimation model 111 derives concentration data indicating an estimated concentration of the antibody contained in the liquid.
  • the CPU 101 outputs the density data derived at step S22.
  • the CPU 101 may, for example, perform control to display density data on the display 104 .
  • the following method can be considered as a method of acquiring learning data according to the comparative example.
  • a process e.g., a cell culture process, a purification process, etc.
  • spectral data is obtained for the treatment liquid in that process
  • quality information corresponding to the spectral data i.e., antibody concentration
  • acquisition of quality information requires multiple samplings from the processing liquid and off-line analysis of the sampled processing liquid, which requires enormous time and labor.
  • the learning data acquisition method while the sample liquid 50 and the diluent 51 are being mixed, the first time indicating the transition of the mixing ratio of the mixed liquid Second time-series data indicating transitions of the series data and the spectral data are obtained by in-line measurement by the first sensor 47A and the second sensor 47B, respectively. That is, acquisition of the first time-series data and the second time-series data is performed automatically. Also, the third time-series data indicating the transition of the concentration of the antibody contained in the mixed solution is derived by calculation from the first time-series data. A plurality of pieces of learning data can be acquired by associating data at the same point in time of the second time-series data and the third time-series data.
  • the offline analysis only needs to be performed to know the antibody concentration of the sample liquid 50 .
  • the learning data is generated based on the time-series data obtained for the mixed liquid obtained by mixing the sample liquid 50 and the diluent 51 while continuously changing the flow rate ratio, the learning data diversity can be ensured. That is, according to the learning data acquisition method according to the embodiment of the disclosed technology, it is possible to efficiently acquire learning data used for machine learning of the soft sensor 10 .
  • the number of offline analyzes can be reduced to 1/7 or less compared to the method according to the comparative example described above.
  • the software sensor 10 is effective in, for example, the production of biopharmaceuticals in situations where estimating the quality state in real time is a great advantage.
  • the soft sensor 10 can be used to control the timing of recovering the antibody eluted from the column in the antibody purification process by chromatography.
  • the UV absorbance of the treatment solution is monitored by a UV sensor, and the valve is switched at the timing when the UV absorbance exceeds a predetermined value, and the treatment solution containing the antibody is separated. are collecting. That is, the valve switching timing is controlled based on the UV absorbance output from the UV sensor.
  • UV absorbance cannot distinguish between antibodies and contaminants other than antibodies. Therefore, there is a risk that the valve will be switched at inappropriate timing, and the purity of the antibody in the recovered treatment liquid will not reach the target value.
  • the soft sensor 10 By using the soft sensor 10 according to the present embodiment in place of the UV sensor, it is possible to independently estimate the concentration of antibodies even for a treatment liquid containing both antibodies and contaminants. This makes it possible to appropriately control the timing of switching the valves, making it possible to recover a treated liquid containing antibodies purified to a desired degree of purity.
  • the software sensor 10 can quickly detect the abnormality. This can prevent significant rework of the process.
  • the "specific component” from which the concentration data is to be derived is an antibody contained in the culture solution obtained by cell culture, but it is not limited to this aspect.
  • the “specific component” from which concentration data is to be derived may be contaminants other than antibodies contained in the culture medium.
  • the contaminants may be at least one of antibody aggregates, antibody fragments, charge isomers, immature sugar chains, host cell proteins (HCPs), or cell-derived DNA. If biopharmaceuticals are contaminated with such contaminants as described above, even a very small amount of such contaminants may affect the efficacy of the biopharmaceutical. Therefore, it is important to know the concentration of contaminants in the treated liquid obtained by purification treatment for purifying antibodies.
  • the sample liquid 50 used to acquire learning data contains contaminants with known concentrations.
  • the diluent 51 may be a liquid containing buffer components containing any one or more of phosphoric acid, acetic acid, tris, and citric acid and containing no contaminants.
  • the procedure for acquiring learning data is the same as the above-described case of acquiring the estimated antibody concentration as concentration data. That is, for the liquid mixture obtained by mixing the sample liquid 50 and the diluent 51, the first time-series data indicating the transition of the mixing ratio and the second time-series data indicating the transition of the spectrum data of the mixture are generated. , from the first sensor 47A and the second sensor 47B.
  • the first time-series data is normalized. Specifically, the absorbance output from the UV-vis spectrophotometer, which is the first sensor 47A, is normalized so that its maximum value is "1".
  • the third time-series data showing the transition of the concentration of contaminants contained in the mixed liquid is derived, specifically, known in the sample liquid 50
  • the product (Q2 ⁇ C) indicates the concentration of contaminants in the mixture at that time point.
  • the third time series data can be obtained by arranging the products (Q2 ⁇ C) in time series. Time information is added to the third time series data based on the time information added to the first time series data.
  • learning data is generated based on the second time-series data and the third time-series data. Specifically, a plurality of learning data are generated by associating spectral data at a plurality of time points of the second time-series data with contaminant concentrations at corresponding time points of the third time-series data. That is, the data at the same point in the second time-series data and the third time-series data are associated with each other based on the time information attached to them. As a result, a plurality of pieces of learning data can be obtained, each unit of which is a combination of spectrum data and contaminant concentrations that are in correspondence with each other.
  • the "specific component" from which concentration data is derived may include both antibodies and contaminants other than antibodies contained in the culture medium. That is, it is possible to construct the soft sensor 10 such that it simultaneously derives an estimate of the concentration of the antibody and the concentration of at least one contaminant.
  • the sample liquid 50 used to acquire learning data contains an antibody with a known concentration and at least one type of contaminant with a known concentration.
  • the diluent 51 can be a liquid containing a buffer component containing any one or more of phosphoric acid, acetic acid, tris, and citric acid, and free of antibodies and contaminants.
  • the procedure for acquiring learning data is the same as the above-described case of acquiring the estimated antibody concentration as concentration data.
  • the first time-series data indicating the transition of the mixing ratio and the second time-series data indicating the transition of the spectrum data of the mixture are generated.
  • the first sensor 47A and the second sensor 47B are normalized.
  • the absorbance output from the UV-vis spectrophotometer, which is the first sensor 47A is normalized so that its maximum value is "1".
  • the third time-series data are derived, which respectively show changes in the concentration of the antibody and the concentration of contaminants contained in the mixture, specifically , the product of the antibody concentration Q1 and the contaminant concentration Q2, which are known in the sample liquid 50, and the mixing ratio C (0 ⁇ C ⁇ 1) at each time indicated by the normalized first time-series data
  • a third time series is derived for each antibody and contaminant by calculating (Q1 ⁇ C, Q2 ⁇ C).
  • the product (Q1 ⁇ C) indicates the concentration of antibody at that point in the mixture.
  • the product (Q2 ⁇ C) indicates the concentration of contaminants in the mixture at that time point.
  • third time series data can be obtained for each of the antibody and contaminants.
  • Time information is added to the third time series data based on the time information added to the first time series data.
  • learning data is generated based on the second time-series data and the third time-series data.
  • a plurality of learning data in which the spectrum data at a plurality of time points of the second time-series data and the concentrations of antibodies and contaminants at each corresponding time point of the third time-series data are associated Generate. That is, the data at the same point in the second time-series data and the third time-series data are associated with each other based on the time information attached to them.
  • a plurality of pieces of learning data can be obtained, each of which is a combination of spectral data having a corresponding relationship with each other, antibody concentration, and contaminant concentration.
  • multiple soft sensors 10 can be configured to derive concentration estimates for different components (eg, antibodies and contaminants).
  • the spectrum of Raman scattered light is used as an example, but the present invention is not limited to this mode.
  • the absorption spectrum of infrared rays irradiated to the liquid infrared absorption spectrum
  • fluorescence fluorescence spectrum
  • UV-Vis absorption spectrum UV-Vis absorption spectrum
  • Raman scattered light spectrum which has a higher correlation to the concentration data.
  • Measured values other than spectral data include, for example, optically detected values of temperature, absorbance, conductivity, hydrogen ion concentration, refractive index, or light scattering measured for the liquid from which concentration data is derived by the software sensor 10.
  • the fourth time-series data may be time-series data of two or more types of measured values of the liquid mixture.
  • the case of using a UV-vis spectrophotometer that outputs the absorbance of the liquid mixture as the first sensor 47A was exemplified, but it is not limited to this aspect.
  • the first sensor 47A it is also possible to use a sensor that outputs optically detected values of electrical conductivity, hydrogen ion concentration, refractive index, or light scattering for the liquid mixture.
  • the first time-series data may be obtained based on optically detected values of absorbance, conductivity, hydrogen ion concentration, refractive index, or light scattering measured for the liquid mixture.
  • the electrical conductivity, hydrogen ion concentration, refractive index, or optically detected value of light scattering measured for the mixed liquid are all correlated with the mixing ratio of the mixed liquid, and can be used instead of the absorbance.
  • the present invention is limited to this aspect. not.
  • the first sensor 47A and the second sensor 47B are of the same type, it is possible to make the correspondence without time information.
  • both the first sensor 47A and the second sensor 47B are UV-vis spectrophotometers that output the absorbance at a specific wavelength of the mixture, at a common wavelength (eg, 280 nm) in the output of both sensors , data showing the same absorbance may be associated with each other. This is because the absorbances output from both sensors at the same time and at the same wavelength are the same.
  • the learning data acquisition system 40 shown in FIG. 4 can be modified in various ways.
  • the probes of the first sensor 47A and the second sensor 47B may be arranged inside the static mixer 45 or inside a chamber (not shown) provided in the flow path. good.
  • the soft sensor 10 is constructed by machine learning was exemplified. It may be constructed using a technique.
  • Example 1 Learning data for constructing the soft sensor 10 that derives the estimated value of the concentration of the antibody contained in the liquid as concentration data was acquired. Moreover, the software sensor 10 was constructed using the obtained learning data. The details are described below.
  • sample solution As a stock solution of the sample solution, a solution obtained by removing cells from a Chinese Hamster Ovary (CHO) cell culture medium was used. In addition to antibody proteins produced by cells, this solution is contaminated with glucose, lactic acid, amino acids, ammonia, antibody aggregates, antibody fragments, charge isomers, immature sugar chains, cell-derived proteins, and cell-derived DNA. included as objects. In this example, this solution will be referred to as "culture supernatant". Note that the technique described in WO2019/117136 can be applied to establish CHO cells.
  • a protein A column is a column filled with a protein-A-presented resin that specifically adsorbs an antibody on the surface of porous beads, and is a kind of column commonly used in antibody purification processes.
  • a Protein A column (Cytiva, MabSelect SuRe) was used in conjunction with a chromatography system (Cytiva, AKTA pure 25).
  • the culture supernatant was introduced from the input line of the chromatography device, and the antibody contained in the liquid was specifically adsorbed onto the protein A column.
  • a liquid containing contaminants that was not adsorbed to the protein A column was collected from the discharge line as a "flow-through liquid".
  • a washing buffer (20 mM sodium phosphate, 150 mM sodium chloride, pH 7.2) was introduced from the buffer line of the chromatography device to wash away contaminants nonspecifically adsorbed to the protein A column. The solution discharged from the protein A column at this time was collected as a "wash fraction”.
  • an elution buffer (0.1 M sodium citrate, pH 3.0) was introduced from the buffer line of the chromatography device to desorb the antibody specifically adsorbed on the protein A column. The solution eluted from the protein A column at this time was collected as an "eluted fraction".
  • sample liquids 50 The samples taken from the culture supernatant, the flow-through fraction, the washing fraction, and the elution fraction were each designated as 50 sample liquids.
  • the antibody concentration was measured by off-line analysis by HPLC. Thus, four sample liquids 50 with known antibody concentrations were obtained.
  • a connection portion 55 to which the first flow path 43A, the second flow path 43B, and the third flow path 43C are connected is configured by a T-shaped tube.
  • Plunger pumps were used as the first pump 44A and the second pump 44B.
  • a UV-vis spectrophotometer was used as the first sensor 47A.
  • a Raman spectrophotometer (Kaiser optical systems, Kaiser Raman RXN2 Analyzer) was used as the second sensor 47B.
  • One of the four sample liquids 50 described above was contained in the first container 41, and the diluent 51 was contained in the second container.
  • the diluent 51 the above-described washing buffer, elution buffer, and liquid medium for cell culture were used.
  • the first pump 44A and the second pump 44B were controlled so that the total flow rate of the sample liquid 50 flowing through the first channel 43A and the diluent 51 flowing through the second channel 43B was maintained at 1 mL/min. .
  • the flow rate ratio (A:B) which is the ratio of the flow rate A of the sample liquid 50 and the flow rate B of the diluent 51, was controlled to be 0:1.
  • the first pump 44A and the second pump 44B were controlled so that the flow rate ratio (A:B) changed linearly from 0:1 to 1:0 during 20 minutes.
  • the absorbance at a wavelength of 280 nm is measured by the UV-vis spectrophotometer, which is the first sensor 47A, for the mixed liquid in which the sample liquid 50 and the diluent 51 flowing through the third flow path 43C are mixed. It was measured. Changes in absorbance that change with changes in the flow rate ratio (A:B) were obtained as first time-series data. Further, while the liquid was being sent, the Raman spectrophotometer, which was the second sensor 47B, acquired spectral data of Raman scattered light for the liquid mixture flowing through the third channel 43C.
  • the laser output was 200 mW
  • the excitation wavelength was 785 nm
  • the exposure time was 1 second
  • the number of times of integration was 15 times.
  • the transition of spectral data that changes with changes in the flow rate ratio (A:B) was obtained as second time-series data.
  • the first time-series data and the second time-series data are recorded in the non-volatile memory 103 included in the information processing apparatus 100 with time information indicating the time when they were acquired.
  • the mixed solution was sampled from the discharge line at a time of 1 mL each time while the solution was being sent.
  • Antibody concentrations were determined for each sample by off-line analysis by HPLC. This verification may be performed as necessary and can be omitted.
  • the first time-series data and the second time-series data were obtained for the remaining three kinds of sample liquids 50 according to the same procedure as described above.
  • the absorbance at each time point indicated by the first time-series data was normalized so that its maximum value was "1".
  • the product (Q1 ⁇ C) of the antibody concentration Q1 which is known in the sample liquid 50, and the mixture ratio C (0 ⁇ C ⁇ 1) indicated by the normalized first time-series data is calculated.
  • the third time-series data was derived by That is, the third time-series data was obtained by arranging the products (Q1 ⁇ C) in time series.
  • FIG. 11 is a graph comparing the antibody concentration indicated by the third time-series data and the antibody concentration actually measured by offline analysis of the sampled mixture. As shown in FIG. 11 , the two results were approximately the same, so it was verified that the antibody concentration can be estimated from the first time-series data.
  • the spectral data at multiple time points of the second time-series data were associated with the antibody concentration at each corresponding time point of the third time-series data.
  • the data at the same point in the second time-series data and the third time-series data are associated with each other based on the time information attached to them.
  • the sampling points were interpolated by linear interpolation and associated with each other.
  • a plurality of pieces of learning data were generated, each unit of which is a combination of spectrum data and antibody concentration that are in correspondence with each other.
  • a culture lot different from the culture lot of the sample liquid 50 was subjected to separation processing by immunoaffinity chromatography using a protein A column.
  • a gradient elution was performed in the range of 10 CV with a continuous switch from wash buffer to elution buffer during elution.
  • CV indicates the volume of the protein A column.
  • the Raman spectrum was collected using the flow cell installed in the channel, and at the same time, 0.5 CV sampling was performed using the fraction collector.
  • An estimate of the antibody concentration by the soft sensor 10 was derived using the collected spectra as input. In addition, the antibody concentration was measured for each collected elution fraction by off-line analysis by HPLC.
  • the coefficient of determination R2 and Root Mean Square Error (RMSE) were obtained.
  • the coefficient of determination R2 was 0.99 and the RMSE was 0.39 for the soft sensor 10 constructed by the technique according to this example.
  • Example 2 Learning data for constructing a soft sensor 10 that derives an estimated value of the concentration of a host cell-derived protein (HCP), which is a type of contaminant contained in a liquid, as concentration data was obtained. Moreover, the software sensor 10 was constructed using the obtained learning data. The details are described below.
  • HCP host cell-derived protein
  • sample liquid 50 was obtained by sampling the liquid.
  • concentration of HCP was measured by off-line analysis by HPLC.
  • concentration of HCP was measured using the 360-HCP ELISA kit (Cosmo Bio).
  • a culture lot different from the culture lot of the sample liquid 50 was subjected to separation processing by immunoaffinity chromatography using a protein A column.
  • a gradient elution was performed in the range of 10 CV with a continuous switch from wash buffer to elution buffer during elution.
  • the Raman spectrum was collected using the flow cell installed in the channel, and at the same time, 0.5 CV sampling was performed using the fraction collector.
  • An estimate of the HPC concentration by the soft sensor 10 was derived using the collected spectra as input.
  • the HCP concentration of the sampled elution fraction was measured by off-line analysis by HPLC.
  • the coefficient of determination R2 and RMSE were obtained to assess the accuracy of the HCP concentration estimates in the soft sensor 10 relative to the actual measurements.
  • the coefficient of determination R2 was 0.96 and the RMSE was 34.11 for the soft sensor 10 constructed by the technique according to this example.
  • the CHO cell culture supernatant was separated by immunoaffinity chromatography using a protein A column.
  • a protein A column (Cytiva, MabSelect SuRe) was used in conjunction with a chromatography system (Cytiva, AKTA pure 25).
  • an acidic eluate was introduced from the buffer line of the chromatography device to desorb the antibody specifically adsorbed on the protein A column.
  • it was introduced in a gradient manner while creating a concentration gradient (gradient elution).
  • Three patterns of gradient elution conditions were used as follows. Gradient elution was performed using 5 CV, 10 CV and 15 CV volumes of the eluate, where CV is the volume of the protein A column.
  • Raman scattered light spectra were measured at multiple points in time during process operation.
  • the elution fraction was sampled at multiple points during process operation, and the antibody concentration was obtained by off-line analysis of the sampled elution fraction.
  • a plurality of data for learning was acquired by associating spectra at a plurality of points in time during process operation with antibody concentrations at the corresponding points.
  • the software sensor 10 was constructed by making the estimation model 111 learn using the plurality of learning data acquired as described above. Using the soft sensor 10, a culture lot different from the culture lot used to acquire the learning data was subjected to separation processing by immunoaffinity chromatography using protein A. Here, a gradient elution was performed in the range of 10 CV with a continuous switch from wash buffer to elution buffer during elution. During the elution process, the Raman spectrum was collected using the flow cell installed in the channel, and at the same time, 0.5 CV sampling was performed using the fraction collector. An estimate of the antibody concentration by the soft sensor 10 was derived using the collected spectra as input.
  • the sampled elution fraction was subjected to off-line analysis by HPLC to measure the antibody concentration.
  • Coefficient of determination R2 and RMSE were obtained to assess the accuracy of the estimated antibody concentration in the soft sensor 10 relative to the measured values.
  • the coefficient of determination R2 was 0.98 and the RMSE was 0.53.
  • the accuracy of the soft sensor 10 constructed using the learning data acquired by the method according to the disclosed technique is higher than that of the learning data acquired by the method according to the comparative example, which mainly consists of offline analysis. It can be said that it is equivalent to the soft sensor 10 constructed using.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biochemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

特定の成分の濃度が既知であるサンプル液を用意する。サンプル液と希釈液とをこれらの流量比を連続的に変化させながら混合する。サンプル液と希釈液との混合を行っている間、混合によって得られる混合液について、混合比の推移を示す第1の時系列データ及びスペクトルデータの推移を示す第2の時系列データを取得する。第1の時系列データに基づいて、混合液に含まれる特定の成分の濃度の推移を示す第3の時系列データを導出する。第2の時系列データと第3の時系列データから、スペクトルデータと特定の成分の濃度とを対応付けた学習用データを取得する。

Description

学習用データの取得方法、学習用データ取得システム、ソフトセンサの構築方法、ソフトセンサ、学習用データ
 開示の技術は、学習用データの取得方法、学習用データ取得システム、ソフトセンサの構築方法、ソフトセンサ及び学習用データに関する。
 試料に含まれる被検物質の定量的な情報の推定を行う学習モデルにおける学習用データの作成方法に関する技術として以下の技術が知られている。例えば、特開2020-101543号公報には、ランダムノイズと被検物質のスペクトル情報が示す波形とを足し合わせた複数の波形を、被検物質と夾雑物とを含む仮想的な試料のスペクトル情報(学習用スペクトル情報)として用い、生成されたスペクトル情報の基となった、被検物質のスペクトル情報から特定されるピークの高さを正解データとして用いることが記載されている。
 バイオ医薬品の製造においては、培養された細胞から産生されるバイオ原薬である抗体等のタンパク質を精製し、製剤化を行っている。タンパク質の精製工程においては、例えば、陽イオンクロマトグラフィー、陰イオンクロマトグラフィー、イムノアフィニティクロマトグラフィー及びゲルろ過クロマトグラフィー等の異なる複数のクロマトグラフィー手法による精製処理を連続的に行うことによって、段階的に目的のタンパク質の純度を高めていくことが行われている。各ステップにおいて適切に精製処理が行われているか否かを検証するために、精製状態をモニタリングすることが好ましい。例えば、精製処理によって最終的に得られる目的のタンパク質を定量化することで、これを回収するためのバルブの切り替えのタイミングを制御することも可能となる。また、各ステップにおいて目的のタンパク質から分離された夾雑物の濃度を把握することも重要である。これは、医薬品に目的のタンパク質以外の夾雑物が混入すると、その量が微量であっても薬効や副反応に影響する可能性があるからである。精製工程においては、段階的に目的のタンパク質の純度が高められ、各ステップにおいて処理された処理液中に含まれる夾雑物の量はごく微量となるため、夾雑物を定量化することは容易ではない。
 バイオ医薬品の製造工程において得られる処理液中に含まれる成分を定量化するための手段としてソフトセンサを用いることが考えられる。ソフトセンサは、実測が困難なパラメータを、実測が比較的容易な入力データに基づいて推定するセンサである。バイオ医薬品の製造工程において活用できるソフトセンサとして、例えば、液体による作用を受けた電磁波の、波数または波長毎の強度を示すスペクトルデータに基づいて液体中に含まれる特定の成分の濃度を導出するものが想定される。上記のソフトセンサは、スペクトルデータと、これに対応する特定の成分の濃度とが一対一で対応付けられた学習用データを用いた機械学習によって構築される。
 ソフトセンサにおいて測定精度(予測精度)を安定化させるためには、多様な品質状態を網羅した学習用データを用意することが好ましい。学習用データを取得するためには、ソフトセンサの活用を想定する工程(例えば細胞培養工程及び精製工程など)を実際に運転し、その工程における処理液についてスペクトルデータを取得し、さらにスペクトルデ
ータに対応する品質情報(ここでは特定の成分の濃度)を取得することが行われている。しかしながら、多様な品質情報の取得には処理液中から複数回に亘ってサンプリングを行い、サンプリングされた処理液についてオフライン分析を行う必要があり、膨大な時間と労力を要する。更に、学習用データの多様性を確保するためには、処理条件を作為的に変更した多数のバッチについて、スペクトルデータ及び品質情報を取得する必要がある。この場合、バッチ数とサンプリング数との積に相当する回数のオフライン分析が必要となる。また、処理液の品質は、プロセスに依存するため、学習用データにおける品質の分布が制限されやすい。すなわち、実プロセスにおける処理液のサンプリングによって学習用データを取得する場合、多様な品質状態を網羅することは困難であった。
   
 開示の技術は上記の点に鑑みてなされたものであり、ソフトセンサの機械学習に用いる学習用データを効率的に取得することを目的とする。
 開示の技術に係る学習用データの取得方法は、液体による作用を受けた電磁波の、波数または波長毎の強度を示すスペクトルデータに基づいて液体中に含まれる特定の成分の濃度を導出するソフトセンサの機械学習に用いる学習用データの取得方法であって、特定の成分の濃度が既知であるサンプル液を用意し、サンプル液と希釈液とをこれらの流量比を連続的に変化させながら混合し、サンプル液と希釈液との混合を行っている間、混合によって得られる混合液について、混合比の推移を示す第1の時系列データ及びスペクトルデータの推移を示す第2の時系列データを取得し、第1の時系列データに基づいて、混合液に含まれる特定の成分の濃度の推移を示す第3の時系列データを導出し、第2の時系列データと第3の時系列データから、スペクトルデータと特定の成分の濃度とを対応付けた学習用データを取得する、というものである。
 第2の時系列データの複数の時点におけるスペクトルデータと、第3の時系列データの複数の時点に対応する各時点における特定の成分の濃度と、を対応付けた複数の学習用データを取得してもよい。
 スペクトルデータがラマンスペクトル、赤外線吸収スペクトル、蛍光スペクトル又はUV-Vis吸収スペクトルによるものであってもよい。
 混合液について測定した吸光度、導電率、水素イオン濃度、屈折率、又は光散乱の光学的検出値に基づいて第1の時系列データを取得してもよい。
 サンプル液は、特定の成分を分離する分離処理を行った処理液であってもよい。分離処理は、クロマトグラフィーによるものであってもよい。
 特定の成分は、タンパク質であってもよい。特定の成分は、細胞培養によって得られる培養液に含まれる抗体以外の夾雑物であってもよい。夾雑物は、抗体の凝集物、抗体の断片、電荷異性体、未成熟糖鎖、細胞由来タンパク質、細胞由来DNAのうちの少なくとも1つを含んでいてもよい。
 希釈液は、サンプル液に含まれる特定の成分を含んでいてもよい。希釈液は、サンプル液に含まれる特定の成分以外の成分のみを含んでいてもよい。
 混合液が流れる流路上に設けられた第1のセンサによって第1の時系列データを取得し、流路上に設けられた第2のセンサによって第2の時系列データを取得してもよい。
 サンプル液と希釈液との混合を行っている間、混合液について測定された少なくとも1種類の測定値の推移を示す第4の時系列データを更に取得し、第2の時系列データと第3の時系列データと第4の時系列データから、測定値とスペクトルデータと特定の成分の濃度とを対応付けた学習用データを取得してもよい。
 開示の技術に係る学習用データ取得システムは、上記の取得方法を実施するための学習用データ取得システムであって、サンプル液が流通する第1の流路と、希釈液が流通する第2の流路と、混合液が流通する第3の流路と、サンプル液の送液を行う第1のポンプと、希釈液の送液を行う第2のポンプと、第1のポンプ及び第2のポンプを制御する制御部と、第3の流路上に設けられ、第1の時系列データを取得する第1のセンサと、第3の流路上に設けられ、第2の時系列データを取得する第2のセンサと、第1のセンサ及び第2のセンサの出力を記録媒体に記録する処理を行う記録処理部と、を含む。
 開示の技術に係るソフトセンサの構築方法は、上記の取得方法によって取得された学習用データを用いて、ソフトセンサのモデルを学習させる、というものである。
 開示の技術に係るソフトセンサは、上記の取得方法によって取得された学習用データを用いて学習されたソフトセンサである。
 開示の技術に係る学習用データは、上記の取得方法によって取得された学習用データである。
 開示の技術によれば、ソフトセンサの機械学習に用いる学習用データを効率的に取得することが可能となる。
開示の技術の実施形態に係るソフトセンサの機能の一例を示す図である。 ラマン散乱光によるスペクトルデータを取得する方法の一例を示す図である。 開示の技術の実施形態に係る学習用データの一例を示す図である。 開示の技術の実施形態に係る学習用データ取得システムの構成の一例を示す図である。 開示の技術の実施形態に係るサンプル液及び希釈液の送液方法の一例を示す図である。 開示の技術の実施形態に係る情報処理装置のハードウェア構成の一例を示す図である。 開示の技術の実施形態に係る学習用データ生成プログラムを実行することによって実施される処理の流れの一例を示すフローチャートである。 開示の技術の実施形態に係る推定モデルの構造の一例を示す図である。 開示の技術の実施形態に係るソフトセンサ構築プログラムを実行することによって実施される処理の流れの一例を示すフローチャートである。 開示の技術の実施形態に係る推定プログラムを実行することによって実施される処理の流れの一例を示すフローチャートである。 第3の時系列データによって示される抗体濃度と、サンプリングした混合液のオフライン分析によって実測した抗体濃度とを比較したグラフである。
 以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一または等価な構成要素及び部分には同一の参照符号を付与し、重複する説明は適
宜省略する。
 開示の技術は、ソフトセンサの学習用データの取得方法に関するものである。図1に示すように、本実施形態に係るソフトセンサ10は、液体による作用を受けた電磁波の、波数または波長毎の強度を示すスペクトルデータに基づいて、その液体中に含まれる特定の成分の濃度の推定値を示す濃度データを導出する機能を有する。ソフトセンサ10から出力される濃度データは、スペクトルデータに相関性を有する。すなわち、スペクトルデータが説明変数としてソフトセンサ10に入力され、濃度データが目的変数としてソフトセンサ10から出力される。濃度データは、実測によるインラインモニタが容易ではない。ソフトセンサ10を用いることで、実測によるインラインモニタが比較的容易なスペクトルデータに基づいて、濃度データのインラインでの取得が可能となる。
 本実施形態に係るソフトセンサ10は、ラマン分光法による解析手法を適用したものである。すなわち、本実施形態において、ソフトセンサ10に入力されるスペクトルデータとして、ラマン散乱光によるスペクトルデータが適用される。ラマン分光法は、ラマン散乱光を用いて物質の評価を行う分光法である。光を物質に照射すると、光が物質と相互作用することで入射光と異なる波長を持つラマン散乱光が発生する。入射光とラマン散乱光の波長差は、物質が持つ分子振動のエネルギー分に相当するため、分子構造の異なる物質間で、異なる波長(波数)を持ったラマン散乱光が得られる。また、ラマン散乱光を用いて、応力、温度、電気特性、配向、結晶性などの様々な物性を推定することができる。ラマン散乱光は、ストークス線及び反ストークス線のうち、ストークス線を用いることが好ましい。
 ソフトセンサ10は、例えば、バイオ医薬品の製造工程において得られる処理液中に含まれる特定の成分の濃度を推定するために用いることが可能である。ソフトセンサ10が用いられる製造工程の一例として、抗体の精製工程が挙げられる。この場合、ソフトセンサ10による濃度データの導出対象とされる「特定の成分」は、例えば、タンパク質であってもよい。このタンパク質は、例えば、培養された細胞から産生される免疫グロブリン、すなわち抗体であってもよい。
 図2は、液体30についてラマン散乱光によるスペクトルデータを取得する方法の一例を示す図である。スペクトルデータは、公知のラマン分光光度計20を用いて取得することが可能である。ラマン分光光度計は、プローブ21及びアナライザ22を含んで構成される。図2に示すように、プローブ21の先端は、容器31に収容された液体30中に浸漬される。プローブ21の先端に設けられた光出射部(図示せず)から出射した励起光が液体30に照射される。励起光と液体30との相互作用によって発生したラマン散乱光は、プローブ21の先端に設けられた受光部(図示せず)によって受光される。取得されたラマン散乱光は、アナライザ22によって、波数(波長の逆数)毎に分解され、波数毎のスペクトル強度値であるスペクトルデータが生成される。なお、スペクトルデータは、波長毎のスペクトル強度値であってもよい。スペクトルデータは、ソフトセンサ10に入力される。ソフトセンサ10は、スペクトルデータに基づいて、液体30に含まれる特定の成分の濃度の推定値を示す濃度データを出力する。なお、液体30が流れる流路上に設けられたフローセル(図示せず)を介して液体30に励起光を照射することで、スペクトルデータをインラインで取得することも可能である。
 ソフトセンサ10は、スペクトルデータと濃度データとの複数の組み合わせを学習用データとして用いた機械学習によって構築される。図3は、学習用データの一例を示す図である。図3には、濃度データが抗体の濃度である場合が例示されている。
 ソフトセンサ10において測定精度(予測精度)を安定化させるためには、多様な品質
状態を網羅した学習用データを用意する必要がある。以下において、開示の技術の実施形態に係る学習用データの取得方法について説明する。以下の説明においては、ソフトセンサ10が、ラマン散乱光によるスペクトルデータを入力とし、スペクトルデータに基づいて、液体に含まれる抗体の濃度の推定値を導出する場合を例示する。
 図4は、開示の技術の実施形態に係る学習用データ取得システム40の構成の一例を示す図である。学習用データ取得システム40は、第1の容器41、第2の容器42、第1の流路43A、第2の流路43B、第3の流路43C、第1のポンプ44A、第2のポンプ44B、制御部48、第1のセンサ47A、第2のセンサ47B、回収容器49及び情報処理装置100を含んで構成されている。
 第1の容器41には、サンプル液50が収容される。サンプル液50は、学習用データにおける濃度データを取得する対象である「特定の成分」(ここでは抗体)を含む液体である。サンプル液50における特定の成分(抗体)の濃度は既知とされている。サンプル液50における抗体の濃度は、例えば、HPLC(High Performance Liquid Chromatography)によるオフライン分析によって測定してもよい。
 サンプル液50は、特定の成分(抗体)以外に、ソフトセンサ10によって濃度データを導出する対象となる液体に含まれる成分と同じ成分を含んでいることが好ましい。例えば、ソフトセンサ10を抗体の精製工程における処理液に含まれる抗体の濃度の推定に用いることを想定する場合、サンプル液50は、細胞培養によって得られる培養液から抗体を濃縮する分離処理を行った処理液又はこれを模擬した液体であることが好ましい。例えばサンプル液50には、抗体以外に、リン酸、酢酸、トリス、クエン酸のいずれか1つ以上を含む緩衝液成分が含まれていることが好ましい。また、抗体の精製工程がクロマトグラフィーによる分離処理を含む場合、サンプル液50について行われる分離処理は、クロマトグラフィーによるものであることが好ましい。上記のクロマトグラフィー処理は、イムノアフィニティクロマトグラフィー処理であることが好ましい。
 第2の容器42には、希釈液51が収容される。希釈液51は、サンプル液50に含まれる抗体の濃度を変化させるために用いられる。希釈液51は、サンプル液50に含まれる「特定の成分」(すなわち抗体)以外の成分を含んでいることが好ましい。例えば、希釈液51は、抗体を含まず、上記した緩衝液成分が含まれていてもよい。なお、希釈液51には、サンプル液50に含まれる「特定の成分」(すなわち抗体)が含まれていてもよい。この場合、希釈液51に含まれる抗体の濃度は既知とされることを要する。また、希釈液51には、実プロセスにおいて想定される特定の不純物が含まれていてもよい。希釈液51が、抗体又は不純物を含むことで、成分間の相関バランスが崩れた学習用データを得ることができ、ソフトセンサ10における濃度の推定精度を向上させることができる。このような観点から、サンプル液50及び希釈液51のいずれにおいても、単に分離を行った処理液だけではなく、あえて抗体又は不純物(標品でもよい)を添加した溶液を用いてもよい。
 第1の流路43Aは、第1の容器41に接続されており、サンプル液50は第1の流路43Aを流れる。第2の流路43Bは、第2の容器42に接続されており、希釈液51は第2の流路43Bを流れる。第1のポンプ44Aは、第1の流路43A上に設けられており、サンプル液50の送液を行う。第2のポンプ44Bは、第2の流路43B上に設けられており、希釈液51の送液を行う。
 制御部48は、第1のポンプ44A及び第2のポンプ44Bを制御することによって第1の流路43Aを流れるサンプル液50の流量及び第2の流路43Bを流れる希釈液51の流量を制御する。制御部48は、サンプル液50と希釈液51の流量比を連続的に変化
させるように第1のポンプ44A及び第2のポンプ44Bを制御する。より具体的には、制御部48は、図5に示すように、サンプル液50の流量Aと希釈液51の流量Bとの合計値を一定(例えば1mL/min)に保ちながら、所定期間内(例えば10分間)に、流量比(A:B)が0:1から1:0に直線的に変化するようにサンプル液50及び希釈液51の送液を制御する。このような送液をリニアグラジエント送液という。なお、流量比(A:B)が、1:0から0:1に直線的に変化するようにサンプル液50及び希釈液51の送液を制御してもよい。また、サンプル液50と希釈液52の流量比を、ステップ状(段階的)に変化させてもよい。また、流路比(A:B)を変化させる範囲は、0:1から1:0までの全範囲に限らず、一部の範囲(例えば、0.2:0.8から0.8:0.2までの範囲)であってもよい。この場合、実プロセスで扱う濃度範囲をカバーしていることが好ましい。しかしながら、学習用データを網羅的に取得する観点から、流量比(A:B)を変化させる範囲は0:1から1:0までの全範囲であることが好ましい。また、リニアグラジエント送液を開始する前に、サンプル液50及び希釈液51による流路置換送液を行うことが好ましい。
 第1の流路43A、第2の流路43B及び第3の流路43Cは、接続部55において接続されている。第1の流路43Aを流れるサンプル液50及び第2の流路43Bを流れる希釈液51は、接続部55において合流し、混合される。サンプル液50と希釈液51との混合によって得られる混合液は、第3の流路43Cを流れる。第3の流路43C上にはスタティックミキサ45が設けられている。混合液に含まれるサンプル液50及び希釈液51は、スタティックミキサ45の内部を通過することで攪拌される。第3の流路43Cを流れる混合液の混合比は、サンプル液50と希釈液51の流量比(A:B)の連続的な変化に伴って連続的に変化する。すなわち、混合比は、サンプル液50と希釈液51との流量比(A:B)に相関性を有する。
 第3の流路43Cのスタティックミキサ45よりも下流側には、第1のフローセル46A及び第2のフローセル46Bが設けられている。第1のセンサ47Aは、第1のフローセル46Aを流れる混合液について、混合比の推移を示す第1の時系列データを取得する。第1のセンサ47Aは、サンプル液50と希釈液51との混合比に対して相関性を有する測定値を出力可能なセンサであればよい。第1のセンサ47Aとして、例えば、UV-vis(紫外可視光)分光光度計を用いることができる。UV-vis分光光度計は、第1のフローセル46Aを流れる混合液に波長ごとに分けた光を照射し、混合液を透過した光の強度を検出することで、混合液の特定の波長(例えば280nm)における吸光度を出力する。第1のセンサ47Aから出力される吸光度は、混合液におけるサンプル液50と希釈液51との混合比に対して相関性を有する。例えば、混合液に含まれるサンプル液50の割合が低下するに従い、混合液に含まれる抗体の濃度は低下する。これにより、混合液における吸光度が低くなる。なお、混合液の濃度に応じて吸光度がレンジオーバーしたり、混合比に対する吸光度の直線性が失われたりする場合には、吸光度を測定する波長を変更してもよい。第1のセンサ47Aは、サンプル液50と希釈液51の流量比(A:B)の連続的な変化に伴って連続的に変化する混合液の吸光度の推移を第1の時系列データとして出力する。第1のセンサ47Aから出力される第1の時系列データは情報処理装置100に送信される。
 第2のセンサ47Bは、第2のフローセル46Bを流れる混合液について、スペクトルデータの推移を示す第2の時系列データを取得する。このスペクトルデータは、ソフトセンサ10に入力されるものと同じスペクトルデータである。例えば、ソフトセンサ10が、ラマン散乱光によるスペクトルデータを入力とする場合、第2のセンサ47Bとして、図2に例示したラマン分光光度計20を用いることができる。第2のセンサ47Bは、サンプル液50と希釈液51の流量比(A:B)の連続的な変化に伴って連続的に変化する混合液についてのスペクトルデータの推移を第2の時系列データとして出力する。第2の
センサ47Bから出力される第2の時系列データは情報処理装置100に送信される。なお、第1の時系列データ及び第2の時系列データにおけるサンプリング数は、25以上が好ましく、50以上が更に好ましく、100以上が最も好ましい。第1のフローセル46A及び第2のフローセル46Bを通過した混合液は、回収容器49に回収される。
 図6は、情報処理装置100のハードウェア構成の一例を示す図である。なお、図6には、情報処理装置100が、学習用データを生成する機能、学習用データを用いてソフトセンサ10を構築する機能、ソフトセンサ10として動作する機能を併せ持つ場合の構成が例示されている。なお、情報処理装置100は、開示の技術における「記録処理部」の一例である。
 情報処理装置100は、CPU(Central Processing Unit)101、一時記憶領域と
してのRAM(Random Access Memory)102、及び不揮発性メモリ103、ディスプレイ104、キーボード及びマウス等の入力装置105、第1のセンサ47A及び第2のセンサ47Bが接続される外部インターフェース106を含む。CPU101、メモリ102、不揮発性メモリ103、ディスプレイ104、入力装置105及び外部インターフェース106は、バス107に接続される。
 不揮発性メモリ103は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、またはフラッシュメモリ等の不揮発性の記録媒体である。不揮発性メモリ103には、学習用データ生成プログラム110、推定モデル111、ソフトセンサ構築プログラム112、推定プログラム113が格納されている。学習用データ生成プログラム110は、学習用データを生成する機能に関する。推定モデル111及びソフトセンサ構築プログラム112は、ソフトセンサ10を構築する機能に関連する。推定プログラム113は、ソフトセンサ10として動作する機能に関連する。RAM102は、CPU101が処理を実行するためのワークメモリである。CPU101は、不揮発性メモリ103に格納されている各プログラムをRAM102へロードし、各プログラムにしたがって処理を実行する。なお、学習用データを生成する機能、学習用データを用いてソフトセンサ10を構築する機能、及びソフトセンサ10として動作する機能は、互いに異なる情報処理装置(ハードウェア)によって実現されてもよい。
 図7は、CPU101が、学習用データ生成プログラム110を実行することによって実施される処理の流れの一例を示すフローチャートである。学習用データ生成プログラム110は、例えば、ユーザが、入力装置105を操作することによって、処理の開始を指示した場合に実行される。
 ステップS1において、CPU101は、混合液における混合比の推移を示す第1の時系列データ及び混合液についてのスペクトルデータの推移を示す第2の時系列データをそれぞれ、第1のセンサ47A及び第2のセンサ47Bから取得する。
 ステップS2において、CPU101は、第1の時系列データ及び第2の時系列データを、これらを取得した時刻を示す時刻情報を付与して不揮発性メモリ103に記録する。なお、時刻情報は、第1のセンサ47A及び第2のセンサ47Bによって付与されてもよい。この場合、時刻情報は、第1の時系列データ及び第2の時系列データの測定時刻を示すものとなる。第1の時系列データ及び第2の時系列データが、リアルタイムでCPU101に取得される場合、第1及び第2の時系列データの測定時刻と取得時刻との差はゼロとみなすことができる。また、第1のセンサ47A及び第2のセンサ47Bが離れて配置される場合には、センサ間の流路長及び混合液の流量などに基づいて、第1の時系列データと第2の時系列データにおける時間差を補正してもよい。
 ステップS3において、CPU101は、ステップS1で取得した第1の時系列データを規格化する。具体的には、CPU101は、第1のセンサ47AであるUV-vis分光光度計から出力される吸光度を、その最大値が“1”となるように規格化する。すなわち、サンプル液50と希釈液51の流量比(A:B)が1:0のタイミングで得られた吸光度には“1”が割り当てられ、流量比(A:B)が0:1のタイミングで得られた吸光度には“0”が割り当てられる。流量比(A:B)が0:1から1:0に至るまでの途中の段階で得られた吸光度には、その値に応じて“0”より大きく“1”より小さい数値が割り当てられる。
 ステップS4において、CPU101は、規格化された第1の時系列データに基づいて、混合液に含まれる抗体の濃度の推移を示す第3の時系列データを導出する。具体的には、CPU101は、サンプル液50において既知とされた抗体の濃度Q1と、規格化された第1の時系列データによって示される各時点における混合比C(0≦C≦1)との積(Q1×C)を計算することによって第3の時系列データを導出する。積(Q1×C)は、混合液の当該時点における抗体の濃度を示す。積(Q1×C)を時系列に沿って並べることで、第3の時系列データを得ることができる。第1の時系列データに付与された時刻情報に基づいて、第3の時系列データにも時刻情報が付与される。なお、第1の時系列データ及び第3の時系列データは、ノイズを平滑化するために、予め時間平均をとるなどの前処理を加えてもよい。
 ステップS5において、CPU101は、ステップS1において取得した第2の時系列データと、ステップS4において導出した第3の時系列データに基づいて、学習用データを生成する。具体的には、CPU101は、第2の時系列データの複数の時点におけるスペクトルデータと、第3の時系列データの対応する各時点における抗体の濃度とを対応付けた複数の学習用データを生成する。CPU101は、第2の時系列データ及び第3の時系列データの同一時点におけるデータ同士を、これらに付与された時刻情報に基づいて対応付ける。これにより、互いに対応関係にあるスペクトルデータと抗体の濃度との組み合わせを1単位とする複数の学習用データを得ることができる。なお、第2の時系列データ及び第3の時系列データにおいて、同一時点におけるデータが存在しない場合、第2の時系列データ及び第3の時系列データの少なくとも一方において、線形補間等によってサンプリング点を補間してもよい。
 ステップS6において、CPU101は、ステップS5において生成した複数の学習用データを不揮発性メモリ103に記録する。
 学習用データ取得システム40によれば、下記に示す学習用データの取得方法が実現される。すなわち、開示の技術の実施形態に係る学習用データの取得方法は、特定の成分(抗体)の濃度が既知であるサンプル液50と、希釈液51とをこれらの流量比を連続的に変化させながら混合し、サンプル液50と希釈液51との混合を行っている間、混合によって得られる混合液について、混合比の推移を示す第1の時系列データ及びスペクトルデータの推移を示す第2の時系列データを取得し、第1の時系列データに基づいて、混合液に含まれる特定の成分(抗体)の濃度の推移を示す第3の時系列データを導出し、第2の時系列データと第3の時系列データからスペクトルデータと特定の成分(抗体)の濃度とを対応付けた学習用データを取得することを含む。
 情報処理装置100によって生成された学習用データは、ソフトセンサ10を構築するために用いられる。本実施形態において、ソフトセンサ10の構築は、情報処理装置100によって行われる。なお、ソフトセンサ10の構築は、学習用データの生成に用いる情報処理装置とは別の情報処理装置によって行われてもよい。
 ソフトセンサ10は、ソフトセンサ構築プログラム112に従って、推定モデル111を、学習用データを用いて学習させることにより構築される。図8は、推定モデル111の構造の一例を示す図である。推定モデル111は、入力層、複数の中間層、及び出力層を含むニューラルネットワークとされている。推定モデル111の入力層には、ラマン散乱光によるスペクトルデータが入力される。推定モデル111の出力層からは、入力層に入力されたスペクトルデータに対応する濃度データが出力される。
 図9は、CPU101が、ソフトセンサ構築プログラム112を実行することによって実施される処理の流れの一例を示すフローチャートである。ソフトセンサ構築プログラム112は、例えば、学習用データの取得後に、ユーザによって入力装置105を介して処理の実行指示が入力された場合に実行される。
 ステップS11において、CPU101は学習用データの生成処理におけるステップS6(図7参照)において不揮発性メモリ103に記録された複数の学習用データのうちの1つを抽出する。
 ステップS12において、CPU101は、ステップS11において抽出した学習用データに含まれる学習用のスペクトルデータを推定モデル111に入力する。なお、学習用のスペクトルデータを推定モデル111に入力する前に特願2020-075480に記載されているような学習用データの前処理を行ってもよい。
 ステップS13において、CPU101は、推定モデル111から出力される濃度データと、ステップS11において抽出した学習用データに含まれる学習用の濃度データ(すなわち正解データ)との差が小さくなるように、推定モデル111を更新することにより、推定モデル111を学習させる。推定モデル111の学習方法として例えば、誤差逆伝播法を適用してもよい。
 ステップS14において、CPU101は、全ての学習用データについて、ステップS11からステップS13までの処理が完了したか否かを判定する。CPU101は、全ての学習用データについて処理が完了していないと判定した場合、処理をステップS11に戻す。全ての学習用データについて処理が完了することで、本ルーチンが終了する。学習用データを用いて推定モデル111を学習させることで、ソフトセンサ10が構築される。
 上記のようにして構築されたソフトセンサ10は、図1に示すように、抗体の濃度が未知である液体について取得されたスペクトルデータに基づいて、当該液体に含まれる抗体の濃度の推定値を導出することが可能である。CPU101が、推定プログラム113を実行することで、情報処理装置100はソフトセンサ10として機能する。なお、ソフトセンサ10として動作する機能は、学習用データの生成に用いる情報処理装置及びソフトセンサ10の構築に用いる情報処理装置とは別の情報処理装置上で実現されてもよい。
 図10は、CPU101が、推定プログラム113を実行することによって実施される処理の流れの一例を示すフローチャートである。推定プログラム113は、例えば、ソフトセンサ10の構築後に、ユーザによって入力装置105を介して処理の実行指示が入力された場合に実行される。
 ステップS21において、CPU101は、抗体の濃度が未知である液体について、ラマン分光光度計等を用いて測定されるスペクトルデータを取得する。スペクトルデータは、例えば抗体の精製工程において、インラインで取得されたものであってもよい。
 ステップS22において、CPU101は、ステップS21において取得されたスペクトルデータを学習済みの推定モデル111に入力する。学習済みの推定モデル111は、スペクトルデータに基づいて、上記液体に含まれる抗体の濃度の推定値を示す濃度データを導出する。
 ステップS23において、CPU101は、ステップS22において導出された濃度データを出力する。CPU101は、例えば、濃度データをディスプレイ104に表示させる制御を行ってもよい。
 ここで、比較例に係る学習用データの取得方法として、以下の方法が考えられる。例えば、ソフトセンサ10の活用を想定する工程(例えば細胞培養工程及び精製工程など)を実際に運転し、その工程における処理液についてスペクトルデータを取得し、さらにスペクトルデータに対応する品質情報(すなわち抗体の濃度)を取得することが想定される。しかしながら、品質情報の取得には処理液中からの複数回に亘るサンプリング及びサンプリングされた処理液のオフライン分析が必要であり、膨大な時間と労力を要する。更に、学習用データの多様性を確保するためには、処理条件を作為的に変更した多数のバッチについて、スペクトルデータ及び品質情報を取得する必要がある。すなわち、バッチ数とサンプリング数との積に相当する回数のオフライン分析が必要となる。また、処理液の品質は、プロセスに依存するため、学習用データにおける品質の分布が制限されやすい。すなわち、実プロセスにおける処理液のサンプリングによって学習用データを取得する場合、多様な品質状態を網羅することは容易ではない。多様な品質状態を網羅した学習用データを効率的に取得するためには、実プロセスとは独立した専用の系を用いることが有効であると考えられるが、上記の特許文献1には、学習用スペクトル情報を得るために、専用の系を用いることについては記載されていない。
 一方、開示の技術の実施形態に係る学習用データの取得方法によれば、サンプル液50と希釈液51との混合を行っている間、混合液について、混合比の推移を示す第1の時系列データ及びスペクトルデータの推移を示す第2の時系列データが、それぞれ、第1のセンサ47A及び第2のセンサ47Bによるインライン測定によって取得される。すなわち、第1の時系列データ及び第2の時系列データの取得は自動で行われる。また、混合液に含まれる抗体の濃度の推移を示す第3の時系列データは、第1の時系列データから計算によって導出される。複数の学習用データは、第2の時系列データ及び第3の時系列データの同一時点におけるデータ同士の対応付けによって取得することができる。
 開示の技術の実施形態に係る学習用データの取得方法によれば、オフライン分析は、サンプル液50について抗体の濃度を既知とするために行うのみで足りる。また、サンプル液50と希釈液51をこれらの流量比を連続的に変化させながら混合することによって得られる混合液について取得される時系列データに基づいて学習用データを生成するので、学習用データの多様性を確保することができる。すなわち、開示の技術の実施形態に係る学習用データの取得方法によれば、ソフトセンサ10の機械学習に用いる学習用データの取得を効率的に行うことが可能となる。本実施形態に係る学習用データの取得方法によれば、上記した比較例に係る方法に対してオフライン分析の回数を7分の1以下にすることができる。
 本実施形態に係るソフトセンサ10は、例えば、バイオ医薬品の製造において、リアルタイムで品質状態を推定することが大きな利点となるシーンで活用することが有効である。一例として、クロマトグラフィーによる抗体の精製工程において、カラムから溶出する抗体を回収するタイミングの制御にソフトセンサ10を活用することができる。
 既存の抗体の精製工程において行われるクロマトグラフィーによる分離処理においては
、UVセンサにより処理液のUV吸光度をモニタリングし、UV吸光度が所定値以上になるタイミングでバルブを切替え、抗体が含まれる処理液を回収している。すなわち、バルブを切り替えるタイミングをUVセンサから出力されるUV吸光度に基づいて制御している。しかしながら、UV吸光度では抗体と抗体以外の夾雑物とを区別することができない。このため、バルブを不適切なタイミングで切り替えてしまい、回収した処理液において、抗体の純度が目標値に達しないおそれがある。
 UVセンサに代えて本実施形態に係るソフトセンサ10を用いることで、抗体及び夾雑物の双方を含む処理液についても、抗体の濃度を独立に推定することができる。これによりバルブを切り替えるタイミングを適切に制御することが可能となり、所望の純度で精製された抗体を含む処理液を回収することが可能となる。
 また、例えば、イムノアフィニティクロマトグラフィーによる分離処理における、抗体をカラムに吸着させるステップにおいて、プロセス条件の変動又はカラムの異常に起因して、抗体の吸着不良が生じた場合、又はカラムを素通りする処理液に抗体が混入した場合に、ソフトセンサ10によりいち早く上記の異常を検知することが可能となる。これにより、プロセスの大幅な手戻りを防ぐことができる。
 なお、以上の説明では、濃度データの導出対象とされる「特定の成分」が、細胞培養によって得られる培養液に含まれる抗体である場合を例示したが、この態様に限定されない。濃度データの導出対象とされる「特定の成分」は、培養液に含まれる抗体以外の夾雑物であってもよい。夾雑物は、抗体の凝集物、抗体の断片、電荷異性体、未成熟糖鎖、宿主細胞由来タンパク質(HCP: Host Cell Protein)又は細胞由来DNAのうちの少なくとも1つであってもよい。バイオ医薬品に上記のような夾雑物が混入すると、その量が微量であっても薬効に影響する可能性がある。従って、抗体を精製する精製処理によって得られた処理液については、夾雑物の濃度を把握することは重要である。
 ソフトセンサ10によって夾雑物の濃度の推定値を濃度データとして導出する場合、学習用データを取得する際に用いるサンプル液50には濃度が既知とされた夾雑物が含まれる。また、この場合、希釈液51には、リン酸、酢酸、トリス、クエン酸のいずれか1つ以上を含む緩衝液成分を含み、夾雑物を含まない液体を用いることができる。学習用データを取得する手順は、上記した抗体の濃度の推定値を濃度データとして取得する場合と同様である。すなわち、サンプル液50と希釈液51との混合によって得られる混合液について、混合比の推移を示す第1の時系列データ及び混合液についてのスペクトルデータの推移を示す第2の時系列データをそれぞれ、第1のセンサ47A及び第2のセンサ47Bから取得する。次に、第1の時系列データを規格化する。具体的には、第1のセンサ47AであるUV-vis分光光度計から出力される吸光度を、その最大値が“1”となるように規格化する。次に、規格化された第1の時系列データに基づいて、混合液に含まれる夾雑物の濃度の推移を示す第3の時系列データを導出する、具体的には、サンプル液50において既知とされた夾雑物の濃度Q2と、規格化された第1の時系列データによって示される各時点における混合比C(0≦C≦1)との積(Q2×C)を計算することによって第3の時系列データを導出する。積(Q2×C)は、混合液の当該時点における夾雑物の濃度を示す。積(Q2×C)を時系列に沿って並べることで、第3の時系列データを得ることができる。第1の時系列データに付与された時刻情報に基づいて、第3の時系列データにも時刻情報が付与される。次に、第2の時系列データと第3の時系列データに基づいて、学習用データを生成する。具体的には、第2の時系列データの複数の時点におけるスペクトルデータと、第3の時系列データの対応する各時点における夾雑物の濃度とを対応付けた複数の学習用データを生成する。すなわち、第2の時系列データ及び第3の時系列データの同一時点におけるデータ同士を、これらに付与された時刻情報に基づいて対応付ける。これにより、互いに対応関係にあるスペクトルデータと夾雑物の濃度との組み合
わせを1単位とする複数の学習用データを得ることができる。
 また、濃度データの導出対象とされる「特定の成分」は、培養液に含まれる抗体及び抗体以外の夾雑物の双方を含んでいてもよい。すなわち、ソフトセンサ10が抗体の濃度及び少なくとも1種類の夾雑物の濃度の推定値を同時に導出するようにソフトセンサ10を構築することも可能である。この場合、学習用データを取得する際に用いるサンプル液50には、濃度が既知とされた抗体と、濃度が既知とされた少なくとも1種類の夾雑物とが含まれる。また、この場合、希釈液51には、リン酸、酢酸、トリス、クエン酸のいずれか1つ以上を含む緩衝液成分を含み、抗体及び夾雑物を含まない液体を用いることができる。学習用データを取得する手順は、上記した抗体の濃度の推定値を濃度データとして取得する場合と同様である。すなわち、サンプル液50と希釈液51との混合によって得られる混合液について、混合比の推移を示す第1の時系列データ及び混合液についてのスペクトルデータの推移を示す第2の時系列データをそれぞれ、第1のセンサ47A及び第2のセンサ47Bから取得する。次に、第1の時系列データを規格化する。具体的には、第1のセンサ47AであるUV-vis分光光度計から出力される吸光度を、その最大値が“1”となるように規格化する。次に、規格化された第1の時系列データに基づいて、混合液に含まれる、抗体の濃度及び夾雑物の濃度の推移をそれぞれ示す第3の時系列データを導出する、具体的には、サンプル液50において既知とされた抗体の濃度Q1及び夾雑物の濃度Q2と、規格化された第1の時系列データによって示される各時点における混合比C(0≦C≦1)との積(Q1×C、Q2×C)を計算することによって、抗体及び夾雑物のそれぞれについて、第3の時系列データを導出する。積(Q1×C)は、混合液の当該時点における抗体の濃度を示す。積(Q2×C)は、混合液の当該時点における夾雑物の濃度を示す。積(Q1×C)及び積(Q2×C)を時系列に沿って並べることで、抗体及び夾雑物のそれぞれについて第3の時系列データを得ることができる。第1の時系列データに付与された時刻情報に基づいて、第3の時系列データにも時刻情報が付与される。次に、第2の時系列データと第3の時系列データに基づいて、学習用データを生成する。具体的には、第2の時系列データの複数の時点におけるスペクトルデータと、第3の時系列データの対応する各時点における抗体及び夾雑物の濃度と、を対応付けた複数の学習用データを生成する。すなわち、第2の時系列データ及び第3の時系列データの同一時点におけるデータ同士を、これらに付与された時刻情報に基づいて対応付ける。これにより、互いに対応関係にあるスペクトルデータと、抗体の濃度及び夾雑物の濃度との組み合わせを1単位とする複数の学習用データを得ることができる。なお、複数のソフトセンサ10が、別々の成分(例えば、抗体と夾雑物)の濃度の推定値を導出するように構成することも可能である。
 また、以上の説明では、ソフトセンサ10に入力されるスペクトルデータとして、ラマン散乱光によるスペクトルを用いる形態を例示したが、この態様に限定されない。例えば、液体に照射された赤外線の吸収スペクトル(赤外線吸収スペクトル)をスペクトルデータとして用いることも可能である。また、液体に照射された励起光によって生じた蛍光によるスぺクトル(蛍光スペクトル)をスペクトルデータとして用いることも可能である。また、液体に照射されたUV-Visの吸収スペクトル(UV-Vis吸収スペクトル)をスペクトルデータとして用いることも可能である。しかしながら、濃度データに対する相関性がより高いラマン散乱光によるスペクトルを用いることが好ましい。
 また、ソフトセンサ10による濃度データの導出対象とされる液体について測定されたスペクトルデータ以外の測定値を、ソフトセンサ10の入力データに加えることも可能である。スペクトルデータ以外の測定値としては、例えば、ソフトセンサ10による濃度データの導出対象とされる液体について測定される温度、吸光度、導電率、水素イオン濃度、屈折率、又は光散乱の光学的検出値であってもよい。この場合、サンプル液50と希釈液51との混合を行っている間、混合液について測定された測定値(温度、吸光度、導電
率、水素イオン濃度、屈折率、又は光散乱の光学的検出値)の推移を示す第4の時系列データを更に取得し、第2の時系列データと第3の時系列データと第4の時系列データから、上記の測定値とスペクトルデータと特定の成分の濃度とを対応付けた学習用データを取得する。なお、上記において例示したものの2つ以上の組み合わせをソフトセンサ10の入力データとして用いることも可能である。すなわち、第4の時系列データは、混合液について測定された2種類以上の測定値の時系列データであってもよい。
 また、以上の説明では、第1のセンサ47Aとして、混合液の吸光度を出力するUV-vis分光光度計を用いる場合を例示したが、この態様に限定されない。第1のセンサ47Aとして、混合液について、導電率、水素イオン濃度、屈折率、又は光散乱の光学的検出値を出力するセンサを用いることも可能である。換言すれば、混合液について測定した吸光度、導電率、水素イオン濃度、屈折率、又は光散乱の光学的検出値に基づいて第1の時系列データを取得してもよい。混合液について測定した導電率、水素イオン濃度、屈折率、又は光散乱の光学的検出値は、いずれも、混合液の混合比に相関性を有するため、吸光度に代えて用いることができる。上記において例示したもののうち、吸光度に基づいて第1の時系列データを取得することが好ましい。
 また、以上の説明では、第2の時系列データ及び第3の時系列データの対応付けを、これらの時系列データに付与された時刻情報に基づいて行う場合を例示したが、この態様に限定されない。第1のセンサ47A及び第2のセンサ47Bが同種のものである場合、時間情報を介することなく対応付けを行うことが可能である。例えば、第1のセンサ47A及び第2のセンサ47Bが共に混合液の特定の波長における吸光度を出力するUV-vis分光光度計である場合、両センサの出力における、共通する波長(例えば280nm)において、同一の吸光度を示すデータ同士を対応付けてもよい。両センサから出力される、同一時刻且つ同一波長における吸光度は一致するためである。
 また、図4に示す学習用データ取得システム40については、種々の改変を行うことが可能である。例えば、第1のセンサ47A及び第2のセンサ47Bのプローブを、スタティックミキサ45の内部に配置してもよいし、流路中に設けられたチャンバー(図示せず)の内部に配置してもよい。
 また、以上の説明では、ソフトセンサ10が機械学習によって構築される場合を例示したが、ソフトセンサ10は、重回帰分析、PLS(Partial Least Squares)、PCA(Principal Component Analysis)などの多変量解析手法を用いて構築されるものであって
もよい。
 以下において、開示の技術の実施例について記載する。
(実施例1)
 液体に含まれる抗体の濃度の推定値を濃度データとして導出するソフトセンサ10を構築するための学習用データを取得した。また、取得した学習用データを用いてソフトセンサ10を構築した。以下にその詳細について説明する。
(1)サンプル液の準備
 サンプル液の原液として、チャイニーズハムスター卵巣(CHO:Chinese Hamster Ovary)細胞培養液から除細胞した溶液を使用した。この溶液には細胞が産生した抗体タンパク質の他に、グルコース、乳酸、アミノ酸、アンモニア、抗体の凝集物、抗体の断片、電荷異性体、未成熟糖鎖、細胞由来タンパク質、細胞由来DNAなどが夾雑物として含まれる。本実施例では、この溶液を「培養上清液」と呼ぶことにする。なお、CHO細胞の樹立については、WO2019/117136に記載の技術を適用することが可能である。
 培養上清液から各種成分を分離した溶液を取得するために、本実施例ではプロテインAカラムを用いたイムノアフィニティクロマトグラフィーによる分離処理を実施した。プロテインAカラムは、多孔質ビーズ表面に抗体を特異的に吸着させるプロテインAが提示された樹脂が充填されたカラムであり、抗体の精製工程において一般的に使用されるカラムの一種である。本実施例では、プロテインAカラム(Cytiva、MabSelect SuRe)を、クロマトグラフィー装置(Cytiva、AKTA pure 25)に接続して使用した。培養上清液をクロマトグラフィー装置のインプットラインから導入し、液中に含まれる抗体を特異的にプロテインAカラムに吸着させた。プロテインAカラムに吸着しなかった夾雑物を含む液を「素通り画分液」として排出ラインから回収した。
 次に、クロマトグラフィー装置のバッファーラインから洗浄バッファー(20mMリン酸ナトリウム、150mM塩化ナトリウム、pH7.2)を導入し、プロテインAカラムに非特異的な吸着をしている夾雑物を洗い流した。この時にプロテインAカラムから排出された溶液を「洗浄画分液」として回収した。最後に、クロマトグラフィー装置のバッファーラインから溶出バッファー(0.1M クエン酸ナトリウム、pH3.0)を導入し、プロテインAカラムに特異的に吸着している抗体を脱離させた。この時にプロテインAカラムから溶出された溶液を「溶出画分液」として回収した。
 培養上清液、素通り画分液、洗浄画分液、溶出画分液からサンプリングしたものを、それぞれサンプル液50とした。これらのサンプル液50のそれぞれについて、HPLCによるオフライン分析によって抗体の濃度を測定した。このようにして、抗体の濃度が既知とされた4種類のサンプル液50を得た。
(2)学習用データの取得
 上記した4種類のサンプル液50のそれぞれについて、図4に示す学習用データ取得システム40を用いてソフトセンサ10を構築するための学習用データを取得した。第1の流路43A、第2の流路43B及び第3の流路43Cが接続される接続部55をT字管によって構成した。第1のポンプ44A及び第2のポンプ44Bとしてプランジャーポンプを用いた。第1のセンサ47AとしてUV-vis分光光度計を用いた。第2のセンサ47Bとしてラマン分光光度計(Kaiser optical systems、Kaiser Raman RXN2 Analyzer)を用いた。
 上記した4種類のサンプル液50のうちの1つを第1の容器41に収容し、希釈液51を第2の容器に収容した。希釈液51として、上記記載の洗浄バッファー、溶出バッファー及び細胞培養用の液体培地を用いた。第1の流路43Aを流れるサンプル液50と、第2の流路43Bを流れる希釈液51の合計流量が1mL/minを維持するように第1の
ポンプ44A及び第2のポンプ44Bを制御した。初めに、サンプル液50の流量Aと希釈液51の流量Bとの比である流量比(A:B)が0:1になるように制御した。送液が安定した後、流量比(A:B)が20分間の間に0:1から1:0に直線的に変化するように第1のポンプ44A及び第2のポンプ44Bを制御した。
 送液を行っている間、第3の流路43Cを流れるサンプル液50及び希釈液51が混合された混合液について、第1のセンサ47AであるUV-vis分光光度計によって波長280nmにおける吸光度を測定した。流量比(A:B)の変化に伴って変化する吸光度の推移を第1の時系列データとして取得した。また、送液を行っている間、第3の流路43Cを流れる混合液について、第2のセンサ47Bであるラマン分光光度計によってラマン散乱光によるスペクトルデータを取得した。スペクトルデータを取得する際のレーザ出力を200mW、励起波長を785nm、露光時間を1秒、積算回数を15回とした。流量比(A:B)の変化に伴って変化するスペクトルデータの推移を第2の時系列データとして取得した。第1の時系列データ及び第2の時系列データを、これらを取得した時刻を
示す時刻情報を付与して情報処理装置100が備える不揮発性メモリ103に記録した。また、第1の時系列データから混合液における抗体の濃度の推移を推定できることを検証するために、送液を行っている間、複数回に亘り、混合液を排出ラインから1mLずつサンプリングし、各サンプルについてHPLCによるオフライン分析によって抗体濃度を測定した。この検証は、必要に応じて行えばよく、省略することが可能である。残りの3種類のサンプル液50についても、上記と同様の手順に従って第1の時系列データ及び第2の時系列データを取得した。
 第1の時系列データによって示される各時点における吸光度を、その最大値が“1”となるように規格化した。次に、サンプル液50において既知とされた抗体の濃度Q1と、規格化された第1の時系列データによって示される混合比C(0≦C≦1)との積(Q1×C)を計算することによって第3の時系列データを導出した。すなわち、積(Q1×C)を時系列に沿って並べることで、第3の時系列データを取得した。
 図11は、第3の時系列データによって示される抗体濃度と、サンプリングした混合液のオフライン分析によって実測した抗体濃度とを比較したグラフである。図11に示すように、両者が略一致する結果が得られていることから、第1の時系列データから抗体の濃度を推定できることが検証された。
 次に、第2の時系列データの複数の時点におけるスペクトルデータと、第3の時系列データの対応する各時点における抗体の濃度と、を対応付けた。具体的には、第2の時系列データ及び第3の時系列データの同一時点におけるデータ同士を、これらに付与された時刻情報に基づいて対応付けた。このとき、第2の時系列データ及び第3の時系列データにおいて、線形補間によってサンプリング点を補間して対応付けを行った。これにより、互いに対応関係にあるスペクトルデータと抗体の濃度との組み合わせを1単位とする複数の学習用データを生成した。
(3)ソフトセンサの構築
 以上のようにして生成した複数の学習用データを用いて、図9に示すフローチャートによって示される手順に従い推定モデル111を学習させることによりソフトセンサ10を構築した。
 構築されたソフトセンサ10を用いて、サンプル液50の培養ロットとは異なる培養ロットについてプロテインAカラムを用いたイムノアフィニティクロマトグラフィーによる分離処理を行った。ここでは溶出時に、洗浄バッファーから溶出バッファーに連続的に切り替えるグラジエント溶出を、10CVの範囲で実施した。ここでCVとはプロテインAカラムのボリュームを示す。溶出工程の間に、流路に設置したフローセルを用いてラマンスペクトルを収集し、同時にフラクションコレクタを用いて0.5CVずつサンプリングした。収集したスペクトルを入力として、ソフトセンサ10による抗体濃度の推定値を導出した。また、回収した各溶出画分液について、HPLCによるオフライン分析によって抗体濃度を測定した。ソフトセンサ10における抗体濃度の推定値の、その測定時間に取得した溶出画分液の実測値に対する精度を評価するために、決定係数R及びRMSE(Root Mean Square Error)を取得した。本実施例に係る手法によって構築されたソフトセンサ10において、決定係数Rは0.99であり、RMSEは0.39であった。
(実施例2)
 液体に含まれる、夾雑物の一種である宿主細胞由来タンパク質(HCP)の濃度の推定値を濃度データとして導出するソフトセンサ10を構築するための学習用データを取得した。また、取得した学習用データを用いてソフトセンサ10を構築した。以下にその詳細について説明する。
(1)サンプル液の準備
 上記した実施例1と同様、培養上清液、及びプロテインAカラムを用いたイムノアフィニティクロマトグラフィーによる分離処理によって得られる素通り画分液、洗浄画分液、溶出画分液をサンプリングしたものを、それぞれサンプル液50とした。これらのサンプル液50のそれぞれについて、HPLCによるオフライン分析によってHCPの濃度を測定した。HCPの濃度は、360-HCP ELISAキット(コスモバイオ)を用いて測定した。こ
のようにして、HCPの濃度が既知とされた4種類のサンプル液50を得た。
(2)学習用データの取得
 上記した実施例1と同様、4種類のサンプル液50のそれぞれについて、図4に示す学習用データ取得システム40を用いて学習用データを取得した。すなわち、混合液について第1の時系列データ及び第2の時系列データを取得し、規格化された第1の時系列データによって示される各時点における混合比C(0≦C≦1)と、サンプル液50において既知とされたHCPの濃度Q2との積(Q2×C)を時系列に沿って並べることで、第3の時系列データを取得した。その後、第2の時系列データの複数の時点におけるスペクトルデータと、第3の時系列データの対応する各時点におけるHCPの濃度とを対応付けた。これにより、互いに対応関係にあるスペクトルデータとHCPの濃度との組み合わせを1単位とする複数の学習用データを生成した。
(3)ソフトセンサの構築
 以上のようにして生成した複数の学習用データを用いて、図9に示すフローチャートによって示される手順に従い推定モデル111を学習させることによりソフトセンサ10を構築した。
 構築されたソフトセンサ10を用いてサンプル液50の培養ロットとは異なる培養ロットについてプロテインAカラムを用いたイムノアフィニティクロマトグラフィーによる分離処理を行った。ここでは溶出時に、洗浄バッファーから溶出バッファーに連続的に切り替えるグラジエント溶出を、10CVの範囲で実施した。溶出工程の間に、流路に設置したフローセルを用いてラマンスペクトルを収集し、同時にフラクションコレクタを用いて0.5CVずつサンプリングした。収集したスペクトルを入力として、ソフトセンサ10によるHPC濃度の推定値を導出した。また、サンプリングした溶出画分液について、HPLCによるオフライン分析によってHCP濃度を測定した。ソフトセンサ10におけるHCP濃度の推定値の実測値に対する精度を評価するために、決定係数R及びRMSEを取得した。本実施例に係る手法によって構築されたソフトセンサ10において、決定係数Rは0.96であり、RMSEは34.11であった。
(比較例)
 本比較例では、抗体の精製工程においてサンプリングされた処理液のオフライン分析を主体とする手法によって学習用データを取得し、取得した学習用データを用いてソフトセンサ10を構築した。
 本比較例では、CHO細胞の培養上清液について、プロテインAカラムを用いたイムノアフィニティクロマトグラフィーによる分離処理を実施した。プロテインAカラム(Cytiva、MabSelect SuRe)を、クロマトグラフィー装置(Cytiva、AKTA pure 25)に接続して使用した。
 本比較例においては、クロマトグラフィー装置のバッファーラインから酸性の溶出液を導入し、プロテインAカラムに特異的に吸着している抗体を脱離させた。このとき、酸性の溶出液を、ステップ状に切り替えるのではなく、濃度勾配をつけながらグラジエント状
に導入した(グラジエント溶出)。グラジエント溶出の条件を以下の通り3パターンとした。プロテインAカラムのボリュームをCVとしたとき、5CV、10CV、15CVの各分量の溶出液を用いてグラジエント溶出を実施した。上記したパターンのそれぞれについて、プロセス運転中の複数の時点においてラマン散乱光によるスペクトルを測定した。また、プロセス運転中の複数の時点において溶出画分液をサンプリングし、サンプリングした溶出画分液について、オフライン分析により抗体濃度を取得した。プロセス運転中の複数の時点におけるスペクトルと、対応する時点における抗体の濃度とを対応付けることより複数の学習用データを取得した。
 以上のようにして取得した複数の学習用データを用いて、推定モデル111を学習させることによりソフトセンサ10を構築した。ソフトセンサ10を用いて、学習用データを取得する際に用いた培養ロットとは異なる培養ロットについてプロテインAを用いたイムノアフィニティクロマトグラフィーによる分離処理を行った。ここでは溶出時に、洗浄バッファーから溶出バッファーに連続的に切り替えるグラジエント溶出を、10CVの範囲で実施した。溶出工程の間に、流路に設置したフローセルを用いてラマンスペクトルを収集し、同時にフラクションコレクタを用いて0.5CVずつサンプリングした。収集したスペクトルを入力として、ソフトセンサ10による抗体濃度の推定値を導出した。また、サンプリングした溶出画分液について、HPLCによるオフライン分析によって抗体濃度を測定した。ソフトセンサ10における抗体濃度の推定値の実測値に対する精度を評価するために、決定係数R及びRMSEを取得した。本比較例に係る手法によって構築されたソフトセンサ10において、決定係数Rは0.98であり、RMSEは0.53であった。
 以上の結果より、開示の技術に係る方法によって取得された学習用データを用いて構築されたソフトセンサ10の精度は、オフライン分析を主体とする比較例に係る方法によって取得された学習用データを用いて構築されたソフトセンサ10と同等であるといえる。
 なお、2021年9月30日に出願された日本国特許出願2021-162035の開示は、その全体が参照により本明細書に取り込まれる。また、本明細書に記載された全ての文献、特許出願および技術規格は、個々の文献、特許出願、および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims (17)

  1.  液体による作用を受けた電磁波の、波数または波長毎の強度を示すスペクトルデータに基づいて前記液体中に含まれる特定の成分の濃度を導出するソフトセンサの機械学習に用いる学習用データの取得方法であって、
     前記特定の成分の濃度が既知であるサンプル液を用意し、
     前記サンプル液と希釈液とをこれらの流量比を連続的に変化させながら混合し、
     前記サンプル液と前記希釈液との混合を行っている間、前記混合によって得られる混合液について、混合比の推移を示す第1の時系列データ及び前記スペクトルデータの推移を示す第2の時系列データを取得し、
     前記第1の時系列データに基づいて、前記混合液に含まれる前記特定の成分の濃度の推移を示す第3の時系列データを導出し、
     前記第2の時系列データと前記第3の時系列データから、前記スペクトルデータと前記特定の成分の濃度とを対応付けた学習用データを取得する
     取得方法。
  2.  前記第2の時系列データの複数の時点におけるスペクトルデータと、前記第3の時系列データの前記複数の時点に対応する各時点における前記特定の成分の濃度と、を対応付けた複数の学習用データを取得する
     請求項1に記載の取得方法。
  3.  前記スペクトルデータがラマンスペクトル、赤外線吸収スペクトル、蛍光スペクトル又はUV-Vis吸収スペクトルによるものである
     請求項1又は請求項2に記載の取得方法。
  4.  前記混合液について測定した吸光度、導電率、水素イオン濃度、屈折率、又は光散乱の光学的検出値に基づいて前記第1の時系列データを取得する
     請求項1から請求項3のいずれか1項に記載の取得方法。
  5.  前記サンプル液は、前記特定の成分を分離する分離処理を行った処理液である
     請求項1から請求項4のいずれか1項に記載の取得方法。
  6.  前記分離処理は、クロマトグラフィーによるものである
     請求項5に記載の取得方法。
  7.  前記特定の成分は、タンパク質である
     請求項1から請求項6のいずれか1項に記載の取得方法。
  8.  前記特定の成分は、細胞培養によって得られる培養液に含まれる抗体以外の夾雑物である
     請求項1から請求項7のいずれか1項に記載の取得方法。
  9.  前記夾雑物は、抗体の凝集物、抗体の断片、電荷異性体、未成熟糖鎖、細胞由来タンパク質、細胞由来DNAのうちの少なくとも1つを含む
     請求項8に記載の取得方法。
  10.  前記希釈液は、前記サンプル液に含まれる前記特定の成分を含む
     請求項1から請求項9のいずれか1項に記載の取得方法。
  11.  前記希釈液は、前記サンプル液に含まれる前記特定の成分以外の成分のみを含む
     請求項1から請求項9のいずれか1項に記載の取得方法。
  12.  前記混合液が流れる流路上に設けられた第1のセンサによって前記第1の時系列データを取得し、
     前記流路上に設けられた第2のセンサによって前記第2の時系列データを取得する
     請求項1から請求項11のいずれか1項に記載の取得方法。
  13.  前記サンプル液と前記希釈液との混合を行っている間、前記混合液について測定された少なくとも1種類の測定値の推移を示す第4の時系列データを更に取得し、
     前記第2の時系列データと前記第3の時系列データと前記第4の時系列データから、前記測定値と前記スペクトルデータと前記特定の成分の濃度とを対応付けた学習用データを取得する
     請求項1から請求項12のいずれか1項に記載の取得方法。
  14.  請求項1から請求項13のいずれか1項に記載の取得方法を実施するための学習用データ取得システムであって、
     前記サンプル液が流通する第1の流路と、
     前記希釈液が流通する第2の流路と、
     前記混合液が流通する第3の流路と、
     前記サンプル液の送液を行う第1のポンプと、
     前記希釈液の送液を行う第2のポンプと、
     前記第1のポンプ及び前記第2のポンプを制御する制御部と、
     前記第3の流路上に設けられ、前記第1の時系列データを取得する第1のセンサと、
     前記第3の流路上に設けられ、前記第2の時系列データを取得する第2のセンサと、
     前記第1のセンサ及び前記第2のセンサの出力を記録媒体に記録する処理を行う記録処理部と、
     を含む学習用データ取得システム。
  15.  請求項1から請求項13のいずれか1項に記載の取得方法によって取得された学習用データを用いて、前記ソフトセンサのモデルを学習させる
     ソフトセンサの構築方法。
  16.  請求項1から請求項13のいずれか1項に記載の取得方法によって取得された学習用データを用いて学習されたソフトセンサ。
  17.  請求項1から請求項13のいずれか1項に記載の取得方法によって取得された学習用データ。
PCT/JP2022/023317 2021-09-30 2022-06-09 学習用データの取得方法、学習用データ取得システム、ソフトセンサの構築方法、ソフトセンサ、学習用データ WO2023053585A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2023551066A JPWO2023053585A1 (ja) 2021-09-30 2022-06-09
EP22875464.4A EP4390379A1 (en) 2021-09-30 2022-06-09 Training data acquisition method, training data acquisition system, soft sensor construction method, soft sensor, and training data
CN202280061879.3A CN117980998A (zh) 2021-09-30 2022-06-09 学习用数据的获取方法、学习用数据获取系统、软传感器的构建方法、软传感器、学习用数据
US18/612,135 US20240232723A1 (en) 2021-09-30 2024-03-21 Method for acquiring learning data, learning data acquisition system, method for constructing soft sensor, soft sensor, and learning data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-162035 2021-09-30
JP2021162035 2021-09-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/612,135 Continuation US20240232723A1 (en) 2021-09-30 2024-03-21 Method for acquiring learning data, learning data acquisition system, method for constructing soft sensor, soft sensor, and learning data

Publications (1)

Publication Number Publication Date
WO2023053585A1 true WO2023053585A1 (ja) 2023-04-06

Family

ID=85782215

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023317 WO2023053585A1 (ja) 2021-09-30 2022-06-09 学習用データの取得方法、学習用データ取得システム、ソフトセンサの構築方法、ソフトセンサ、学習用データ

Country Status (5)

Country Link
US (1) US20240232723A1 (ja)
EP (1) EP4390379A1 (ja)
JP (1) JPWO2023053585A1 (ja)
CN (1) CN117980998A (ja)
WO (1) WO2023053585A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1137935A (ja) * 1997-07-18 1999-02-12 Fuji Electric Co Ltd 下水中の複数成分定量方法とその装置
JP2004198327A (ja) * 2002-12-19 2004-07-15 Japan Science & Technology Agency 複数の化学物質の濃度の測定方法
JP2006234524A (ja) * 2005-02-24 2006-09-07 Shimadzu Corp 液体クロマトグラフ用検出器
JP2011158340A (ja) * 2010-01-29 2011-08-18 Nippon Steel Corp 排水中の特定化学物質又は特定排水の濃度測定方法及び検知方法並びに装置
WO2019117136A1 (ja) 2017-12-11 2019-06-20 富士フイルム株式会社 動物細胞、動物細胞の製造方法および目的タンパク質の製造方法
JP2019530860A (ja) * 2016-09-01 2019-10-24 ジーイー・ヘルスケア・バイオサイエンス・アクチボラグ 表面プラズモン共鳴アッセイのための段階的組み合わせ注入
JP2020075480A (ja) 2018-11-09 2020-05-21 大日本印刷株式会社 バリアフィルム
JP2020101543A (ja) 2018-12-20 2020-07-02 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2021162035A (ja) 2020-03-30 2021-10-11 日本電産シンポ株式会社 遊星減速機

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1137935A (ja) * 1997-07-18 1999-02-12 Fuji Electric Co Ltd 下水中の複数成分定量方法とその装置
JP2004198327A (ja) * 2002-12-19 2004-07-15 Japan Science & Technology Agency 複数の化学物質の濃度の測定方法
JP2006234524A (ja) * 2005-02-24 2006-09-07 Shimadzu Corp 液体クロマトグラフ用検出器
JP2011158340A (ja) * 2010-01-29 2011-08-18 Nippon Steel Corp 排水中の特定化学物質又は特定排水の濃度測定方法及び検知方法並びに装置
JP2019530860A (ja) * 2016-09-01 2019-10-24 ジーイー・ヘルスケア・バイオサイエンス・アクチボラグ 表面プラズモン共鳴アッセイのための段階的組み合わせ注入
WO2019117136A1 (ja) 2017-12-11 2019-06-20 富士フイルム株式会社 動物細胞、動物細胞の製造方法および目的タンパク質の製造方法
JP2020075480A (ja) 2018-11-09 2020-05-21 大日本印刷株式会社 バリアフィルム
JP2020101543A (ja) 2018-12-20 2020-07-02 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2021162035A (ja) 2020-03-30 2021-10-11 日本電産シンポ株式会社 遊星減速機

Also Published As

Publication number Publication date
JPWO2023053585A1 (ja) 2023-04-06
CN117980998A (zh) 2024-05-03
EP4390379A1 (en) 2024-06-26
US20240232723A1 (en) 2024-07-11

Similar Documents

Publication Publication Date Title
JP6953508B2 (ja) 製剤精製のリアルタイムモニタリング
Rüdt et al. Real‐time monitoring and control of the load phase of a protein A capture step
Thakur et al. An NIR‐based PAT approach for real‐time control of loading in protein A chromatography in continuous manufacturing of monoclonal antibodies
Brestrich et al. Selective protein quantification for preparative chromatography using variable pathlength UV/Vis spectroscopy and partial least squares regression
Read et al. Process analytical technology (PAT) for biopharmaceutical products: Part I. Concepts and applications
Yilmaz et al. Application of Raman spectroscopy in monoclonal antibody producing continuous systems for downstream process intensification
US20180339244A1 (en) Method for controlling continuous chromatography and multi-column chromatography arrangement
Rathore et al. Chemometrics applications in biotech processes: a review
Rathore et al. Application of process analytical technology for downstream purification of biotherapeutics
Xue et al. Application of particle swarm optimization (PSO) algorithm to determine dichlorvos residue on the surface of navel orange with Vis-NIR spectroscopy
JP6196220B2 (ja) 生体試料分析のための核磁気共鳴および近赤外線の使用
CN112041663A (zh) 用于生物制造的多元谱分析与监测
Armstrong et al. Advanced control strategies for bioprocess chromatography: Challenges and opportunities for intensified processes and next generation products
KR101832917B1 (ko) 근적외선 분광분석기를 이용한 아미노산 발효공정의 실시간관리방법
US20210269888A1 (en) Method in Bioprocess Purification System
Ramakrishna et al. Multi-wavelength UV-based PAT tool for measuring protein concentration
Hamla et al. A new alternative tool to analyse glycosylation in pharmaceutical proteins based on infrared spectroscopy combined with nonlinear support vector regression
WO2023053585A1 (ja) 学習用データの取得方法、学習用データ取得システム、ソフトセンサの構築方法、ソフトセンサ、学習用データ
US11867673B2 (en) NIR based real-time control of loading in protein a chromatography
Wasalathanthri et al. Paving the way for real time process monitoring in biomanufacturing
Chen et al. Application of Raman spectroscopy during pharmaceutical process development for determination of critical quality attributes in Protein A chromatography
Wang et al. Simultaneous prediction of 16 quality attributes during protein A chromatography using machine learning based Raman spectroscopy models
WO2023090015A1 (ja) 情報処理装置、情報処理装置の作動方法、情報処理装置の作動プログラム、校正済み状態予測モデルの生成方法、並びに校正済み状態予測モデル
Wasalathanthri et al. The Role of Process Analytical Technology (PAT) in Biologics Development
Rüdt Spectroscopy as process analytical technology for preparative protein purification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22875464

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280061879.3

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2023551066

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2022875464

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022875464

Country of ref document: EP

Effective date: 20240320

NENP Non-entry into the national phase

Ref country code: DE