WO2024070543A1 - 情報処理装置、情報処理装置の作動方法、情報処理装置の作動プログラム、並びに状態予測モデル - Google Patents

情報処理装置、情報処理装置の作動方法、情報処理装置の作動プログラム、並びに状態予測モデル Download PDF

Info

Publication number
WO2024070543A1
WO2024070543A1 PCT/JP2023/032535 JP2023032535W WO2024070543A1 WO 2024070543 A1 WO2024070543 A1 WO 2024070543A1 JP 2023032535 W JP2023032535 W JP 2023032535W WO 2024070543 A1 WO2024070543 A1 WO 2024070543A1
Authority
WO
WIPO (PCT)
Prior art keywords
measurement data
spectrum
information processing
processing device
target component
Prior art date
Application number
PCT/JP2023/032535
Other languages
English (en)
French (fr)
Inventor
惟 杉田
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Publication of WO2024070543A1 publication Critical patent/WO2024070543A1/ja

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/34Measuring or testing with condition measuring or sensing means, e.g. colony counters
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P21/00Preparation of peptides or proteins
    • C12P21/02Preparation of peptides or proteins having a known sequence of two or more amino acids, e.g. glutathione
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/88Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86

Definitions

  • the technology disclosed herein relates to an information processing device, an operating method for an information processing device, an operating program for an information processing device, and a state prediction model.
  • Manufacturing processes for biopharmaceuticals that use target proteins such as antibodies as active ingredients are known.
  • a suspension is often produced in which various components, including the target protein, are dispersed in a liquid. Monitoring the state of the target components in this suspension is important in determining the success or failure of the manufacturing process.
  • JP 2016-128822 A describes a technology for predicting the concentration of aggregates of a target protein as a state of a target component. Specifically, JP 2016-128822 A predicts the concentration of aggregates from the spectral measurement data obtained by measuring the Raman spectrum of a suspension using a linear model such as a PLS (Partial Least Squares regression) model.
  • a linear model such as a PLS (Partial Least Squares regression) model.
  • JP 2016-128822 A did not provide a high degree of accuracy in predicting the concentration of aggregates, and was therefore of little practical use. The reason for this is thought to be that, among the wavenumbers of the Raman spectrum measurement data, the wavenumber band thought to contribute to predicting the concentration of aggregates was not selected.
  • One method for selecting a wavenumber band that is believed to contribute to predicting the concentration of aggregates is, for example, sparse modeling.
  • the wavenumber band selected by sparse modeling is highly dependent on the Raman spectrum measurement data prepared for the selection. For this reason, it cannot be said with certainty that the wavenumber band selected by sparse modeling is a reasonable one that is truly believed to contribute to predicting the concentration of aggregates.
  • One embodiment of the technology disclosed herein provides an information processing device, an operating method for the information processing device, and an operating program for the information processing device that are capable of selecting a reasonable wavenumber band or wavelength band of spectral measurement data that is believed to contribute to predicting the state of a target component in a suspension produced in a biopharmaceutical manufacturing process.
  • one embodiment of the technology disclosed herein provides a state prediction model that can predict the state of a target component in a suspension produced in a biopharmaceutical manufacturing process with higher accuracy than conventional methods.
  • the information processing device disclosed herein includes a processor, and as a preparatory process for generating a state prediction model for predicting the state of a target component in a suspension produced in a manufacturing process for a biopharmaceutical containing a target protein as an active ingredient, the processor acquires first spectral measurement data that measures the spectrum of electromagnetic waves emitted from the target protein and second spectral measurement data that measures the spectrum of electromagnetic waves emitted from the target component, and selects a specific wavenumber band or wavelength band that is specific to the target component by comparing the intensity value of the first spectral measurement data with the intensity value of the second spectral measurement data.
  • the state prediction model is preferably generated using a data set consisting of intensity values of a specific wavenumber band or wavelength band and ground truth data for the state of the target component.
  • the state of the target component is the concentration of the target component in the suspension, and it is preferable that the concentrations of the target protein and the target component in the suspension from which the dataset is based are both in the range of 0.001 mg/mL to 20 mg/mL.
  • the suspension used to select the specific wavenumber band or wavelength band is preferably subjected to a pretreatment that promotes the production of the target component.
  • the state prediction model preferably outputs a prediction result of the state of the target component according to the intensity value of a specific wavenumber band or a specific wavelength band of the third spectrum measurement data that measures the spectrum of the electromagnetic waves emitted from the suspension in which the state of the target component is unknown.
  • the third spectral measurement data is preferably data measured while the manufacturing process is in progress.
  • the third spectral measurement data is preferably data measured after a virus inactivation treatment or a cation chromatography treatment.
  • the first and second spectral measurement data are preferably data measured from a first solution containing the target protein and a second solution containing the target component, which are separated from a suspension using a high-performance liquid chromatography device.
  • the target component is preferably an aggregate of the target protein.
  • the state prediction model is preferably a machine learning model.
  • the target protein is preferably an antibody.
  • the spectrum is preferably a Raman spectrum.
  • the characteristic wavenumber band is preferably in at least one of the ranges of 1220 cm -1 to 1260 cm -1 and 1650 cm -1 to 1690 cm -1 .
  • the method of operating the information processing device disclosed herein includes, as a preparatory process for generating a state prediction model for predicting the state of a target component in a suspension produced in a manufacturing process of a biopharmaceutical containing a target protein as an active ingredient, acquiring first spectral measurement data that measures the spectrum of electromagnetic waves emitted from the target protein and second spectral measurement data that measures the spectrum of electromagnetic waves emitted from the target component, and selecting a specific wavenumber band or wavelength band that is specific to the target component by comparing the intensity value of the first spectral measurement data with the intensity value of the second spectral measurement data.
  • the operating program of the information processing device disclosed herein causes a computer to execute processing including, as a preparatory process for generating a state prediction model for predicting the state of a target component in a suspension produced in a manufacturing process of a biopharmaceutical containing a target protein as an active ingredient, acquiring first spectral measurement data that measures the spectrum of electromagnetic waves emitted from the target protein and second spectral measurement data that measures the spectrum of electromagnetic waves emitted from the target component, and selecting a specific wavenumber band or wavelength band that is specific to the target component by comparing the intensity value of the first spectral measurement data with the intensity value of the second spectral measurement data.
  • the state prediction model disclosed herein causes a computer to execute a function of outputting a prediction result of the state of a target component according to the intensity value of a specific wavenumber band or specific wavelength band that is specific to the target component in a suspension, among the intensity values of each wavenumber or each wavelength of the spectrum measurement data that measures the spectrum of electromagnetic waves emitted from a suspension produced in a manufacturing process of a biopharmaceutical containing a target protein as an active ingredient.
  • the technology disclosed herein can provide an information processing device, an operating method for an information processing device, and an operating program for an information processing device that can select a reasonable wavenumber band or wavelength band intensity value of spectral measurement data that is believed to contribute to predicting the state of a target component in a suspension produced in a biopharmaceutical manufacturing process.
  • the technology disclosed herein can provide a state prediction model that can predict the state of a target component in a suspension produced in a biopharmaceutical manufacturing process with higher accuracy than conventional models.
  • FIG. 1 is a diagram showing an overview of the manufacturing process of biopharmaceuticals.
  • FIG. 1 illustrates an information processing system.
  • FIG. 2 is a block diagram of a computer that constitutes a selection device, a learning device, and an operation device.
  • FIG. 2 is a diagram showing a pretreatment performed on a second purified liquid, a high performance liquid chromatography device, and data input to a selection device.
  • FIG. 1 shows spectroscopic data and Raman spectra.
  • FIG. 2 is a block diagram of a CPU of a computer constituting the selection device.
  • FIG. 13 is a diagram showing a process of identifying first and second spectrum measurement data from a spectrum measurement data group based on chromatogram data.
  • FIG. 4 is a diagram showing first spectrum measurement data.
  • FIG. 1 is a diagram showing an overview of the manufacturing process of biopharmaceuticals.
  • FIG. 1 illustrates an information processing system.
  • FIG. 2 is a block diagram of a computer that constitutes
  • FIG. 11 is a diagram showing second spectrum measurement data.
  • FIG. 11 is a diagram illustrating a process of calculating difference data between first and second spectrum measurement data.
  • FIG. 13 is a diagram showing a process of comparing difference data with a threshold value and selecting a characteristic wavenumber band of an aggregate.
  • FIG. 13 is a diagram showing, on a Raman spectrum, the process of comparing difference data with a threshold value and selecting a characteristic wavenumber band of an aggregate.
  • FIG. 2 is a block diagram of a CPU of a computer constituting the learning device.
  • FIG. 13 is a diagram showing a neural network constituting a concentration prediction model.
  • FIG. 1 is a diagram showing the structure of a data set group.
  • FIG. 11 is a diagram illustrating a process of calculating difference data between first and second spectrum measurement data.
  • FIG. 13 is a diagram showing a process of comparing difference data with a threshold value and selecting a characteristic wavenumber band of an aggregate.
  • FIG. 13 is
  • FIG. 13 is a diagram showing a process in a learning phase of a concentration prediction model.
  • FIG. 13 is a diagram showing a process in the verification phase of a concentration prediction model.
  • FIG. 2 is a block diagram of a CPU of a computer constituting the operation device.
  • FIG. FIG. 13 is a diagram showing a Raman spectrum analysis screen.
  • FIG. 13 is a diagram showing a Raman spectrum analysis screen on which concentration prediction results are displayed.
  • FIG. 13 is a flowchart showing a processing procedure of a selection device.
  • 13 is a flowchart showing a processing procedure of the learning device.
  • 13 is a flowchart showing a processing procedure of the operation device.
  • FIG. 13 is a diagram illustrating another example of the structure of the third spectrum measurement data. 1 is a table showing an overview of examples and comparative examples.
  • a biopharmaceutical manufacturing process 2 is roughly divided into a first process 10, a second process 11, and a third process 12.
  • the first process 10 is a process of incorporating an antibody gene 14 into cells 13 such as Chinese Hamster Ovary cells (CHO cells) to establish antibody-producing cells 15.
  • the second process is a process of culturing the antibody-producing cells 15 in a culture tank 16.
  • the third process 12 is a process for purifying a drug substance 18 of a biopharmaceutical from the culture supernatant 17.
  • the culture supernatant 17 is a solution obtained by removing cells from the culture fluid in the culture tank 16 after the second process 11.
  • the culture supernatant 17 contains dispersed immunoglobulins, i.e., antibodies 19, produced by the antibody-producing cells 15.
  • the antibodies 19 are, for example, monoclonal antibodies, and are the active ingredients of the biopharmaceutical.
  • aggregates 20 of the antibodies 19 are also dispersed in the culture supernatant 17.
  • the antibodies 19 are an example of a "target protein” according to the technology of the present disclosure.
  • the aggregates 20 are an example of a "target component" according to the technology of the present disclosure.
  • the aggregate 20 is an aggregate of antibody 19 itself and/or multiple denatured products of antibody 19 that have an amino acid sequence that is 70% or more identical to that of antibody 19. For this reason, the aggregate 20 has a larger mass than antibody 19.
  • the aggregate 20 also has a larger molecular weight than antibody 19.
  • the aggregate 20 is a substance having a molecular weight 1.2 times or more than that of antibody 19.
  • the aggregate 20 is a substance having a molecular weight preferably 1.5 times or more than that of antibody 19, more preferably 1.8 times or more, and particularly preferably 1.9 times or more.
  • cell-derived proteins, cell-derived DNA (deoxyribonucleic acid), viruses, etc. are also dispersed in the culture supernatant 17.
  • the culture supernatant 17 is purified continuously or intermittently using an immunoaffinity chromatography device 25, a cation chromatography device 26, an anion chromatography device 27, and the like.
  • the culture supernatant 17 is introduced into the immunoaffinity chromatography device 25.
  • the immunoaffinity chromatography device 25 extracts the antibodies 19 from the culture supernatant 17 using a column in which a ligand such as protein A having affinity for the antibodies 19 is fixed to a carrier, thereby producing a first purified liquid 28.
  • the first purified liquid 28 is subjected to a virus inactivation treatment 29.
  • the first purified liquid 28 is an example of a "suspension" according to the technology disclosed herein.
  • the first purified liquid 28, which has been subjected to a virus inactivation treatment 29, is introduced into the cation chromatography device 26.
  • the cation chromatography device 26 extracts the antibodies 19 from the first purified liquid 28 using a column with a cation exchanger as the stationary phase, thereby producing a second purified liquid 30.
  • the second purified liquid 30 is an example of a "suspension" according to the technology disclosed herein.
  • the second purified liquid 30 is introduced into the anion chromatography device 27.
  • the anion chromatography device 27 extracts the antibodies 19 from the second purified liquid 30 using a column with an anion exchanger as the stationary phase, thereby producing a third purified liquid 31.
  • the third purified liquid 31 is passed through a filter 32 to remove viruses.
  • the third purified liquid 31 is then subjected to a concentration and filtration process using ultrafiltration (UF) and diafiltration (DF) with a filter 33.
  • UF ultrafiltration
  • DF diafiltration
  • UF ultrafiltration
  • DF diafiltration
  • a single pass tangential flow filtration (SPTFF) type filter may be provided upstream of the immunoaffinity chromatography device 25.
  • information processing system 40 is composed of selection device 41A, learning device 41B, and operation device 41C. These are connected to each other so that they can communicate with each other via network 42.
  • Network 42 is, for example, a WAN (Wide Area Network) such as the Internet or a public communication network.
  • Selection device 41A, learning device 41B, and operation device 41C are, for example, desktop personal computers, notebook personal computers, tablet terminals, etc.
  • the selection device 41A is responsible for the process of selecting a specific wavenumber band that is specific to the aggregate 20 from among the wavenumbers of the Raman spectrum.
  • the learning device 41B is responsible for the process of training a concentration prediction model 96 (see FIG. 13) that predicts the concentration of the aggregate 20.
  • the operation device 41C is responsible for the process of predicting the concentration of the aggregate 20 using the trained concentration prediction model 96LD (see FIG. 13).
  • the concentration is an example of a "state” related to the technology of the present disclosure. Note that a "state” is an index that represents the physicochemical characteristics of the target component.
  • the selection device 41A, the learning device 41B, and the operation device 41C are also examples of an "information processing device” related to the technology of the present disclosure. In this way, the "information processing device” related to the technology of the present disclosure may be realized across multiple devices.
  • the computers constituting the selection device 41A, learning device 41B, and operation device 41C are basically of the same configuration, and include storage 45, memory 46, a CPU (Central Processing Unit) 47, a communication unit 48, a display 49, and an input device 50. These are interconnected via a bus line 51.
  • Storage 45 is a hard disk drive built into the computers constituting selection device 41A, learning device 41B, and operation device 41C, or connected via a cable or network.
  • storage 45 is a disk array consisting of multiple hard disk drives.
  • Storage 45 stores control programs such as an operating system, various application programs, and various data associated with these programs. Note that a solid state drive may be used instead of a hard disk drive.
  • Memory 46 is a work memory for CPU 47 to execute processing.
  • CPU 47 loads programs stored in storage 45 into memory 46 and executes processing according to the programs. In this way, CPU 47 comprehensively controls each part of the computer.
  • CPU 47 is an example of a "processor" according to the technology of this disclosure. Note that memory 46 may be built into CPU 47.
  • the communication unit 48 is a network interface that controls the transmission of various information via the network 42, etc.
  • the display 49 displays various screens.
  • the various screens are equipped with an operation function using a GUI (Graphical User Interface).
  • the computers that make up the selection device 41A, the learning device 41B, and the operation device 41C accept input of operation instructions from the input device 50 via the various screens.
  • the input device 50 is a keyboard, a mouse, a touch panel, a microphone for voice input, etc.
  • the parts of the computer that make up the selection device 41A are distinguished by adding the suffix "A” to their reference numbers
  • the parts of the computer that make up the learning device 41B are distinguished by adding the suffix "B” to their reference numbers
  • the parts of the computer that make up the operation device 41C are distinguished by adding the suffix "C" to their reference numbers.
  • the first purified liquid 28 after immunoaffinity chromatography processing output from the immunoaffinity chromatography device 25 is provided for selection of the characteristic wave number band of the aggregate 20.
  • the first purified liquid 28 is subjected to a pretreatment 55 for promoting the formation of the aggregate 20.
  • the pretreatment 55 is a treatment in which the hydrogen ion exponent (represented as pH (Potential Hydrogen) in FIG. 4) of the first purified liquid 28 is set to 3.0 and the first purified liquid 28 is allowed to stand for one week in an environment at a temperature of 24° C.
  • the first purified liquid 28 is introduced into a high performance liquid chromatography device (hereinafter referred to as an HPLC (High Performance Liquid Chromatography) device) 57.
  • HPLC High Performance Liquid Chromatography
  • the formation of the aggregate 20 in the first purified liquid 28 may be further promoted by increasing the temperature to, for example, 30° C. or higher.
  • the HPLC device 57 has a reservoir 58, a pump 59, an autosampler 60, a column 61, and an ultraviolet detector (hereinafter referred to as a UV (ultraviolet) detector) 62.
  • the reservoir 58 stores a liquid 63 that is a mobile phase.
  • the liquid 63 is, for example, phosphate-buffered saline (PBS).
  • PBS phosphate-buffered saline
  • the pump 59 delivers the liquid 63 from the reservoir 58 toward the column 61 at a preset flow rate (for example, 1 mL/min).
  • the autosampler 60 is connected between the pump 59 and the column 61.
  • the autosampler 60 automatically injects a preset amount (e.g., several ⁇ L to several tens of ⁇ L) of the first purified liquid 28 after the pretreatment 55 has been performed into the liquid 63 flowing toward the column 61.
  • a preset amount e.g., several ⁇ L to several tens of ⁇ L
  • an injector that manually injects the first purified liquid 28 may be used instead of the autosampler 60.
  • the column 61 contains a packing material (e.g., silica gel, synthetic resin, etc.) as a stationary phase for separating the antibodies 19 and aggregates 20 in the first purified liquid 28, and is capable of performing gel filtration chromatography or size exclusion chromatography.
  • the antibodies 19 and aggregates 20 separated by the column 61 are sequentially eluted from the column 61 together with the liquid 63 and reach the UV detector 62.
  • the UV detector 62 irradiates the liquid 63 from the column 61 with detection light and measures the absorbance (amount of light absorbed) of the substances in the liquid 63.
  • the detection light is ultraviolet light and/or visible light (light with a wavelength of 190 nm to 800 nm, more specifically light with a wavelength of 280 nm) that matches the wavelength of the antibodies 19 and aggregates 20.
  • the UV detector 62 is connected to the selection device 41A via a computer network such as a LAN (Local Area Network) so that they can communicate with each other.
  • the UV detector 62 transmits chromatogram data 64, which is the absorbance measurement result, to the selection device 41A.
  • a flow cell 65 is connected downstream of the UV detector 62.
  • the liquid 63 that has passed through the UV detector 62 flows through the flow cell 65.
  • a collection tank 66 for the liquid 63 is connected downstream of the flow cell 65.
  • a probe 68 of a Raman spectrometer 67 is connected to the flow cell 65.
  • the Raman spectrometer 67 is an instrument that evaluates substances using the characteristics of Raman scattered light.
  • the excitation light interacts with the substance to generate Raman scattered light having a different wavelength from that of the excitation light.
  • the wavelength difference between the excitation light and the Raman scattered light corresponds to the energy of the molecular vibration of the substance. For this reason, Raman scattered light with different wave numbers can be obtained between substances with different molecular structures.
  • the Stokes line and the anti-Stokes line it is preferable to use the Stokes line for the Raman scattered light.
  • the Raman scattered light is an example of an "electromagnetic wave” according to the technology disclosed herein.
  • the spectrum of the Raman scattered light i.e., the Raman spectrum, is an example of a "spectrum” according to the technology disclosed herein.
  • the Raman spectrometer 67 is composed of a probe 68 and an analyzer 69.
  • the probe 68 emits excitation light from an outlet at the tip toward the liquid 63 flowing through the measurement section 70 of the flow cell 65.
  • the Raman scattered light generated by the interaction between the excitation light and the substances in the liquid 63 is received by a light receiving section located at the tip.
  • the probe 68 outputs the received Raman scattered light to the analyzer 69.
  • laser light is used as the excitation light, with a laser light output of 200 mW, an excitation wavelength of 785 nm, and an irradiation time of 1 second.
  • the analyzer 69 generates spectral measurement data 71 by breaking down the Raman scattered light into wave numbers and deriving the intensity value of the Raman scattered light for each wave number.
  • the probe 68 emits excitation light and receives Raman scattered light at preset intervals from time T0 when the autosampler 60 starts injecting the first purified liquid 28 to time TN when the UV detector 62 is sufficient to measure the absorbance of the antibody 19 and the aggregate 20.
  • the analyzer 69 generates the spectral measurement data 71 each time. Therefore, the spectral measurement data 71 is generated in multiple forms, including spectral measurement data 71T0 at time T0, spectral measurement data 71T1 at time T1, ..., and spectral measurement data 71TN at time TN.
  • the analyzer 69 like the HPLC device 57, is connected to the selection device 41A via a computer network such as a LAN so as to be able to communicate with each other.
  • the analyzer 69 transmits a spectrum measurement data group 71G, which is a collection of multiple spectrum measurement data 71, to the selection device 41A.
  • the spectrum measurement data 71 is data in which the intensity values of Raman scattered light for each wavenumber are registered.
  • the spectrum measurement data 71 is data derived from the intensity values of scattered light in the wavenumber range of 700 cm -1 to 1800 cm -1 in increments of 1 cm -1 .
  • the graph shown in the lower part of Fig. 5 is a graph in which the intensity values of this spectrum measurement data 71 are plotted for each wavenumber and connected by a line, i.e., it represents the Raman spectrum.
  • an operating program 75A is stored in the storage 45A of the selection device 41A.
  • the operating program 75A is an application program for causing a computer to function as the selection device 41A.
  • the operating program 75A is an example of an "operating program of an information processing device" according to the technology disclosed herein.
  • the CPU 47A of the computer constituting the selection device 41A works in cooperation with the memory 46 and the like to function as an acquisition unit 80, a read/write control unit (hereinafter referred to as the RW (Read Write) control unit) 81, and a selection unit 82.
  • RW Read Write
  • the acquisition unit 80 acquires the chromatogram data 64 from the HPLC device 57 and the spectrum measurement data group 71G from the Raman spectrometer 67.
  • the acquisition unit 80 outputs the chromatogram data 64 and the spectrum measurement data group 71G to the RW control unit 81.
  • the RW control unit 81 controls the storage of various data in the storage 45A and the reading of various data stored in the storage 45A.
  • the RW control unit 81 stores the chromatogram data 64 and the spectrum measurement data group 71G from the acquisition unit 80 in the storage 45A.
  • the RW control unit 81 also reads the chromatogram data 64 and the spectrum measurement data group 71G from the storage 45A, and outputs the read chromatogram data 64 and the spectrum measurement data group 71G to the selection unit 82.
  • the selection unit 82 selects a characteristic wavenumber band of the aggregate 20 based on the chromatogram data 64 and the spectrum measurement data group 71G.
  • the selection unit 82 generates characteristic wavenumber band data 85 as a result of the selection of the characteristic wavenumber band.
  • the selection unit 82 outputs the characteristic wavenumber band data 85 to the RW control unit 81.
  • the RW control unit 81 stores the characteristic wavenumber band data 85 in the storage 45A.
  • the selection unit 82 identifies first spectral measurement data 711 and second spectral measurement data 712 from among the multiple spectral measurement data 71 in the spectral measurement data group 71G based on the chromatogram data 64.
  • the first spectral measurement data 711 is data obtained by measuring the Raman spectrum emitted from the antibody 19.
  • the second spectral measurement data 712 is data obtained by measuring the Raman spectrum emitted from the aggregate 20.
  • the selection unit 82 derives, from the chromatogram data 64, the time Tan (retention time of antibody 19) at which the absorbance peak indicating antibody 19 appeared, and the time Tag (retention time of aggregate 20) at which the absorbance peak indicating aggregate 20 appeared.
  • the selection unit 82 identifies the spectrum measurement data 71Tan+ ⁇ obtained by measuring the Raman spectrum of liquid 63 that flowed through the measurement unit 70 of flow cell 65 at time Tan as the first spectrum measurement data 711.
  • the selection unit 82 also identifies the spectrum measurement data 71Tag+ ⁇ obtained by measuring the Raman spectrum of liquid 63 that flowed through the measurement unit 70 of flow cell 65 at time Tag as the second spectrum measurement data 712.
  • the liquid 63 that flowed through the measurement unit 70 of flow cell 65 at time Tan is an example of the "first solution” according to the technology disclosed herein.
  • the liquid 63 that flows through the measurement unit 70 of the flow cell 65 at time Tag is an example of the "second solution” according to the technology of the present disclosure.
  • the "+ ⁇ " in the times Tan+ ⁇ and Tag+ ⁇ is the time lag between measuring the absorbance with the UV detector 62 and measuring the Raman spectrum with the Raman spectrometer 67 in the measurement unit 70 of the flow cell 65.
  • the method for producing the liquid 63 containing the antibodies 19 and the liquid 63 containing the aggregates 20 is not limited to the method using the HPLC device 57.
  • the liquid 63 containing the antibodies 19 and the liquid 63 containing the aggregates 20 may be separated from the first purified liquid 28 using a centrifugal ultrafiltration filter.
  • the spectral measurement data group 71G includes the first spectral measurement data 711 and the second spectral measurement data 712. Therefore, by acquiring the spectral measurement data group 71G, the acquisition unit 80 acquires the first spectral measurement data 711 and the second spectral measurement data 712.
  • FIG. 8 An example of the first spectral measurement data 711 is shown in FIG. 8, and an example of the second spectral measurement data 712 is shown in FIG. 9.
  • the first spectral measurement data 711 and the second spectral measurement data 712 are roughly the same, but the former is based on the antibody 19 and the latter is based on the aggregate 20, so the data differ slightly in places.
  • the selection unit 82 calculates difference data 90 of the intensity values of each wavenumber between the first spectrum measurement data 711 and the second spectrum measurement data 712.
  • the difference data 90 is data in which the difference obtained by subtracting the intensity value of the second spectrum measurement data 712 from the intensity value of the first spectrum measurement data 711 is registered for each wavenumber.
  • the selection unit 82 Prior to calculating the difference data 90, the selection unit 82 normalizes the first spectrum measurement data 711 and the second spectrum measurement data 712 by setting the maximum intensity value to 1 and the minimum intensity value to 0.
  • the selection unit 82 compares the absolute value of the difference of the difference data 90 with a preset threshold value 91. Then, a wavenumber band in which the absolute value of the difference is equal to or greater than the threshold value is selected as the characteristic wavenumber band of the aggregate 20.
  • the threshold value is set to 0.05, and 1220 cm -1 to 1260 cm -1 and 1650 cm -1 to 1690 cm -1 are selected as the characteristic wavenumber band.
  • the characteristic wavenumber band is not particularly limited as long as it is in the range of 700 cm -1 to 1800 cm -1 , but is preferably in the range of 1220 cm -1 to 1690 cm -1 , and more preferably in the range of 1220 cm -1 to 1260 cm -1 and 1650 cm -1 to 1690 cm -1 as illustrated.
  • the characteristic wavenumber band is preferably two or more ranges, such as 1220 cm -1 to 1260 cm -1 and 1650 cm -1 to 1690 cm -1 , for example.
  • the range in which a phenylalanine band appears, the range in which a tryptophan band appears, or the range in which a tyrosine band appears may be selected as the characteristic wavenumber band.
  • FIG. 12 shows the process shown in FIG. 11, in which difference data 90 is compared with a threshold value 91 to select a specific wavenumber band of the aggregate, on the Raman spectrum of the first spectrum measurement data 711 and the second spectrum measurement data 712.
  • the ratio between the intensity value of each wavenumber of the first spectrum measurement data 711 and the intensity value of each wavenumber of the second spectrum measurement data 712 may be calculated, and the wavenumber band in which the ratio deviates from 1 by a threshold value or more may be selected as the characteristic wavenumber band of the aggregate 20.
  • an operating program 75B is stored in storage 45B of learning device 41B.
  • Operating program 75B is an application program for causing a computer to function as learning device 41B.
  • operating program 75B like operating program 75A, is an example of an "operating program of an information processing device" according to the technology of the present disclosure.
  • data set group 95G and concentration prediction model 96 are stored in storage 45B.
  • Concentration prediction model 96 is an example of a "state prediction model" according to the technology of the present disclosure.
  • the CPU 47B of the computer constituting the learning device 41B works in cooperation with the memory 46 etc. to function as the RW control unit 100 and the learning verification unit 101.
  • the RW control unit 100 like the RW control unit 81 of the selection device 41A, controls the storage of various data in the storage 45B and the reading of various data stored in the storage 45B.
  • the RW control unit 100 reads the data set group 95G and the concentration prediction model 96 from the storage 45B, and outputs the read data set group 95G and the concentration prediction model 96 to the learning verification unit 101.
  • the learning and verification unit 101 performs learning and verification of the concentration prediction model 96 using the data set group 95G.
  • the learning and verification unit 101 outputs the learned concentration prediction model 96LD obtained by the learning and verification to the RW control unit 100.
  • the RW control unit 100 stores the concentration prediction model 96LD in the storage 45B.
  • the concentration prediction model 96 is constructed by a neural network 105. Therefore, the concentration prediction model 96 is also an example of a "machine learning model" according to the technology of the present disclosure.
  • the neural network 105 has an input layer 106, an intermediate layer (also called a hidden layer) 107, and an output layer 108.
  • the input layer 106, the intermediate layer 107, and the output layer 108 each have a plurality of nodes ND.
  • Coefficients indicating the strength of the connection of each node ND are set between the node ND of the input layer 106 and the node ND of the intermediate layer 107, between the nodes ND in the intermediate layer 107, and between the node ND of the intermediate layer 107 and the node ND of the output layer 108.
  • An appropriate activation function such as a linear function or a ReLu (Rectified Linear Unit) function, is set for the node ND of the output layer 108.
  • Each node ND of the input layer 106 receives the intensity values of the specific wavenumber bands among the intensity values of each wavenumber of the spectrum measurement data 71 as input data 130 (see FIG. 20).
  • the node ND of the output layer 108 outputs the concentration prediction result 115 (see FIG. 18), which is the result of predicting the concentration of the aggregate 20.
  • the dataset group 95G has a plurality of datasets 95.
  • the dataset 95 is composed of learning or verification intensity values 110 and a correct concentration 111.
  • the learning or verification intensity values 110 are obtained by extracting the intensity values of the specific wavenumber band selected by the selection device 41A from the intensity values of each wavenumber of the spectrum measurement data 71LV used to generate the dataset 95.
  • the spectrum measurement data 71LV is data obtained by measuring the Raman spectrum of the second purified liquid 30 after the cation chromatography process output from the cation chromatography device 26 using the flow cell 65 and the Raman spectrometer 67.
  • the spectral measurement data 71LV is measured intermittently from the start to the end of the cation chromatography process by the cation chromatography device 26.
  • the spectral measurement data 71LV is measured by randomly changing the culture conditions of the antibody-producing cells 15, the gradient width, the linear flow rate, and the load amount of the cation chromatography device 26. This makes it possible to obtain the spectral measurement data 71LV of the second purified liquid 30 having different concentration ratios of the antibody 19 and the aggregates 20, and thus to obtain a plurality of learning or verification intensity values 110.
  • the concentrations of the antibody 19 and aggregate 20 in the second purified liquid 30 for measuring the spectral measurement data 71LV are both in the range of 0.001 mg/mL to 20 mg/mL.
  • the concentrations of the antibody 19 and aggregate 20 in the second purified liquid 30 may both be in the range of 0.001 mg/mL to 10,000 mg/mL, preferably in the range of 0.001 mg/mL to 100 mg/mL, and more preferably in the illustrated range of 0.001 mg/mL to 20 mg/mL.
  • the correct concentration 111 is a concentration calculated based on the aggregate amount 112 in the second purified liquid 30 from which the spectrum measurement data 71LV was measured.
  • the aggregate amount 112 is literally the amount of aggregates 20, and is derived by the mass analysis function of the HPLC device 57.
  • the correct concentration 111 is an example of "correct data" related to the technology of the present disclosure.
  • the learning verification unit 101 inputs the learning or verification intensity values 110 from the learning data set 95L to the concentration prediction model 96, and causes the concentration prediction model 96 to output the learning concentration prediction result 115L.
  • the learning verification unit 101 performs a loss calculation for the concentration prediction model 96 using a loss function based on the result of the comparison between the correct concentration 111 and the learning concentration prediction result 115L.
  • the learning verification unit 101 updates the coefficients between the nodes N-D of the concentration prediction model 96 according to the result of the loss calculation, and updates the concentration prediction model 96 according to the update setting.
  • the learning verification unit 101 repeatedly performs the above series of processes, including input of the learning or verification intensity values 110 to the concentration prediction model 96, output of the learning concentration prediction results 115L from the concentration prediction model 96, loss calculation, update setting, and update of the concentration prediction model 96, while changing the learning data set 95L.
  • the learning verification unit 101 repeats the above series of processes m times, which is the number of learning data sets 95L.
  • the learning verification unit 101 inputs the learning or verification intensity values 110 from the verification data set 95V to the concentration prediction model 96, and causes the concentration prediction model 96 to output a verification concentration prediction result 115V.
  • the learning verification unit 101 verifies the prediction accuracy of the concentration of the aggregate 20 by the concentration prediction model 96 based on the comparison result between the correct concentration 111 and the verification concentration prediction result 115V.
  • the learning and verification unit 101 repeatedly inputs the learning or verification intensity values 110 to the concentration prediction model 96, outputs the verification concentration prediction results 115V from the concentration prediction model 96, and verifies the prediction accuracy while changing the verification data set 95V.
  • the learning and verification unit 101 repeats the above series of processes M-m times, which is the number of verification data sets 95V.
  • the learning verification unit 101 outputs the concentration prediction model 96, for which the above cross-validation has been performed a set number of times, to the RW control unit 100 as the concentration prediction model 96LD.
  • the RW control unit 100 stores the concentration prediction model 96LD in the storage 45B.
  • an operation program 75C is stored in the storage 45C of the operation device 41C.
  • the operation program 75C is an application program for causing a computer to function as the operation device 41C.
  • the operation program 75C like the operation programs 75A and 75B, is an example of an "operation program of an information processing device" according to the technology disclosed herein.
  • the storage 45C stores the specific wavenumber band data 85 from the selection device 41A and the concentration prediction model 96LD from the learning device 41B.
  • the CPU 47C of the computer constituting the operation device 41C works in cooperation with the memory 46 etc. to function as an acquisition unit 120, a RW control unit 121, a prediction unit 122, and a display control unit 123.
  • the acquisition unit 120 acquires the third spectrum measurement data 713 from the Raman spectrometer 67.
  • the acquisition unit 120 outputs the third spectrum measurement data 713 to the RW control unit 121.
  • the RW control unit 121 like the RW control unit 81 of the selection device 41A and the RW control unit 100 of the learning device 41B, controls the storage of various data in the storage 45C and the reading of various data stored in the storage 45C.
  • the RW control unit 121 stores the third spectrum measurement data 713 from the acquisition unit 120 in the storage 45C.
  • the RW control unit 121 also reads out the specific wavenumber band data 85, the concentration prediction model 96LD, and the third spectrum measurement data 713 from the storage 45C, and outputs the read out specific wavenumber band data 85, the concentration prediction model 96LD, and the third spectrum measurement data 713 to the prediction unit 122.
  • the RW control unit 121 also outputs the third spectrum measurement data 713 to the display control unit 123.
  • the prediction unit 122 applies the third spectral measurement data 713 to the concentration prediction model 96LD, and causes the concentration prediction model 96LD to output a concentration prediction result 115.
  • the prediction unit 122 outputs the concentration prediction result 115 to the display control unit 123.
  • the concentration prediction result 115 is an example of a "prediction result" related to the technology of the present disclosure.
  • the display control unit 123 controls the display of various screens on the display 49C.
  • the display control unit 123 controls the display of a Raman spectrum analysis screen 135 (see FIG. 21, etc.) on the display 49C.
  • the third spectrum measurement data 713 is data obtained by measuring the Raman spectrum of the second purified liquid 30, whose concentration of aggregates 20 is unknown, using a flow cell 65 and a Raman spectrometer 67.
  • the flow cell 65 is installed between the cation chromatography device 26 and the anion chromatography device 27. Therefore, more specifically, the second purified liquid 30 is a liquid after the cation chromatography process, which is output from the cation chromatography device 26 while the manufacturing process 2 is in progress. That is, the third spectrum measurement data 713 is data measured while the manufacturing process 2 is in progress. In other words, the third spectrum measurement data 713 is data obtained by in-line sensing. Moreover, the third spectrum measurement data 713 is data measured after the cation chromatography process.
  • the prediction unit 122 refers to the characteristic wavenumber band data 85 and extracts the intensity value of the characteristic wavenumber band from the intensity values of each wavenumber of the third spectrum measurement data 713 to generate input data 130.
  • the prediction unit 122 inputs the input data 130 to the concentration prediction model 96LD and causes the concentration prediction model 96LD to output a concentration prediction result 115.
  • Fig. 20 illustrates a case in which the characteristic wavenumber band is in the ranges of 1220 cm -1 to 1260 cm -1 and 1650 cm -1 to 1690 cm -1 illustrated in Fig. 11, and 2.485 mg/mL is output as the concentration prediction result 115.
  • the display control unit 123 displays, as an example, a Raman spectrum analysis screen 135 shown in FIG. 21 on the display 49C in response to an instruction from a user of the operational device 41C.
  • the third spectrum measurement data 713 is displayed on the Raman spectrum analysis screen 135.
  • An aggregate concentration prediction button 136 is provided at the bottom of the Raman spectrum analysis screen 135.
  • an aggregate concentration prediction instruction is accepted by the CPU 47C of the operation device 41C.
  • the CPU 47C Upon receiving the aggregate concentration prediction instruction, the CPU 47C causes the prediction unit 122 to perform the process shown in FIG. 20 and output the concentration prediction result 115 from the concentration prediction model 96LD.
  • the display control unit 123 transitions the display of the Raman spectrum analysis screen 135 to an example as shown in FIG. 22.
  • the concentration prediction result 115 is displayed on the Raman spectrum analysis screen 135 together with the third spectrum measurement data 713.
  • the CPU 47A of the selection device 41A functions as an acquisition unit 80, a RW control unit 81, and a selection unit 82 when the operating program 75A is started.
  • the acquisition unit 80 acquires chromatogram data 64 from the HPLC device 57 and a spectrum measurement data group 71G from the Raman spectrometer 67, which are measured by the method shown in FIG. 4 (step ST100).
  • the chromatogram data 64 and the spectrum measurement data group 71G are stored in the storage 45A by the RW control unit 81 (step ST110).
  • the chromatogram data 64 and the spectrum measurement data group 71G are read out from the storage 45A by the RW control unit 81 (step ST120) and output to the selection unit 82.
  • the selection unit 82 first, based on the chromatogram data 64, the first spectrum measurement data 711 and the second spectrum measurement data 712 are identified from the spectrum measurement data group 71G (step ST130) as shown in FIG. 7.
  • the difference data 90 between the first spectrum measurement data 711 and the second spectrum measurement data 712 is calculated (step ST140).
  • the difference data 90 is compared with a threshold value 91, and the characteristic wavenumber band of the aggregate 20 is selected (step ST150).
  • the characteristic wavenumber band data 85 which is the result of the selection of the characteristic wavenumber band, is output from the selection unit 82 to the RW control unit 81, and is stored in the storage 45A by the RW control unit 81 (step ST160).
  • the CPU 47B of the learning device 41B functions as the RW control unit 100 and the learning verification unit 101 by starting the operating program 75B.
  • Storage 45B of learning device 41B stores a dataset group 95G, which is a collection of datasets 95 generated by the method shown in FIG. 15, and a concentration prediction model 96.
  • the dataset group 95G and the concentration prediction model 96 are read from storage 45B by RW control unit 100 and output to learning verification unit 101.
  • the learning verification unit 101 divides the multiple data sets 95 constituting the data set group 95G into m learning data sets 95L and M-m verification data sets 95V (step ST200). Then, first, the concentration prediction model 96 is trained using the learning data set 95L. Specifically, as shown in FIG. 16, the learning or verification intensity value 110 of the learning data set 95L is input to the concentration prediction model 96, and the learning concentration prediction result 115L is output from the concentration prediction model 96 (step ST210). Next, the concentration prediction model 96 is updated based on the result of comparing the correct concentration 111 of the learning data set 95L with the learning concentration prediction result 115L (step ST220). The processes of steps ST210 and ST220 are repeated while the learning data set 95L is changed (step ST240) until all the prepared learning data sets 95L have been used (NO in step ST230).
  • the process proceeds to verifying the prediction accuracy of the concentration prediction model 96 using the verification data set 95V.
  • the learning or verification intensity values 110 of the verification data set 95V are input to the concentration prediction model 96, which in turn outputs a verification concentration prediction result 115V from the concentration prediction model 96.
  • the prediction accuracy of the concentration prediction model 96 is verified based on the comparison result between the correct concentration 111 of the verification data set 95V and the verification concentration prediction result 115V (step ST250).
  • the above series of processes are repeated while changing the verification data set 95V, as in the case of learning, until all of the prepared verification data set 95V has been used.
  • steps ST200 to ST250 are repeated until the set number of cross-validations is completed (NO in step ST260).
  • the concentration prediction model 96 is output from the learning verification unit 101 to the RW control unit 100 as a trained concentration prediction model 96LD.
  • the concentration prediction model 96LD is stored in the storage 45B by the RW control unit 100 (step ST270).
  • the CPU 47C of the operation device 41C functions as an acquisition unit 120, a RW control unit 121, a prediction unit 122, and a display control unit 123 when the operation program 75C is started.
  • the storage 45C of the operation device 41C stores the specific wavenumber band data 85 from the selection device 41A and the concentration prediction model 96LD from the learning device 41B.
  • the specific wavenumber band data 85 and the concentration prediction model 96LD are read from the storage 45C by the RW control unit 121 and output to the prediction unit 122.
  • the third spectrum measurement data 713 measured by the method shown in FIG. 19 from the Raman spectrometer 67 is acquired by the acquisition unit 120 (step ST300).
  • the third spectrum measurement data 713 is stored in the storage 45C by the RW control unit 121 (step ST310).
  • the third spectrum measurement data 713 is read from the storage 45C by the RW control unit 121 (step ST320) and output to the prediction unit 122 and the display control unit 123. Then, as shown in FIG. 21, the display control unit 123 displays the Raman spectrum analysis screen 135 on the display 49C (step ST330).
  • the user of the operational device 41C presses the aggregate concentration prediction button 136 to cause the concentration prediction model 96LD to predict the concentration of the aggregate 20 in the second purified liquid 30 for which the third spectrum measurement data 713 on the Raman spectrum analysis screen 135 has been measured. This causes the CPU 47C to accept an aggregate concentration prediction instruction (step ST340).
  • the prediction unit 122 In response to the aggregate concentration prediction instruction, the prediction unit 122 generates input data 130 from the third spectrum measurement data 713 by referring to the specific wavenumber band data 85 as shown in FIG. 20 (step ST350). The input data 130 is then input to the concentration prediction model 96LD, which in turn outputs a concentration prediction result 115 (step ST360). The concentration prediction result 115 is output from the prediction unit 122 to the display control unit 123, and is displayed on the Raman spectrum analysis screen 135 by the display control unit 123 as shown in FIG. 22 (step ST370).
  • the user makes various decisions based on the concentration prediction result 115 on the Raman spectrum analysis screen 135. For example, consider the case where a condition-finding experiment is being conducted on the culture conditions of the antibody-producing cells 15 and/or the purification conditions of the culture supernatant 17 using small-scale equipment. In this case, if the concentration prediction result 115 is worse than the target value, the user will make a decision to stop the current experiment and move on to an experiment using new conditions. Also, consider the case where the condition-finding experiment has ended and mass production is being conducted using large-scale equipment. In this case, if the concentration prediction result 115 is worse than the target value, the user will make a decision to stop mass production and perform maintenance on the chromatography devices 25-27.
  • the CPU 47A of the selection device 41A includes an acquisition unit 80 and a selection unit 82.
  • the acquisition unit 80 and the selection unit 82 perform the following as a preparatory process for generating a concentration prediction model 96LD that predicts the concentration of the aggregate 20 in the second purified liquid 30 produced in the manufacturing process 2 of a biopharmaceutical containing an antibody 19 as an active ingredient. That is, the acquisition unit 80 acquires first spectrum measurement data 711 that measures the Raman spectrum emitted from the antibody 19, and second spectrum measurement data 712 that measures the Raman spectrum emitted from the aggregate 20.
  • the selection unit 82 selects a specific wavenumber band that is specific to the aggregate 20 by comparing the intensity value of the first spectrum measurement data 711 with the intensity value of the second spectrum measurement data 712. This makes it possible to select a reasonable wavenumber band of the spectrum measurement data 71 that is likely to contribute to the prediction of the concentration of the aggregate 20 in the second purified liquid 30 produced in the manufacturing process 2 of the biopharmaceutical.
  • the concentration prediction model 96LD is generated using a data set 95 consisting of learning or validation intensity values 110, which are intensity values of a specific wavenumber band, and a correct concentration 111 of the aggregate 20. Therefore, the concentration prediction model 96LD can be a model that outputs a concentration prediction result 115 of the aggregate 20 according to the intensity value of the specific wavenumber band. According to the concentration prediction model 96LD, it is possible to predict the concentration of the aggregate 20 in the second purified liquid 30 produced in the biopharmaceutical manufacturing process 2 with higher accuracy than in the past.
  • Concentration is the most popular index for understanding the physicochemical characteristics of the target component (aggregate 20). Therefore, by predicting the concentration as the state of the target component, the user can easily understand the physicochemical characteristics of the target component.
  • the concentrations of the antibody 19 and aggregate 20 in the second purified solution 30 on which the data set 95 is based are both in the range of 0.001 mg/mL to 20 mg/mL. Therefore, the concentration prediction model 96LD can be a model that can accurately predict relatively low concentrations.
  • the first purified liquid 28 used to select the specific wavenumber band is subjected to a pretreatment 55 that promotes the formation of aggregates 20.
  • This allows the second spectrum measurement data 712 to be reliably acquired.
  • the absorbance peak indicating the aggregates 20 is clearly expressed in the chromatogram data 64, the second spectrum measurement data 712 can be easily identified.
  • the concentration prediction model 96LD outputs a concentration prediction result 115 of the aggregate 20 according to the intensity value of the characteristic wavenumber band of the third spectrum measurement data 713 obtained by measuring the Raman spectrum emitted from the second purified liquid 30, whose concentration of the aggregate 20 is unknown. This allows the user to easily know the concentration prediction result 115 of the aggregate 20.
  • the third spectral measurement data 713 is data measured while the manufacturing process 2 is in progress. This eliminates the need to take an aliquot of the second purified liquid 30 and subject it to a Raman spectrometer 67 that is prepared in a location separate from the purification line. In addition, the third spectral measurement data 713 can be obtained without interrupting the progress of the manufacturing process 2.
  • the third spectrum measurement data 713 is data measured after the cation chromatography process.
  • the second purified liquid 30 after the cation chromatography process should have most of the aggregates 20 removed. Therefore, if the predicted concentration result 115 of the aggregates 20 in the second purified liquid 30 after the cation chromatography process is high, it can be concluded that the setting conditions for the condition finding experiment are inappropriate or that the cation chromatography device 26 is malfunctioning, making it easier for the user to make a decision.
  • the first spectrum measurement data 711 and the second spectrum measurement data 712 are data measured from the liquid 63 containing the antibody 19 and the liquid 63 containing the aggregate 20, which were separated from the second purified liquid 30 using the HPLC device 57. Therefore, the first spectrum measurement data 711 is data that clearly represents the characteristics of the antibody 19, and the second spectrum measurement data 712 is data that clearly represents the characteristics of the aggregate 20. Therefore, the characteristic wavenumber band of the aggregate 20 can be accurately selected.
  • the target component is an aggregate 20 of antibody 19.
  • the aggregate 20 has adverse effects on biopharmaceuticals, such as causing side effects, and is the cause of a decrease in the efficacy of the biopharmaceutical. For this reason, by setting the target component as aggregate 20 and predicting its state, it is possible to suppress the decrease in efficacy of the biopharmaceutical.
  • the concentration prediction model 96LD is a machine learning model such as a neural network 105.
  • Machine learning models are generally used to predict unknown parameters, and the prediction accuracy can be increased to a certain level through learning. Therefore, compared to a linear model such as a PLS model, the concentration of the aggregate 20 can be predicted with higher accuracy.
  • Biopharmaceuticals that contain antibody 19 as the target protein are called antibody drugs, and are widely used to treat chronic diseases such as cancer, diabetes, and rheumatoid arthritis, as well as rare diseases such as hemophilia and Crohn's disease. Therefore, using antibody 19 as the target protein can promote the development of antibody drugs that are widely used to treat a variety of diseases.
  • Raman spectra tend to reflect information derived from the functional groups of the amino acids of proteins. Therefore, by converting the spectrum into a Raman spectrum, it is possible to further improve the accuracy of predicting the concentration of protein aggregates 20.
  • the characteristic wavenumber band is in the range of 1220 cm ⁇ 1 to 1260 cm ⁇ 1 and the range of 1650 cm ⁇ 1 to 1690 cm ⁇ 1 .
  • the range of 1220 cm ⁇ 1 to 1260 cm ⁇ 1 is the range in which a band commonly called amide III, which is attributed to an amide bond of a protein, appears.
  • the range of wavenumbers of 1650 cm ⁇ 1 to 1690 cm ⁇ 1 is the range in which a band commonly called amide I appears. Therefore, a characteristic wavenumber band with high validity can be selected.
  • the characteristic wavenumber band may be at least in the range of 1220 cm ⁇ 1 to 1260 cm ⁇ 1 or the range of 1650 cm ⁇ 1 to 1690 cm ⁇ 1 .
  • the third spectrum measurement data 713 is data measured after the cation chromatography process, but is not limited to this.
  • the third spectrum measurement data 713 may be data obtained by measuring the Raman spectrum of the first purified solution 28 after the virus inactivation process 29 is performed.
  • the first purified solution 28 is an example of the "suspension" according to the technology of the present disclosure.
  • the first purified liquid 28 has a composition closer to that of the culture supernatant liquid 17 than the second purified liquid 30. Therefore, if the third spectrum measurement data 713 is data obtained by measuring the Raman spectrum of the first purified liquid 28 after the virus inactivation treatment 29 has been performed, when the concentration prediction result 115 is worse than the target value, it can be concluded that the cause lies in the culture conditions of the antibody-producing cells 15, making it easier for the user to make a decision.
  • the third spectral measurement data 713 may be data output from the anion chromatography device 27 that measures the Raman spectrum of the third purified liquid 31 after the anion chromatography process.
  • the third spectral measurement data 713 does not have to be data measured during the manufacturing process.
  • the third spectral measurement data 713 may be measured by taking an aliquot of the first purified liquid 28 or the second purified liquid 30 and subjecting it to a Raman spectrometer 67 that is prepared in a location separate from the purification line.
  • antibody genes 14 were incorporated into cells 13 such as CHO cells to generate culture supernatant 17 of antibody-producing cells 15 that produce antibodies 19.
  • the culture supernatant 17 was then introduced into an immunoaffinity chromatography device 25 for purification to obtain a first purified liquid 28.
  • pretreatment 55 was performed on the first purified liquid 28 under the conditions shown in Table 56 to promote the production of aggregates 20.
  • the first purified liquid 28 was injected into an HPLC device 57 via an autosampler 60, and chromatogram data 64 was measured using a UV detector 62, while the Raman spectrum of the first purified liquid 28 was measured using a flow cell 65 and a Raman spectrometer 67, to obtain a spectrum measurement data group 71G.
  • the retention time Tan of the antibody 19 and the retention time Tag of the aggregate 20 were derived from the chromatogram data 64, and the first spectrum measurement data 711 and the second spectrum measurement data 712 were identified from the spectrum measurement data group 71G. Then, the characteristic wavenumber band of the aggregate 20 was selected based on the first spectrum measurement data 711 and the second spectrum measurement data 712.
  • a culture supernatant 17 was produced from the antibody-producing cells 15 that produced the antibody 19 in the same manner as above, and the produced culture supernatant 17 was introduced into an immunoaffinity chromatography device 25 and a cation chromatography device 26 for purification to obtain a second purified liquid 30.
  • the Raman spectrum of the second purified liquid 30 was measured using a flow cell 65 and a Raman spectrometer 67 to obtain spectrum measurement data 71LV, and the aggregate amount 112 was measured using an HPLC device 57, thereby obtaining a total of nine data sets 95.
  • the resulting nine data sets 95 were used to cross-validate the concentration prediction model 96 configured by the neural network 105. Specifically, eight of the nine data sets 95 were used as training data sets 95L and one was used as a validation data set 95V, and cross-validation was performed nine times while changing the configurations of the training data set 95L and the validation data set 95V.
  • the Raman spectrum of the second purified liquid 30 after the cation chromatography process is measured using the flow cell 65 and the Raman spectrometer 67, and the third spectrum measurement data 713 is obtained.
  • input data 130 consisting of only the intensity values of the characteristic wavenumber band of the aggregate 20 from the third spectrum measurement data 713 is input to the concentration prediction model 96LD generated by the above cross-validation, and the concentration prediction result 115 is output.
  • Comparative Example 1 is an example in which the input data 130 of the concentration prediction model 96LD is set to intensity values of all wavenumber bands from 700 cm -1 to 1800 cm -1 , not limited to the intensity values of the wavenumber band specific to the aggregate 20.
  • Comparative Example 2 is an example in which the input data 130 of the concentration prediction model 96LD is set to intensity values of the wavenumber band selected by sparse modeling.
  • Comparative Example 3 is an example in which the concentration prediction model 96LD is a PLS model instead of the neural network 105, as in JP 2016-128822 A, and the input data 130 of the concentration prediction model 96LD is set to intensity values in the wavenumber band of 800 cm -1 to 1700 cm -1 , also following the example of JP 2016-128822 A.
  • Comparative Example 4 is an example in which the input data 130 of the concentration prediction model 96LD is set to intensity values in the wavenumber band excluding the characteristic wavenumber band of the aggregate 20.
  • the RMSE (Root-Mean-Square Error) of the concentration prediction model 96LD in the example was 0.11, and the R2 (Coefficient of Determination) was 0.87.
  • the RMSE in the case of Comparative Example 1 was 0.13, and the R2 was 0.81, and the prediction accuracy of the concentration prediction model 96LD was slightly worse than that of the example. From this result, it was confirmed that the prediction accuracy of the concentration prediction model 96LD was improved by selecting a characteristic wavenumber band of the aggregate 20 and setting the input data 130 of the concentration prediction model 96LD to the intensity value of the characteristic wavenumber band of the aggregate 20.
  • Comparative Example 1 shows RMSE and R2 comparable to those of the Examples, it is understood at a glance that the prediction accuracy of the concentration prediction model 96LD is good. However, it cannot be denied that there is a possibility that a wavenumber band unrelated to the aggregate 20 is considered to contribute to the prediction of the concentration of the aggregate 20, that is, that a spurious correlation is occurring. Therefore, it cannot be said that the concentration prediction model 96LD of Comparative Example 1 is reasonable as a model for predicting the concentration of the aggregate 20.
  • the RMSE was 0.13 and R2 was 0.81, and the prediction accuracy of the concentration prediction model 96LD was slightly worse than that of the Example. From this result, it was confirmed that the prediction accuracy of the concentration prediction model 96LD was improved by setting the input data 130 of the concentration prediction model 96LD to the intensity value of the characteristic wavenumber band of the aggregate 20 rather than the intensity value of the wavenumber band selected by sparse modeling.
  • the RMSE was 0.13 and R2 was 0.82, and the prediction accuracy of the concentration prediction model 96LD was slightly worse than that of the Example. From this result, it was confirmed that the prediction accuracy of the concentration prediction model 96LD was improved by setting the input data 130 of the concentration prediction model 96LD to the intensity value of the characteristic wavenumber band of the aggregate 20. In addition, the rationality of the concentration prediction model 96LD generated based on the intensity value of the characteristic wavenumber band of the aggregate 20 was also demonstrated.
  • the target protein is not limited to the antibody 19. It may be a cytokine, a hormone, etc. Furthermore, the target component is not limited to the aggregate 20. The target component may be a cell-derived protein, a cell-derived DNA, etc.
  • the spectrum is not limited to a Raman spectrum. It may be an infrared absorption spectrum, a near-infrared absorption spectrum, a nuclear magnetic resonance spectrum, an ultraviolet-visible absorption spectroscopy (UV-Vis) spectrum, or a fluorescence spectrum. In the case of an ultraviolet-visible absorption spectrum or a fluorescence spectrum, a specific wavelength band is selected instead of a specific wavenumber band.
  • the concentration prediction model 96LD may be trained using the data set 95.
  • a neural network 105 is shown as an example of the concentration prediction model 96LD, this is not limiting. Decision trees, random forests, naive Bayes, gradient boosting decision trees, etc. may also be used.
  • the concentration prediction model 96LD is not limited to a machine learning model. It may be a model generated by multivariate analysis or statistical analysis. Examples of multivariate analysis and statistical analysis include PLS described in JP 2016-128822 A, multiple regression, principal component regression, logistic regression, Lasso regression, ridge regression, support vector regression, and Gaussian process regression. In such models generated by multivariate analysis and statistical analysis, determining the coefficients of the regression equation based on at least two datasets 95 corresponds to "generating a state prediction model" according to the technology of the present disclosure using datasets.”
  • the state of the target component is not limited to the concentration.
  • it may be the density of the target component.
  • two or more states, such as concentration and density, may be predicted.
  • the functions of the selection device 41A, the learning device 41B, and the operation device 41C are respectively performed by three computers, but this is not limited to this.
  • the functions of the selection device 41A, the learning device 41B, and the operation device 41C may be performed by one computer. Also, the functions of the selection device 41A may be performed by one computer, and the functions of the learning device 41B and the operation device 41C may be performed by one computer.
  • the functions of the selection device 41A, the learning device 41B, and the operation device 41C may be shared by four or more computers. In this way, the information processing device disclosed herein may be performed by one computer or multiple computers.
  • the hardware structure of the processing unit that performs various processes such as the acquisition units 80 and 120, RW control units 81, 100, and 121, selection unit 82, learning verification unit 101, prediction unit 122, and display control unit 123 can use the various processors shown below.
  • CPUs 47A-47C which are general-purpose processors that execute software (operating programs 75A-75C) and function as various processing units, as well as programmable logic devices (PLDs) such as FPGAs (Field Programmable Gate Arrays), which are processors whose circuit configuration can be changed after manufacture, and dedicated electrical circuits such as ASICs (Application Specific Integrated Circuits), which are processors with circuit configurations designed specifically to execute specific processes.
  • PLDs programmable logic devices
  • FPGAs Field Programmable Gate Arrays
  • ASICs Application Specific Integrated Circuits
  • a single processing unit may be configured with one of these various processors, or may be configured with a combination of two or more processors of the same or different types (e.g., a combination of multiple FPGAs and/or a combination of a CPU and an FPGA). Also, multiple processing units may be configured with a single processor.
  • Examples of configuring multiple processing units with a single processor include, first, a form in which one processor is configured with a combination of one or more CPUs and software, as typified by client and server computers, and this processor functions as multiple processing units. Second, a form in which a processor is used to realize the functions of the entire system, including multiple processing units, with a single IC (Integrated Circuit) chip, as typified by system-on-chip (SoC). In this way, the various processing units are configured as a hardware structure using one or more of the various processors listed above.
  • SoC system-on-chip
  • the hardware structure of these various processors can be an electrical circuit that combines circuit elements such as semiconductor elements.
  • a processor As a preparatory process for generating a state prediction model for predicting the state of a target component in a suspension produced in a manufacturing process of a biopharmaceutical containing a target protein as an active ingredient, obtaining first spectrum measurement data that measures a spectrum of electromagnetic waves emitted from the target protein and second spectrum measurement data that measures a spectrum of electromagnetic waves emitted from the target component; selecting a specific wavenumber band or a specific wavelength band specific to the target component by comparing the intensity value of the first spectrum measurement data with the intensity value of the second spectrum measurement data; Information processing device.
  • the state prediction model is generated using a data set consisting of intensity values of the characteristic wavenumber band or the characteristic wavelength band and ground truth data for the state of the target component.
  • the state of the target component is the concentration of the target component in the suspension; 3.
  • the concentrations of the target protein and the target component in the suspension from which the data set was derived are both in the range of 0.001 mg/mL to 20 mg/mL.
  • a suspension used for selecting the specific wavenumber band or the specific wavelength band is subjected to a pretreatment that promotes production of the target component.
  • the information processing device according to any one of claims 1 to 7, wherein the first spectrum measurement data and the second spectrum measurement data are data measured from a first solution containing the target protein and a second solution containing the target component, which are separated from the suspension using a high-performance liquid chromatography device.
  • the target component is an aggregate of the target protein.
  • the state prediction model is a machine learning model.
  • the target protein is an antibody.
  • the target Item 12 12.
  • the information processing device according to claim 1, wherein the spectrum is a Raman spectrum. [Additional Item 13] 13. The information processing device according to claim 12, wherein the characteristic wavenumber band is at least one of a range of 1220 cm ⁇ 1 to 1260 cm ⁇ 1 and a range of 1650 cm ⁇ 1 to 1690 cm ⁇ 1 .
  • a and/or B is synonymous with “at least one of A and B.”
  • a and/or B means that it may be just A, or just B, or a combination of A and B.
  • the same idea as “A and/or B” is also applied when three or more things are linked together with “and/or.”

Abstract

プロセッサを備え、プロセッサは、目的タンパク質を有効成分とするバイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態を予測する状態予測モデルを生成するための準備処理として、目的タンパク質から発せられる電磁波のスペクトルを測定した第1スペクトル測定データと、対象成分から発せられる電磁波のスペクトルを測定した第2スペクトル測定データとを取得し、第1スペクトル測定データの強度値と、第2スペクトル測定データの強度値との比較により、対象成分に特有な特有波数帯または特有波長帯を選定する、情報処理装置。

Description

情報処理装置、情報処理装置の作動方法、情報処理装置の作動プログラム、並びに状態予測モデル
 本開示の技術は、情報処理装置、情報処理装置の作動方法、情報処理装置の作動プログラム、並びに状態予測モデルに関する。
 抗体等の目的タンパク質を有効成分とするバイオ医薬品の製造プロセスが知られている。こうした製造プロセスにおいては、目的タンパク質をはじめとした各種成分が液体中に分散された懸濁液がしばしば産生される。この懸濁液中の対象成分の状態を監視することは、製造プロセスの成否を見極めるために重要である。
 特開2016-128822号公報には、対象成分の状態として目的タンパク質の凝集体の濃度を予測する技術が記載されている。具体的には、特開2016-128822号公報では、懸濁液のラマンスペクトルを測定して得られたスペクトル測定データから、PLS(Partial Least Squares 部分的最小二乗回帰)モデルといった線形モデルを用いて凝集体の濃度を予測している。
 特開2016-128822号公報に記載の技術は、凝集体の濃度の予測精度がそれほど高くなく、実用性に乏しかった。その原因としては、ラマンスペクトル測定データの各波数のうち、凝集体の濃度の予測に寄与すると思われる波数帯を選定していないことが考えられる。
 凝集体の濃度の予測に寄与すると思われる波数帯を選定する方法としては、例えばスパースモデリングが考えらえる。しかしながら、スパースモデリングで選定される波数帯は、選定のために準備されたラマンスペクトル測定データに大いに依存する。このため、スパースモデリングで選定される波数帯が、真に凝集体の濃度の予測に寄与すると思われる合理的なものであるとは断言できない。
 本開示の技術に係る1つの実施形態は、バイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態の予測に寄与すると思われる、合理的なスペクトル測定データの波数帯または波長帯を選定することが可能な情報処理装置、情報処理装置の作動方法、および情報処理装置の作動プログラムを提供する。
 また、本開示の技術に係る1つの実施形態は、バイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態を、従来と比べて高精度に予測することが可能な状態予測モデルを提供する。
 本開示の情報処理装置は、プロセッサを備え、プロセッサは、目的タンパク質を有効成分とするバイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態を予測する状態予測モデルを生成するための準備処理として、目的タンパク質から発せられる電磁波のスペクトルを測定した第1スペクトル測定データと、対象成分から発せられる電磁波のスペクトルを測定した第2スペクトル測定データとを取得し、第1スペクトル測定データの強度値と、第2スペクトル測定データの強度値との比較により、対象成分に特有な特有波数帯または特有波長帯を選定する。
 状態予測モデルは、特有波数帯または特有波長帯の強度値と対象成分の状態の正解データとで構成されるデータセットを用いて生成されることが好ましい。
 対象成分の状態は、懸濁液中の対象成分の濃度であり、データセットの元となった懸濁液中の目的タンパク質および対象成分の濃度は、ともに0.001mg/mL~20mg/mLの範囲であることが好ましい。
 特有波数帯または特有波長帯の選定に供される懸濁液には、対象成分の生成を促進する前処理が施されることが好ましい。
 状態予測モデルは、対象成分の状態が未知の懸濁液から発せられる電磁波のスペクトルを測定した第3スペクトル測定データの、特有波数帯または特有波長帯の強度値に応じて、対象成分の状態の予測結果を出力することが好ましい。
 第3スペクトル測定データは、製造プロセスの進行中に測定されたデータであることが好ましい。
 第3スペクトル測定データは、ウイルス不活性化処理後、または陽イオンクロマトグラフィー処理後に測定されたデータであることが好ましい。
 第1スペクトル測定データおよび第2スペクトル測定データは、高速液体クロマトグラフィー装置を用いて懸濁液から分離された、目的タンパク質を含む第1溶液および対象成分を含む第2溶液から測定されたデータであることが好ましい。
 対象成分は、目的タンパク質の凝集体であることが好ましい。
 状態予測モデルは機械学習モデルであることが好ましい。
 目的タンパク質は抗体であることが好ましい。
 スペクトルはラマンスペクトルであることが好ましい。
 特有波数帯は、1220cm-1~1260cm-1の範囲、または1650cm-1~1690cm-1の範囲の少なくともいずれかにあることが好ましい。
 本開示の情報処理装置の作動方法は、目的タンパク質を有効成分とするバイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態を予測する状態予測モデルを生成するための準備処理として、目的タンパク質から発せられる電磁波のスペクトルを測定した第1スペクトル測定データと、対象成分から発せられる電磁波のスペクトルを測定した第2スペクトル測定データとを取得すること、並びに、第1スペクトル測定データの強度値と、第2スペクトル測定データの強度値との比較により、対象成分に特有な特有波数帯または特有波長帯を選定すること、を含む。
 本開示の情報処理装置の作動プログラムは、目的タンパク質を有効成分とするバイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態を予測する状態予測モデルを生成するための準備処理として、目的タンパク質から発せられる電磁波のスペクトルを測定した第1スペクトル測定データと、対象成分から発せられる電磁波のスペクトルを測定した第2スペクトル測定データとを取得すること、並びに、第1スペクトル測定データの強度値と、第2スペクトル測定データの強度値との比較により、対象成分に特有な特有波数帯または特有波長帯を選定すること、を含む処理をコンピュータに実行させる。
 本開示の状態予測モデルは、目的タンパク質を有効成分とするバイオ医薬品の製造プロセスにおいて産生される懸濁液から発せられる電磁波のスペクトルを測定したスペクトル測定データの各波数または各波長の強度値のうち、懸濁液中の対象成分に特有な特有波数帯または特有波長帯の強度値に応じて、対象成分の状態の予測結果を出力する機能をコンピュータに実行させる。
 本開示の技術によれば、バイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態の予測に寄与すると思われる、合理的なスペクトル測定データの波数帯または波長帯の強度値を選定することが可能な情報処理装置、情報処理装置の作動方法、および情報処理装置の作動プログラムを提供することができる。
 また、本開示の技術によれば、バイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態を、従来と比べて高精度に予測することが可能な状態予測モデルを提供することができる。
バイオ医薬品の製造プロセスの概要を示す図である。 情報処理システムを示す図である。 選定装置、学習装置、および運用装置を構成するコンピュータのブロック図である。 第2精製液に対して施される前処理、高速液体クロマトグラフィー装置、および選定装置に入力されるデータを示す図である。 スペクトル測定データおよびラマンスペクトルを示す図である。 選定装置を構成するコンピュータのCPUのブロック図である。 クロマトグラムデータに基づいて、スペクトル測定データ群から第1スペクトル測定データおよび第2スペクトル測定データを特定する処理を示す図である。 第1スペクトル測定データを示す図である。 第2スペクトル測定データを示す図である。 第1スペクトル測定データと第2スペクトル測定データの差分データを算出する処理を示す図である。 差分データと閾値とを比較し、凝集体の特有波数帯を選定する処理を示す図である。 差分データと閾値とを比較し、凝集体の特有波数帯を選定する処理を、ラマンスペクトル上で示した図である。 学習装置を構成するコンピュータのCPUのブロック図である。 濃度予測モデルを構成するニューラルネットワークを示す図である。 データセット群の成り立ちを示す図である。 濃度予測モデルの学習フェーズにおける処理を示す図である。 濃度予測モデルの検証フェーズにおける処理を示す図である。 運用装置を構成するコンピュータのCPUのブロック図である。 第3スペクトル測定データの成り立ちを示す図である。 特有波数帯データを参照して、第3スペクトル測定データから入力データを生成し、入力データを濃度予測モデルに入力し、濃度予測モデルから濃度予測結果を出力させる処理を示す図である。 ラマンスペクトル分析画面を示す図である。 濃度予測結果が表示されたラマンスペクトル分析画面を示す図である。 選定装置の処理手順を示すフローチャートである。 学習装置の処理手順を示すフローチャートである。 運用装置の処理手順を示すフローチャートである。 第3スペクトル測定データの成り立ちの別の例を示す図である。 実施例および比較例の概要を示す表である。
 [第1実施形態]
 一例として図1に示すように、バイオ医薬品の製造プロセス2は、第1プロセス10、第2プロセス11、および第3プロセス12に大別される。第1プロセス10は、チャイニーズハムスター卵巣細胞(CHO細胞(Chinese Hamster Ovary cells))といった細胞13に抗体遺伝子14を組み込み、抗体生産細胞15を樹立するプロセスである。第2プロセスは、抗体生産細胞15を培養槽16にて細胞培養するプロセスである。
 第3プロセス12は、培養上清液17からバイオ医薬品の原薬18を精製するプロセスである。培養上清液17は、第2プロセス11を終えた培養槽16内の培養液から除細胞して得られた溶液である。培養上清液17には、抗体生産細胞15が生産した免疫グロブリン、すなわち抗体19が分散されている。抗体19は例えばモノクローナル抗体であり、バイオ医薬品の有効成分となる。また、培養上清液17には抗体19の凝集体20も分散されている。抗体19は、本開示の技術に係る「目的タンパク質」の一例である。凝集体20は、本開示の技術に係る「対象成分」の一例である。
 凝集体20は、抗体19自体、および/または、抗体19とアミノ酸配列が70%以上一致する抗体19の変成物が複数凝集したものである。このため、凝集体20は抗体19よりも質量が大きい。また、凝集体20は抗体19よりも分子量が大きい。具体的には、凝集体20は、抗体19の1.2倍以上の分子量を有する物質である。さらに言えば、凝集体20は、好ましくは抗体19の1.5倍以上、より好ましくは1.8倍以上、特に好ましくは1.9倍以上の分子量を有する物質である。なお、図示は省略したが、培養上清液17には、抗体19および凝集体20の他に、細胞由来タンパク質・細胞由来DNA(Deoxyribonucleic Acid)、およびウイルス等も分散されている。
 第3プロセス12においては、イムノアフィニティクロマトグラフィー装置25、陽イオンクロマトグラフィー装置26、および陰イオンクロマトグラフィー装置27等により、培養上清液17を連続的または断続的に精製する。イムノアフィニティクロマトグラフィー装置25には培養上清液17が導入される。イムノアフィニティクロマトグラフィー装置25は、抗体19と親和性をもつプロテインA等のリガンドを担体に固定したカラムを用いて培養上清液17から抗体19を抽出することで、第1精製液28を生成する。第1精製液28には、ウイルス不活性化処理29が施される。第1精製液28は、本開示の技術に係る「懸濁液」の一例である。
 陽イオンクロマトグラフィー装置26には、ウイルス不活性化処理29を施した後の第1精製液28が導入される。陽イオンクロマトグラフィー装置26は、陽イオン交換体を固定相とするカラムを用いて第1精製液28から抗体19を抽出することで、第2精製液30を生成する。第2精製液30は、本開示の技術に係る「懸濁液」の一例である。
 陰イオンクロマトグラフィー装置27には第2精製液30が導入される。陰イオンクロマトグラフィー装置27は、陰イオン交換体を固定相とするカラムを用いて第2精製液30から抗体19を抽出することで、第3精製液31を生成する。
 第3精製液31はフィルタ32に通されてウイルスが除去される。その後、第3精製液31には、フィルタ33を用いた限外濾過(UF:Ultrafiltration)および透析濾過(DF:Diafiltration)による濃縮・濾過処理が施される。これによりバイオ医薬品の原薬18が得られる。こうした複数種のクロマトグラフィー装置25~27による成分分離処理を順に行うことで、培養上清液17から凝集体20等の夾雑物およびウイルスが段階的に除去され、抗体19の純度が段階的に高められる。なお、イムノアフィニティクロマトグラフィー装置25の前段に、シングルパスタンジェンシャルフロー濾過(SPTFF:Single Pass Tangential Flow Filtration)方式のフィルタを設けてもよい。
 一例として図2に示すように、情報処理システム40は、選定装置41A、学習装置41B、および運用装置41Cにより構成される。これらはネットワーク42を介して相互通信可能に接続されている。ネットワーク42は、例えばインターネットまたは公衆通信網等のWAN(Wide Area Network)である。選定装置41A、学習装置41B、および運用装置41Cは、例えばデスクトップ型のパーソナルコンピュータ、ノート型のパーソナルコンピュータ、あるいはタブレット端末等である。
 選定装置41Aは、ラマンスペクトルの各波数のうちで、凝集体20に特有な特有波数帯を選定する処理を担う。学習装置41Bは、凝集体20の濃度を予測する濃度予測モデル96(図13参照)を学習させる処理を担う。運用装置41Cは、学習済みの濃度予測モデル96LD(図13参照)を用いて、凝集体20の濃度を予測する処理を担う。濃度は、本開示の技術に係る「状態」の一例である。なお、「状態」とは、対象成分の物理化学的な特徴を表す指標である。また、選定装置41A、学習装置41B、および運用装置41Cは、本開示の技術に係る「情報処理装置」の一例である。このように、本開示の技術に係る「情報処理装置」は、複数の装置に跨って実現されてもよい。
 一例として図3に示すように、選定装置41A、学習装置41B、および運用装置41Cを構成するコンピュータは、基本的には同じ構成であり、ストレージ45、メモリ46、CPU(Central Processing Unit)47、通信部48、ディスプレイ49、および入力デバイス50を備えている。これらはバスライン51を介して相互接続されている。
 ストレージ45は、選定装置41A、学習装置41B、および運用装置41Cを構成するコンピュータに内蔵、またはケーブル、ネットワークを通じて接続されたハードディスクドライブである。もしくはストレージ45は、ハードディスクドライブを複数台連装したディスクアレイである。ストレージ45には、オペレーティングシステム等の制御プログラム、各種アプリケーションプログラム、およびこれらのプログラムに付随する各種データ等が記憶されている。なお、ハードディスクドライブに代えてソリッドステートドライブを用いてもよい。
 メモリ46は、CPU47が処理を実行するためのワークメモリである。CPU47は、ストレージ45に記憶されたプログラムをメモリ46へロードして、プログラムにしたがった処理を実行する。これによりCPU47はコンピュータの各部を統括的に制御する。CPU47は、本開示の技術に係る「プロセッサ」の一例である。なお、メモリ46は、CPU47に内蔵されていてもよい。
 通信部48は、ネットワーク42等を介した各種情報の伝送制御を行うネットワークインターフェースである。ディスプレイ49は各種画面を表示する。各種画面にはGUI(Graphical User Interface)による操作機能が備えられる。選定装置41A、学習装置41B、および運用装置41Cを構成するコンピュータは、各種画面を通じて、入力デバイス50からの操作指示の入力を受け付ける。入力デバイス50は、キーボード、マウス、タッチパネル、および音声入力用のマイク等である。
 なお、以下の説明では、選定装置41Aを構成するコンピュータの各部(ストレージ45およびCPU47)には添え字の「A」を、学習装置41Bを構成するコンピュータの各部(ストレージ45およびCPU47)には添え字の「B」を、運用装置41Cを構成するコンピュータの各部(ストレージ45、CPU47、およびディスプレイ49)には添え字の「C」を、それぞれ符号に付して区別する。
 一例として図4に示すように、凝集体20の特有波数帯の選定には、イムノアフィニティクロマトグラフィー装置25から出力された、イムノアフィニティクロマトグラフィー処理後の第1精製液28が供される。第1精製液28には、凝集体20の生成を促進する前処理55が施される。前処理55は、具体的には表56に示すように、第1精製液28の水素イオン指数(図4においてはpH(Potential Hydrogen)と表記)を3.0とし、温度24℃の環境下で1週間静置する処理である。前処理55が施された後、第1精製液28は、高速液体クロマトグラフィー装置(以下、HPLC(High Performance Liquid Chromatography)装置と表記する)57に導入される。なお、例えば30℃以上に温度を高める等して、より第1精製液28の凝集体20の生成を促進させてもよい。
 HPLC装置57は、リザーバー58、ポンプ59、オートサンプラー60、カラム61、および紫外線検出器(以下、UV(Ultraviolet)検出器と表記する)62を有する。リザーバー58には、移動相である液体63が貯留されている。液体63は、例えばリン酸緩衝生理食塩水(PBS:Phosphate-Buffered Saline)等である。ポンプ59は、予め設定された流量(例えば1mL/min)にて、リザーバー58の液体63をカラム61に向けて送液する。
 オートサンプラー60は、ポンプ59とカラム61との間に接続されている。オートサンプラー60は、前処理55が施された後の第1精製液28を、カラム61に向けて流れる液体63に、予め設定された量(例えば数μL~数十μL)自動的に注入する。なお、オートサンプラー60に代えて、手動で第1精製液28を注入するインジェクターを用いてもよい。
 カラム61は、第1精製液28内の抗体19および凝集体20を分離するための固定相としての充填剤(例えばシリカゲル、合成樹脂等)を含み、ゲル濾過クロマトグラフィーまたはサイズ排除クロマトグラフィーを実行することが可能である。カラム61によって分離された抗体19および凝集体20は、液体63とともに順次カラム61から溶出し、UV検出器62へと至る。UV検出器62は、カラム61からの液体63に検出光を照射し、液体63内の物質の吸光度(光吸収量)を測定する。検出光は、抗体19および凝集体20に合わせた波長の紫外光および/または可視光(波長190nm~800nmの光、より具体的には波長280nmの光)である。
 UV検出器62は、LAN(Local Area Network)等のコンピュータネットワークを通じて、選定装置41Aと相互通信可能に接続されている。UV検出器62は、吸光度の測定結果であるクロマトグラムデータ64を、選定装置41Aに送信する。
 UV検出器62の下流には、フローセル65が接続されている。フローセル65には、UV検出器62を通過した液体63が流れる。フローセル65の下流には、液体63の回収タンク66が接続されている。
 フローセル65には、ラマン分光計67のプローブ68が接続される。ラマン分光計67は、ラマン散乱光の特性を利用して物質の評価を行う機器である。励起光を物質に照射すると、励起光が物質と相互作用することで励起光と異なる波長をもつラマン散乱光が発生する。励起光とラマン散乱光の波長差は、物質がもつ分子振動のエネルギー分に相当する。このため、分子構造の異なる物質間で、異なる波数をもったラマン散乱光を得ることができる。ラマン散乱光は、ストークス線および反ストークス線のうち、ストークス線を用いることが好ましい。ラマン散乱光は、本開示の技術に係る「電磁波」の一例である。また、ラマン散乱光のスペクトル、すなわちラマンスペクトルは、本開示の技術に係る「スペクトル」の一例である。
 ラマン分光計67は、プローブ68とアナライザ69とで構成される。プローブ68は、フローセル65の測定部70を流れる液体63に対して、先端の出射口から励起光を出射する。そして、励起光と液体63内の物質との相互作用により生じたラマン散乱光を、先端に配された受光部にて受光する。プローブ68は、受光したラマン散乱光をアナライザ69に出力する。本例においては、励起光としてレーザー光を用い、レーザー光の出力を200mW、励起波長を785nm、照射時間を1秒とした。
 アナライザ69は、ラマン散乱光を波数毎に分解し、波数毎のラマン散乱光の強度値を導出することで、スペクトル測定データ71を生成する。ここで、プローブ68は、オートサンプラー60によって第1精製液28の注入が開始された時間T0から、UV検出器62が抗体19および凝集体20の吸光度の測定に要するに十分な時間TNまで、予め設定された間隔にて励起光を出射し、かつラマン散乱光を受光する。アナライザ69は、その都度スペクトル測定データ71を生成する。このため、スペクトル測定データ71は、時間T0におけるスペクトル測定データ71T0、時間T1におけるスペクトル測定データ71T1、・・・、および時間TNにおけるスペクトル測定データ71TNの複数が生成される。
 アナライザ69は、HPLC装置57と同じく、LAN等のコンピュータネットワークを通じて、選定装置41Aと相互通信可能に接続されている。アナライザ69は、複数のスペクトル測定データ71の集合であるスペクトル測定データ群71Gを、選定装置41Aに送信する。
 一例として図5に示すように、スペクトル測定データ71は、各波数に対するラマン散乱光の強度値が登録されたデータである。図5においては、スペクトル測定データ71は、波数700cm-1~1800cm-1までの範囲の散乱光の強度値を、1cm-1刻みで導出したデータである。なお、図5の下部に示すグラフは、このスペクトル測定データ71の強度値を波数毎にプロットして線で繋いだもので、すなわちラマンスペクトルを表す。
 一例として図6に示すように、選定装置41Aのストレージ45Aには、作動プログラム75Aが記憶されている。作動プログラム75Aは、コンピュータを選定装置41Aとして機能させるためのアプリケーションプログラムである。すなわち、作動プログラム75Aは、本開示の技術に係る「情報処理装置の作動プログラム」の一例である。
 作動プログラム75Aが起動されると、選定装置41Aを構成するコンピュータのCPU47Aは、メモリ46等と協働して、取得部80、リードライト制御部(以下、RW(Read Write)制御部と表記する)81、および選定部82として機能する。
 取得部80は、HPLC装置57からのクロマトグラムデータ64、およびラマン分光計67からのスペクトル測定データ群71Gを取得する。取得部80は、クロマトグラムデータ64およびスペクトル測定データ群71GをRW制御部81に出力する。
 RW制御部81は、ストレージ45Aへの各種データの記憶、およびストレージ45Aに記憶された各種データの読み出しを制御する。RW制御部81は、取得部80からのクロマトグラムデータ64およびスペクトル測定データ群71Gをストレージ45Aに記憶する。また、RW制御部81は、クロマトグラムデータ64およびスペクトル測定データ群71Gをストレージ45Aから読み出し、読み出したクロマトグラムデータ64およびスペクトル測定データ群71Gを選定部82に出力する。
 選定部82は、クロマトグラムデータ64およびスペクトル測定データ群71Gに基づいて、凝集体20の特有波数帯を選定する。選定部82は、特有波数帯の選定結果として特有波数帯データ85を生成する。選定部82は、特有波数帯データ85をRW制御部81に出力する。RW制御部81は、特有波数帯データ85をストレージ45Aに記憶する。
 一例として図7に示すように、選定部82は、クロマトグラムデータ64に基づいて、スペクトル測定データ群71Gの複数のスペクトル測定データ71の中から、第1スペクトル測定データ711および第2スペクトル測定データ712を特定する。第1スペクトル測定データ711は、抗体19から発せられるラマンスペクトルを測定したデータである。第2スペクトル測定データ712は、凝集体20から発せられるラマンスペクトルを測定したデータである。
 選定部82は、クロマトグラムデータ64から、抗体19を示す吸光度のピークが発現した時間Tan(抗体19のリテンションタイム)、および凝集体20を示す吸光度のピークが発現した時間Tag(凝集体20のリテンションタイム)を導出する。選定部82は、時間Tanにフローセル65の測定部70を流れた液体63のラマンスペクトルを測定したスペクトル測定データ71Tan+αを、第1スペクトル測定データ711と特定する。また、選定部82は、時間Tagにフローセル65の測定部70を流れた液体63のラマンスペクトルを測定したスペクトル測定データ71Tag+αを、第2スペクトル測定データ712と特定する。ここで、時間Tanにフローセル65の測定部70を流れた液体63は、本開示の技術に係る「第1溶液」の一例である。また、時間Tagにフローセル65の測定部70を流れた液体63は、本開示の技術に係る「第2溶液」の一例である。また、時間Tan+αおよびTag+αの「+α」は、UV検出器62で吸光度を測定してから、フローセル65の測定部70でラマン分光計67によりラマンスペクトルを測定するまでのタイムラグである。
 なお、抗体19を含む液体63および凝集体20を含む液体63を生成する方法としては、HPLC装置57を用いた方法に限らない。例えば遠心式の限外濾過フィルタを用いて、第1精製液28から抗体19を含む液体63および凝集体20を含む液体63を分離してもよい。
 このように、スペクトル測定データ群71Gには、第1スペクトル測定データ711と第2スペクトル測定データ712とが含まれている。このため取得部80は、スペクトル測定データ群71Gを取得することで、第1スペクトル測定データ711と第2スペクトル測定データ712とを取得していることになる。
 第1スペクトル測定データ711の一例を図8に示し、第2スペクトル測定データ712の一例を図9に示す。図8および図9を見比べても分かる通り、第1スペクトル測定データ711および第2スペクトル測定データ712は大体同じであるが、前者は抗体19に基づくもので、後者は凝集体20に基づくものであるため、所々で多少異なったデータとなる。
 一例として図10に示すように、選定部82は、第1スペクトル測定データ711と第2スペクトル測定データ712の各波数の強度値の差分データ90を算出する。差分データ90は、第1スペクトル測定データ711の強度値から第2スペクトル測定データ712の強度値を減算した差分が、波数毎に登録されたデータである。なお、選定部82は、差分データ90の算出に先立ち、強度値の最大値を1、最小値を0として、第1スペクトル測定データ711および第2スペクトル測定データ712を規格化する。
 一例として図11に示すように、選定部82は、差分データ90の差分の絶対値と、予め設定された閾値91とを比較する。そして、差分の絶対値が閾値以上の波数帯を、凝集体20の特有波数帯として選定する。図11においては、閾値として0.05が設定され、特有波数帯として、1220cm-1~1260cm-1、および1650cm-1~1690cm-1が選定された場合を例示している。なお、特有波数帯としては、700cm-1~1800cm-1の範囲であれば特に限定されないが、1220cm-1~1690cm-1の範囲にあることが好ましく、例示のように1220cm-1~1260cm-1、および1650cm-1~1690cm-1の範囲にあることがより好ましい。また、特有波数帯は、例示の1220cm-1~1260cm-1、および1650cm-1~1690cm-1等、2以上の範囲であることが好ましい。フェニルアラニンのバンドが現れる範囲、トリプトファンのバンドが現れる範囲、あるいはチロシンのバンドが現れる範囲等を、特有波数帯として選定してもよい。
 図12は、差分データ90と閾値91とを比較し、凝集体の特有波数帯を選定する図11で示した処理を、第1スペクトル測定データ711および第2スペクトル測定データ712のラマンスペクトル上で示した図である。
 なお、第1スペクトル測定データ711の各波数の強度値と、第2スペクトル測定データ712の各波数の強度値との比を算出し、比が1から閾値以上乖離している波数帯を、凝集体20の特有波数帯として選定してもよい。
 一例として図13に示すように、学習装置41Bのストレージ45Bには、作動プログラム75Bが記憶されている。作動プログラム75Bは、コンピュータを学習装置41Bとして機能させるためのアプリケーションプログラムである。すなわち、作動プログラム75Bは、作動プログラム75Aと同じく、本開示の技術に係る「情報処理装置の作動プログラム」の一例である。ストレージ45Bには、作動プログラム75Bに加えて、データセット群95Gおよび濃度予測モデル96が記憶されている。濃度予測モデル96は、本開示の技術に係る「状態予測モデル」の一例である。
 作動プログラム75Bが起動されると、学習装置41Bを構成するコンピュータのCPU47Bは、メモリ46等と協働して、RW制御部100および学習検証部101として機能する。
 RW制御部100は、選定装置41AのRW制御部81と同様に、ストレージ45Bへの各種データの記憶、およびストレージ45Bに記憶された各種データの読み出しを制御する。RW制御部100は、データセット群95Gおよび濃度予測モデル96をストレージ45Bから読み出し、読み出したデータセット群95Gおよび濃度予測モデル96を学習検証部101に出力する。
 学習検証部101は、データセット群95Gを用いた濃度予測モデル96の学習および検証を行う。学習検証部101は、学習および検証を行って得られた学習済みの濃度予測モデル96LDをRW制御部100に出力する。RW制御部100は、濃度予測モデル96LDをストレージ45Bに記憶する。
 一例として図14に示すように、濃度予測モデル96はニューラルネットワーク105により構築されている。このため、濃度予測モデル96は、本開示の技術に係る「機械学習モデル」の一例でもある。ニューラルネットワーク105は、周知のように入力層106、中間層(隠れ層ともいう)107、および出力層108を有する。これら入力層106、中間層107、および出力層108は、それぞれ複数のノードNDをもつ。入力層106のノードNDと中間層107のノードNDとの間、中間層107内のノードNDの間、および中間層107のノードNDと出力層108のノードNDとの間には、各ノードNDの結合の強さを示す係数が設定される。出力層108のノードNDには、線形関数、ReLu(Rectified Linear Unit)関数といった適当な活性化関数が設定されている。
 入力層106の各ノードNDには、スペクトル測定データ71の各波数の強度値のうち、特有波数帯の強度値が入力データ130(図20参照)として入力される。また、出力層108のノードNDからは、凝集体20の濃度を予測した結果である濃度予測結果115(図18参照)が出力される。
 一例として図15に示すように、データセット群95Gは複数のデータセット95を有する。データセット95は、学習用または検証用強度値110と正解濃度111とで構成される。学習用または検証用強度値110は、データセット95を生成するためのスペクトル測定データ71LVの各波数の強度値から、選定装置41Aにおいて選定された特有波数帯の強度値を抜き出したものである。スペクトル測定データ71LVは、陽イオンクロマトグラフィー装置26から出力された、陽イオンクロマトグラフィー処理後の第2精製液30のラマンスペクトルを、フローセル65およびラマン分光計67を用いて測定したデータである。
 スペクトル測定データ71LVは、陽イオンクロマトグラフィー装置26による陽イオンクロマトグラフィー処理の開始時点から終了時点まで、断続的に複数測定される。また、スペクトル測定データ71LVは、抗体生産細胞15の培養条件、陽イオンクロマトグラフィー装置26のグラジエント幅、線流速、および負荷量等をランダムに変化させて複数測定される。これにより、抗体19および凝集体20の濃度比率が異なる複数の第2精製液30のスペクトル測定データ71LVを得ることができ、ひいては複数の学習用または検証用強度値110を得ることができる。なお、フローセル65を用いて流路中でスペクトル測定データ71LVを測定する図示の方法に代えて、フラクションコレクターを用いて流路出口に流出した第2精製液30を分取し、分取した第2精製液30のスペクトル測定データ71LVを測定する方法を採用してもよい。
 スペクトル測定データ71LVを測定する第2精製液30中の抗体19および凝集体20の濃度は、ともに0.001mg/mL~20mg/mLの範囲である。第2精製液30中の抗体19および凝集体20の濃度は、ともに0.001mg/mL~10000mg/mLの範囲であればよく、0.001mg/mL~100mg/mLの範囲が好ましく、例示の0.001mg/mL~20mg/mLの範囲がより好ましい。
 正解濃度111は、スペクトル測定データ71LVを測定した第2精製液30中の凝集体量112を元に算出された濃度である。凝集体量112は、文字通り凝集体20の量であり、HPLC装置57に備わる質量分析機能によって導出される。正解濃度111は、本開示の技術に係る「正解データ」の一例である。
 学習検証部101は、複数のデータセット95を用いて、濃度予測モデル96に対して交差検証を行う。すなわち、学習検証部101は、M個のデータセット95のうちのm個を学習用データセット95L(図16参照)とし、残りのM-m個を検証用データセット95V(図17参照)とする。そして、一例として図16に示すように、濃度予測モデル96に学習用データセット95Lを適用し、濃度予測モデル96を学習させる。また、一例として図17に示すように、学習用データセット95Lが適用されて学習された後の濃度予測モデル96に検証用データセット95Vを適用し、濃度予測モデル96による凝集体20の濃度の予測精度を検証する。学習検証部101は、学習用データセット95Lおよび検証用データセット95Vの構成を変更しつつ、こうした交差検証を設定回数行う。なお、m≧M-mであり、M-m=1でもよい。
 図16に示すように、学習検証部101は、学習フェーズにおいて、学習用データセット95Lのうちの学習用または検証用強度値110を濃度予測モデル96に入力し、濃度予測モデル96から学習用濃度予測結果115Lを出力させる。学習検証部101は、正解濃度111と学習用濃度予測結果115Lとの比較結果に基づいて、損失関数を用いた濃度予測モデル96の損失演算を行う。学習検証部101は、損失演算の結果に応じて濃度予測モデル96のノードND間の係数の更新設定を行い、更新設定にしたがって濃度予測モデル96を更新する。
 学習検証部101は、学習用または検証用強度値110の濃度予測モデル96への入力、濃度予測モデル96からの学習用濃度予測結果115Lの出力、損失演算、更新設定、および濃度予測モデル96の更新の上記一連の処理を、学習用データセット95Lを変更しつつ繰り返し行う。学習検証部101は、上記一連の処理の繰り返しを、学習用データセット95Lの個数分のm回行う。
 図17に示すように、学習検証部101は、検証フェーズにおいて、検証用データセット95Vのうちの学習用または検証用強度値110を濃度予測モデル96に入力し、濃度予測モデル96から検証用濃度予測結果115Vを出力させる。学習検証部101は、正解濃度111と検証用濃度予測結果115Vとの比較結果に基づいて、濃度予測モデル96による凝集体20の濃度の予測精度を検証する。
 学習検証部101は、学習用または検証用強度値110の濃度予測モデル96への入力、濃度予測モデル96からの検証用濃度予測結果115Vの出力、および予測精度の検証を、検証用データセット95Vを変更しつつ繰り返し行う。学習検証部101は、上記一連の処理の繰り返しを、検証用データセット95Vの個数分のM-m回行う。
 学習検証部101は、上記の交差検証が設定回数行われた濃度予測モデル96を、濃度予測モデル96LDとしてRW制御部100に出力する。RW制御部100は、濃度予測モデル96LDをストレージ45Bに記憶する。
 一例として図18に示すように、運用装置41Cのストレージ45Cには、作動プログラム75Cが記憶されている。作動プログラム75Cは、コンピュータを運用装置41Cとして機能させるためのアプリケーションプログラムである。すなわち、作動プログラム75Cは、作動プログラム75Aおよび75Bと同じく、本開示の技術に係る「情報処理装置の作動プログラム」の一例である。ストレージ45Cには、作動プログラム75Cに加えて、選定装置41Aからの特有波数帯データ85、および学習装置41Bからの濃度予測モデル96LDが記憶されている。
 作動プログラム75Cが起動されると、運用装置41Cを構成するコンピュータのCPU47Cは、メモリ46等と協働して、取得部120、RW制御部121、予測部122、および表示制御部123として機能する。
 取得部120は、ラマン分光計67からの第3スペクトル測定データ713を取得する。取得部120は、第3スペクトル測定データ713をRW制御部121に出力する。
 RW制御部121は、選定装置41AのRW制御部81、および学習装置41BのRW制御部100と同様に、ストレージ45Cへの各種データの記憶、およびストレージ45Cに記憶された各種データの読み出しを制御する。RW制御部121は、取得部120からの第3スペクトル測定データ713をストレージ45Cに記憶する。また、RW制御部121は、特有波数帯データ85、濃度予測モデル96LD、および第3スペクトル測定データ713をストレージ45Cから読み出し、読み出した特有波数帯データ85、濃度予測モデル96LD、および第3スペクトル測定データ713を予測部122に出力する。また、RW制御部121は、第3スペクトル測定データ713を表示制御部123に出力する。
 予測部122は、濃度予測モデル96LDに第3スペクトル測定データ713を適用し、濃度予測モデル96LDから濃度予測結果115を出力させる。予測部122は、濃度予測結果115を表示制御部123に出力する。濃度予測結果115は、本開示の技術に係る「予測結果」の一例である。
 表示制御部123は、ディスプレイ49Cへの各種画面の表示を制御する。例えば表示制御部123は、ラマンスペクトル分析画面135(図21等参照)をディスプレイ49Cに表示する制御を行う。
 一例として図19に示すように、第3スペクトル測定データ713は、凝集体20の濃度が未知の第2精製液30のラマンスペクトルを、フローセル65およびラマン分光計67を用いて測定したデータである。フローセル65は、陽イオンクロマトグラフィー装置26と陰イオンクロマトグラフィー装置27との間に設置されている。このため、第2精製液30は、より詳しくは、製造プロセス2の進行中に陽イオンクロマトグラフィー装置26から出力された、陽イオンクロマトグラフィー処理後の液である。すなわち、第3スペクトル測定データ713は、製造プロセス2の進行中に測定されたデータである。言い換えれば、第3スペクトル測定データ713は、インラインセンシングされたデータである。また、第3スペクトル測定データ713は、陽イオンクロマトグラフィー処理後に測定されたデータである。
 一例として図20に示すように、予測部122は、特有波数帯データ85を参照して、第3スペクトル測定データ713の各波数の強度値から特有波数帯の強度値を抜き出すことで、入力データ130を生成する。予測部122は、入力データ130を濃度予測モデル96LDに入力し、濃度予測モデル96LDから濃度予測結果115を出力させる。図20においては、特有波数帯が図11で例示した1220cm-1~1260cm-1、および1650cm-1~1690cm-1の範囲で、濃度予測結果115として2.485mg/mLを出力した場合を例示している。
 表示制御部123は、運用装置41Cのユーザの指示に応じて、一例として図21に示すラマンスペクトル分析画面135をディスプレイ49Cに表示する。ラマンスペクトル分析画面135には第3スペクトル測定データ713が表示される。
 ラマンスペクトル分析画面135の下部には、凝集体濃度予測ボタン136が設けられている。凝集体濃度予測ボタン136が押された場合、運用装置41CのCPU47Cにて凝集体濃度予測指示が受け付けられる。CPU47Cは、凝集体濃度予測指示を受けて、予測部122に図20で示した処理を行わせ、濃度予測モデル96LDから濃度予測結果115を出力させる。
 予測部122からの濃度予測結果115が入力された場合、表示制御部123は、ラマンスペクトル分析画面135の表示を、一例として図22に示すように遷移させる。図22において、ラマンスペクトル分析画面135には、第3スペクトル測定データ713とともに濃度予測結果115が表示される。
 次に、上記構成による作用について、一例として図23~図25に示すフローチャートを参照して説明する。
 選定装置41AのCPU47Aは、図6で示したように、作動プログラム75Aの起動により、取得部80、RW制御部81、および選定部82として機能される。
 一例として図23に示すように、選定装置41Aにおいては、図4で示した方法で測定された、HPLC装置57からのクロマトグラムデータ64、およびラマン分光計67からのスペクトル測定データ群71Gが取得部80により取得される(ステップST100)。クロマトグラムデータ64およびスペクトル測定データ群71Gは、RW制御部81によりストレージ45Aに記憶される(ステップST110)。
 クロマトグラムデータ64およびスペクトル測定データ群71Gは、RW制御部81によりストレージ45Aから読み出され(ステップST120)、選定部82に出力される。選定部82では、まず、図7で示したように、クロマトグラムデータ64に基づいて、スペクトル測定データ群71Gから第1スペクトル測定データ711および第2スペクトル測定データ712が特定される(ステップST130)。次いで、図10で示したように、第1スペクトル測定データ711と第2スペクトル測定データ712の差分データ90が算出される(ステップST140)。最後に、図11で示したように、差分データ90と閾値91とが比較され、凝集体20の特有波数帯が選定される(ステップST150)。特有波数帯の選定結果である特有波数帯データ85は、選定部82からRW制御部81に出力され、RW制御部81によりストレージ45Aに記憶される(ステップST160)。
 学習装置41BのCPU47Bは、図13で示したように、作動プログラム75Bの起動により、RW制御部100および学習検証部101として機能される。
 学習装置41Bのストレージ45Bには、図15で示した方法で生成されたデータセット95の集合であるデータセット群95Gと、濃度予測モデル96とが記憶されている。データセット群95Gと濃度予測モデル96は、RW制御部100によりストレージ45Bから読み出され、学習検証部101に出力される。
 一例として図24に示すように、学習検証部101では、データセット群95Gを構成する複数のデータセット95が、m個の学習用データセット95LとM-m個の検証用データセット95Vに分けられる(ステップST200)。そして、まずは学習用データセット95Lを用いた濃度予測モデル96の学習が行われる。具体的には図16で示したように、学習用データセット95Lの学習用または検証用強度値110が濃度予測モデル96に入力され、これにより濃度予測モデル96から学習用濃度予測結果115Lが出力される(ステップST210)。次いで、学習用データセット95Lの正解濃度111と学習用濃度予測結果115Lとの比較結果に基づいて、濃度予測モデル96が更新される(ステップST220)。これらステップST210およびステップST220の処理は、用意された学習用データセット95Lが全て用いられないうちは(ステップST230でNO)、学習用データセット95Lが変更されつつ(ステップST240)繰り返し行われる。
 用意された学習用データセット95Lが全て用いられた場合(ステップST230でYES)、検証用データセット95Vを用いた濃度予測モデル96の予測精度の検証に移行する。具体的には図17で示したように、検証用データセット95Vの学習用または検証用強度値110が濃度予測モデル96に入力され、これにより濃度予測モデル96から検証用濃度予測結果115Vが出力される。次いで、検証用データセット95Vの正解濃度111と検証用濃度予測結果115Vとの比較結果に基づいて、濃度予測モデル96の予測精度が検証される(ステップST250)。図示は省略したが、この検証においても学習の場合と同様に、用意された検証用データセット95Vが全て用いられるまで、検証用データセット95Vが変更されつつ上記一連の処理が繰り返し行われる。
 ステップST200~ステップST250の処理は、設定回数の交差検証が終了するまで(ステップST260でNO)繰り返し行われる。設定回数の交差検証が終了した場合(ステップST260でYES)、濃度予測モデル96は、学習済みの濃度予測モデル96LDとして学習検証部101からRW制御部100に出力される。濃度予測モデル96LDは、RW制御部100によりストレージ45Bに記憶される(ステップST270)。
 運用装置41CのCPU47Cは、図18で示したように、作動プログラム75Cの起動により、取得部120、RW制御部121、予測部122、および表示制御部123として機能される。
 運用装置41Cのストレージ45Cには、選定装置41Aからの特有波数帯データ85と、学習装置41Bからの濃度予測モデル96LDとが記憶されている。特有波数帯データ85と濃度予測モデル96LDは、RW制御部121によりストレージ45Cから読み出され、予測部122に出力される。
 一例として図25に示すように、運用装置41Cにおいては、図19で示した方法で測定された、ラマン分光計67からの第3スペクトル測定データ713が、取得部120により取得される(ステップST300)。第3スペクトル測定データ713は、RW制御部121によりストレージ45Cに記憶される(ステップST310)。
 第3スペクトル測定データ713は、RW制御部121によりストレージ45Cから読み出され(ステップST320)、予測部122および表示制御部123に出力される。そして、図21で示したように、表示制御部123によりラマンスペクトル分析画面135がディスプレイ49Cに表示される(ステップST330)。
 運用装置41Cのユーザは、ラマンスペクトル分析画面135の第3スペクトル測定データ713を測定した第2精製液30中の凝集体20の濃度を濃度予測モデル96LDに予測させるために、凝集体濃度予測ボタン136を押す。これにより凝集体濃度予測指示がCPU47Cにて受け付けられる(ステップST340)。
 凝集体濃度予測指示を受けて、予測部122では、図20で示したように、特有波数帯データ85を参照して、第3スペクトル測定データ713から入力データ130が生成される(ステップST350)。そして、入力データ130が濃度予測モデル96LDに入力され、これにより濃度予測モデル96LDから濃度予測結果115が出力される(ステップST360)。濃度予測結果115は、予測部122から表示制御部123に出力され、図22で示したように、表示制御部123によりラマンスペクトル分析画面135に表示される(ステップST370)。
 ユーザは、ラマンスペクトル分析画面135の濃度予測結果115を参考に、様々な決断を下す。例えば、小規模設備による抗体生産細胞15の培養条件、および/または、培養上清液17の精製条件の条件出し実験を行っている場合を考える。この場合、濃度予測結果115が目標値よりも悪かったら、ユーザは、現行の実験を中止して新たな条件による実験に移行するといった決断を下す。また、条件出し実験が終了し、大規模設備による量産を行っている場合を考える。この場合、濃度予測結果115が目標値よりも悪かったら、ユーザは、量産を中断してクロマトグラフィー装置25~27のメンテナンスを行うといった決断を下す。
 以上説明したように、選定装置41AのCPU47Aは取得部80と選定部82を備える。取得部80と選定部82は、抗体19を有効成分とするバイオ医薬品の製造プロセス2において産生される第2精製液30中の凝集体20の濃度を予測する濃度予測モデル96LDを生成するための準備処理として以下を行う。すなわち、取得部80は、抗体19から発せられるラマンスペクトルを測定した第1スペクトル測定データ711と、凝集体20から発せられるラマンスペクトルを測定した第2スペクトル測定データ712とを取得する。選定部82は、第1スペクトル測定データ711の強度値と、第2スペクトル測定データ712の強度値との比較により、凝集体20に特有な特有波数帯を選定する。このため、バイオ医薬品の製造プロセス2において産生される第2精製液30中の凝集体20の濃度の予測に寄与すると思われる、合理的なスペクトル測定データ71の波数帯を選定することが可能となる。
 図15~図17で示したように、濃度予測モデル96LDは、特有波数帯の強度値である学習用または検証用強度値110と、凝集体20の正解濃度111とで構成されるデータセット95を用いて生成される。このため、濃度予測モデル96LDを、特有波数帯の強度値に応じて、凝集体20の濃度予測結果115を出力するモデルとすることができる。濃度予測モデル96LDによれば、バイオ医薬品の製造プロセス2において産生される第2精製液30中の凝集体20の濃度を、従来と比べて高精度に予測することが可能となる。
 濃度は、対象成分(凝集体20)の物理化学的な特徴を知るうえで最もポピュラーな指標である。このため、対象成分の状態として濃度を予測すれば、対象成分の物理化学的な特徴を、ユーザに容易に理解させることができる。
 また、図15で示したように、データセット95の元となった第2精製液30中の抗体19および凝集体20の濃度は、ともに0.001mg/mL~20mg/mLの範囲である。このため、濃度予測モデル96LDを、比較的低い濃度の予測を精度よく行えるモデルとすることができる。
 図4で示したように、特有波数帯の選定に供される第1精製液28には、凝集体20の生成を促進する前処理55が施される。このため、第2スペクトル測定データ712を確実に取得することができる。また、凝集体20を示す吸光度のピークがクロマトグラムデータ64に明確に発現するため、第2スペクトル測定データ712を容易に特定することが可能となる。
 図20で示したように、濃度予測モデル96LDは、凝集体20の濃度が未知の第2精製液30から発せられるラマンスペクトルを測定した第3スペクトル測定データ713の、特有波数帯の強度値に応じて、凝集体20の濃度予測結果115を出力する。このためユーザは、凝集体20の濃度予測結果115を簡単に知ることができる。
 図19で示したように、第3スペクトル測定データ713は、製造プロセス2の進行中に測定されたデータである。このため、第2精製液30を分取して、精製ラインとは別の場所に用意されたラマン分光計67に掛けるといった手間を省くことができる。また、製造プロセス2の進行を妨げることなく、第3スペクトル測定データ713を取得することができる。
 図19で示したように、第3スペクトル測定データ713は、陽イオンクロマトグラフィー処理後に測定されたデータである。陽イオンクロマトグラフィー処理後の第2精製液30は、本来ならば凝集体20が大方取り除かれている。このため、陽イオンクロマトグラフィー処理後の第2精製液30中の凝集体20の濃度予測結果115が高ければ、条件出し実験の設定条件が不適である、あるいは、陽イオンクロマトグラフィー装置26が不調であると結論付けることができ、ユーザは決断を下しやすい。
 図7で示したように、第1スペクトル測定データ711および第2スペクトル測定データ712は、HPLC装置57を用いて第2精製液30から分離された、抗体19を含む液体63および凝集体20を含む液体63から測定されたデータである。このため、第1スペクトル測定データ711は抗体19の特性を顕著に表したデータとなり、第2スペクトル測定データ712は凝集体20の特性を顕著に表したデータとなる。したがって、凝集体20の特有波数帯を精度よく選定することができる。
 対象成分は、抗体19の凝集体20である。凝集体20は、バイオ医薬品にとっては副作用を引き起こすといった悪影響があり、バイオ医薬品の薬効低下の原因となる。このため、対象成分を凝集体20とし、その状態を予測することで、バイオ医薬品の薬効低下を抑制することができる。
 図14で示したように、濃度予測モデル96LDは、ニューラルネットワーク105といった機械学習モデルである。機械学習モデルは、未知のパラメータの予測に一般的に用いられており、学習により予測精度をある程度のレベルまで高めることができる。このため、PLSモデルといった線形モデル等と比較して、凝集体20の濃度をより高精度に予測することができる。
 目的タンパク質として抗体19を含むバイオ医薬品は、抗体医薬品と呼ばれ、癌、糖尿病、関節リウマチといった慢性疾患の治療をはじめとして、血友病、クローン病といった希少疾患の治療にも幅広く用いられている。このため、目的タンパク質を抗体19とすれば、色々な疾患の治療に幅広く用いられている抗体医薬品の開発を促進することができる。
 ラマンスペクトルは、タンパク質のアミノ酸の官能基由来の情報を反映しやすい。このため、スペクトルをラマンスペクトルとすることで、タンパク質である凝集体20の濃度の予測精度をさらに高めることができる。
 図11および図12で示したように、特有波数帯は、1220cm-1~1260cm-1の範囲、および1650cm-1~1690cm-1の範囲にある。1220cm-1~1260cm-1の範囲は、タンパク質のアミド結合に帰属する通称アミドIIIのバンドが現れる範囲である。また、波数1650cm-1~1690cm-1の範囲は、通称アミドIのバンドが現れる範囲である。このため、妥当性の高い特有波数帯を選定することができる。なお、特有波数帯は、1220cm-1~1260cm-1の範囲、または1650cm-1~1690cm-1の範囲の少なくともいずれかにあればよい。
 [第2実施形態]
 上記第1実施形態では、第3スペクトル測定データ713を、陽イオンクロマトグラフィー処理後に測定されたデータとしたが、これに限らない。一例として図26に示すように、第3スペクトル測定データ713は、ウイルス不活性化処理29が施された後の第1精製液28のラマンスペクトルを測定したデータであってもよい。この場合、第1精製液28が、本開示の技術に係る「懸濁液」の一例となる。
 第1精製液28は、第2精製液30と比べて培養上清液17の組成に近い。このため、第3スペクトル測定データ713を、ウイルス不活性化処理29が施された後の第1精製液28のラマンスペクトルを測定したデータとすれば、濃度予測結果115が目標値よりも悪い場合に、その原因が抗体生産細胞15の培養条件にあると結論付けることができ、ユーザは決断を下しやすい。
 第3スペクトル測定データ713は、陰イオンクロマトグラフィー装置27から出力された、陰イオンクロマトグラフィー処理後の第3精製液31のラマンスペクトルを測定したデータであってもよい。また、第3スペクトル測定データ713は、製造プロセスの進行中に測定されたデータでなくてもよい。第1精製液28または第2精製液30を分取して、精製ラインとは別の場所に用意されたラマン分光計67に掛けることで、第3スペクトル測定データ713を測定してもよい。
 以下、本開示の技術の実施例および比較例を記載する。
 実施例では、上記第1実施形態で説明したように、まず、CHO細胞といった細胞13に抗体遺伝子14を組み込んだ、抗体19を生産する抗体生産細胞15の培養上清液17を生成した。そして、当該培養上清液17をイムノアフィニティクロマトグラフィー装置25に導入して精製し、第1精製液28を取得した。次いで、表56で示した条件にて第1精製液28に対して前処理55を施し、凝集体20の生成を促進させた。その後、オートサンプラー60を通じてHPLC装置57に第1精製液28を注入し、UV検出器62によりクロマトグラムデータ64を測定するとともに、フローセル65およびラマン分光計67を用いて第1精製液28のラマンスペクトルを測定し、スペクトル測定データ群71Gを取得した。
 クロマトグラムデータ64から、抗体19のリテンションタイムTan、および凝集体20のリテンションタイムTagを導出し、以ってスペクトル測定データ群71Gから第1スペクトル測定データ711および第2スペクトル測定データ712を特定した。そして、第1スペクトル測定データ711および第2スペクトル測定データ712に基づいて、凝集体20の特有波数帯を選定した。
 次に、上記同様に抗体19を生産する抗体生産細胞15の培養上清液17を生成し、生成した培養上清液17をイムノアフィニティクロマトグラフィー装置25および陽イオンクロマトグラフィー装置26に導入して精製し、第2精製液30を取得した。この際、フローセル65およびラマン分光計67を用いて第2精製液30のラマンスペクトルを測定してスペクトル測定データ71LVを取得し、かつ、HPLC装置57により凝集体量112を測定することで、計9個のデータセット95を取得した。
 得られた計9個のデータセット95を用いて、ニューラルネットワーク105により構成される濃度予測モデル96の交差検証を行った。具体的には、9個のデータセット95のうちの8個を学習用データセット95L、1個を検証用データセット95Vとし、学習用データセット95Lおよび検証用データセット95Vの構成を変更しつつ9回の交差検証を行った。
 次に、製造プロセス2の進行中に、フローセル65およびラマン分光計67を用いて陽イオンクロマトグラフィー処理後の第2精製液30のラマンスペクトルを測定し、第3スペクトル測定データ713を取得した。そして、上記交差検証により生成された濃度予測モデル96LDに、第3スペクトル測定データ713のうちの凝集体20の特有波数帯の強度値のみで構成される入力データ130を入力し、濃度予測結果115を出力させた。
 比較例1は、濃度予測モデル96LDの入力データ130を、凝集体20の特有波数帯の強度値に限らず、全ての波数帯700cm-1~1800cm-1の強度値とした例である。比較例2は、濃度予測モデル96LDの入力データ130を、スパースモデリングで選定された波数帯の強度値とした例である。
 比較例3は、特開2016-128822号公報と同じく、濃度予測モデル96LDを、ニューラルネットワーク105ではなくPLSモデルとし、かつ、濃度予測モデル96LDの入力データ130を、これも特開2016-128822号公報に倣って800cm-1~1700cm-1の波数帯の強度値とした例である。比較例4は、濃度予測モデル96LDの入力データ130を、凝集体20の特有波数帯を除く波数帯の強度値とした例である。
 一例として図27の表140に示すように、実施例における濃度予測モデル96LDのRMSE(平均二乗偏差 Root-Mean-Square Error)は0.11、R(決定係数 Coefficient of Determination)は0.87であった。対して比較例1の場合のRMSEは0.13、Rは0.81であり、実施例と比べて濃度予測モデル96LDの予測精度が若干悪化した。この結果から、凝集体20の特有波数帯を選定し、濃度予測モデル96LDの入力データ130を、凝集体20の特有波数帯の強度値とすることで、濃度予測モデル96LDの予測精度が高まることが確かめられた。
 ここで、比較例1は、実施例と遜色ないRMSEおよびRを示すため、一見して濃度予測モデル96LDの予測精度がよいと解される。ただし、凝集体20とは関係ない波数帯を、凝集体20の濃度の予測に寄与していると捉えているおそれ、すなわち擬似相関が生じているおそれを否定できない。したがって、比較例1の濃度予測モデル96LDは、凝集体20の濃度を予測するモデルとして合理性があるとは一概に言えない。
 また、比較例2の場合のRMSEは0.13、Rは0.81であり、実施例と比べて濃度予測モデル96LDの予測精度が若干悪化した。この結果から、濃度予測モデル96LDの入力データ130を、スパースモデリングで選定された波数帯の強度値とするよりも、凝集体20の特有波数帯の強度値とすることで、濃度予測モデル96LDの予測精度が高まることが確かめられた。
 比較例3の場合のRMSEは0.25、Rは0.55であり、実施例と比べて濃度予測モデル96LDの予測精度が大幅に悪化した。この結果から、濃度予測モデル96LDをPLSモデルではなくニューラルネットワーク105で構成し、かつ、濃度予測モデル96LDの入力データ130を、凝集体20の特有波数帯の強度値とすることで、特開2016-128822号公報に記載の技術よりも濃度予測モデル96LDの予測精度が高まることが確かめられた。
 また、比較例4の場合のRMSEは0.13、Rは0.82であり、実施例と比べて濃度予測モデル96LDの予測精度が若干悪化した。この結果から、濃度予測モデル96LDの入力データ130を、凝集体20の特有波数帯の強度値とすることで、濃度予測モデル96LDの予測精度が高まることが確かめられた。また、凝集体20の特有波数帯の強度値に基づいて生成された濃度予測モデル96LDの合理性も示された。
 なお、目的タンパク質は抗体19に限らない。サイトカイン、ホルモン等でもよい。また、対象成分は凝集体20に限らない。細胞由来タンパク質・細胞由来DNA等を対象成分としてもよい。
 スペクトルはラマンスペクトルに限らない。赤外吸収スペクトル、近赤外吸収スペクトル、核磁気共鳴スペクトル、紫外可視分光(UV-Vis:Ultraviolet Visible Absorption Spectroscopy)スペクトル、あるいは蛍光スペクトルでもよい。紫外可視分光スペクトルおよび蛍光スペクトルの場合は、特有波数帯に代えて特有波長帯を選定する。
 運用装置41Cにダウンロードされた後も、データセット95を用いて濃度予測モデル96LDを学習してもよい。
 濃度予測モデル96LDとしてニューラルネットワーク105を例示したが、これに限らない。決定木、ランダムフォレスト、ナイーブベイズ、および勾配ブースティング決定木等でもよい。
 濃度予測モデル96LDは機械学習モデルに限らない。多変量解析、統計解析により生成されるモデルでもよい。多変量解析、統計解析の例としては、特開2016-128822号公報に記載のPLSをはじめとして、重回帰、主成分回帰、ロジスティック回帰、Lasso回帰、リッジ回帰、サポートベクター回帰、およびガウス過程回帰等が挙げられる。こうした多変量解析、統計解析により生成されるモデルにおいては、少なくとも2つのデータセット95に基づいて回帰式の係数を決定することが、本開示の技術に係る「状態予測モデル」を「データセットを用いて生成」することに相当する。
 なお、対象成分の状態は濃度に限らない。例えば対象成分の密度であってもよい。あるいは、濃度と密度等、2種以上の状態を予測してもよい。
 上記各実施形態では、選定装置41A、学習装置41B、および運用装置41Cの機能を3台のコンピュータでそれぞれ担う例を示したが、これに限らない。選定装置41A、学習装置41B、および運用装置41Cの機能を1台のコンピュータで担ってもよい。また、1台のコンピュータで選定装置41Aの機能を担い、1台のコンピュータで学習装置41Bおよび運用装置41Cの機能を担ってもよい。4台以上のコンピュータで選定装置41A、学習装置41B、および運用装置41Cの機能を分担してもよい。このように、本開示の情報処理装置は、1台のコンピュータで担ってもよいし、複数台のコンピュータで担ってもよい。
 上記各実施形態において、例えば、取得部80および120、RW制御部81、100、および121、選定部82、学習検証部101、予測部122、および表示制御部123といった各種の処理を実行する処理部(Processing Unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(Processor)を用いることができる。各種のプロセッサには、上述したように、ソフトウェア(作動プログラム75A~75C)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU47A~47Cに加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
 1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、および/または、CPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
 複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントおよびサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
 さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(circuitry)を用いることができる。
 以上の記載から、下記の付記項に記載の技術を把握することができる。
 [付記項1]
 プロセッサを備え、
 前記プロセッサは、
 目的タンパク質を有効成分とするバイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態を予測する状態予測モデルを生成するための準備処理として、
 前記目的タンパク質から発せられる電磁波のスペクトルを測定した第1スペクトル測定データと、前記対象成分から発せられる電磁波のスペクトルを測定した第2スペクトル測定データとを取得し、
 前記第1スペクトル測定データの強度値と、前記第2スペクトル測定データの強度値との比較により、前記対象成分に特有な特有波数帯または特有波長帯を選定する、
情報処理装置。
 [付記項2]
 前記状態予測モデルは、前記特有波数帯または前記特有波長帯の強度値と前記対象成分の状態の正解データとで構成されるデータセットを用いて生成される付記項1に記載の情報処理装置。
 [付記項3]
 前記対象成分の状態は、前記懸濁液中の前記対象成分の濃度であり、
 前記データセットの元となった懸濁液中の前記目的タンパク質および前記対象成分の濃度は、ともに0.001mg/mL~20mg/mLの範囲である付記項2に記載の情報処理装置。
 [付記項4]
 前記特有波数帯または前記特有波長帯の選定に供される懸濁液には、前記対象成分の生成を促進する前処理が施される付記項1から付記項3のいずれか1項に記載の情報処理装置。
 [付記項5]
 前記状態予測モデルは、前記対象成分の状態が未知の懸濁液から発せられる電磁波のスペクトルを測定した第3スペクトル測定データの、前記特有波数帯または前記特有波長帯の強度値に応じて、前記対象成分の状態の予測結果を出力する付記項1から付記項4のいずれか1項に記載の情報処理装置。
 [付記項6]
 前記第3スペクトル測定データは、前記製造プロセスの進行中に測定されたデータである付記項5に記載の情報処理装置。
 [付記項7]
 前記第3スペクトル測定データは、ウイルス不活性化処理後、または陽イオンクロマトグラフィー処理後に測定されたデータである付記項5または付記項6に記載の情報処理装置。
 [付記項8]
 前記第1スペクトル測定データおよび前記第2スペクトル測定データは、高速液体クロマトグラフィー装置を用いて前記懸濁液から分離された、前記目的タンパク質を含む第1溶液および前記対象成分を含む第2溶液から測定されたデータである付記項1から付記項7のいずれか1項に記載の情報処理装置。
 [付記項9]
 前記対象成分は、前記目的タンパク質の凝集体である付記項1から付記項8のいずれか1項に記載の情報処理装置。
 [付記項10]
 前記状態予測モデルは機械学習モデルである付記項1から付記項9のいずれか1項に記載の情報処理装置。
 [付記項11]
 前記目的タンパク質は抗体である付記項1から付記項10のいずれか1項に記載の情報処理装置。
 [付記項12]
 前記スペクトルはラマンスペクトルである付記項1から付記項11のいずれか1項に記載の情報処理装置。
 [付記項13]
 前記特有波数帯は、1220cm-1~1260cm-1の範囲、または1650cm-1~1690cm-1の範囲の少なくともいずれかにある付記項12に記載の情報処理装置。
 本開示の技術は、上述の種々の実施形態および/または種々の変形例を適宜組み合わせることも可能である。また、上記各実施形態に限らず、要旨を逸脱しない限り種々の構成を採用し得ることはもちろんである。さらに、本開示の技術は、プログラムに加えて、プログラムを非一時的に記憶する記憶媒体にもおよぶ。
 以上に示した記載内容および図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、および効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、および効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容および図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことはいうまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容および図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
 本明細書において、「Aおよび/またはB」は、「AおよびBのうちの少なくとも1つ」と同義である。つまり、「Aおよび/またはB」は、Aだけであってもよいし、Bだけであってもよいし、AおよびBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「および/または」で結び付けて表現する場合も、「Aおよび/またはB」と同様の考え方が適用される。
 本明細書に記載された全ての文献、特許出願および技術規格は、個々の文献、特許出願および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims (16)

  1.  プロセッサを備え、
     前記プロセッサは、
     目的タンパク質を有効成分とするバイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態を予測する状態予測モデルを生成するための準備処理として、
     前記目的タンパク質から発せられる電磁波のスペクトルを測定した第1スペクトル測定データと、前記対象成分から発せられる電磁波のスペクトルを測定した第2スペクトル測定データとを取得し、
     前記第1スペクトル測定データの強度値と、前記第2スペクトル測定データの強度値との比較により、前記対象成分に特有な特有波数帯または特有波長帯を選定する、
    情報処理装置。
  2.  前記状態予測モデルは、前記特有波数帯または前記特有波長帯の強度値と前記対象成分の状態の正解データとで構成されるデータセットを用いて生成される請求項1に記載の情報処理装置。
  3.  前記対象成分の状態は、前記懸濁液中の前記対象成分の濃度であり、
     前記データセットの元となった懸濁液中の前記目的タンパク質および前記対象成分の濃度は、ともに0.001mg/mL~20mg/mLの範囲である請求項2に記載の情報処理装置。
  4.  前記特有波数帯または前記特有波長帯の選定に供される懸濁液には、前記対象成分の生成を促進する前処理が施される請求項1に記載の情報処理装置。
  5.  前記状態予測モデルは、前記対象成分の状態が未知の懸濁液から発せられる電磁波のスペクトルを測定した第3スペクトル測定データの、前記特有波数帯または前記特有波長帯の強度値に応じて、前記対象成分の状態の予測結果を出力する請求項1に記載の情報処理装置。
  6.  前記第3スペクトル測定データは、前記製造プロセスの進行中に測定されたデータである請求項5に記載の情報処理装置。
  7.  前記第3スペクトル測定データは、ウイルス不活性化処理後、または陽イオンクロマトグラフィー処理後に測定されたデータである請求項5に記載の情報処理装置。
  8.  前記第1スペクトル測定データおよび前記第2スペクトル測定データは、高速液体クロマトグラフィー装置を用いて前記懸濁液から分離された、前記目的タンパク質を含む第1溶液および前記対象成分を含む第2溶液から測定されたデータである請求項1に記載の情報処理装置。
  9.  前記対象成分は、前記目的タンパク質の凝集体である請求項1に記載の情報処理装置。
  10.  前記状態予測モデルは機械学習モデルである請求項1に記載の情報処理装置。
  11.  前記目的タンパク質は抗体である請求項1に記載の情報処理装置。
  12.  前記スペクトルはラマンスペクトルである請求項1に記載の情報処理装置。
  13.  前記特有波数帯は、1220cm-1~1260cm-1の範囲、または1650cm-1~1690cm-1の範囲の少なくともいずれかにある請求項12に記載の情報処理装置。
  14.  目的タンパク質を有効成分とするバイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態を予測する状態予測モデルを生成するための準備処理として、
     前記目的タンパク質から発せられる電磁波のスペクトルを測定した第1スペクトル測定データと、前記対象成分から発せられる電磁波のスペクトルを測定した第2スペクトル測定データとを取得すること、並びに、
     前記第1スペクトル測定データの強度値と、前記第2スペクトル測定データの強度値との比較により、前記対象成分に特有な特有波数帯または特有波長帯を選定すること、
    を含む情報処理装置の作動方法。
  15.  目的タンパク質を有効成分とするバイオ医薬品の製造プロセスにおいて産生される懸濁液中の対象成分の状態を予測する状態予測モデルを生成するための準備処理として、
     前記目的タンパク質から発せられる電磁波のスペクトルを測定した第1スペクトル測定データと、前記対象成分から発せられる電磁波のスペクトルを測定した第2スペクトル測定データとを取得すること、並びに、
     前記第1スペクトル測定データの強度値と、前記第2スペクトル測定データの強度値との比較により、前記対象成分に特有な特有波数帯または特有波長帯を選定すること、
    を含む処理をコンピュータに実行させるための情報処理装置の作動プログラム。
  16.  目的タンパク質を有効成分とするバイオ医薬品の製造プロセスにおいて産生される懸濁液から発せられる電磁波のスペクトルを測定したスペクトル測定データの各波数または各波長の強度値のうち、前記懸濁液中の対象成分に特有な波数帯または波長帯の強度値に応じて、前記対象成分の状態の予測結果を出力する機能をコンピュータに実行させるための状態予測モデル。
PCT/JP2023/032535 2022-09-27 2023-09-06 情報処理装置、情報処理装置の作動方法、情報処理装置の作動プログラム、並びに状態予測モデル WO2024070543A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022154075 2022-09-27
JP2022-154075 2022-09-27

Publications (1)

Publication Number Publication Date
WO2024070543A1 true WO2024070543A1 (ja) 2024-04-04

Family

ID=90477404

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/032535 WO2024070543A1 (ja) 2022-09-27 2023-09-06 情報処理装置、情報処理装置の作動方法、情報処理装置の作動プログラム、並びに状態予測モデル

Country Status (1)

Country Link
WO (1) WO2024070543A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016128822A (ja) * 2010-09-17 2016-07-14 アッヴィ・インコーポレイテッド バイオプロセス操作用のラマン分光法
JP2019522802A (ja) * 2016-04-04 2019-08-15 ベーリンガー インゲルハイム エルツェーファウ ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディトゲゼルシャフト 製剤精製のリアルタイムモニタリング
JP2021535739A (ja) * 2018-08-27 2021-12-23 リジェネロン・ファーマシューティカルズ・インコーポレイテッド 下流精製でのラマン分光法の使用
WO2022209422A1 (ja) * 2021-03-30 2022-10-06 富士フイルム株式会社 精製状態の推定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016128822A (ja) * 2010-09-17 2016-07-14 アッヴィ・インコーポレイテッド バイオプロセス操作用のラマン分光法
JP2019522802A (ja) * 2016-04-04 2019-08-15 ベーリンガー インゲルハイム エルツェーファウ ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディトゲゼルシャフト 製剤精製のリアルタイムモニタリング
JP2021535739A (ja) * 2018-08-27 2021-12-23 リジェネロン・ファーマシューティカルズ・インコーポレイテッド 下流精製でのラマン分光法の使用
WO2022209422A1 (ja) * 2021-03-30 2022-10-06 富士フイルム株式会社 精製状態の推定方法

Similar Documents

Publication Publication Date Title
Buckley et al. Applications of Raman spectroscopy in biopharmaceutical manufacturing: a short review
Chen et al. Exploration research on the fusion of multimodal spectrum technology to improve performance of rapid diagnosis scheme for thyroid dysfunction
Poon et al. Quantitative reagent-free detection of fibrinogen levels in human blood plasma using Raman spectroscopy
Leo Meerts et al. Application of genetic algorithms in automated assignments of high-resolution spectra
McCartt et al. Quantifying carbon-14 for biology using cavity ring-down spectroscopy
Evard et al. The structure and bond energy of ArCl2
US20210248417A1 (en) Information processing device, information processing device control method, program, calculation device, and calculation method
Beć et al. Quantum Mechanical Simulation of Near‐Infrared Spectra: Applications in Physical and Analytical Chemistry
Ohadi et al. Intrinsic fluorescence‐based at situ soft sensor for monitoring monoclonal antibody aggregation
Tan et al. Knowledge-based genetic algorithm for resolving the near-infrared spectrum and understanding the water structures in aqueous solution
Ivanova et al. Nonideality and the nucleation of sickle hemoglobin
Fernando et al. Visible/infrared dissociation of NO3: Roaming in the dark or roaming on the ground?
Tang et al. Detection of single-base mutation of DNA oligonucleotides with different lengths by terahertz attenuated total reflection microfluidic cell
Jiang et al. Moving-window-improved Monte Carlo uninformative variable elimination combining successive projections algorithm for near-infrared spectroscopy (NIRS)
WO2024070543A1 (ja) 情報処理装置、情報処理装置の作動方法、情報処理装置の作動プログラム、並びに状態予測モデル
Sagar et al. Structure and thermodynamics of transient protein-protein complexes by chemometric decomposition of SAXS datasets
Li et al. A mid-infrared exhaled carbon dioxide isotope detection system based on 4.35 μm quantum cascade laser
Hermann et al. Quantum cascade laser-based vibrational circular dichroism augmented by a balanced detection scheme
CN103760130A (zh) 近红外光谱测定复方麝香注射液中吐温-80含量的方法
Ehsani et al. Ensemble classification and regression techniques combined with portable near infrared spectroscopy for facile and rapid detection of water adulteration in bovine raw milk
US20240018185A1 (en) Method for estimating purified state
Wang et al. An variable selection method of the significance multivariate correlation competitive population analysis for near-infrared spectroscopy in chemical modeling
Artemyev et al. Measurement of human serum albumin concentration using Raman spectroscopy setup
McKellar et al. High-resolution synchrotron infrared spectroscopy of thiophosgene: The ν2 and ν4 fundamental bands near 500 cm− 1
Xing et al. A new method for predicting the acute toxicity of carbamate pesticides based on the perspective of binding information with carrier protein