WO2024171375A1 - 情報処理プログラム,情報処理方法および情報処理装置 - Google Patents

情報処理プログラム,情報処理方法および情報処理装置 Download PDF

Info

Publication number
WO2024171375A1
WO2024171375A1 PCT/JP2023/005471 JP2023005471W WO2024171375A1 WO 2024171375 A1 WO2024171375 A1 WO 2024171375A1 JP 2023005471 W JP2023005471 W JP 2023005471W WO 2024171375 A1 WO2024171375 A1 WO 2024171375A1
Authority
WO
WIPO (PCT)
Prior art keywords
amino acid
feature
information
dimensional structure
feature amount
Prior art date
Application number
PCT/JP2023/005471
Other languages
English (en)
French (fr)
Inventor
壮太郎 栗林
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2023/005471 priority Critical patent/WO2024171375A1/ja
Publication of WO2024171375A1 publication Critical patent/WO2024171375A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the present invention relates to an information processing program, an information processing method, and an information processing device.
  • LSTM Long Short-Term Memory
  • the present invention aims to improve the accuracy of predicting viral mutations.
  • this information processing program causes a computer to execute a process of obtaining a third feature based on statistical information for the prediction of each amino acid contained in the protein corresponding to the input data by making a prediction using a machine learning model with a first feature related to the three-dimensional structure of the virus protein and a second feature related to the property resulting from the three-dimensional structure as input data, and training a regression model that predicts the amino acid sequence of the virus after mutation using the second feature and the third feature as input features.
  • the accuracy of predicting virus mutations can be improved.
  • FIG. 1 is a diagram illustrating a configuration of an information processing device according to an embodiment.
  • 1 is a diagram illustrating an example of amino acid sequence and antigen cluster name information used in an information processing device according to an embodiment.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of a computer that realizes the functions of an information processing device according to an embodiment.
  • FIG. 2 is a diagram illustrating an example of amino acid three-dimensional structure information output by a three-dimensional structure calculation processing unit in the information processing device according to one embodiment.
  • 1 is a diagram illustrating an example of chemical parameter information created by a chemical parameter calculation processing unit in an information processing device according to an embodiment.
  • FIG. 1 is a diagram illustrating an example of graph information in an information processing device according to an embodiment.
  • FIG. 11 is a diagram for explaining processing of a graph data shaping processing unit in the information processing device according to an embodiment.
  • FIG. 1 is a diagram for explaining graph AI input information in an information processing device according to an embodiment.
  • FIG. 1 is a diagram illustrating an example of statistical information in an information processing device according to an embodiment;
  • FIG. 2 is a diagram for explaining processing by an amino acid sequence calculation processing unit of an information processing device according to an embodiment.
  • 10 is a flowchart illustrating a process in an information processing device according to an embodiment.
  • 11 is a flowchart for explaining processing of a graph AI calculation processing unit of an information processing device according to an embodiment.
  • FIG. 1 is a diagram showing a schematic configuration of an information processing device 1 according to an embodiment.
  • the information processing device 1 trains (machine learning) a regression model (machine learning model) 110 that predicts the amino acid sequence of the virus protein after mutation (training phase).
  • the amino acid sequence and antigen cluster name of a virus at a certain point in the past are input to the information processing device 1, and the amino acid sequence and antigen cluster name of the virus after mutation are used as correct answer data.
  • a virus from a certain point in the past may simply be called a past virus.
  • the amino acids contained in this past virus may simply be called past amino acids.
  • An antigen cluster name may simply be called a cluster name.
  • the amino acid sequence and antigen cluster name of a past virus may simply be called the past amino acid sequence and antigen cluster name.
  • the information processing device 1 also uses the trained regression model 110 to predict (infer) the amino acid sequence of the virus protein after mutation (prediction phase).
  • the current (latest) amino acid sequence and antigen cluster name of the virus are input to the information processing device 1, and the regression model 110 predicts the post-mutation amino acid sequence and antigen cluster name of the virus.
  • the post-mutation amino acid sequence and antigen cluster name predicted by the regression model 110 based on the input current (latest) amino acid sequence and antigen cluster name of the virus can be referred to as the future amino acid sequence and antigen cluster name.
  • FIG. 2 is a diagram illustrating an example of amino acid sequence and antigen cluster name information used in the information processing device 1 according to one embodiment.
  • amino acid sequence and antigen cluster name information are shown in the form of a data table.
  • amino acid sequence and antigen cluster name information may be represented by adding the symbol T1.
  • the amino acid sequence and antigen cluster name information T1 shown in Figure 2 corresponds to the number, cluster name, date, and amino acid name.
  • each piece of data is shown as a character string for convenience, but in practice it may be an integer value or the like that is uniquely linked to the data. By expressing the data as an integer value, it can be used efficiently in various calculations, and is highly convenient.
  • the No. is information that identifies the virus.
  • the cluster name is the antigen cluster name of the virus.
  • the date may be the date and time when the virus appeared or was discovered.
  • the amino acid name indicates the type of amino acid contained in the virus, and represents one of the 20 types of amino acids. For convenience, in Figure 2, the amino acid names (types of amino acids) are represented using letters such as D and N.
  • the names of multiple amino acids may be listed in the amino acid sequence and antigen cluster name information T1 in accordance with the virus.
  • the amino acid names may be listed, for example, in peptide bond order from beginning to end.
  • the multiple amino acids contained in the virus may be represented using numbers.
  • the numbers representing the amino acids contained in the virus may be called amino acid numbers.
  • the amino acid number 0 is added to the amino acid name to represent the 0th amino acid of the multiple amino acids contained in the virus.
  • the amino acid sequence and antigen cluster name information T1 may be prepared by, for example, a user. Also, for example, a processing unit (not shown) may generate the amino acid sequence and antigen cluster name information T1 by extracting information on amino acids and antigen clusters from information on known viruses.
  • A-1) Hardware Configuration Example The functions of the information processing device 1 according to an embodiment may be realized by one computer or two or more computers. Furthermore, at least a part of the functions of the information processing device 1 may be realized using HW (Hardware) resources and NW (Network) resources provided by a cloud environment.
  • HW Hardware
  • NW Network
  • FIG. 3 is a block diagram showing an example of the hardware (HW) configuration of a computer 10 that realizes the functions of an information processing device 1 according to one embodiment.
  • HW hardware
  • the computer 10 may, as a HW configuration, illustratively include a processor 10a, a graphics processing unit 10b, a memory 10c, a storage unit 10d, an IF (Interface) unit 10e, an IO (Input/Output) unit 10f, and a reading unit 10g.
  • Processor 10a is an example of a processing unit that performs various controls and calculations, and is a control unit that executes various processes. Processor 10a may be connected to each block in computer 10 via bus 10j so that they can communicate with each other. Processor 10a may be a multiprocessor including multiple processors, a multicore processor having multiple processor cores, or a configuration having multiple multicore processors.
  • Examples of the processor 10a include integrated circuits (ICs) such as a CPU, MPU, APU, DSP, ASIC, and FPGA. Note that a combination of two or more of these integrated circuits may be used as the processor 10a.
  • ICs integrated circuits
  • CPU is an abbreviation for Central Processing Unit
  • MPU is an abbreviation for Micro Processing Unit
  • APU is an abbreviation for Accelerated Processing Unit.
  • DSP is an abbreviation for Digital Signal Processor
  • ASIC is an abbreviation for Application Specific IC
  • FPGA is an abbreviation for Field-Programmable Gate Array.
  • the graphics processing device 10b performs screen display control for output devices such as monitors in the IO unit 10f.
  • the graphics processing device 10b may also have a configuration as an accelerator that executes machine learning processing and prediction processing using a machine learning model.
  • Examples of the graphics processing device 10b include various types of arithmetic processing devices, such as a GPU (Graphics Processing Unit), APU, DSP, ASIC, or integrated circuits (ICs) such as FPGA.
  • Memory 10c is an example of HW that stores various data, programs, and other information.
  • Examples of memory 10c include volatile memory such as DRAM (Dynamic Random Access Memory) and/or non-volatile memory such as PM (Persistent Memory).
  • the memory unit 10d is an example of HW that stores various data, programs, and other information.
  • Examples of the memory unit 10d include various types of storage devices such as magnetic disk devices such as HDDs (Hard Disk Drives), semiconductor drive devices such as SSDs (Solid State Drives), and non-volatile memories.
  • Examples of non-volatile memories include flash memory, SCM (Storage Class Memory), and ROM (Read Only Memory).
  • the memory unit 10d may store a program 10h (information processing program) that realizes all or part of the various functions of the computer 10.
  • the processor 10a of the information processing device 1 can implement functions in the training phase and functions in the prediction phase, which will be described later, by expanding the program 10h stored in the storage unit 10d into the memory 10c and executing it.
  • the IF unit 10e is an example of a communication IF that controls the connection and communication between the computer 10 and other computers.
  • the IF unit 10e may include an adapter that complies with a LAN (Local Area Network) such as Ethernet (registered trademark) or optical communications such as FC (Fibre Channel).
  • the adapter may be compatible with either or both of wireless and wired communication methods.
  • the computer 10 may be connected to other computers and databases (not shown) via the IF unit 10e and a network so that they can communicate with each other.
  • the program 10h may be downloaded from the network to the computer 10 via the communication IF and stored in the storage unit 10d.
  • the IO unit 10f may include one or both of an input device and an output device. Examples of input devices include a keyboard, a mouse, a touch panel, etc. Examples of output devices include a monitor, a projector, a printer, etc.
  • the IO unit 10f may also include a touch panel that combines an input device and an output device. The output device may be connected to the graphics processing device 10b.
  • the reading unit 10g is an example of a reader that reads out data and program information recorded on the recording medium 10i.
  • the reading unit 10g may include a connection terminal or device to which the recording medium 10i can be connected or inserted.
  • Examples of the reading unit 10g include an adapter that complies with the Universal Serial Bus (USB), a drive device that accesses a recording disk, and a card reader that accesses a flash memory such as an SD card.
  • the recording medium 10i may store a program 10h, and the reading unit 10g may read the program 10h from the recording medium 10i and store it in the memory unit 10d.
  • Examples of the recording medium 10i include non-transitory computer-readable recording media such as magnetic/optical disks and flash memories.
  • Examples of magnetic/optical disks include flexible disks, CDs (Compact Discs), DVDs (Digital Versatile Discs), Blu-ray Discs, and HVDs (Holographic Versatile Discs).
  • Examples of flash memories include semiconductor memories such as USB memories and SD cards.
  • HW in computer 10 may be increased or decreased (for example, adding or deleting any block), divided, or integrated in any combination, or buses may be added or deleted, etc., as appropriate.
  • the information processing device 11 may exemplarily include functions as a three-dimensional structure calculation processing unit 101, a graph AI calculation processing unit 102, a graph AI 103, a statistical feature amount processing unit 104, a chemical parameter calculation processing unit 105, a three-dimensional structure feature amount processing unit 106, a graph data shaping processing unit 107, a chemical feature amount processing unit 108, an amino acid sequence calculation processing unit 109, and a regression model 110. These functions may be realized by the hardware of the computer 10 (see FIG. 3).
  • the three-dimensional structure calculation processing unit 101 analyzes the three-dimensional structure of viral proteins. When the amino acid sequence of a virus is input, the three-dimensional structure calculation processing unit 101 performs three-dimensional amino acid structure analysis. The three-dimensional structure calculation processing unit 101 outputs three-dimensional amino acid structure information as the analysis result.
  • the three-dimensional amino acid structure information may include, for example, the coordinates of each atom.
  • the function of the three-dimensional structure calculation processing unit 101 may be realized by using a known protein structure calculation tool.
  • AlphaFold2 may be used as the protein structure calculation tool.
  • FIG. 4 is a diagram illustrating amino acid three-dimensional structure information output by the three-dimensional structure calculation processing unit 101 in the information processing device 1 according to one embodiment.
  • amino acid 3D structure information is shown in the form of a data table.
  • amino acid 3D structure information may be referred to with the symbol T2.
  • the amino acid three-dimensional structure information T2 shown in Figure 4 shows the coordinate values of each amino acid in correspondence with a number that identifies the virus.
  • the coordinate values of each amino acid include the coordinate values of x, y, and z.
  • the coordinates of the amino acid with amino acid number 0 are represented by assigning the amino acid number 0 to each of amino acid x, amino acid y, and amino acid z.
  • amino acid names may also be arranged, for example, in peptide bond order from the beginning to the end.
  • the amino acid three-dimensional structure information T2 output by the three-dimensional structure calculation processing unit 101 may be stored in a predetermined storage area of the memory 10c or the storage unit 10d.
  • the three-dimensional structure feature processing unit 106 generates three-dimensional structure features based on the amino acid three-dimensional structure information T2 created by the three-dimensional structure calculation processing unit 101.
  • the three-dimensional structure feature represents a feature of the three-dimensional structure, and corresponds to a first feature related to the three-dimensional structure of the virus protein.
  • the three-dimensional structure feature processing unit 106 may generate three-dimensional structure features using a known feature conversion method.
  • the three-dimensional structure feature processing unit 106 may perform feature conversion using methods such as SVR (Support Vector Regression), NN (Neural Network), PCA (Principal Component Analysis), etc.
  • the three-dimensional structure feature processing unit 106 may calculate the three-dimensional structure feature f cube (t) based on the following formula (1).
  • f cube (t) F cube (a(t), am(t),t ) ...(1)
  • the three-dimensional structure feature vector at time t (f cube,i (t) ⁇ R, 1 ⁇ i ⁇ N ).
  • N is the length of the amino acid sequence, i.e., the number of dimensions of the vector.
  • N is the number of dimensions after the sequence has been processed in some way to a fixed length using a known fixed vector generation method.
  • am(t) is edge information (adjacency matrix, etc.) of the amino acid conformation at time t.
  • the simplest F cube can be considered as an identity map (outputting features as is).
  • the chemical parameter calculation processing unit 105 generates chemical parameters for each amino acid contained in the virus based on the amino acid three-dimensional structure information created by the three-dimensional structure calculation processing unit 101.
  • the chemical parameters may be, for example, an electric charge or an exposed surface area.
  • the chemical parameter calculation processing unit 105 may calculate the exposed surface area and electric charge for each amino acid.
  • FIG. 5 is a diagram illustrating an example of chemical parameter information created by the chemical parameter calculation processing unit 105 in the information processing device 1 according to one embodiment.
  • the chemical parameter information is represented in the form of a data table that includes multiple chemical parameters.
  • the chemical parameter information may be represented by adding the symbol T3.
  • the chemical parameters of the amino acid with amino acid number 0 are represented by assigning the amino acid number 0 to the amino acid chemical parameters.
  • amino acid names may also be arranged, for example, in peptide bond order from the beginning to the end.
  • the chemical parameter calculation processing unit 105 may generate multiple types of chemical parameters for each amino acid.
  • the chemical feature processing unit 108 generates chemical feature amounts based on the chemical parameters generated by the chemical parameter calculation processing unit 105.
  • the chemical feature amount represents the feature amount of the chemical parameter, and corresponds to a second feature amount related to a property resulting from the three-dimensional structure (such as exposed surface area).
  • the chemical feature processing unit 108 may generate features of chemical parameters using a known feature conversion method.
  • the chemical feature processing unit 108 may perform feature conversion using a method such as SVR, NN, or PCA. Generating chemical features based on chemical parameters may be referred to as feature conversion.
  • the chemical feature amount processing unit 108 may calculate the chemical feature amount f chem (t) based on the following formula (2).
  • f chem (t) F chem (a(t), am(t),t ) ...(2)
  • the simplest F chem can be considered as an identity mapping (outputting features as is).
  • the chemical feature amounts calculated by the chemical feature amount processing unit 108 may be stored in a predetermined storage area of the memory 10c or the storage unit 10d.
  • the graph data shaping processing unit 107 creates graph information based on the amino acid three-dimensional structure information T2 created by the three-dimensional structure calculation processing unit 101 and the chemical parameter information T3 created by the chemical parameter calculation processing unit 105.
  • the graph information may be called graph data.
  • FIG. 6 is a diagram illustrating graph information in an information processing device 1 according to one embodiment.
  • the graph information is shown in the form of a data table.
  • the graph information may be referred to with the symbol T4.
  • FIG. 7 is a diagram for explaining the processing of the graph data formatting processing unit 107 in the information processing device 1 according to one embodiment.
  • the graph data formatting processing unit 107 combines (combines) the amino acid sequence and antigen cluster name information T1, the amino acid three-dimensional structure information with the code T2, and the chemical parameter information with the code T3 to generate graph information T4.
  • the graph data formatting processing unit 107 may combine the amino acid sequence and antigen cluster name information T1, the amino acid three-dimensional structure information with code T2, and the chemical parameter information with code T3 based on the number that identifies the virus.
  • the graph AI calculation processing unit 102 creates (shapes) data to be input to the graph AI 103 (graph AI input information T5: input data) based on the graph information T4 generated by the graph data shape processing unit 107.
  • the graph AI calculation processing unit 102 generates graph AI input information T5 by converting information about multiple viruses contained in the created graph information T4 into data in a format that can be processed by the graph AI 103.
  • the graph AI calculation processing unit 102 uses the graph AI input information T5 to train (machine learning) the graph AI 103.
  • Graph AI 103 is a machine learning model that performs graph-based relationship learning and realizes graph classification (class classification).
  • a graph is composed of a set of nodes and a set of edges between those nodes.
  • a graph can be said to be a mathematical model characterized by nodes and edges.
  • amino acids correspond to nodes, and bonds between amino acids correspond to edges.
  • bonds between amino acids may be, for example, peptide bonds, or other bonds such as bonds formed by electrostatic forces.
  • Graph AI 103 performs graph classification based on these graph and edge information.
  • the amino acid three-dimensional structure may be used as an explanatory variable
  • the antigen cluster name may be used as a target variable.
  • the parameters for each node can be used as node attributes to help with classification.
  • graph AI calculation processing unit 102 determines that adjacent amino acids have edges based on the amino acid sequence. In addition, amino acids that are within a certain distance due to electrostatic forces, etc. may be determined to have edges.
  • the graph AI calculation processing unit 102 creates graph AI input information T5 based on the graph information T4 by listing the attributes of the two amino acids that are connected by each edge in the amino acid sequence that constitutes the virus, in units of bonds.
  • the two amino acids that are connected by an edge may be referred to as an amino acid pair.
  • the amino acid that is the start point of the edge in the amino acid pair may be referred to as the start node, and the amino acid that is the end point of the edge may be referred to as the end node.
  • FIG. 8 is a diagram for explaining graph AI input information T5 in an information processing device 1 according to one embodiment.
  • graph information T4 shown in FIG. 6 and graph AI input information T5 created by the graph AI calculation processing unit 102 based on this graph information T4 are shown.
  • the number that identifies an edge is associated with information about the amino acid pair to which the edge is connected.
  • the information on the amino acid pair includes a number that identifies the virus, the cluster name, and the amino acid name, amino acid sequence number, chemical parameters, and amino acid coordinate values (x, y, z) for each of the start and end nodes.
  • each piece of information for the start node is suffixed with an s
  • each piece of information for the end node is suffixed with an e.
  • amino acid name s represents the start node
  • amino acid name e represents the end node
  • amino acid sequence number s, chemical parameter s, amino acid xs, amino acid name ys, and amino acid zs represent attribute information of the start node (start node attribute).
  • amino acid sequence number e, chemical parameter e, amino acid xe, amino acid name ye, and amino acid ze represent attribute information of the end node (end node attribute).
  • the graph AI calculation processing unit 102 uses the graph AI input information T5 as training information to train the graph AI 103.
  • the cluster name is used as a target variable in the training phase of graph AI103.
  • the amino acid name s, the amino acid name e, the start node attribute, and the end node attribute are used as explanatory variables in the training phase of graph AI103.
  • Graph AI 103 may be a deep neural network (DNN) that includes multiple hidden layers between the input layer and the output layer.
  • DNN deep neural network
  • NNs for example, input data into an input layer, and sequentially execute predetermined calculations in a hidden layer composed of a convolutional layer, a pooling layer, etc., to execute forward processing (forward propagation processing) that transmits information obtained by the calculations from the input side to the output side.
  • forward processing forward propagation processing
  • backward processing backpropagation processing
  • an update processing is executed to update variables such as weights based on the results of the backpropagation processing. For example, gradient descent may be used as an algorithm to determine the update width of the weights used in the backpropagation calculations.
  • the graph AI calculation processing unit 102 uses the graph AI input information T5 as input data to cause the graph AI 103 to perform graph classification and predict (infer) cluster names.
  • the amino acid name s, the amino acid name e, the start node attribute, and the end node attribute are input to the graph AI 103.
  • the amino acid sequence and antigen cluster name information T1 described above does not include a cluster name. Therefore, the graph AI input information T5 input to the graph AI 103 in the prediction phase does not include a cluster name.
  • Graph AI calculation processing unit 102 inputs features related to the three-dimensional structure of the virus protein (three-dimensional structure features) and features related to the properties resulting from the three-dimensional structure (chemical features) into graph AI 103, causing it to predict amino acids.
  • the graph AI calculation processing unit 102 inputs the graph AI input information T5 to the graph AI 103, performs graph classification (class classification), and then calculates statistical information.
  • the statistical information may be, for example, the contribution (contribution score, node contribution) for obtaining a prediction result when the graph AI 103 performs graph classification.
  • the statistical information may also be called a statistic.
  • the graph AI calculation processing unit 102 obtains a statistic for each amino acid contained in the virus.
  • the graph AI calculation processing unit 102 obtains features (statistical features) for the prediction based on the contribution of each amino acid contained in the protein to the prediction.
  • FIG. 9 is a diagram illustrating statistical information in an information processing device 1 according to one embodiment.
  • FIG. 9 multiple pieces of statistical information are shown in the form of a data table.
  • statistical information may be represented by adding the symbol T6.
  • the statistical information T6 shown in FIG. 9 shows the statistical information values of multiple amino acids in correspondence with the number that identifies the virus.
  • the statistical information of the amino acid with amino acid number 0 is represented by assigning amino acid number 0 to the amino acid statistics.
  • amino acid names may also be arranged, for example, in peptide bond order from top to bottom.
  • the statistical information generated by the graph AI calculation processing unit 102 may be stored in a specified storage area of the memory 10c or the storage unit 10d.
  • graph AI graph AI 103
  • the contribution rate is obtained for each three-dimensional structure and each amino acid. Therefore, the graph AI calculation processing unit 102 may obtain a sample average of the contribution rate in a predetermined unit such as cluster, year, or amino acid, and use this as statistical information.
  • the prediction results performed by the graph AI calculation processing unit 102 in the graph AI 103 and the values of the statistical information calculated by the graph AI 103 may be stored in a specified storage area of the memory 10c or the storage unit 10d.
  • FIG. 10 is a diagram for explaining the processing in the prediction phase of the graph AI calculation processing unit 102 of the information processing device 1 according to one embodiment.
  • the graph AI calculation processing unit 102 inputs the graph AI input information T5 to the graph AI 103 to perform graph classification (see symbol P1).
  • the graph AI calculation processing unit 102 also obtains the statistical information (contribution degree) calculated by the graph AI 103 (see symbol P2).
  • the graph AI calculation processing unit 102 may change the values contained in the graph AI input information T5 to check how the inference result changes (see symbol P3), and if the inference result improves, may perform processing such as reflecting the changes in the graph AI input information T5.
  • the statistical feature processing unit 104 generates statistical features based on the statistical information T6 calculated by the graph AI calculation processing unit 102 in the graph AI 103.
  • the statistical features represent the features of the statistical information (degree of contribution).
  • the statistical feature corresponds to a third feature obtained based on statistical information (contribution) to the prediction of each amino acid contained in the protein corresponding to the input data, by prediction using Graph AI103 (machine learning model) with the three-dimensional structural feature and chemical feature as input data.
  • the statistical feature processing unit 104 may generate statistical features using a known feature transformation method.
  • the statistical feature processing unit 104 may perform feature transformation using a method such as SVR, NN, or PCA.
  • the statistical feature amount processing unit 104 may calculate the statistical feature amount f stat (t) based on the following formula (3).
  • f stat (t) F stat (a(t), am(t),t ) ...(3)
  • the simplest F stat can be considered as an identity mapping (outputting features as is).
  • the statistical features calculated by the statistical feature processing unit 104 may be stored in a predetermined storage area of the memory 10c or the storage unit 10d.
  • the amino acid sequence calculation processing unit 109 predicts the amino acid sequence of the virus after mutation using the regression model 110.
  • the amino acid sequence calculation processing unit 109 trains the regression model 110 in the training phase, and has the regression model 110 predict the amino acid sequence after mutation in the prediction phase.
  • the amino acid sequence calculation processing unit 109 predicts the amino acid sequence after mutation based on the three-dimensional structure feature amount f cube (t) calculated by the three-dimensional structure feature amount processing unit 106, the chemical feature amount f chem (t) calculated by the chemical feature amount processing unit 108, and the statistical feature amount f stat (t) calculated by the statistical feature amount processing unit 104. At this time, the amino acid sequence calculation processing unit 109 also uses edge information am(t) of the amino acid sequence.
  • the regression model 110 may achieve regression using techniques such as SVR, NN, GA (Genetic Algorithms), and time series analysis.
  • the regression model 110 may be a deep neural network (DNN) that includes multiple hidden layers between the input layer and the output layer.
  • DNN deep neural network
  • the amino acid sequence calculation processing unit 109 uses the three-dimensional structural features, chemical features, and statistical features as input features (explanatory variables) to train a regression model 110 that predicts the amino acid sequence of the virus after mutation, and predicts mutations using the trained regression model 110.
  • the amino acid sequence after mutation is determined using the following formula (4).
  • a(t+n ⁇ t) F a ⁇ f cube (t),f chem (t),f stat (t),am(t),...,f cube (t-n ⁇ t),f chem (t-n ⁇ t),f stat (t-n ⁇ t),am(t-n ⁇ t),t ⁇ ...(4)
  • F a may be SVR, LSTM, GA, time series analysis, etc.
  • t is the current time.
  • t- ⁇ t represents a time ⁇ t in the past from the present.
  • t+ ⁇ t represents a time ⁇ t in the future from the present. Therefore, a(t+n ⁇ t) represents the future amino acid sequence, i.e., the amino acid sequence after mutation.
  • the amino acid sequence calculation processing unit 109 trains the regression model 110 using at least the chemical feature (second feature) and the statistical feature (third feature) as explanatory variables (input features).
  • the amino acid sequence calculation processing unit 109 may use a three-dimensional structural feature (first feature) as an explanatory variable (input feature) in addition to the chemical feature and statistical feature.
  • the regression calculation assumes that the input and output data lengths (dimensions when vectorized) are fixed. However, the length of amino acid sequences varies from virus to virus. For this reason, it is necessary to convert the different dimensions into fixed dimensions.
  • the amino acid sequence calculation processing unit 109 inputs the three-dimensional structural features, chemical features, and statistical features into the regression model 110, it performs a process of converting the dimensions of these features into fixed dimensions that match the regression model 110.
  • FIG. 11 is a diagram for explaining the processing by the amino acid sequence calculation processing unit 109 of the information processing device 1 according to one embodiment.
  • the symbol A represents a matrix of features (feature matrix) extracted from graph AI input information T5.
  • the amino acid sequence calculation processing unit 109 creates a feature matrix by extracting the features of multiple viruses at each time point.
  • the amino acid sequence calculation processing unit 109 generates multiple m ⁇ (3 ⁇ v 0 ) feature matrices, for example, by sequentially extracting m feature values from the beginning of the amino acid sequence contained in the viruses 1 to 0 at time t while shifting the feature values.
  • the amino acid sequence calculation processing unit 109 may use a projection method such as m-gram, EG-PSSM, GDPC-PSMM, or ER-PSSM to convert to a fixed dimension and create a feature matrix.
  • m-gram may use m features from the beginning of the amino acid sequence as a vector (mimicking natural language processing).
  • the amino acid sequence calculation processing unit 109 performs compression (dimensionality compression) on each of the created feature matrices to create a matrix with lower dimensions (low-dimensional matrix) than the feature matrix. In this way, the amino acid sequence calculation processing unit 109 formats each feature matrix into data that can be input to regression.
  • the amino acid sequence calculation processing unit 109 may compress the feature matrix, for example, by applying a method such as averaging or dimensional compression.
  • FIG. 11 shows an example in which the amino acid sequence calculation processing unit 109 compresses an m ⁇ (3 ⁇ v 0 ) feature matrix to generate an m ⁇ m′ feature matrix (see symbol B).
  • the amino acid sequence calculation processing unit 109 vectorizes the generated m ⁇ m' feature matrix and inputs it to the regression model 110 (see symbol C), which outputs the amino acid sequence after mutation.
  • the regression model 110 which outputs the amino acid sequence after mutation.
  • N rows of the amino acid sequence at t+ ⁇ t are output (see symbol D).
  • the regression model 110 may be cases where multiple outputs are obtained from the regression model 110 and do not result in a single amino acid sequence, i.e., there may be multiple viruses within the step size ( ⁇ t) in the phylogenetic tree.
  • the phylogenetic tree may be referenced and the time step size ( ⁇ t) of the hierarchy may be adjusted so that there is only one parent.
  • the step size ( ⁇ t) may be made smaller, or the number of steps (n) may be adjusted. This allows the regression model 110 to predict a single amino acid sequence.
  • the 3D structure calculation processing unit 101 When the amino acid sequence of the virus before or after the current time is input to the 3D structure calculation processing unit 101, in step A1, the 3D structure calculation processing unit 101 performs 3D structure analysis of the amino acids. The 3D structure calculation processing unit 101 generates amino acid 3D structure information T2.
  • the amino acid three-dimensional structure information T2 is input to the three-dimensional structure feature processing unit 106.
  • the three-dimensional structure feature processing unit 106 generates three-dimensional structure features based on the amino acid three-dimensional structure information T2.
  • the amino acid three-dimensional structure information T2 is also input to the chemical parameter calculation processing unit 105.
  • the chemical parameter calculation processing unit 105 generates chemical parameters for each amino acid contained in the virus based on the amino acid three-dimensional structure information T2, and generates chemical parameter information T3.
  • the chemical parameter information T3 generated by the chemical parameter calculation processing unit 105 is input to the chemical feature amount processing unit 108.
  • the chemical feature amount processing unit 108 generates a chemical feature amount based on the chemical parameter information T3.
  • the amino acid three-dimensional structure information T2 created by the three-dimensional structure calculation processing unit 101 and the chemical parameter information T3 created by the chemical parameter calculation processing unit 105 are also input to the graph data shaping processing unit 107.
  • the graph data shaping processing unit 107 generates graph information T4 based on the amino acid three-dimensional structure information T2 and the chemical parameter information T3.
  • Graph information T4 generated by graph data shaping processor 107 is input to graph AI 103.
  • Graph AI calculation processor 102 creates graph AI input information T5 based on graph information T4 by arranging the attributes of each edge that constitutes the virus and the two amino acids that are bound by that edge in bond units.
  • Graph AI calculation processing unit 102 uses graph AI input information T5 as training information to train graph AI 103.
  • Graph AI calculation processing unit 102 causes graph AI 103 to calculate statistical information (degree of contribution) and generates statistical information T6.
  • the statistical information T6 generated by the graph AI calculation processing unit 102 is input to the statistical feature processing unit 104.
  • the statistical feature processing unit 104 generates statistical features based on the statistical information T6.
  • the three-dimensional structure features generated by the three-dimensional structure feature processing unit 106, the chemical features generated by the chemical feature processing unit 108, and the statistical features generated by the statistical feature processing unit 104 are each input to the amino acid sequence calculation processing unit 109.
  • step A8 the amino acid sequence calculation processing unit 109 converts the three-dimensional structural features, chemical features, and statistical features into fixed dimensions, and then inputs them into the regression model 110 to predict the amino acid sequence.
  • the amino acid sequence calculation processing unit 109 compares the predicted amino acid sequence with the correct data (amino acid sequence after mutation). As a result of this comparison, the amino acid sequence calculation processing unit 109 executes backward processing (backpropagation processing) to determine parameters to be used in forward processing in order to reduce the value of the error function obtained.
  • the amino acid sequence calculation processing unit 109 executes update processing to update variables such as weights based on the results of the backpropagation processing.
  • steps A1 to A8 are also performed in the prediction phase in the information processing device 1 according to one embodiment configured as described above.
  • step A1 the 3D structure calculation processing unit 101 performs 3D structure analysis of amino acids.
  • the 3D structure calculation processing unit 101 generates amino acid 3D structure information T2.
  • the amino acid three-dimensional structure information T2 is input to the three-dimensional structure feature processing unit 106.
  • the three-dimensional structure feature processing unit 106 generates three-dimensional structure features based on the amino acid three-dimensional structure information T2 (feature conversion).
  • the amino acid three-dimensional structure information T2 is also input to the chemical parameter calculation processing unit 105.
  • the chemical parameter calculation processing unit 105 generates chemical parameters for each amino acid contained in the virus based on the amino acid three-dimensional structure information T2, and generates chemical parameter information T3.
  • the chemical parameter information T3 generated by the chemical parameter calculation processing unit 105 is input to the chemical feature amount processing unit 108.
  • the chemical feature amount processing unit 108 generates chemical features based on the chemical parameter information T3 (feature amount conversion).
  • the amino acid three-dimensional structure information T2 created by the three-dimensional structure calculation processing unit 101 and the chemical parameter information T3 created by the chemical parameter calculation processing unit 105 are also input to the graph data shaping processing unit 107.
  • the graph data shaping processing unit 107 generates graph information T4 based on the amino acid three-dimensional structure information T2 and the chemical parameter information T3.
  • Graph information T4 generated by graph data shaping processor 107 is input to graph AI 103.
  • Graph AI calculation processor 102 creates graph AI input information T5 based on graph information T4 by arranging the attributes of each edge that constitutes the virus and the two amino acids that are bound by that edge in bond units.
  • the graph AI calculation processing unit 102 inputs the graph AI input information T5 to the graph AI 103, calculates statistical information (degree of contribution), and generates statistical information T6.
  • the statistical information T6 generated by the graph AI calculation processing unit 102 is input to the statistical feature processing unit 104.
  • the statistical feature processing unit 104 generates statistical features based on the statistical information T6 (feature conversion).
  • the three-dimensional structure features generated by the three-dimensional structure feature processing unit 106, the chemical features generated by the chemical feature processing unit 108, and the statistical features generated by the statistical feature processing unit 104 are each input to the amino acid sequence calculation processing unit 109.
  • step A8 the amino acid sequence calculation processing unit 109 converts the three-dimensional structural features, chemical features, and statistical features into fixed dimensions, and then inputs them into the regression model 110 to predict the amino acid sequence after mutation.
  • amino acid sequence output by the regression model 110 in the prediction phase may be used as training data in the subsequent training phase.
  • step B1 the graph AI calculation processing unit 102 formats the graph information T4 generated by the graph data formatting processing unit 107 to create graph AI input information T5.
  • the graph AI calculation processing unit 102 trains the graph AI 103 using the created graph AI input information T5 (step B2).
  • the graph AI calculation processing unit 102 uses the information other than the cluster name from the graph AI input information T5 as explanatory variables, and uses the cluster name as the objective variable.
  • the graph AI calculation processing unit 102 inputs the graph AI input information T5 to the graph AI 103 to perform graph classification and predict (infer) the cluster name (step B3). At this time, the graph AI calculation processing unit 102 uses the information other than the cluster name from the graph AI input information T5 as explanatory variables.
  • the graph AI calculation processing unit 102 also causes the graph AI 103 to calculate statistical information. After that, the process ends.
  • the graph AI calculation processing unit 102 inputs a three-dimensional structure feature (first feature) related to the three-dimensional structure of the virus's protein and a chemical feature (second feature) related to the properties resulting from the three-dimensional structure, and causes the graph AI 103 to perform graph classification (prediction).
  • the statistical feature processing unit 104 calculates a statistical feature (third feature) based on the statistical information (contribution degree) calculated in association with this graph classification.
  • the amino acid sequence calculation processing unit 109 trains the regression model 110 using at least the chemical features and statistical features as input features.
  • the regression model 110 can predict viral mutations taking into account the unique properties of the three-dimensional structure of the viral protein, improving prediction accuracy.
  • the amino acid sequence calculation processing unit 109 trains the regression model 110 using at least the chemical features and statistical features as well as the three-dimensional structural features as input features, so that the regression model 110 can better reflect the three-dimensional structure of the virus protein. This makes it possible to more accurately predict virus mutations that take into account the unique properties of the three-dimensional structure of the virus protein.
  • Proteins are made up of multiple amino acids that form peptide bonds, and the amino acid sequence is an arrangement of the amino acid names in the order in which they are bonded.
  • amino acids that are far apart in the amino acid sequence can be bonded together by electrostatic forces, etc., and can have unique shapes and properties. In other words, due to their unique shapes and properties, different features can be obtained even if the amino acid sequence is the same.
  • prediction accuracy can be improved by predicting virus mutations using features based on the three-dimensional structure of proteins as a clue.
  • the amino acid sequence calculation processing unit 109 inputs the three-dimensional structure feature, chemical feature, and statistical feature to the regression model 110, it performs a process of converting the dimensions of these features into fixed dimensions that match the regression model 110. This makes it possible to realize predictions using the three-dimensional structure feature, chemical feature, and statistical feature as inputs by the regression model 110.
  • Fa can be calculated more easily and prediction accuracy can be improved by using regression such as SVR, NN, or PCA, dimensionality reduction, conversion to a fixed-dimensional vector such as m-gram, or generation to a fixed-dimensional vector.
  • the contribution degree is used as the statistical information, but this is not limited to this, and information other than the contribution degree may be used as the statistical information.

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

ウィルスの蛋白質の立体構造に関する第1特徴量と、立体構造に起因する性質に関する第2特徴量と、を入力データとした機械学習モデル103を用いた予測により、入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報に基づく第3特徴量を取得し、第2特徴量と第3特徴量とを入力特徴量として、変異後のウィルスのアミノ酸配列を予測する回帰モデル110の訓練を行なうことで、ウィルスの変異予測の精度を向上させる。

Description

情報処理プログラム,情報処理方法および情報処理装置
 本発明は、情報処理プログラム,情報処理方法および情報処理装置に関する。
 ウィルスは変異を繰り返す為、コロナウィルス等のワクチン開発に於いて変異の予測が重要である。
 従来においては、ウィルスの蛋白質をアミノ酸配列として捉え、流行時期と対応付ける時系列解析や、LSTM(Long Short-Term Memory)により変異後のウィルスのアミノ酸配列を予測することが行なわれている。
国際公開第2022/019331号 特表2022―521686号公報 米国特許出願公開第2012/0265513号明細書 特表2022-527381号公報 米国特許出願公開第2019/0266493号明細書
 しかしながら、このような従来のウィルスの変異予測手法においては、構造的に離れたアミノ酸どうしの影響や、同一のアミノ酸名のウィルス内における位置での性質の違いを、ウィルスの変異予測に反映させることができない。
 例えば、同一の化学式であっても、異性体等の形状や性質が異なる物が存在する場合がしばしば有るが、従来のウィルスの変異予測手法では、それらへの追従が困難である。従って、ウィルスの変異予測の精度が低下するという課題がある。
 1つの側面では、本発明は、ウィルスの変異予測の精度を向上することを目的とする。
 このため、この情報処理プログラムは、ウィルスの蛋白質の立体構造に関する第1特徴量と、立体構造に起因する性質に関する第2特徴量と、を入力データとした機械学習モデルを用いた予測により、前記入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報に基づく第3特徴量を取得し、前記第2特徴量と前記第3特徴量とを入力特徴量として、変異後の前記ウィルスのアミノ酸配列を予測する回帰モデルの訓練を行なう処理をコンピュータに実行させる。
 一実施形態によれば、ウィルスの変異予測の精度を向上させることができる。
一実施形態に係る情報処理装置の構成を模式的に示す図である。 一実施形態に係る情報処理装置において用いられるアミノ酸配列および抗原クラスタ名情報を例示する図である。 一実施形態に係る情報処理装置の機能を実現するコンピュータのハードウェア構成例を示すブロック図である。 一実施形態に係る情報処理装置において立体構造計算処理部が出力するアミノ酸立体構造情報を例示する図である。 一実施形態に係る情報処理装置において化学パラメータ計算処理部が作成する化学パラメータ情報を例示する図である。 一実施形態に係る情報処理装置におけるグラフ情報を例示する図である。 一実施形態に係る情報処理装置におけるグラフデータ整形処理部の処理を説明するための図である。 一実施形態に係る情報処理装置におけるグラフAI入力用情報を説明するための図である。 一実施形態に係る情報処理装置における統計情報を例示する図である。 一実施形態に係る情報処理装置のグラフAI計算処理部の予測フェーズにおける処理を示す図である。 一実施形態に係る情報処理装置のアミノ酸配列計算処理部による処理を説明するための図である。 一実施形態に係る情報処理装置における処理を説明するためのフローチャートである。 一実施形態に係る情報処理装置のグラフAI計算処理部の処理を説明するためのフローチャートである。
 以下、図面を参照して本情報処理プログラム,情報処理方法および情報処理装置に係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
 (A)構成
 図1は一実施形態に係る情報処理装置1の構成を模式的に示す図である。
 本情報処理装置1は、変異後のウィルスの蛋白質のアミノ酸配列を予測する回帰モデル(機械学習モデル)110の訓練(機械学習)を行なう(訓練フェーズ)。
 訓練フェーズにおいては、本情報処理装置1において、過去のとある時点のウィルスのアミノ酸配列と抗原クラスタ名との入力が行なわれ、当該ウィルスの変異後のアミノ酸配列と抗原クラスタ名とが正解データとして用いられる。
 過去のとある時点のウィルスを、単に、過去のウィルスといってよい。また、この過去のウィルスに含まれるアミノ酸を過去のアミノ酸といってよい。抗原クラスタ名を、単にクラスタ名といってよい。さらに、過去のウィルスのアミノ酸配列と抗原クラスタ名とを過去のアミノ酸配列と抗原クラスタ名といってよい。
 また、本情報処理装置1は、訓練した回帰モデル110を用いて、変異後のウィルスの蛋白質のアミノ酸配列を予測(推論)する(予測フェーズ)。
 予測フェーズにおいては、本情報処理装置1において、現在の(最新の)ウィルスのアミノ酸配列と抗原クラスタ名との入力が行なわれ、回帰モデル110は、当該ウィルスの変異後のアミノ酸配列と抗原クラスタ名とを予測する。予測フェーズにおいて、入力された現在の(最新の)ウィルスのアミノ酸配列と抗原クラスタ名に基づいて回帰モデル110が予測する変異後のアミノ酸配列と抗原クラスタ名とを、未来のアミノ酸配列と抗原クラスタ名といってよい。
 図2は一実施形態に係る情報処理装置1において用いられるアミノ酸配列および抗原クラスタ名情報を例示する図である。
 この図2においては、アミノ酸配列および抗原クラスタ名情報をデータテーブルの形式で表している。以下、アミノ酸配列および抗原クラスタ名情報を符号T1を付して表す場合がある。
 図2に例示するアミノ酸配列および抗原クラスタ名情報T1は、No.とクラスタ名と年月日とアミノ酸名とを対応付けて示している。
 なお、図2に例示するアミノ酸配列および抗原クラスタ名情報T1において、便宜上、文字列として示されている各データは、実用上は一意に紐付く整数値等であってよい。データを整数値として表すことで、各種計算に効率よく用いることができ、利便性が高い。
 No.は、ウィルスを特定する情報である。クラスタ名はウィルスの抗原クラスタ名である。年月日はウィルスが出現もしくは発見された日時であってよい。アミノ酸名は、ウィルスに含まれるアミノ酸の種類を表すものであり、20種類あるアミノ酸のいずれかを表す。図2においては、便宜上、アミノ酸名(アミノ酸の種類)をD,N等の文字を用いて表している。
 ウィルスに複数のアミノ酸が含まれる場合には、アミノ酸配列および抗原クラスタ名情報T1において、当該ウィルスに対応させて、複数のアミノ酸名を並べて表してよい。アミノ酸名の並び順は、例えば、先頭から末尾にかけてペプチド結合順に並べてよい。
 ウィルスに含まれる複数のアミノ酸を数字を用いて表してよい。ウィルスに含まれるアミノ酸を表す数字をアミノ酸番号といってよい。図2に示す例においては、アミノ酸名にアミノ酸番号0を付すことで、ウィルスに含まれる複数のアミノ酸のうちの0番目のアミノ酸を表している。
 アミノ酸配列および抗原クラスタ名情報T1は、例えば、ユーザが用意してもよい。また、例えば、図示しない処理部が、既知のウィルスの情報からアミノ酸や抗原クラスタの情報を抽出することでアミノ酸配列および抗原クラスタ名情報T1を生成してもよい。
 (A-1)ハードウェア構成例
 一実施形態に係る情報処理装置1の機能は、1台のコンピュータにより実現されてもよいし、2台以上のコンピュータにより実現されてもよい。さらに、情報処理装置1の機能のうちの少なくとも一部は、クラウド環境により提供されるHW(Hardware)リソースおよびNW(Network)リソースを用いて実現されてもよい。
 図3は一実施形態に係る情報処理装置1の機能を実現するコンピュータ10のハードウェア(HW)構成例を示すブロック図である。情報処理装置1の機能を実現するHWリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図3に例示するHW構成を備えてよい。
 図3に示すように、コンピュータ10は、HW構成として、例示的に、プロセッサ10a、グラフィック処理装置10b、メモリ10c、記憶部10d、IF(Interface)部10e、IO(Input / Output)部10f、および読取部10gを備えてよい。
 プロセッサ10aは、種々の制御や演算を行なう演算処理装置の一例であり、種々の処理を実行する制御部である。プロセッサ10aは、コンピュータ10内の各ブロックとバス10jで相互に通信可能に接続されてよい。なお、プロセッサ10aは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。
 プロセッサ10aとしては、例えば、CPU、MPU、APU、DSP、ASIC、FPGA等の集積回路(IC;integrated circuit)が挙げられる。なお、プロセッサ10aとして、これらの集積回路の2以上の組み合わせが用いられてもよい。CPUはCentral Processing Unitの略称であり、MPUはMicro Processing Unitの略称である。APUはAccelerated Processing Unitの略称である。DSPはDigital Signal Processorの略称であり、ASICはApplication Specific ICの略称であり、FPGAはField-Programmable Gate Arrayの略称である。
 グラフィック処理装置10bは、IO部10fのうちのモニタ等の出力装置に対する画面表示制御を行なう。また、グラフィック処理装置10bは、機械学習モデルを利用した機械学習処理および予測処理を実行するアクセラレータとしての構成を有してよい。グラフィック処理装置10bとしては、種々の演算処理装置、例えば、GPU(Graphics Processing Unit)、APU、DSP、ASIC又はFPGA等の集積回路(IC)が挙げられる。
 メモリ10cは、種々のデータやプログラム等の情報を格納するHWの一例である。メモリ10cとしては、例えばDRAM(Dynamic Random Access Memory)等の揮発性メモリ、および、PM(Persistent Memory)等の不揮発性メモリ、の一方または双方が挙げられる。
 記憶部10dは、種々のデータやプログラム等の情報を格納するHWの一例である。記憶部10dとしては、HDD(Hard Disk Drive)等の磁気ディスク装置、SSD(Solid State Drive)等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、SCM(Storage Class Memory)、ROM(Read Only Memory)等が挙げられる。
 記憶部10dは、コンピュータ10の各種機能の全部若しくは一部を実現するプログラム10h(情報処理プログラム)を格納してよい。
 例えば、情報処理装置1のプロセッサ10aは、記憶部10dに格納されたプログラム10hをメモリ10cに展開して実行することにより、後述する訓練フェーズにおける機能や予測フェーズにおける機能を実現できる。
 IF部10eは、本コンピュータ10と他のコンピュータとの間の接続および通信の制御等を行なう通信IFの一例である。例えば、IF部10eは、イーサネット(登録商標)等のLAN(Local Area Network)、或いは、FC(Fibre Channel)等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線および有線の一方又は双方の通信方式に対応してよい。
 例えば、コンピュータ10は、IF部10eおよびネットワークを介して、図示しない他のコンピュータやデータベースと相互に通信可能に接続されてよい。なお、プログラム10hは、当該通信IFを介して、ネットワークからコンピュータ10にダウンロードされ、記憶部10dに格納されてもよい。
 IO部10fは、入力装置、および、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。また、IO部10fは、入力装置および出力装置が一体となったタッチパネル等を含んでもよい。出力装置は、グラフィック処理装置10bに接続されてよい。
 読取部10gは、記録媒体10iに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部10gは、記録媒体10iを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部10gとしては、例えば、USB(Universal Serial Bus)等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、SDカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体10iにはプログラム10hが格納されてもよく、読取部10gが記録媒体10iからプログラム10hを読み出して記憶部10dに格納してもよい。
 記録媒体10iとしては、例示的に、磁気/光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気/光ディスクとしては、例示的に、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)、ブルーレイディスク、HVD(Holographic Versatile Disc)等が挙げられる。フラッシュメモリとしては、例示的に、USBメモリやSDカード等の半導体メモリが挙げられる。
 上述したコンピュータ10のHW構成は例示である。従って、コンピュータ10内でのHWの増減(例えば任意のブロックの追加や削除)、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。
 (A-2)機能構成例
 図1に示すように、情報処理装置11は、例示的に、立体構造計算処理部101,グラフAI計算処理部102,グラフAI103,統計的特徴量処理部104,化学パラメータ計算処理部105,立体構造特徴量処理部106,グラフデータ整形処理部107,化学的特徴量処理部108,アミノ酸配列計算処理部109および回帰モデル110としての機能を備えてよい。これらの機能は、コンピュータ10(図3参照)のハードウェアにより実現されてよい。
 立体構造計算処理部101は、ウィルスの蛋白質の立体構造を解析する。立体構造計算処理部101は、ウィルスのアミノ酸配列が入力されると、アミノ酸の立体構造解析を行なう。立体構造計算処理部101は、解析結果として、アミノ酸の立体構造情報を出力する。アミノ酸の立体構造情報には、例えば、原子毎の座標等が含まれてよい。
 立体構造計算処理部101としての機能は、既知の蛋白質の構造計算ツールを用いて実現してよい。蛋白質の構造計算ツールとして、例えば、AlphaFold2を用いてよい。
 図4は一実施形態に係る情報処理装置1において立体構造計算処理部101が出力するアミノ酸立体構造情報を例示する図である。
 この図4においては、アミノ酸立体構造情報をデータテーブルの形式で表している。以下、アミノ酸立体構造情報を符号T2を付して表す場合がある。
 図4に例示するアミノ酸立体構造情報T2は、ウィルスを特定するNo.に対して各アミノ酸の座標値を対応付けて示している。
 各アミノ酸の座標値は、x,y,zの各座標値を含む。図4においては、例えば、アミノ酸x,アミノ酸y,アミノ酸zのそれぞれにアミノ酸番号0を付すことで、アミノ酸番号0のアミノ酸の座標を表している。
 アミノ酸立体構造情報T2においても、アミノ酸名の並び順は、例えば、先頭から末尾にかけてペプチド結合順に並べてよい。
 立体構造計算処理部101が出力するアミノ酸立体構造情報T2は、メモリ10cや記憶部10dの所定の記憶領域等に記憶されてよい。
 立体構造特徴量処理部106は、立体構造計算処理部101が作成したアミノ酸立体構造情報T2に基づいて立体構造特徴量を生成する。立体構造特徴量は、立体構造の特徴量を表し、ウィルスの蛋白質の立体構造に関する第1特徴量に相当する。
 立体構造特徴量処理部106は、既知の特徴量変換手法を用いて立体構造の特徴量を生成してよい。例えば、立体構造特徴量処理部106は、SVR(Support Vector Regression),NN(Neural Network),PCA(Principal Component Analysis)等の手法を用いて特徴量変換を行なってよい。
 立体構造特徴量処理部106は、以下の式(1)に基づいて立体構造特徴量fcube(t)を算出してよい。
 fcube(t) = Fcube(a(t), am(t),t ) ・・・(1)
 ここで、fcube(t) =[fcube,i(t)]i=1 Nで表され、時刻tの立体構造特徴量ベクトル(fcube,i(t)∈R,1≦i≦N)である。
 Nは、アミノ酸配列長、すなわち、ベクトルの次元数である。または、Nは、既知の固定ベクトルの生成手法により、配列から何等かの方法で一定の長さに加工した後の次元数である。
 tは、時刻である。tは、アミノ酸配列および抗原クラスタ名情報より抽出したものであって、年単位等に標本化されてよい。
 a(t)は、a(t)=[ai(t)]i=1 Nで表され、時刻tのアミノ酸配列ベクトル(ai(t)∈{j∈Z|1≦j≦20}, 1≦i≦N:20種類有るアミノ酸の名称と対応付く番号)である。
 am(t)は、時刻tのアミノ酸立体構造のエッジ情報(隣接行列等)である。
 Fcubeは、最も単純なものとして恒等写像(特徴量をそのまま出力)が考えられる。
 立体構造特徴量処理部106が算出した立体構造特徴量は、メモリ10cや記憶部10dの所定の記憶領域等に記憶されてよい。
 化学パラメータ計算処理部105は、立体構造計算処理部101が作成したアミノ酸立体構造情報に基づいて、ウィルスに含まれるアミノ酸毎に化学パラメータを生成する。化学パラメータは、例えば、電荷や露出表面積であってよい。化学パラメータ計算処理部105は、アミノ酸毎に露出表面積や電荷を算出してよい。
 化学パラメータ計算処理部105は、既知の種々な手法を用いることで化学パラメータを生成してよい。例えば、化学パラメータ計算処理部105は、既知の分子動力学シミュレータを用いることで露出表面積等の特徴量を算出してよい。
 図5は一実施形態に係る情報処理装置1において化学パラメータ計算処理部105が作成する化学パラメータ情報を例示する図である。
 この図5においては、化学パラメータ情報を、複数の化学パラメータを含むデータテーブルの形式で表している。以下、化学パラメータ情報に符号T3を付して表す場合がある。
 図5に例示する化学パラメータ情報T3は、ウィルスを特定するNo.に対して複数のアミノ酸の化学パラメータの値を対応付けて示している。
 図5においては、例えば、アミノ酸化学パラメータにアミノ酸番号0を付すことで、アミノ酸番号0のアミノ酸の化学パラメータを表している。
 化学パラメータ情報T3においても、アミノ酸名の並び順は、例えば、先頭から末尾にかけてペプチド結合順に並べてよい。
 また、化学パラメータ計算処理部105は、アミノ酸毎に複数種類の化学パラメータを生成してよい。
 化学パラメータ計算処理部105が生成した化学パラメータ情報は、メモリ10cや記憶部10dの所定の記憶領域等に記憶されてよい。
 化学的特徴量処理部108は、化学パラメータ計算処理部105が生成した化学パラメータに基づいて化学的特徴量を生成する。化学的特徴量は、化学パラメータの特徴量を表し、立体構造に起因する性質(露出表面積等)に関する第2特徴量に相当する。
 化学的特徴量処理部108は、既知の特徴量変換手法を用いて化学パラメータの特徴量を生成してよい。例えば、化学的特徴量処理部108は、SVR,NN,PCA等の手法を用いて特徴量変換を行なってよい。化学パラメータに基づいて化学的特徴量を生成することを特徴量変換といってよい。
 化学的特徴量処理部108は、以下の式(2)に基づいて化学的特徴量fchem(t)を算出してよい。
 fchem(t) = Fchem (a(t), am(t),t ) ・・・(2)
 ここで、fchem(t) =[fchem,i(t)]i=1 Nで表され、時刻tの化学的特徴量ベクトル(fchem,i(t)∈R,1≦i≦N)である。
 Fchemは、最も単純なものとして恒等写像(特徴量をそのまま出力)が考えられる。
 化学的特徴量処理部108が算出した化学的特徴量は、メモリ10cや記憶部10dの所定の記憶領域等に記憶されてよい。
 グラフデータ整形処理部107は、立体構造計算処理部101が作成したアミノ酸立体構造情報T2と、化学パラメータ計算処理部105が作成した化学パラメータ情報T3とに基づいてグラフ情報を作成する。グラフ情報をグラフデータといってよい。
 図6は一実施形態に係る情報処理装置1におけるグラフ情報を例示する図である。
 この図6においては、グラフ情報をデータテーブルの形式で表している。以下、グラフ情報を符号T4を付して表す場合がある。
 図7は一実施形態に係る情報処理装置1におけるグラフデータ整形処理部107の処理を説明するための図である。
 グラフデータ整形処理部107は、アミノ酸配列および抗原クラスタ名情報T1とアミノ酸立体構造情報を符号T2と化学パラメータ情報に符号T3とを結合(合成)して、グラフ情報T4を生成する。
 グラフ情報T4を生成する際に、グラフデータ整形処理部107は、アミノ酸配列および抗原クラスタ名情報T1とアミノ酸立体構造情報を符号T2と化学パラメータ情報に符号T3とをウィルスを特定するNo.を基準に結合させてよい。
 グラフAI計算処理部102は、グラフデータ整形処理部107が生成したグラフ情報T4に基づいて、グラフAI103に入力するためのデータ(グラフAI入力用情報T5:入力データ)を作成(整形)する。
 グラフAI計算処理部102は、作成したグラフ情報T4に含まれる複数のウィルスに関する情報を、それぞれグラフAI103が処理できるフォーマットのデータに変換することで、グラフAI入力用情報T5を生成する。
 また、グラフAI計算処理部102は、訓練フェーズにおいては、グラフAI入力用情報T5を用いて、グラフAI103の訓練(機械学習)を行なう。
 ここで、グラフAI103は、グラフベースの関係性学習を行なう機械学習モデルであって、グラフ分類(クラス分類)を実現する。
 グラフは、ノードの集合とそれらノード間のエッジの集合とを含んで構成される。グラフは、ノードとエッジとで特徴付けられる数理モデルであるといえる。
 グラフをウィルスに当てはめると、アミノ酸がノードに相当し、アミノ酸間の結合がエッジに相当する。アミノ酸間の結合は、例えば、ペプチド結合であってよく、また、静電気力による結合等、その他の結合であってもよい。
 グラフAI103は、これらのグラフとエッジの情報に基付いてグラフ分類を実施する。この際、アミノ酸立体構造を説明変数として用い、抗原クラスタ名を目的変数として用いてよい。
 グラフ分類において、各ノードに対するパラメータをノード属性として分類の手掛かりに用いてもよい。
 グラフAI103にグラフ分類を行なわせるには、グラフAI103にエッジを明示的に与える必要がある。そこで、グラフAI計算処理部102は、アミノ酸配列を基に隣接しているアミノ酸同士はエッジ有とする。その他、静電気力等で一定の距離の範囲内にあるアミノ酸同士はエッジ有としてよい。
 グラフAI103としての機能は、既知の手法を用いて実現することができる。例えば、グラフAI103としての機能を、Deep Tensor(登録商標)により実現してもよい。
 グラフAI計算処理部102は、グラフ情報T4に基づいて、ウィルスを構成するアミノ酸配列の各エッジについて、当該エッジが結合する2つのアミノ酸について、それぞれの属性を結合単位で並べることでグラフAI入力用情報T5を作成する。以下、エッジが結合する2つのアミノ酸を、アミノ酸対といってよい。アミノ酸対におけるエッジの始点となるアミノ酸を始ノードといってよく、また、エッジの終点となるアミノ酸を終ノードといってよい。
 図8は一実施形態に係る情報処理装置1におけるグラフAI入力用情報T5を説明するための図である。
 この図8においては、図6に例示したグラフ情報T4と、このグラフ情報T4に基づいてグラフAI計算処理部102が作成したグラフAI入力用情報T5とを示している。
 図8に例示するグラフAI入力用情報T5においては、エッジを特定するNo.に対して、当該エッジが結合するアミノ酸対の情報が対応付けられている。
 アミノ酸対の情報は、ウィルスを特定するNo.と、クラスタ名と、始点ノードおよび終点ノードそれぞれの、アミノ酸名,アミノ酸配列番号,化学パラメータおよびアミノ酸の座標値(x,y,z)とを含む。また、図8に示す例においては、始ノードの各情報の末尾にsを付すとともに、終ノードの各情報の末尾にeを付して表している。
 従って、例えば、アミノ酸名sは始ノードを表し、アミノ酸名eは終ノードを表す。また、アミノ酸配列番号s,化学パラメータs,アミノ酸xs,アミノ酸名ysおよびアミノ酸zsは、始ノードの属性情報(始ノード属性)を表す。同様に、アミノ酸配列番号e,化学パラメータe,アミノ酸xe,アミノ酸名yeおよびアミノ酸zeは、終ノードの属性情報(終ノード属性)を表す。
 グラフAI計算処理部102は、訓練フェーズにおいて、グラフAI入力用情報T5を 訓練情報として用いて、グラフAI103の訓練を行なう。
 図8に例示するグラフAI入力用情報T5において、クラスタ名は、グラフAI103の訓練フェーズにおける目的変数として用いられる。また、アミノ酸名s,アミノ酸名e,始ノード属性および終ノード属性の各情報は、グラフAI103の訓練フェーズにおける説明変数として用いられる。
 グラフAI103は、入力層と出力層との間に複数の隠れ層を含むディープニューラルネットワーク(Deep Neural Network:DNN)であってもよい。
 NNは、例えば、入力データを入力層に入力し、畳み込み層やプーリング層などで構成される隠れ層にて所定の計算を順次実行することで、演算により得られる情報を入力側から出力側に順次伝えるフォーワッド方向の処理(順伝播処理)を実行する。フォーワッド方向の処理の実行後、出力層から出力される出力データ(グラフ分類結果)と正解データ(クラスタ名)から得られる誤差関数の値を小さくするために、フォーワッド方向の処理で使用するパラメータを決定するバックワード方向の処理(逆伝播処理)とを実行する。そして、逆伝播処理の結果に基づいて重み等の変数を更新する更新処理が実行される。例えば、逆伝播処理の計算に使用される重みの更新幅を決定するアルゴリズムとして、勾配降下法が使用されてもよい。
 また、グラフAI計算処理部102は、予測フェーズにおいて、グラフAI入力用情報T5を入力データとして用いて、グラフAI103にグラフ分類を行なわせ、クラスタ名の予測(推論)を行なわせる。
 図8に例示するグラフAI入力用情報T5において、アミノ酸名s,アミノ酸名e,始ノード属性および終ノード属性の各情報が、グラフAI103に対して入力される。
 予測フェーズにおいては、前述したアミノ酸配列および抗原クラスタ名情報T1にクラスタ名は含まれないものとなる。従って、予測フェーズにおいてグラフAI103に入力されるグラフAI入力用情報T5にクラスタ名は含まれない。
 グラフAI計算処理部102は、グラフAI103に、ウィルスの蛋白質の立体構造に関する特徴量(立体構造特徴量)と、立体構造に起因する性質(化学的特徴量)に関する特徴量とを入力してアミノ酸の予測を行なわせる。
 また、グラフAI計算処理部102は、訓練フェーズおよび予測フェーズのそれぞれにおいて、グラフAI入力用情報T5をグラフAI103に入力して、グラフ分類(クラス分類)を行なわせた後に、統計情報の算出を行なわせる。
 統計情報は、例えば、グラフAI103がグラフ分類を行なう際に、予測結果を得るための寄与度(寄与度スコア,ノード寄与度)であってよい。統計情報を統計量といってもよい。グラフAI計算処理部102は、ウィルスに含まれるアミノ酸毎に統計量を得る。
 すなわち、グラフAI計算処理部102は、当該予測に関して、蛋白質に含まれる各アミノ酸の予測に対する寄与度に基づく特徴量(統計的特徴量)を取得する。
 図9は一実施形態に係る情報処理装置1における統計情報を例示する図である。
 この図9においては、複数の統計情報をデータテーブルの形式で表している。以下、統計情報に符号T6を付して表す場合がある。
 図9に例示する統計情報T6は、ウィルスを特定するNo.に対して複数のアミノ酸の統計情報の値を対応付けて示している。
 図9においては、例えば、アミノ酸統計量にアミノ酸番号0を付すことで、アミノ酸番号0のアミノ酸の統計情報を表している。
 統計情報T6においても、アミノ酸名の並び順は、例えば、先頭から末尾にかけてペプチド結合順に並べてよい。
 グラフAI計算処理部102が生成した統計情報は、メモリ10cや記憶部10dの所定の記憶領域等に記憶されてよい。
 グラフAI(グラフAI103)においては、寄与度は立体構造毎やアミノ酸毎に得られる。そこで、グラフAI計算処理部102は、例えば、クラスタ,年,アミノ酸毎等の所定の単位で寄与度の標本平均を求め、統計情報としても良い。
 グラフAI計算処理部102がグラフAI103に行なわせた予測結果や、グラフAI103に算出させた統計情報の各値は、メモリ10cや記憶部10dの所定の記憶領域等に記憶されてよい。
 図10は一実施形態に係る情報処理装置1のグラフAI計算処理部102の予測フェーズにおける処理を説明するための図である。
 グラフAI計算処理部102は、予測フェーズにおいて、グラフAI入力用情報T5をグラフAI103に入力して、グラフ分類を行なわせる(符号P1参照)。また、グラフAI計算処理部102は、グラフAI103が算出した統計情報(寄与度)を取得する(符号P2参照)。
 グラフAI計算処理部102は、予測フェーズにおいて、グラフAI入力用情報T5に含まれる値を変化させ、推論結果がどのように変化するかを確認し(符号P3参照)、推論結果が向上する場合に、グラフAI入力用情報T5に対して変化を反映させる等の処理を行なってもよい。
 統計的特徴量処理部104は、グラフAI計算処理部102がグラフAI103に算出させた統計情報T6に基づいて統計的特徴量を生成する。統計的特徴量は、統計情報(寄与度)の特徴量を表す。
 統計的特徴量は、立体構造特徴量と化学的特徴量とを入力データとしたグラフAI103(機械学習モデル)を用いた予測により、入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報(寄与度)に基づいて得られる第3特徴量に相当する。
 統計的特徴量処理部104は、既知の特徴量変換手法を用いて統計的特徴量を生成してよい。例えば、統計的特徴量処理部104は、SVR,NN,PCA等の手法を用いて特徴量変換を行なってよい。
 統計的特徴量処理部104は、以下の式(3)に基づいて統計的特徴量fstat(t)を算出してよい。
 fstat(t) = Fstat (a(t), am(t),t ) ・・・(3)
 ここで、fstat(t) =[fstat,i(t)]i=1 Nで表され、時刻tの統計的特徴量ベクトル(fstat,i(t)∈R,1≦i≦N)である。
 Fstatは、最も単純なものとして恒等写像(特徴量をそのまま出力)が考えられる。
 統計的特徴量処理部104が算出した統計的特徴量は、メモリ10cや記憶部10dの所定の記憶領域等に記憶されてよい。
 アミノ酸配列計算処理部109は、回帰モデル110を用いて変異後のウィルスのアミノ酸配列を予測する。
 アミノ酸配列計算処理部109は、訓練フェーズにおいて回帰モデル110の訓練を行ない、予測フェーズにおいて、回帰モデル110に変異後のアミノ酸配列の予測を行なわせる。
 アミノ酸配列計算処理部109は、立体構造特徴量処理部106が算出した立体構造特徴量fcube(t)と、化学的特徴量処理部108が算出した化学的特徴量fchem(t)と、統計的特徴量処理部104が算出した統計的特徴量fstat(t)とに基づいて、変異後のアミノ酸配列を予測する。また、この際、アミノ酸配列計算処理部109は、アミノ酸配列のエッジ情報am(t)も用いる。
 回帰モデル110は、例えば、SVR,NN,GA(Genetic Algorithms),時系列解析等の手法を用いて回帰を実現してよい。
 回帰モデル110は、入力層と出力層との間に複数の隠れ層を含むディープニューラルネットワーク(DNN)であってもよい。
 アミノ酸配列計算処理部109は、立体構造特徴量,化学的特徴量および統計的特徴量を入力特徴量(説明変数)として、変異後のウィルスのアミノ酸配列を予測する回帰モデル110の訓練と、訓練後の回帰モデル110を用いた変異予測を行なう。
 回帰モデル110においては、以下の式(4)を用いて変異後のアミノ酸配列を求める。
 a(t+nΔt)=Fa{fcube(t),fchem(t),fstat(t),am(t),…,fcube(t-nΔt),fchem(t-nΔt),fstat(t-nΔt),am(t-nΔt),t} ・・・(4)
 FaはSVRやLSTM、GA、時系列解析等であってよい。tは現在時刻である。t-Δtは現在よりΔtだけ過去の時刻を表す。t+Δtは現在よりもΔtだけ未来の時刻を表す。従って、a(t+nΔt)は未来のアミノ酸配列、すなわち、変異後のアミノ酸配列を表す。
 アミノ酸配列計算処理部109は、訓練フェーズにおいて、少なくとも、化学的特徴量(第2特徴量)と統計的特徴量(第3特徴量)とを説明変数(入力特徴量)として、回帰モデル110の訓練を行なう。
 また、アミノ酸配列計算処理部109は、訓練フェーズにおいて、化学的特徴量と統計的特徴量とに加えて、立体構造特徴量(第1特徴量)を説明変数(入力特徴量)としてよい。
 ここで、回帰計算は入出力のデータ長(ベクトル化した時の次元)が固定である事を想定している。しかしながら、ウィルス毎にアミノ酸の配列の長さは異なる。この為、異なる次元を固定的な次元へ変換する必要が有る。
 そこで、アミノ酸配列計算処理部109は、回帰モデル110に立体構造特徴量と化学的特徴量と統計的特徴量とを入力するに際して、これらの特徴量の次元を、回帰モデル110に合わせた固定的な次元へ変換する処理を行なう。
 図11は一実施形態に係る情報処理装置1のアミノ酸配列計算処理部109による処理を説明するための図である。
 図11において、符号AはグラフAI入力用情報T5から抽出した特徴量の行列(特徴量行列)を表す。
 アミノ酸配列計算処理部109は、各時刻における複数のウィルスの特徴量を抽出することで特徴量行列を作成する。
 アミノ酸配列計算処理部109は、例えば、時刻tにおける複数のウィルス1~vについて、ウィルスに含まれるアミノ酸配列の先頭から順にm個の特徴量をずらしながら順次抽出することで、m×(3×v0)の特徴量行列を複数生成する。
 各点線の矩形には、ウィルス毎の立体構造特徴量、化学的特徴量および統計的特徴量が含まれている。
 アミノ酸配列計算処理部109は、例えば、m-gramやEG-PSSM,GDPC-PSMM,ER-PSSM等の射影方法を用いることで、固定次元への変換を行ない、特徴量行列を作成してよい。例えば、m-gramは、アミノ酸の配列の先頭から順にm個の特徴量をベクトルとして使用(自然言語処理の真似)してよい。
 さらに、アミノ酸配列計算処理部109は、作成した各特徴量行列に対して圧縮(次元圧縮)を行ない、特徴量行列よりも低次元な行列(低次元行列)を作成する。これにより、アミノ酸配列計算処理部109は、各特徴量行列を回帰に入力可能なデータに整形する。
 アミノ酸配列計算処理部109は、例えば、平均や次元圧縮等の手法を適用して、特徴量行列の圧縮を行なってよい。
 図11においては、アミノ酸配列計算処理部109が、m×(3×v0)の特徴量行列を圧縮してm×m′の特徴量行列を生成した例を示す(符号B参照)。
 アミノ酸配列計算処理部109は、生成したm×m′の特徴量行列をベクトル化し、回帰モデル110に入力して(符号C参照)、変異後のアミノ酸配列を出力させる。図11に示す例においては、t+ΔtにおけるN行のアミノ酸配列が出力されている(符号D参照)。
 なお、訓練フェーズにおいて、回帰モデル110から複数の出力が得られて一つのアミノ酸配列に定まらない場合、すなわち、系統樹における刻み幅(Δt)中に複数のウィルスがある場合が想定される。このような場合には、系統樹を参照して、親が一つになるように階層の時間刻み幅(Δt)を調整してもよい。ここで、刻み幅(Δt)を小さくしてもよく、刻むステップ数(n)を調整してもよい。これにより、回帰モデル110が一つのアミノ酸配列を予測することができる。
 (B)動作
 上述の如く構成された一実施形態に係る情報処理装置1における訓練フェーズにおける処理を、図12に示すフローチャート(ステップA1~A8)に従って説明する。
 立体構造計算処理部101に、現在以前のウィルスのアミノ酸配列が入力されると、ステップA1において、立体構造計算処理部101が、アミノ酸の立体構造解析を行なう。立体構造計算処理部101はアミノ酸立体構造情報T2を生成する。
 アミノ酸立体構造情報T2は、立体構造特徴量処理部106に入力される。ステップA2において、立体構造特徴量処理部106は、アミノ酸立体構造情報T2に基づいて立体構造特徴量を生成する。
 また、アミノ酸立体構造情報T2は、化学パラメータ計算処理部105にも入力される。ステップA3において、化学パラメータ計算処理部105は、アミノ酸立体構造情報T2に基づいて、ウィルスに含まれるアミノ酸毎に化学パラメータを生成し、化学パラメータ情報T3を生成する。
 化学パラメータ計算処理部105によって生成された化学パラメータ情報T3は、化学的特徴量処理部108に入力される。ステップA4において、化学的特徴量処理部108は、化学パラメータ情報T3に基づいて化学的特徴量を生成する。
 また、立体構造計算処理部101が作成したアミノ酸立体構造情報T2と、化学パラメータ計算処理部105が作成した化学パラメータ情報T3とは、グラフデータ整形処理部107にも入力される。ステップA5において、グラフデータ整形処理部107は、これらのアミノ酸立体構造情報T2および化学パラメータ情報T3に基づいてグラフ情報T4を生成する。
 グラフデータ整形処理部107が生成したグラフ情報T4は、グラフAI103に入力される。グラフAI計算処理部102は、グラフ情報T4に基づいて、ウィルスを構成する各エッジについて、当該エッジが結合する2つのアミノ酸について、それぞれの属性を結合単位で並べることでグラフAI入力用情報T5を作成する。
 グラフAI計算処理部102は、グラフAI入力用情報T5を訓練情報として用いて、グラフAI103の訓練を行なう。グラフAI計算処理部102は、グラフAI103に統計情報(寄与度)を算出させ、統計情報T6を生成する。
 グラフAI計算処理部102が生成した統計情報T6は統計的特徴量処理部104に入力される。ステップA7において、統計的特徴量処理部104は、統計情報T6に基づいて統計的特徴量を生成する。
 立体構造特徴量処理部106が生成した立体構造特徴量と、化学的特徴量処理部108が生成した化学的特徴量と、統計的特徴量処理部104が生成した統計的特徴量とは、それぞれアミノ酸配列計算処理部109に入力される。
 ステップA8において、アミノ酸配列計算処理部109は、立体構造特徴量,化学的特徴量および統計的特徴量に対して固定次元への変換を行なった後、回帰モデル110に入力し、アミノ酸配列の予測を行なわせる。
 アミノ酸配列計算処理部109は、予測されたアミノ酸配列を、正解データ(変異後のアミノ酸配列)と比較する。アミノ酸配列計算処理部109は、この比較の結果、得られる誤差関数の値を小さくするために、フォーワッド方向の処理で使用するパラメータを決定するバックワード方向の処理(逆伝播処理)を実行する。アミノ酸配列計算処理部109は、逆伝播処理の結果に基づいて重み等の変数を更新する更新処理を実行する。
 上述の如く構成された一実施形態に係る情報処理装置1における予測フェーズにおいても同様の処理(ステップA1~A8)が行なわれる。
 ただし、立体構造計算処理部101に、現在のウィルスのアミノ酸配列が入力される。これにより、ステップA1において、立体構造計算処理部101が、アミノ酸の立体構造解析を行なう。立体構造計算処理部101はアミノ酸立体構造情報T2を生成する。
 アミノ酸立体構造情報T2は、立体構造特徴量処理部106に入力される。ステップA2において、立体構造特徴量処理部106は、アミノ酸立体構造情報T2に基づいて立体構造特徴量を生成(特徴量変換)する。
 また、アミノ酸立体構造情報T2は、化学パラメータ計算処理部105にも入力される。ステップA3において、化学パラメータ計算処理部105は、アミノ酸立体構造情報T2に基づいて、ウィルスに含まれるアミノ酸毎に化学パラメータを生成し、化学パラメータ情報T3を生成する。
 化学パラメータ計算処理部105によって生成された化学パラメータ情報T3は、化学的特徴量処理部108に入力される。ステップA4において、化学的特徴量処理部108は、化学パラメータ情報T3に基づいて化学的特徴量を生成(特徴量変換)する。
 また、立体構造計算処理部101が作成したアミノ酸立体構造情報T2と、化学パラメータ計算処理部105が作成した化学パラメータ情報T3とは、グラフデータ整形処理部107にも入力される。ステップA5において、グラフデータ整形処理部107は、これらのアミノ酸立体構造情報T2および化学パラメータ情報T3に基づいてグラフ情報T4を生成する。
 グラフデータ整形処理部107が生成したグラフ情報T4は、グラフAI103に入力される。グラフAI計算処理部102は、グラフ情報T4に基づいて、ウィルスを構成する各エッジについて、当該エッジが結合する2つのアミノ酸について、それぞれの属性を結合単位で並べることでグラフAI入力用情報T5を作成する。
 グラフAI計算処理部102は、グラフAI入力用情報T5をグラフAI103に入力して、統計情報(寄与度)を算出させ、統計情報T6を生成する。
 グラフAI計算処理部102が生成した統計情報T6は統計的特徴量処理部104に入力される。ステップA7において、統計的特徴量処理部104は、統計情報T6に基づいて統計的特徴量を生成(特徴量変換)する。
 立体構造特徴量処理部106が生成した立体構造特徴量と、化学的特徴量処理部108が生成した化学的特徴量と、統計的特徴量処理部104が生成した統計的特徴量とは、それぞれアミノ酸配列計算処理部109に入力される。
 ステップA8において、アミノ酸配列計算処理部109は、立体構造特徴量,化学的特徴量および統計的特徴量に対して固定次元への変換を行なった後、回帰モデル110に入力し、変異後のアミノ酸配列の予測を行なわせる。
 なお、予測フェーズにおいて回帰モデル110が出力したアミノ酸配列を、後続の訓練フェーズにおいて訓練データとして用いてもよい。
 次に、一実施形態に係る情報処理装置1のグラフAI計算処理部102の処理を、図13に示すフローチャート(ステップB1~B3)に従って説明する。
 ステップB1において、グラフAI計算処理部102は、グラフデータ整形処理部107が生成したグラフ情報T4を整形して、グラフAI入力用情報T5を作成する。
 訓練フェーズにおいて、グラフAI計算処理部102は、作成したグラフAI入力用情報T5を用いてグラフAI103の訓練を行なう(ステップB2)。
 この際、グラフAI計算処理部102は、グラフAI入力用情報T5のうちクラスタ名以外の情報を説明変数として用い、クラスタ名を目的変数として用いる。
 予測フェーズにおいて、グラフAI計算処理部102は、グラフAI入力用情報T5をグラフAI103に入力してグラフ分類を行なわせ、クラスタ名の予測(推論)を行なわせる(ステップB3)。この際、グラフAI計算処理部102は、グラフAI入力用情報T5のうちクラスタ名以外の情報を説明変数として用いる。
 また、グラフAI計算処理部102は、グラフAI103に統計情報の算出を行なわせる。その後、処理を終了する。
 (C)効果
 このように、一実施形態に係る情報処理装置1によれば、変異後のウィルスのアミノ酸配列を予測する回帰モデル110を訓練する訓練フェーズにおいて、グラフAI計算処理部102が、ウィルスの蛋白質の立体構造に関する立体構造特徴量(第1特徴量)と、立体構造に起因する性質に関する化学的特徴量(第2特徴量)とを入力として、グラフAI103にグラフ分類(予測)を行なわせる。
 統計的特徴量処理部104が、このグラフ分類に伴って算出された統計情報(寄与度)に基づいて統計的特徴量(第3特徴量)を算出する。
 そして、アミノ酸配列計算処理部109が、少なくとも、化学的特徴量と統計的特徴量とを入力特徴量として、回帰モデル110の訓練を行なう。
 これにより、回帰モデル110において、ウィルスの蛋白質の立体構造が回帰モデル110に反映される。従って、予測フェーズにおいて、回帰モデル110がウィルスの蛋白質の立体構造特有の性質を考慮したウィルスの変異の予測を行なうことができ、予測精度が向上する。
 アミノ酸配列計算処理部109が、少なくとも、化学的特徴量と統計的特徴量とに加え、立体構造特徴量も入力特徴量として、回帰モデル110の訓練を行なうことで、回帰モデル110に、ウィルスの蛋白質の立体構造が回帰モデル110により多く反映することができる。これにより、ウィルスの蛋白質の立体構造特有の性質を考慮したウィルスの変異の予測をより高精度に行なうことができる。
 蛋白質は複数のアミノ酸がペプチド結合を成した物であり、アミノ酸配列はこの結合順にアミノ酸名を並べた配列である。ただし、アミノ酸配列では離れたアミノ酸同士も、静電気力等で結合する事が有り、特有の形状や性質を持つ事が有る。すなわち、特有の形状や性質により、アミノ酸配列は同じでも異なる特徴量を取り得る。
 本情報処理装置1においては、蛋白質の立体構造に基づく特徴量を手掛かりとしてウィルスの変異を予測する事で、予測精度を向上させることができる。
 アミノ酸配列計算処理部109が、回帰モデル110に立体構造特徴量と化学的特徴量と統計的特徴量とを入力するに際して、これらの特徴量の次元を、回帰モデル110に合わせた固定的な次元へ変換する処理を行なう。これにより、回帰モデル110による立体構造特徴量と化学的特徴量と統計的特徴量を入力とする予測を実現可能とする。
 また、この際、SVRやNN,PCA等の回帰、次元圧縮や、m-gram等の固定次元のベクトルへの変換、固定次元のベクトルへの生成を行なうことで、Faを計算し易くし、また、予測精度を向上させることもできる。
 (D)その他
 開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
 例えば、上述した実施形態においては、統計情報として寄与度を用いた例を示しているが、これに限定されるものではなく、寄与度以外の情報を統計情報として用いてよい。
 また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。
 1  情報処理装置
 10  コンピュータ
 10a  プロセッサ
 10b  グラフィック処理装置
 10c  メモリ
 10d  記憶部
 10e  IF部
 10f  IO部
 10g  読取部
 10h  プログラム
 10i  記録媒体
 10j  バス
 101  立体構造特徴量処理部
 102  グラフAI計算処理部
 103  グラフAI
 104  統計的特徴量処理部
 105  化学パラメータ計算処理部
 106  立体構造特徴量処理部
 107  グラフデータ整形処理部
 108  化学的特徴量処理部
 109  アミノ酸配列計算処理部
 110  回帰モデル
 T1  アミノ酸配列および抗原クラスタ名情報
 T2  アミノ酸立体構造情報
 T3  化学パラメータ情報
 T4  グラフ情報
 T5  グラフAI入力用情報
 T6  統計情報

Claims (15)

  1.  ウィルスの蛋白質の立体構造に関する第1特徴量と、立体構造に起因する性質に関する第2特徴量と、を入力データとした機械学習モデルを用いた予測により、前記入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報に基づく第3特徴量を取得し、
     前記第2特徴量と前記第3特徴量とを入力特徴量として、変異後の前記ウィルスのアミノ酸配列を予測する回帰モデルの訓練を行なう
    処理をコンピュータに実行させることを特徴とする情報処理プログラム。
  2.  前記回帰モデルの訓練を行なう処理においては、
     前記第2特徴量と前記第3特徴量に加え前記第1特徴量を前記入力特徴量とする
    ことを特徴とする、請求項1に記載の情報処理プログラム。
  3.  前記蛋白質のアミノ酸の立体構造解析を行なうことで、アミノ酸立体構造情報を生成し、
     前記アミノ酸立体構造情報に対して特徴量変換を行なうことで、前記立体構造特徴量を算出する
    処理を前記コンピュータに実行させることを特徴とする請求項1または2に記載の情報処理プログラム。
  4.  前記アミノ酸立体構造情報に基づいて、前記ウィルスに含まれるアミノ酸毎に化学パラメータ情報を算出し、
     前記化学パラメータ情報に対して特徴量変換を行なうことで化学的特徴量を生成する
    処理を前記コンピュータに実行させることを特徴とする請求項3に記載の情報処理プログラム。
  5.  少なくとも前記第2特徴量と前記第3特徴量とを前記回帰モデルに入力する前に、前記第2特徴量と前記第3特徴量の次元を、前記回帰モデルに合わせた固定的な次元へ変換する
    処理を前記コンピュータに実行させることを特徴とする、請求項1に記載の情報処理プログラム。
  6.  ウィルスの蛋白質の立体構造に関する第1特徴量と、立体構造に起因する性質に関する第2特徴量と、を入力データとした機械学習モデルを用いた予測により、前記入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報に基づく第3特徴量を取得し、
     前記第2特徴量と前記第3特徴量とを入力特徴量として、変異後の前記ウィルスのアミノ酸配列を予測する回帰モデルの訓練を行なう
    処理をコンピュータが実行することを特徴とする情報処理方法。
  7.  前記回帰モデルの訓練を行なう処理においては、
     前記第2特徴量と前記第3特徴量に加え前記第1特徴量を前記入力特徴量とする
    ことを特徴とする、請求項6に記載の情報処理方法。
  8.  前記蛋白質のアミノ酸の立体構造解析を行なうことで、アミノ酸立体構造情報を生成し、
     前記アミノ酸立体構造情報に対して特徴量変換を行なうことで、前記立体構造特徴量を算出する
    処理を前記コンピュータが実行することを特徴とする請求項6または7に記載の情報処理方法。
  9.  前記アミノ酸立体構造情報に基づいて、前記ウィルスに含まれるアミノ酸毎に化学パラメータ情報を算出し、
     前記化学パラメータ情報に対して特徴量変換を行なうことで化学的特徴量を生成する
    処理を前記コンピュータが実行することを特徴とする請求項8に記載の情報処理方法。
  10.  少なくとも前記第2特徴量と前記第3特徴量とを前記回帰モデルに入力する前に、前記第2特徴量と前記第3特徴量の次元を、前記回帰モデルに合わせた固定的な次元へ変換する
    処理を前記コンピュータが実行することを特徴とする、請求項6に記載の情報処理方法。
  11.  ウィルスの蛋白質の立体構造に関する第1特徴量と、立体構造に起因する性質に関する第2特徴量と、を入力データとした機械学習モデルを用いた予測により、前記入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報に基づく第3特徴量を取得し、
     前記第2特徴量と前記第3特徴量とを入力特徴量として、変異後の前記ウィルスのアミノ酸配列を予測する回帰モデルの訓練を行なう
    処理を実行する制御部を含むことを特徴とする情報処理装置。
  12.  前記制御部が、
     前記回帰モデルの訓練を行なう処理において、
     前記第2特徴量と前記第3特徴量に加え前記第1特徴量を前記入力特徴量とする
    ことを特徴とする、請求項11に記載の情報処理装置。
  13.  前記制御部が、
     前記蛋白質のアミノ酸の立体構造解析を行なうことで、アミノ酸立体構造情報を生成し、
     前記アミノ酸立体構造情報に対して特徴量変換を行なうことで、前記立体構造特徴量を算出する
    処理を実行することを特徴とする請求項11または12に記載の情報処理装置。
  14.  前記制御部が、
     前記アミノ酸立体構造情報に基づいて、ウィルスに含まれるアミノ酸毎に化学パラメータ情報を算出し、
     前記化学パラメータ情報に対して特徴量変換を行なうことで化学的特徴量を生成する
    処理を実行することを特徴とする請求項13に記載の情報処理装置。
  15.  前記制御部が、
     少なくとも前記第2特徴量と前記第3特徴量とを前記回帰モデルに入力する前に、前記第2特徴量と前記第3特徴量の次元を、前記回帰モデルに合わせた固定的な次元へ変換する
    処理を実行することを特徴とする、請求項11に記載の情報処理装置。
PCT/JP2023/005471 2023-02-16 2023-02-16 情報処理プログラム,情報処理方法および情報処理装置 WO2024171375A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/005471 WO2024171375A1 (ja) 2023-02-16 2023-02-16 情報処理プログラム,情報処理方法および情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/005471 WO2024171375A1 (ja) 2023-02-16 2023-02-16 情報処理プログラム,情報処理方法および情報処理装置

Publications (1)

Publication Number Publication Date
WO2024171375A1 true WO2024171375A1 (ja) 2024-08-22

Family

ID=92421115

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/005471 WO2024171375A1 (ja) 2023-02-16 2023-02-16 情報処理プログラム,情報処理方法および情報処理装置

Country Status (1)

Country Link
WO (1) WO2024171375A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120265513A1 (en) * 2011-04-08 2012-10-18 Jianwen Fang Methods and systems for designing stable proteins
WO2022019331A1 (ja) * 2020-07-22 2022-01-27 国立大学法人東北大学 ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120265513A1 (en) * 2011-04-08 2012-10-18 Jianwen Fang Methods and systems for designing stable proteins
WO2022019331A1 (ja) * 2020-07-22 2022-01-27 国立大学法人東北大学 ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム

Similar Documents

Publication Publication Date Title
Nuin et al. The accuracy of several multiple sequence alignment programs for proteins
US11256994B1 (en) System and method for prediction of protein-ligand bioactivity and pose propriety
Higham et al. Fitting a geometric graph to a protein–protein interaction network
CN113707235A (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
JP7133894B2 (ja) データに基づくインタラクティブ3dエクスペリエンス
WO2019088972A1 (en) Training tree-based machine-learning modeling algorithms for predicting outputs and generating explanatory data
Aguilera-Mendoza et al. Automatic construction of molecular similarity networks for visual graph mining in chemical space of bioactive peptides: an unsupervised learning approach
US20220188652A1 (en) System and method for de novo drug discovery
EA003796B1 (ru) Способ (варианты) и устройство воспроизведения данных о сходстве объектов в многомерном пространстве
KR20190049537A (ko) 심화 학습 기반의 약물-표적 단백질 간 상호작용 예측 시스템 및 그 방법
US11354582B1 (en) System and method for automated retrosynthesis
JP7419711B2 (ja) 量子化パラメータ最適化方法、及び、量子化パラメータ最適化装置
JP2022533704A (ja) 機械学習ベースの符号化を使用した電子回路レイアウト内のパターンの分類
CN114175060A (zh) 用于量子计算设备的测量序列确定
CN116235191A (zh) 选择用于训练模型的训练数据集
JP2015122068A (ja) Cadベースの初期表面形状補正
US9495798B2 (en) Method and device for producing a finite element model
KR20210026543A (ko) 복수의 인공신경망 모델 기반 단백질 결합 화합물의 활성 예측 시스템
US11568961B2 (en) System and method for accelerating FEP methods using a 3D-restricted variational autoencoder
WO2024171375A1 (ja) 情報処理プログラム,情報処理方法および情報処理装置
Zeng et al. A nearsighted force-training approach to systematically generate training data for the machine learning of large atomic structures
Bernard et al. Stochastic L-system inference from multiple string sequence inputs
US20230409911A1 (en) Information processing device, information processing method, and non-transitory computer-readable recording medium storing information processing program
Davis et al. A centroid‐based sampling strategy for kriging global modeling and optimization
Durumeric et al. Explaining classifiers to understand coarse-grained models

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23922712

Country of ref document: EP

Kind code of ref document: A1