WO2022118607A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2022118607A1
WO2022118607A1 PCT/JP2021/040948 JP2021040948W WO2022118607A1 WO 2022118607 A1 WO2022118607 A1 WO 2022118607A1 JP 2021040948 W JP2021040948 W JP 2021040948W WO 2022118607 A1 WO2022118607 A1 WO 2022118607A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
protein
sequence
feature amount
learning
Prior art date
Application number
PCT/JP2021/040948
Other languages
English (en)
French (fr)
Inventor
諭志 河田
裕大 櫻井
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/254,883 priority Critical patent/US20240013863A1/en
Publication of WO2022118607A1 publication Critical patent/WO2022118607A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Definitions

  • This technique relates to an information processing device, an information processing method, and a program applicable to the prediction of the three-dimensional structure of a protein.
  • Patent Document 1 discloses a machine learning algorithm for predicting a distance map showing the distance between amino acid residues constituting a protein.
  • a distance map is predicted and output by a neural network by inputting an amino acid sequence contained in a protein and a feature amount of the amino acid sequence.
  • the purpose of this technique is to provide an information processing device, an information processing method, and a program capable of predicting information on proteins with high accuracy.
  • the information processing apparatus includes an acquisition unit, an inversion unit, and a generation unit.
  • the acquisition unit acquires sequence information regarding a genomic sequence.
  • the inversion unit generates inversion information in which the sequence is inverted based on the arrangement information.
  • the generator generates protein information about the protein based on the inversion information.
  • sequence information related to the genome sequence is acquired by the acquisition unit.
  • the inversion unit generates inversion information in which the array is inverted based on the arrangement information.
  • the generator generates protein information about the protein based on the inversion information. This makes it possible to predict information about proteins with high accuracy.
  • the sequence information may be information regarding at least one of an amino acid sequence, a DNA sequence, or an RNA sequence.
  • the generation unit includes a first prediction unit that predicts the first protein information based on the sequence information, a second prediction unit that predicts the second protein information based on the inversion information, and the above-mentioned. It may have an integration unit that generates the protein information by integrating the first protein information and the second protein information.
  • the protein information may include at least one of the structure of the protein or the function of the protein.
  • the protein information may include at least one of a contact map showing the binding between the amino acid residues constituting the protein, a distance map showing the distance between the amino acid residues constituting the protein, or the tertiary structure of the protein. good.
  • the integrated unit may predict the protein information by executing machine learning by inputting the first protein information and the second protein information.
  • the first prediction unit predicts the first protein information by executing machine learning with the sequence information as an input, and the second prediction unit executes machine learning with the inversion information as an input. By doing so, the second protein information may be predicted.
  • the integration unit receives the first protein information for learning predicted by inputting the sequence information for learning associated with the correct answer data, and the inversion information generated based on the sequence information for learning. It may include a machine learning model for integration learned based on an error between the protein information predicted by inputting the second protein information for learning predicted by inputting the data and the correct answer data.
  • the first prediction unit may include a first machine learning model learned based on an error between the first protein information for learning and the correct answer data.
  • the first machine learning model comprises the protein information predicted by inputting the first protein information for learning and the second protein information for learning, and the correct answer data. It may be relearned based on the error.
  • the second prediction unit may include a second machine learning model learned based on an error between the second protein information for learning and the correct answer data.
  • the second machine learning model comprises the protein information predicted by inputting the first protein information for learning and the second protein information for learning, and the correct answer data. It may be relearned based on the error.
  • the information processing device may further include a feature amount calculation unit that calculates a feature amount based on the sequence information.
  • the generation unit may generate the protein information based on the feature amount.
  • the feature amount calculation unit calculates the first feature amount based on the sequence information, and the first prediction unit calculates the first feature amount based on the sequence information and the first feature amount.
  • the protein information may be predicted, and the second prediction unit may predict the second protein information based on the inversion information and the first feature amount.
  • the feature amount calculation unit calculates the first feature amount based on the sequence information, calculates the second feature amount based on the inversion information, and the first prediction unit calculates the sequence information and the sequence information.
  • the first protein information is predicted based on the first feature amount, and the second prediction unit predicts the second protein based on the inversion information and the second feature amount. Information may be predicted.
  • the first prediction unit is predicted by inputting the sequence information for learning associated with the correct answer data and the first feature amount for learning calculated based on the sequence information for learning. It may include a first machine learning model learned based on an error between the first protein information and the correct answer data.
  • the second prediction unit inputs the inversion information generated based on the sequence information for learning and the first feature amount for learning calculated based on the sequence information for learning. It may include a second machine learning model learned based on the error between the predicted second protein information and the correct answer data.
  • the second prediction unit was predicted by inputting the inversion information generated based on the sequence information for learning and the second feature amount for learning calculated based on the inversion information.
  • a second machine learning model learned based on the error between the second protein information and the correct answer data may be included.
  • the feature may include at least one of the secondary structure of the protein, annotation information about the protein, catalytic contact of the protein, or mutual potential between amino acid residues constituting the protein.
  • the sequence information is information indicating the binding order of amino acid residues constituting the protein from the N-terminal side, and the inversion information indicates the binding order of amino acid residues constituting the protein from the C-terminal side. It may be information.
  • the information processing method is an information processing method executed by a computer system and includes acquiring sequence information related to a genomic sequence. Based on the sequence information, the inverted information in which the sequence is inverted is generated. Based on the inversion information, the first protein information about the protein is predicted.
  • the program causes a computer system to perform the following steps. Steps to get sequence information about a genomic sequence. A step of generating inverted information in which an array is inverted based on the array information. A step of predicting a first protein information about a protein based on the inversion information.
  • FIG. 1 is a schematic diagram showing a configuration example of a protein analysis system according to an embodiment of the present technique.
  • FIG. 2 is a flowchart showing an example of protein information generation by a protein analysis system.
  • the protein analysis system corresponds to one embodiment of the information processing system according to the present technology.
  • the protein analysis system 100 can acquire sequence information 1 regarding a genomic sequence and generate protein information 2 based on the acquired sequence information 1.
  • sequence information 1 regarding the genome sequence information regarding at least one of an amino acid sequence, a DNA (deoxyribonucleic acid) sequence, or an RNA (ribonucleic acid) sequence is acquired.
  • the protein information 2 includes arbitrary information about the protein.
  • protein information 2 information regarding at least one of the structure of the protein or the function of the protein is generated.
  • any information about the protein may be generated.
  • the protein analysis system 100 includes a sequence information DB (database) 3 and an information processing device 4.
  • the sequence information 1 is stored in the sequence information DB 3.
  • the sequence information 1 may be registered in the sequence information DB 3 by a user (operator) or the like.
  • the sequence information 1 may be automatically collected via a network or the like.
  • the array information DB 3 is composed of a storage device such as an HDD or a flash memory.
  • the array information DB 3 is constructed by a storage device external to the information processing apparatus 4.
  • the sequence information DB 3 may be constructed by the storage device provided in the information processing apparatus 4. In this case, including the storage device, it functions as an embodiment of the information processing apparatus 4.
  • the information processing device 4 has hardware necessary for configuring a computer, such as a processor such as a CPU, GPU, and DSP, a memory such as ROM and RAM, and a storage device such as an HDD (see FIG. 18).
  • a computer such as a processor such as a CPU, GPU, and DSP, a memory such as ROM and RAM, and a storage device such as an HDD (see FIG. 18).
  • the information processing method according to the present technology is executed by the CPU loading and executing the program according to the present technology recorded in advance in the ROM or the like into the RAM.
  • the information processing apparatus 4 can be realized by any computer such as a PC (Personal Computer). Of course, hardware such as FPGA and ASIC may be used.
  • the acquisition unit 5, the inversion unit 6, and the generation unit 7 as functional blocks are configured by the CPU or the like executing a predetermined program.
  • the program is installed in the information processing apparatus 4 via, for example, various recording media. Alternatively, the program may be installed via the Internet or the like.
  • the type of recording medium on which the program is recorded is not limited, and any computer-readable recording medium may be used. For example, any non-transient storage medium readable by a computer may be used.
  • the acquisition unit 5 acquires sequence information 1 regarding the genome sequence.
  • the acquisition unit 5 acquires the sequence information 1 stored in the sequence information DB 3.
  • the inversion unit 6 generates inversion information in which the array is inverted based on the array information 1.
  • the generation unit 7 generates protein information 2 regarding the protein based on the inversion information.
  • the generation of the protein information 2 based on the inversion information includes the generation of the protein information 2 by an arbitrary generation method (algorithm) using the inversion information.
  • FIG. 3 is a schematic diagram showing an example of the sequence information 1.
  • the amino acid sequence is acquired as the sequence information 1.
  • a character string in which the amino acid sequences constituting the protein are expressed in alphabets is acquired by the acquisition unit 5.
  • the structure of a protein can be represented by a sequence of amino acid residues.
  • a protein having a function is composed of tens to thousands of amino acid residues, and if these amino acid residues are expressed by a demonstrative formula or the like, it becomes very redundant. Therefore, in order to simply describe the sequence of amino acid residues, a method of expressing the type of amino acid residue by one letter of the alphabet is often used.
  • the glycine residue is represented by "G” and the alanine residue is represented by "A”.
  • each of the 22 kinds of amino acid residues is represented by one letter of the alphabet.
  • such a character string of the alphabet is acquired by the acquisition unit 5 as an amino acid sequence.
  • the character string of the alphabet expressing the sequence of such amino acid residues is called a primary structure.
  • sequence information 1 is information indicating the binding order of the amino acid residues constituting the protein from the N-terminal side.
  • the "N" and “C” described at both ends of the sequence information 1 indicate the positions of the residues corresponding to the N-terminal and the C-terminal.
  • "S” described at the left end of sequence information 1 is an alphabet indicating a serine residue.
  • the serine residue is a residue corresponding to the N-terminal.
  • sequence information 1 shown in FIG. 3 shows a sequence in which the residues are arranged in the order of serine residue, glutamine residue, ..., Glutamic acid residue.
  • the amino acid sequence thus expressed is acquired by the acquisition unit 5.
  • the method of expressing the sequence of amino acids is not limited to the character string of the alphabet.
  • information in which the amino acid sequence is represented by a structural formula, a demonstrative formula, or the like may be acquired as sequence information 1.
  • the base sequence of the DNA molecule is acquired.
  • the base constituting DNA there are four kinds of substances, adenine, guanine, cytosine, and thymine.
  • the order of binding of four types of substances is called a base sequence.
  • Each base is often represented by a one-letter abbreviation.
  • adenine is represented by "A”.
  • guanine is represented by "G”
  • cytosine is represented by "C”
  • thymine is represented by "T”.
  • the acquisition unit 5 acquires the sequence of DNA whose base sequence is represented by a character string of the alphabet as sequence information 1.
  • the structural formula, the demonstrative formula, and the like of the DNA molecule may be acquired as a DNA sequence.
  • the base sequence of the RNA molecule may be acquired.
  • RNA Ribonucleic acid
  • adenine is represented by "A”
  • guanine is represented by "G”
  • cytosine is represented by "C”
  • Uracil is represented by "U”.
  • the acquisition unit 5 acquires an RNA sequence in which the base sequence is represented by a character string of the alphabet as sequence information 1.
  • the structural formula, the demonstrative formula, and the like of the RNA molecule may be acquired as an RNA sequence.
  • proteins are produced based on DNA sequences. Specifically, DNA is transcribed to produce RNA. RNA is translated to produce amino acids. Then, a protein is produced by the binding of each amino acid. That is, the DNA sequence, the RNA sequence, and the amino acid sequence are information associated with each other.
  • the acquisition unit 5 acquires sequence information 1 regarding the genome sequence.
  • Genome sequence is a term that means a base sequence of DNA and a base sequence of RNA. Therefore, the DNA sequence and the RNA sequence are included in the sequence information 1 regarding the genomic sequence.
  • the amino acid sequence is a sequence generated based on a DNA sequence or an RNA sequence. Therefore, the amino acid sequence is also included in the sequence information 1 regarding the genomic sequence.
  • the information acquired as the sequence information 1 is not limited, and any information regarding the genome sequence may be acquired.
  • acquisition of information includes generating such information. Therefore, the sequence information 1 may be generated by the acquisition unit 5.
  • the method of generating the sequence information 1 by the acquisition unit 5 is not limited.
  • FIG. 4 is a schematic diagram for explaining inversion information.
  • FIG. 4 shows an example of the sequence information 1 and the inversion information 10 generated by the inversion unit 6.
  • the inversion information 10 is information in which the array of the sequence information 1 is inverted. Specifically, information in which the order of the alphabets indicating the sequences of amino acid residues is reversed is generated as inversion information 10. For example, "E” located at the right end of the sequence information 1 is located at the left end of the inversion information 10. Further, “C” located second from the right end of the sequence information 1 is located second from the left end of the inversion information 10. Further, “S” located at the left end of the sequence information 1 is located at the right end of the inversion information 10. In this way, the inversion unit 6 executes the process of reversing the order of the alphabets in the arrangement information 1, and the inversion information 10 is generated. Therefore, the inversion information 10 is information indicating the binding order of the sequence information 1 from the C-terminal side.
  • FIG. 5 is a schematic diagram for explaining protein information 2.
  • the protein information 2 is generated by the generation unit 7 based on the inversion information 10 generated by the inversion unit 6.
  • FIG. 5 shows schematic diagrams representing tertiary structure 13, contact map 14, and distance map 15 as an example of the protein information 2 produced.
  • tertiary structure 13 When a protein is produced by binding amino acids to each other, the protein is folded according to the sequence of amino acids and has a unique three-dimensional structure. Such a three-dimensional structure taken by a protein is called tertiary structure 13. In addition, folding of a protein may be referred to as folding.
  • the amino acid sequence is information indicating the simple binding order of the amino acids constituting the protein.
  • Tertiary structure 13 contains information such as how the protein is folded and what shape it has as a whole.
  • Tertiary structure 13 can be defined, for example, by the three-dimensional coordinates of each amino acid residue.
  • the relative coordinates of each amino acid residue are defined with reference to the coordinates of a certain amino acid residue.
  • the method for defining the three-dimensional coordinates of each amino acid residue is not limited and may be set arbitrarily.
  • any coordinate system such as a Cartesian coordinate system or a polar coordinate system may be used.
  • three-dimensional coordinates such as atoms, molecules, and functional groups constituting the protein may be generated as the tertiary structure 13.
  • information other than the three-dimensional coordinates may be generated.
  • information such as the folding position of the protein and the folding angle may be generated.
  • any information that can indicate the three-dimensional structure taken by the protein may be used as the tertiary structure 13.
  • the contact map 14 is information showing the bonds between amino acid residues constituting the protein. That is, the contact map 14 is a map showing the presence or absence of binding between residues. For example, as the contact map 14, a two-dimensional square map is used. Residue numbers are assigned to the vertical and horizontal axes of the map. The residue number is a number indicating the number of amino acid residues attached to the protein. For example, in a protein having sequence information 1 as shown in FIG. 3, the “S” located at the left end of the sequence, that is, the serine residue corresponds to the residue of residue number 1. Further, the "Q" located second from the left end, that is, the glutamine residue corresponds to the residue of residue number 2. In this way, the residue numbers are assigned in order from the residue located on the left side in the sequence information 1.
  • the points on the map of the positions corresponding to the two residue numbers are shown in white. If not combined, it is shown in black.
  • the contact map 14 is a map symmetrical with respect to the diagonal line (a set of points where the residue numbers on the vertical axis and the horizontal axis match).
  • the color or the like for expressing the combined state is not limited. For example, the combined state may be expressed by a color other than white and black.
  • the contact map 14 is a map showing the binding state between residues for all combinations of residues.
  • the contact map 14 makes it possible to estimate the three-dimensional structure of a protein, such as how the protein is bent. For example, suppose that the information that the residue No. 80 and the residue No. 150 are bound is obtained from the contact map 14. However, since the residue No. 80 and the residue No. 150 are located at distant positions on the sequence, they are not bound by a peptide bond. From this, it can be considered that the protein is bent at any position between the residue of No. 80 and the residue of No. 150, and the residue is bound by ionic bonding or the like. In this way, it is possible to estimate the three-dimensional structure, such as how the protein is bent, from the contact map 14.
  • the contact map 14 corresponds to an embodiment of protein information according to the present technology.
  • the distance map 15 is a map showing the distances between amino acid residues.
  • a two-dimensional square map is used as in the contact map 14.
  • residue numbers are assigned to the vertical axis and the horizontal axis of the map.
  • the distance between two amino acid residues is represented by monochrome lightness.
  • the distance between amino acid residues is expressed in a monochrome color with higher brightness as the distance is shorter.
  • a state in which the distance between amino acid residues is short is expressed by a color close to white.
  • a state in which the distance between amino acid residues is long is represented by a color close to black.
  • the method of expressing the distance between amino acid residues is not limited.
  • the distance may be expressed by the lightness, saturation, hue, etc. of the color color.
  • the distance map 15 is a map symmetrical with respect to the diagonal line.
  • the distance map 15 is a map showing the distances between amino acid residues for all combinations of residues. Similar to the contact map 14, the distance map 15 makes it possible to estimate the three-dimensional structure of the protein.
  • the distance map 15 corresponds to an embodiment of protein information according to the present technology.
  • protein information 2 at least one of the structure of the protein and the function of the protein is generated.
  • the structure of a protein is the arrangement and relationship of the partial elements that make up the protein.
  • information such as the three-dimensional coordinates of the residue as described above and the folding position and angle of the protein correspond to the structure of the protein.
  • coordinates at which each bond is located such as a hydrogen bond or an ionic bond, may be generated.
  • the information generated as the structure of the protein is not limited.
  • the tertiary structure 13, contact map 14, and distance map 15 shown in FIG. 5 are included in the information regarding the structure of the protein.
  • the function of a protein is, for example, a function of a protein in a living body.
  • the functions of proteins include, for example, a contractile function that moves the body, a transport function that carries nutrients and oxygen, and an immune function.
  • the information generated as a function of the protein is not limited.
  • the function of the protein may appear due to the structure of the protein. For example, it is known that an antibody protein having an immune function has a Y-shaped shape and catches a foreign substance in the two arms. Thus, as the structure of the protein is generated, the function of the protein may become clear.
  • the protein information 2 generated by the protein analysis system 100 is not limited, and arbitrary information regarding the protein may be generated.
  • the protein information 2 generated by the generation unit 7 is stored in, for example, a storage device in the information processing apparatus 4. Further, for example, a database may be constructed in a storage device external to the information processing apparatus 4, and protein information may be output to the database. In addition, the output method and storage method of the generated protein information 2 are not limited.
  • sequence information 1 is the amino acid sequence. It is possible to execute without being limited to the case of.
  • sequence information 1 is a DNA sequence
  • the base sequence of the DNA expressed as "GAATTC” is inverted by the inversion unit 6 in the same process.
  • protein information 2 is generated by the generation unit 7 based on the inverted character string.
  • sequence information 1 is an RNA sequence
  • the inversion by the inversion unit 6 and the generation by the generation unit 7 are executed by the same processing.
  • the series of processes may include a process corresponding to the translation of the base sequence.
  • the information processing apparatus 4 has a translation unit (not shown), and the translation unit first executes a process corresponding to the translation of the base sequence.
  • the sequence information 1 is a DNA sequence
  • the portion of the DNA base sequence that was thymine (T) is replaced with uracil (U), and a process of generating an RNA base sequence is executed.
  • a process of translating the base sequence of three RNAs into one amino acid and generating the amino acid sequence may be executed based on the genetic code table.
  • the inversion unit 6 Based on the amino acid sequence thus generated, the inversion unit 6 generates the inversion information 10 and the generation unit 7 generates the protein information 2.
  • protein information 2 may be directly generated without including a process corresponding to translation. That is, protein information 2 may be generated directly from a DNA sequence or an RNA sequence without going through the generation of amino acid sequences.
  • FIG. 6 is a block diagram showing a functional configuration example of the information processing apparatus 4 according to the first embodiment.
  • the information processing apparatus 4 includes an acquisition unit 5, an inversion unit 6, a first prediction unit 18, a second prediction unit 19, and an integration unit 20.
  • Each functional block shown in FIG. 6 is realized by the processor executing an application program or the like according to the present technology.
  • dedicated hardware such as an IC (integrated circuit) may be used.
  • the first contact map 21 is predicted by the first prediction unit 18. Further, the second prediction unit 19 predicts the second contact map 22. Further, the integration unit 20 integrates the first contact map 21 and the second contact map 22 to generate the contact map 14 as the final protein information 2.
  • the acquisition unit 5 acquires sequence information 1 regarding the genome sequence.
  • sequence information 1 a character string of an alphabet representing an amino acid sequence is acquired.
  • the inversion unit 6 generates inversion information 10 in which the array is inverted based on the arrangement information 1.
  • the first prediction unit 18 predicts the first protein information based on the sequence information 1.
  • the first contact map 21 is predicted as the first protein information.
  • Any algorithm may be used to predict the first contact map 21. That is, any prediction process may be executed in which the sequence information 1 is input and the first contact map 21 is output.
  • Algorithms for prediction can be created, for example, in consideration of known methods in protein structure prediction. For example, when a method for estimating the structure or function of a part of a protein is established from sequence information 1, a process corresponding to the procedure for estimation is incorporated into the algorithm. Specifically, processing such as numerical calculation for estimation is incorporated in the algorithm. For example, known methods for protein structure prediction such as X-ray crystal structure analysis method and nuclear magnetic resonance method may be taken into consideration to create an algorithm.
  • a machine learning algorithm is used to predict the first contact map 21. That is, the first prediction unit 18 predicts the first contact map 21 by executing machine learning with the sequence information 1 as an input.
  • the second prediction unit 19 predicts the second protein information based on the inversion information 10.
  • the second contact map 22 is predicted as the second protein information.
  • the inversion information 10 generated by the inversion unit 6 is output to the second prediction unit 19.
  • the second prediction unit 19 predicts the second contact map 22 based on the inversion information 10.
  • Any algorithm may be used to predict the second contact map 22. That is, an arbitrary prediction process may be executed in which the inversion information 10 is input and the second contact map 22 is output.
  • a machine learning algorithm is used to predict the second contact map 22. That is, the second prediction unit 19 predicts the second contact map 21 by executing machine learning with the inversion information 10 as an input.
  • the same algorithm may be used to execute the prediction of the first contact map 21 by the first prediction unit 18 and the prediction of the second contact map 22 by the second prediction unit 19. However, different algorithms may be used.
  • the integration unit 20 generates an integrated contact map 23 by integrating the first contact map 21 and the second contact map 22. As shown in FIG. 6, the first contact map 21 predicted by the first prediction unit 18 is output to the integration unit 20. Similarly, the second contact map 22 predicted by the second prediction unit 19 is output to the integration unit 20. When the integration unit 20 receives the first contact map 21 and the second contact map 22, the integration of the first contact map 21 and the second contact map 22 is executed, and the integrated contact map 23 is generated.
  • any algorithm may be used to generate the integrated contact map 23. That is, any integration process may be executed in which the first contact map 21 and the second contact map 22 are input and the integrated contact map 23 is output.
  • the integrated contact map 23 may be generated by integrating a part of the information of the first contact map 21 and a part of the information of the second contact map 22.
  • the first contact map 21 and the second contact map 22 in which the residue numbers range from 1 to 100 are predicted, respectively.
  • the information of the first contact map 21 having the residue numbers 1 to 50 and the information of the second contact map 22 having the number 51 to 100 are integrated to generate the integrated contact map 23. May be done.
  • the extraction and integration processes may be executed by treating a part of the first contact map 21 and the second contact map 22 as image data.
  • the process may be executed by treating a part of the first contact map 21 and the second contact map 22 as numerical data (for example, data in which coordinates and numerical values representing white / black are associated).
  • the algorithm of the integration unit 20 can be created in consideration of a known method in protein structure prediction, similarly to the algorithms of the first prediction unit 18 and the second prediction unit 19. For example, by taking into consideration known methods in protein structure prediction, it is possible to create an integration algorithm so that the integrated contact map 23 is as close as possible to the actual contact map 14.
  • a machine learning algorithm is used to predict the integrated contact map 23. That is, the integrated unit 20 predicts the integrated contact map 23 by executing machine learning with the first contact map 21 and the second contact map 22 as inputs.
  • the information processing apparatus 4 generates the contact map 14, but of course, the tertiary structure 13 and the distance map 15 as shown in FIG. 5 may be generated. Further, for example, a plurality of the tertiary structure 13, the contact map 14, and the distance map 15 may be generated as the protein information 2.
  • the first predictor 18 and the second predictor 19 may predict a plurality of information among the tertiary structure 13, the contact map 14, and the distance map 15.
  • the information predicted by the first predictor 18, the second predictor 19, and the integrated unit 20 is not limited to the tertiary structure 13, the contact map 14, and the distance map 15, and any information about the protein is predicted. May be done.
  • a plurality of first prediction units 18 for predicting the first protein information based on the sequence information 1 may be configured.
  • a plurality of second prediction units 19 that predict the second protein information based on the inversion information 10 may be configured. Then, the plurality of first protein information and the plurality of second protein information may be integrated to generate the final protein information 2.
  • each functional block is described in the order of the acquisition unit 5, the inversion unit 6, the first prediction unit 18, the second prediction unit 19, and the integration unit 20, but the integration by the information processing device 4 is performed.
  • the processing order related to the generation processing of the contact map 23 is not limited to this order.
  • the processing order of each functional block is not limited, and the processing may be executed in any order within the range in which a series of processing is possible.
  • the generation unit 7 shown in FIG. 1 is realized by the first prediction unit 18, the second prediction unit 19, and the integration unit 20. Further, the first prediction unit 18 predicts the first contact map 21, the second prediction unit 19 predicts the second contact map 22, and the integration unit 20 predicts the integrated contact map 23.
  • the operation corresponds to the generation of the protein information 2 by the generation unit 7. As described above, in the generation of the protein information 2 by the generation unit 7, the prediction of the first contact map 21 by the first prediction unit 18, the prediction of the second contact map 22 by the second prediction unit 19, and the prediction of the second contact map 22 are performed. It involves partial processing for the generation of protein information 2, such as the prediction of the integrated contact map 23 by the integration unit 20. Of course, any process other than prediction and integration may be performed for the generation of protein information 2.
  • each of the first prediction unit 18, the second prediction unit 19, and the integration unit 20 includes a machine learning model, and prediction and integration are executed by machine learning.
  • FIG. 7 is a schematic diagram showing an example of a machine learning model in the first prediction unit 18.
  • FIG. 8 is a schematic diagram for explaining the learning of the machine learning model using the teacher data in the first prediction unit 18.
  • the first prediction unit 18 predicts the first contact map 21 by executing machine learning with the sequence information 1 as an input.
  • FIG. 7 shows a machine learning model 26a included in the first prediction unit 18 as an example of the machine learning model.
  • the sequence information 1 is input to the machine learning model 26a.
  • sequence information 1 such as an amino acid sequence, a DNA sequence, and an RNA sequence is input to the machine learning model 26a.
  • a character string of an alphabet representing an amino acid sequence is input to the machine learning model 26a.
  • the machine learning model 26a predicts the first contact map 21.
  • the teacher data in which the teacher label is associated with the learning data is input to the learning unit 30.
  • Teacher data is data for training a machine learning model that predicts the correct answer for an input.
  • learning sequence information 29 is input to the learning unit 30 as learning data.
  • the contact map 14 is input to the learning unit 30 as a teacher label.
  • the teacher label is a correct answer (correct answer data) corresponding to the sequence information 29 for learning.
  • the data in which the contact map 14 (teacher label) is associated with the learning sequence information 29 (learning data) corresponds to the teacher data in the present embodiment.
  • the known contact map 14 is used as the teacher label.
  • the sequence information 1 regarding the protein is used as learning data. In this way, a plurality of teacher data in which the known contact map 14 and the sequence information 1 are associated are prepared and used for learning.
  • a teacher data DB (database) is configured to store teacher data.
  • a plurality of teacher data are stored in the teacher data DB. That is, a plurality of data in which the contact map 14 is associated with the array information 29 for learning are stored.
  • the teacher label is stored in the label DB 31.
  • the label DB 31 is constructed in, for example, the teacher data DB.
  • the configuration and method for storing teacher data are not limited.
  • the teacher data DB and the label DB 31 may be included in the information processing device 4, and the machine learning model 26a may be learned by the information processing device 4.
  • the teacher data DB and the label DB 31 may be configured outside the information processing apparatus 4.
  • any configuration and method may be adopted.
  • the learning data and the teacher label are associated with each other and are input to the learning unit 30 as teacher data.
  • the learning unit 30 uses the teacher data and performs learning based on the machine learning algorithm.
  • the parameter (coefficient) for calculating the correct answer (teacher label) is updated and generated as a learned parameter.
  • a program incorporating the generated trained parameters is generated as a machine learning model 26a.
  • the first prediction unit 18 includes the machine learning model 26a learned based on the error between the first contact map 21 and the correct answer data. That is, the machine learning model 26a is learned based on the error between the predicted first contact map 21 and the correct answer data.
  • Such a learning method is called an error backpropagation method.
  • the backpropagation method is a commonly used learning method for learning neural networks.
  • a neural network is a model that originally imitates a human brain neural circuit, and has a layered structure consisting of three types of layers: an input layer, an intermediate layer (hidden layer), and an output layer.
  • a neural network with a large number of intermediate layers is particularly called a deep neural network, and a deep learning technique for learning this is known as a model capable of learning a complicated pattern hidden in a large amount of data.
  • the error backpropagation method is one of such learning methods, and is often used for learning, for example, a convolutional neural network (CNN) used for recognizing images and moving images.
  • CNN convolutional neural network
  • a neurochip / neuromorphic chip incorporating the concept of a neural network can be used.
  • the backpropagation method is a learning method that adjusts the parameters of the machine learning model so that the error is small based on the error between the output and the correct answer data.
  • the algorithm for training the machine learning model 26a is not limited, and any machine learning algorithm may be used.
  • the machine learning model 26a generated by the learning unit 30 is incorporated into the first prediction unit 18. Then, the first prediction unit 18 executes the prediction of the first contact map 21.
  • the second prediction unit 19 predicts the second contact map 22 by executing machine learning with the inversion information 10 as an input.
  • FIG. 9 is a schematic diagram showing an example of a machine learning model in the second prediction unit 19.
  • FIG. 9 shows the machine learning model 26b included in the second prediction unit 19 as an example of the machine learning model.
  • inversion information 10 is input to the machine learning model 26b.
  • a character string in which the order of the alphabet character strings representing the amino acid sequence is reversed is input as the inversion information 10.
  • the machine learning model 26b predicts the second contact map 22.
  • inversion information for learning is input to the learning unit as learning data.
  • the contact map 14 is input to the learning unit as correct answer data.
  • the inversion information for learning is generated by inverting the sequence information 29 for learning.
  • the sequence information 29 for learning may be input to the inversion unit 6, and the inversion information for learning may be generated by the inversion unit 6.
  • inversion information for learning may be prepared in advance and stored in the teacher data DB or the like. For the correct answer data, it is possible to use the teacher label associated with the sequence information 29 for learning.
  • the learning unit executes learning by the error back propagation method in the same manner as the machine learning model 26a, and generates the machine learning model 26b. That is, the machine learning model 26b is learned based on the error between the predicted second contact map 22 and the correct answer data.
  • any method machine learning algorithm may be adopted as the learning method for the machine learning model 26b.
  • the machine learning model 26b generated by the learning unit is incorporated into the second prediction unit 19. Then, the second prediction unit 19 executes the prediction of the second contact map 22.
  • the learning unit 30 shown in FIG. 8 may be included in the information processing device 4, and the machine learning model 26a may be learned by the information processing device 4.
  • the information processing apparatus 4 may include a learning unit used for learning the machine learning model 26b, and the information processing apparatus 4 may execute learning of the machine learning model 26b.
  • the learning unit 30 may be configured outside the information processing device 4. That is, learning by the learning unit 30 is executed in advance outside the information processing apparatus 4, and only the learned machine learning model a may be incorporated into the first prediction unit 18.
  • the learning unit used for learning the machine learning model 26b may be configured outside the information processing apparatus 4. That is, learning by the learning unit may be executed in advance outside the information processing apparatus 4, and only the trained machine learning model b may be incorporated into the second prediction unit 19.
  • the specific configuration of the learning unit 30 and the learning unit for learning the machine learning model b is not limited.
  • the machine learning model 26a corresponds to one embodiment of the first machine learning model according to the present technology. Further, the machine learning model 26b corresponds to an embodiment of the second machine learning model according to the present technology. Further, the error back-propagation method corresponds to an embodiment of learning based on an error between protein information and correct answer data according to the present technique.
  • FIG. 10 is a schematic diagram showing an example of a machine learning model in the integrated unit 20.
  • FIG. 11 is a schematic diagram for explaining the learning of the machine learning model in the integrated unit 20.
  • the integration unit 20 has a machine learning model 26c.
  • the integrated unit 20 predicts the integrated contact map 23 by executing machine learning with the first contact map 21 and the second contact map 22 as inputs.
  • the first contact map 21 predicted by the first prediction unit 18 and the second contact map 22 predicted by the second prediction unit 19 are input to the machine learning model 26c.
  • the map by executing machine learning, the integrated contact map 23 is predicted.
  • outputting information by machine learning with two pieces of information as inputs is included in integrating the two pieces of information to generate information.
  • FIG. 11 illustrates the learning for the machine learning model 26c as a process for the integrated unit 20.
  • the sequence information 29 for learning associated with the contact map 14 as correct answer data is prepared. That is, teacher data in which the sequence information 29 for learning and the contact map 14 (correct answer data) are associated with each other is prepared.
  • the first contact map 21 predicted by the first prediction unit 18 with the sequence information 29 for learning as an input is used as the first contact map 35 for learning.
  • the second contact map 22 predicted by the second prediction unit 19 by inputting the inversion information generated based on the sequence information 29 for learning is used as the second contact map 36 for learning.
  • the integration unit 20 predicts the integration contact map 23.
  • a machine learning model 26c for integration is trained based on the error (LOSS) between the predicted integrated contact map 23 and the correct answer data.
  • the correct answer data is the contact map 14 corresponding to the sequence information 1 for learning.
  • the machine learning model 26c generated by the learning unit 30 is incorporated into the integration unit 20. Then, the integration unit 20 executes the prediction of the integration contact map 23.
  • the information processing device 4 may execute the learning of the machine learning model 26c. Alternatively, learning of the machine learning model 26c may be executed outside the information processing apparatus 4.
  • the specific configuration of the learning unit for learning the machine learning model 26c, the learning method, and the like are not limited.
  • the first contact map 35 for learning corresponds to one embodiment of the first protein information for learning according to the present technology.
  • the second contact map 36 for learning corresponds to one embodiment of the second protein information for learning according to the present technique.
  • the machine learning model 26c corresponds to an embodiment of the machine learning model for integration according to the present technology.
  • the machine learning model 26a is an integrated contact predicted by the integration unit 20 with the first contact map 35 for learning and the second contact map 36 for learning as inputs. It is relearned based on the error (LOSS) between the map 23 and the correct answer data.
  • the machine learning model 26b the error between the integrated contact map 23 predicted by the integration unit 20 with the first contact map 35 for learning and the second contact map 36 for learning as inputs and the correct answer data. Relearned based on (LOSS). That is, the re-learning of the machine learning model 26a and the machine learning model 26b is executed by the error back propagation method.
  • the sequence information 1 regarding the genome sequence is acquired by the acquisition unit 5. Further, the inversion unit 6 generates inversion information 10 in which the array is inverted based on the arrangement information 1. Further, the generation unit 7 generates protein information 2 regarding the protein based on the inversion information 10. This makes it possible to predict information about proteins with high accuracy.
  • FIG. 12 is a schematic diagram for explaining the error of the protein information 2.
  • 12A and 12B show an example of an error map showing the error of the protein information 2 predicted from the sequence information 1 by the existing method.
  • the error map 39 illustrated in FIGS. 12A and 12B is a map showing the error in the three-dimensional coordinates of the residue. Specifically, the difference in Euclidean distance between the three-dimensional coordinates of the residues predicted by the existing method and the three-dimensional coordinates of the actual residues is shown.
  • a residue number is assigned to the horizontal axis from the left side to the right side. For example, a diagonal line pattern is shown in the range of residue numbers having a large error.
  • the error can be specified by using a predetermined threshold value or the like.
  • the side with the smaller residue number corresponds to the left side of the error map 39.
  • the side with the larger residue number corresponds to the right side of the error map 39. Therefore, for example, when the residue numbers of amino acid residues constituting a protein exist from 1 to 100, the residue number 1 corresponds to the left end of the error map 39, and the residue number 100 is. Corresponds to the right end.
  • a large error portion (large error) is unevenly distributed near both ends of the error map 39.
  • rice field As shown in FIG. 12A, a large error may be concentrated in a wider range on the N-terminal side. Further, as shown in FIG. 12B, a large error may be concentrated in a wider range on the C-terminal side.
  • the uneven distribution of large errors as shown in FIGS. 12A and 12B is considered to occur due to the time series of prediction. That is, in the existing method, the prediction of protein information 2 is processed in ascending order of the residue number. Therefore, at the start of prediction, there is little information on the amino acid residues to be processed, so it is considered that the error becomes large. As a result, it is considered that a phenomenon in which an error is often observed near the beginning of the amino acid residue, as illustrated in FIG. 12A, occurs. Further, it is considered that the prediction of the protein information 2 is processed in ascending order of the residue number, so that the prediction error accumulates toward the terminal side of the residue.
  • the first contact map 21 predicted based on the sequence information 1 and the second contact map 22 predicted based on the inversion information 10 are integrated by the integration unit 20, and the protein information 2 is integrated. Is generated. Therefore, it is possible to extract and integrate the parts of the first contact map 21 and the second contact map 22 with high prediction accuracy. That is, the integrated contact map 23, which has less error than both the first contact map 21 and the second contact map 22, such as the "good points" of the first contact map 21 and the second contact map 22. Can be generated.
  • the predicted protein information 2 is three-dimensional coordinates
  • FIGS. 12A and 12B it is possible to suppress the uneven distribution of errors near both ends of the amino acid residue sequence, and it is possible to predict protein-related information with high accuracy. ..
  • the machine learning algorithm is used in the prediction by the first prediction unit 18 and the second prediction unit 19. Further, the machine learning algorithm is also used in the integration of each protein information 2 by the integration unit 20. This makes it possible to execute highly accurate predictions by fully training each machine learning model. Further, in the present embodiment, the re-learning of the first prediction unit 18 and the second prediction unit 19 is executed in accordance with the learning of the integration unit 20. This makes it possible to further improve the prediction accuracy.
  • FIG. 13 is a block diagram showing a functional configuration example of the information processing apparatus 4 in the second embodiment.
  • the information processing apparatus 4 includes an acquisition unit 5, an inversion unit 6, a feature amount calculation unit 42, a first prediction unit 18, a second prediction unit 19, and an integration unit 20.
  • Each functional block shown in FIG. 13 is realized by the processor executing an application program or the like according to the present technology.
  • dedicated hardware such as an IC (integrated circuit) may be used. Since the configurations and operations of the acquisition unit 5, the inversion unit 6, and the integration unit 20 are the same as those in the first embodiment, the description thereof will be omitted.
  • the contact map 14 is predicted as the protein information 2.
  • the feature amount 47 is information indicating the characteristics of the protein.
  • a feature relating to a physical property or a chemical property of a protein is used as a feature amount 47.
  • the function of the protein and the like are also used as the feature amount 47.
  • any information indicating the characteristics of the protein may be used as the feature amount 47.
  • the feature amount 47 comprises at least one of the secondary structure of the protein, annotation information about the protein, the degree of catalytic contact of the protein, or the mutual potential between the amino acid residues constituting the protein.
  • the above four feature amounts 47 will be described.
  • the secondary structure of a protein is the local three-dimensional structure of the protein. Proteins are folded according to the sequence of amino acids, and in the process of folding, a local three-dimensional structure is first formed. Subsequent overall folding is performed to form tertiary structure 13. Such a local three-dimensional structure that is first formed before the tertiary structure 13 is formed is called a secondary structure. That is, protein folding begins with a primary structure that is simply an unfolded sequence, a secondary structure that is a local structure, and finally a tertiary structure 13 that is formed by overall folding. Realized in order.
  • a structure called an ⁇ helix or a ⁇ sheet is known.
  • the secondary structure such as ⁇ -helix or ⁇ -sheet as described above is used as the feature amount 47.
  • the secondary structure used as the feature amount 47 is not limited.
  • Annotation information about a protein is metadata attached (tagged) to the protein.
  • metadata information that is typically related to the protein is given.
  • Annotation information is sometimes referred to as annotation.
  • annotation information information on the structure and function of the protein is given.
  • information on the structure for example, the name of the functional group possessed by the protein is given.
  • the molecular weight of the protein and the like may be added as annotation information.
  • information on the function for example, the type of function possessed by the protein is given. That is, annotation information such as "contraction function", "carrying function", or "immune function” is tagged.
  • annotation information given to the protein information 2 is not limited.
  • the degree of catalytic contact of a protein is a value obtained by normalizing the area in which amino acid residues of a protein can come into contact with a catalyst, regardless of the size of the side chain. That is, the larger the degree of catalyst contact, the larger the area of the residue in the protein that comes into contact with the catalyst.
  • the catalyst contact degree is calculated as a concrete real value, for example.
  • the degree of catalyst contact may be referred to as the degree of catalyst exposure or the like.
  • the mutual potential between amino acid residues constituting a protein is the potential energy between the residues.
  • each residue has a force that depends on the distance between the residues. For example, the force acts between the residues due to the attractive and repulsive forces acting between the atoms that make up each residue.
  • the repulsive force acting on each residue increases and the attractive force decreases. That is, the resultant force on the repulsive side acts on each residue, and each residue tries to separate.
  • the attractive force acting on each residue increases and the repulsive force decreases. That is, the resultant force on the attractive side acts on each residue, and each residue tries to approach.
  • each residue does not move and is stable.
  • the mutual potential has the lowest value. That is, when the residues are about to separate or approach each other, the mutual potential becomes higher than the minimum value. In this way, the mutual potential is an index indicating whether or not each residue is stable.
  • such mutual potential is calculated as the feature amount 47.
  • the feature amount 47 the sum of the mutual potentials among all the residues constituting the protein is calculated.
  • the mutual potential between residue A and residue B is first calculated.
  • the mutual potential of residue A and residue C and the mutual potential of residue B and residue C are also calculated.
  • the calculated sum of the three mutual potentials is used as the feature amount 47.
  • At least one of the secondary structure, annotation information, catalyst contact degree, or mutual potential as described above is included in the feature amount 47.
  • the feature amount 47 is not limited to the above four pieces of information, and any information indicating the characteristics of the protein can be used as the feature amount 47.
  • FIG. 14 is a schematic diagram for explaining the calculation of the feature amount.
  • FIG. 14 shows a schematic diagram showing the database (DB) 46, the feature amount calculation unit 42, and the feature amount 47.
  • the feature amount calculation unit 42 calculates the feature amount 47 based on the sequence information 1.
  • the feature amount calculated based on the sequence information 1 is described as the sequence information feature amount 43. This is a description for distinguishing from the feature amount 47 (reversal information feature amount) based on the inversion information 10 described in the third embodiment.
  • the calculation of the feature amount 47 based on the inversion information 10 will be described in the third embodiment.
  • the sequence information feature amount 43 corresponds to one embodiment of the first feature amount according to the present technique.
  • a database (DB) 46 is used to calculate the features.
  • the database 46 stores data in which the sequence information 1 and the feature amount 47 are associated with each other.
  • the feature amount calculation unit 42 calculates the feature amount 47 by accessing the database 46 in which the sequence information 1 and the feature amount 47 are associated with each other.
  • the database 46 it is possible to use an existing database that has already been constructed.
  • the feature amount calculation unit 42 acquires the sequence information 1.
  • the sequence information 1 acquired by the acquisition unit 5 is output to the feature amount calculation unit 42, and the feature amount calculation unit 42 receives the sequence information 1, thereby realizing the acquisition of the sequence information 1.
  • the sequence information 1 is divided into a plurality of pieces.
  • each sequence information 1 generated by the division may be expressed as partial sequence information.
  • the partial sequence information is generated by dividing the character string.
  • the division of the character string generates two partial sequence information, "SQET” and "RKKCT”.
  • the position and number of character string divisions are not limited to the above example.
  • the sequence information 1 is a DNA sequence or an RNA sequence, the character string is similarly divided.
  • the feature amount calculation unit 42 executes a search for the sequence information 1 that matches the partial sequence information in the database 46.
  • the database 46 stores data in which the sequence information 1 and the feature amount 47 are associated with each other.
  • the feature amount calculation unit 42 finds the sequence information 1 that matches the partial sequence information, the feature amount calculation unit 42 collectively extracts the sequence information 1 and the feature amount 47 associated with the sequence information 1. Note that the search for similar sequence information 1 may be executed instead of the sequence information 1 that matches the partial sequence information.
  • the feature amount calculation unit 42 may calculate one feature amount 47 based on the extracted plurality of feature amounts 47 and use it for prediction.
  • the method of calculating the feature amount including the division of the sequence information 1 as described above is only an example, and of course, the calculation method is not limited.
  • the search for the sequence information 1 that matches the sequence information 1 may be executed without dividing the sequence information 1.
  • any method can be adopted as the method for calculating the feature amount 47 by the feature amount calculation unit 42.
  • the database 46 stores, for example, a feature amount 47 known by structural analysis of a protein executed in the past.
  • a feature amount 47 known by structural analysis of a protein executed in the past.
  • proteins that have succeeded in analyzing the structure based on sequence information 1 by a method such as an X-ray crystal structure analysis method or a nuclear magnetic resonance method.
  • a protein whose actual tertiary structure 13, contact map 14, or distance map 15 has been analyzed based on sequence information 1.
  • the feature amount 47 of the protein may be clarified.
  • the secondary structure of a protein is naturally revealed based on the tertiary structure 13 of the protein.
  • the set of the actual sequence information 1 and the feature amount 47, which has been clarified by the past research is stored in the database 46.
  • the feature amount 47 or the like obtained by the past prediction may be stored in the database 46.
  • the first prediction unit 18 predicts the first contact map 21 based on the sequence information 1 and the sequence information feature amount 43.
  • the sequence information 1 acquired by the acquisition unit 5 is output to the first prediction unit 18.
  • the sequence information feature amount 43 calculated by the feature amount calculation unit 42 is output to the first prediction unit 18.
  • the prediction of the first contact map 21 is executed based on the sequence information 1 and the sequence information feature amount 43.
  • the prediction method for example, as in the first embodiment, prediction by a predetermined algorithm is adopted.
  • the first prediction unit 18 includes an algorithm for prediction, and a prediction process by the algorithm is executed by inputting the sequence information 1 and the sequence information feature amount 43 and outputting the contact map 14.
  • the algorithm is created by taking into account known methods for protein structure prediction.
  • an algorithm capable of effectively using the sequence information feature amount 43 for example, is created in order to execute highly accurate prediction.
  • the algorithm Specifically, if there is a method that enables highly accurate prediction by using the sequence information feature amount 43, the method is taken into consideration and an algorithm is created.
  • the algorithm for prediction included in the first prediction unit 18 is not limited.
  • the machine learning algorithm may be included in the first prediction unit 18.
  • the prediction of the contact map 14 by machine learning will be described later.
  • the prediction method by the first prediction unit 18 is not limited to the prediction by the algorithm, and any prediction method may be adopted.
  • the second prediction unit 19 predicts the second contact map 22 based on the inversion information 10 and the sequence information feature amount 43.
  • the inversion information 10 inverted by the inversion unit 6 is output to the second prediction unit 19.
  • the sequence information feature amount 43 calculated by the feature amount calculation unit 42 is output to the second prediction unit 19.
  • the prediction of the second contact map 22 is executed based on the inversion information 10 and the sequence information feature amount 43.
  • the prediction method by the second prediction unit 19 for example, the same method as the prediction method by the first prediction unit 18 is adopted.
  • a method different from the prediction method by the first prediction unit 18 may be adopted.
  • the integration unit 20 executes an integration process based on the first contact map 21 and the second contact map 22, and generates an integrated contact map 23.
  • the prediction using the sequence information feature amount 43 may be executed only in one of the prediction units. For example, in the first prediction unit 18, prediction is executed based on the sequence information 1 and the sequence information feature amount 43. On the other hand, in the second prediction unit 19, prediction is executed (without using the sequence information feature amount 43) based only on the inversion information 10. Such a method may be adopted as a method of prediction.
  • the processing order regarding the generation processing of the integrated contact map 23 by the information processing apparatus 4 is not limited.
  • either the prediction by the first prediction unit 18 or the generation of the inversion information 10 by the inversion unit 6 may be executed first.
  • either the calculation of the array information feature amount 43 by the feature amount calculation unit 42 or the generation of the inversion information 10 by the inversion unit 6 may be executed first.
  • the processing order of each functional block is not limited, and the processing may be executed in any order within the range in which a series of processing is possible.
  • each of the first prediction unit 18, the second prediction unit 19, and the integration unit 20 includes a machine learning model, and machine learning for prediction and integration is executed.
  • FIG. 15 is a schematic diagram showing an example of a machine learning model in the first prediction unit 18.
  • FIG. 16 is a schematic diagram for explaining the learning of the machine learning model using the teacher data in the first prediction unit 18.
  • the sequence information 1 was used for learning of the first prediction unit 18, but in the present embodiment (second embodiment), the sequence information 1 and the sequence information 1 are used for learning.
  • the sequence information feature amount 43 is used.
  • the inversion information 10 was used for learning of the second prediction unit 19, but in the present embodiment, the inversion information 10 and the sequence information feature amount 43 are used for learning. Is used.
  • the description will be centered on the above differences, and the description of the same contents as those in the first embodiment will be omitted.
  • the sequence information 1 and the sequence information feature amount 43 are input to the machine learning model 26a in the first prediction unit 18. Based on the input sequence information 1 and the sequence information feature amount 43, the machine learning model 26a predicts the first contact map 21.
  • the teacher data in which the teacher label is associated with the learning data is input to the learning unit 30.
  • the set of the sequence information 29 for learning and the sequence information feature amount 50 for learning corresponds to the learning data.
  • the contact map 14 corresponds to the teacher label (correct answer data). For example, when there is a protein for which the contact map 14 is known, the known contact map 14 is used as correct answer data. Further, the sequence information 1 regarding the protein is used as the sequence information 29 for learning.
  • the feature amount 47 related to the protein is used as the sequence information feature amount 50 for learning.
  • the feature amount calculation unit 42 calculates the feature amount 47 based on the sequence information 29 for learning, and the feature amount 47 is used as the sequence information feature amount 50 for learning.
  • the method of generating the sequence information feature amount 50 for learning is not limited, and any method may be adopted. In this way, a plurality of teacher data associated with the known contact map 14, sequence information 1, and sequence information feature amount 43 are prepared and used for learning.
  • the sequence information feature amount 50 for learning corresponds to one embodiment of the first feature amount for learning according to the present technique.
  • the first prediction unit 18 inputs the sequence information 29 for learning associated with the correct answer data and the sequence information feature amount 50 for learning calculated based on the sequence information 29 for learning. It includes a machine learning model 26a learned based on an error between the predicted first contact map 21 and the correct answer data. That is, the learning of the first prediction unit 18 is executed based on the error between the first contact map 21 and the correct answer data by the error back propagation method.
  • the learning method of the first prediction unit 18 is not limited, and any method may be adopted.
  • the machine learning model 26a generated by the learning unit 30 is incorporated into the first prediction unit 18. Then, the first prediction unit 18 executes the prediction of the first contact map 21.
  • the second prediction unit 19 uses the inversion information generated based on the learning sequence information 29 and the learning sequence information feature amount 50 calculated based on the learning sequence information 29. It includes a machine learning model 26b trained based on an error between a second contact map 22 predicted as input and correct data. Specifically, learning of the machine learning model 26b by the error back propagation method is executed by inputting the inversion information 34 for learning and the sequence information feature amount 50 for learning.
  • the learning method of the second prediction unit 19 is not limited, and any method may be adopted.
  • learning is executed in the same manner as in the first embodiment. Specifically, learning is executed by inputting the first contact map 35 for learning and the second contact map 36 for learning into the machine learning model 26c.
  • the first contact map 35 for learning is predicted by the first prediction unit 18 based on the sequence information 29 for learning and the sequence information feature amount 50 for learning.
  • the second contact map 36 for learning is predicted by the second prediction unit 19 based on the inversion information 34 for learning and the sequence information feature amount 50 for learning.
  • the machine learning model 26a includes the integrated contact map 23 predicted by inputting the first contact map 35 for learning and the second contact map 36 for learning, and the correct answer data. It is relearned based on the error of.
  • the machine learning model 26b is also relearned based on the error between the integrated contact map 23 and the correct answer data. That is, the re-learning of the machine learning model 26a and the machine learning model 26b by the error back propagation method is executed.
  • the first prediction unit 18 and the second prediction unit 19 can perform highly accurate prediction. Further, since the integrated contact map 23 generated by the integrated unit 20 also uses the prediction results of the first prediction unit 18 and the second prediction unit 19, the prediction results are highly accurate. By using the sequence information feature amount 43 in this way, highly accurate prediction is realized. Further, in the present embodiment, since the sequence information feature amount 43 is also used in learning, a machine learning model capable of executing highly accurate prediction is generated.
  • the third embodiment in the first prediction unit 18, prediction is executed based on the sequence information 1 and the sequence information feature amount 43. Further, in the second embodiment, in the second prediction unit 19, prediction and learning were executed based on the inversion information 10 and the sequence information feature amount 43. On the other hand, in the third embodiment, the second prediction unit 19 executes prediction and learning based on the inversion information 10 and the inversion information feature amount. This is the difference between the second embodiment and the third embodiment.
  • FIG. 17 is a block diagram showing a functional configuration example of the information processing apparatus 4 according to the third embodiment.
  • the information processing apparatus 4 includes an acquisition unit 5, an inversion unit 6, a feature amount calculation unit 42, a first prediction unit 18, a second prediction unit 19, and an integration unit 20. Since the configurations and operations of the acquisition unit 5, the inversion unit 6, the first prediction unit 18, and the integration unit 20 are the same as those in the second embodiment, the description thereof will be omitted.
  • the contact map 14 is predicted as the protein information 2.
  • the feature amount calculation unit 42 calculates the sequence information feature amount 43 based on the sequence information 1, and calculates the inversion information feature amount 53 based on the inversion information 10.
  • the sequence information feature amount 43 is calculated by the same method as in the second embodiment.
  • the inverted information feature amount 53 is also calculated by a method substantially the same as that of the second embodiment. Specifically, for example, the inversion information 10 is acquired by the feature amount calculation unit 42, the inversion information 10 is divided, the search in the database, and the like are executed in the same manner as in the second embodiment, and the inversion information feature amount 53 is calculated. To.
  • the calculated inverted information feature amount 53 can, of course, be different from the sequence information feature amount 43.
  • the inverted information feature amount 53 corresponds to one embodiment of the second feature amount according to the present technique.
  • the first prediction unit 18 predicts the first contact map 21 based on the sequence information 1 and the sequence information feature amount 43, as in the second embodiment.
  • the second prediction unit 19 predicts the second contact map 22 based on the inversion information 10 and the inversion information feature amount 53.
  • the inversion information 10 generated by the inversion unit 6 is output to the second prediction unit 19.
  • the inverted information feature amount 53 calculated by the feature amount calculation unit 42 is output to the second prediction unit 19.
  • the prediction unit 19 receives the inversion information 10 and the inversion information feature amount 53
  • the prediction of the second contact map 22 is executed based on the inversion information 10 and the inversion information feature amount 53.
  • the prediction method for example, as in other embodiments, prediction by a predetermined algorithm is adopted.
  • the prediction method by the second prediction unit 19 is not limited to the prediction by the algorithm, and any prediction method may be adopted.
  • the integration unit 20 executes an integration process based on the first contact map 21 and the second contact map 22, and generates an integrated contact map 23.
  • the processing order related to the generation processing of the integrated contact map 23 by the information processing apparatus 4 is not limited. For example, either the prediction by the first prediction unit 18 or the generation of the inverted information feature amount 53 by the feature amount calculation unit 42 may be executed first.
  • the processing order of each functional block is not limited, and the processing may be executed in any order within the range in which a series of processing is possible.
  • [Machine learning model] Also in the third embodiment, learning by the error back propagation method is executed as in the second embodiment. As for the first prediction unit 18, learning is executed with the sequence information 29 for learning and the sequence information feature amount 50 for learning as inputs, as in the second embodiment.
  • the second prediction unit 19 is predicted by inputting the inversion information 10 generated based on the learning sequence information 29 and the inversion information feature amount for learning calculated based on the inversion information 10. It includes a machine learning model 26b learned based on an error between the second contact map 22 and the correct answer data. That is, learning of the machine learning model 26b by the error back propagation method is executed by inputting the inversion information 34 for learning and the inversion information feature amount for learning.
  • the learning method of the second prediction unit 19 is not limited, and any method may be adopted.
  • the feature amount calculation unit 42 calculates the feature amount 47 based on the inversion information 34 for learning, and the feature amount 47 is used as the inversion information feature amount for learning.
  • the method of generating the inverted information feature amount for learning is not limited, and any method may be adopted.
  • the inverted information feature amount for learning corresponds to one embodiment of the second feature amount for learning according to the present technique.
  • learning is executed in the same manner as in the second embodiment.
  • the only difference from the second embodiment is that the second contact map 36 for learning is predicted based on the inversion information 34 for learning and the inversion information feature amount for learning.
  • the sequence information feature amount 43 and the inverted information feature amount 53 are used for prediction, the first prediction unit 18 and the second prediction unit 19 make highly accurate predictions. Is possible. Further, since the integrated contact map 23 generated by the integrated unit 20 also uses the prediction results of the first prediction unit 18 and the second prediction unit 19, the prediction results are highly accurate. As described above, by using the sequence information feature amount 43 and the inverted information feature amount 53, highly accurate prediction is realized. Further, in the present embodiment, since the sequence information feature amount 43 and the inverted information feature amount 53 are also used in the learning, a machine learning model capable of executing highly accurate prediction is generated.
  • the type of information input for prediction is not limited. That is, there is no limitation as to which of the sequence information 1, the inversion information 10, the sequence information feature amount 43, and the inversion information feature amount 53 is input to the prediction unit.
  • the types of information input to the two prediction units which are different from the second embodiment and the third embodiment, there are the following examples.
  • Inversion information 10 and inversion information feature amount 53 are input to the second prediction unit.
  • Inversion information 10 and sequence information feature amount 43 are input to the first prediction unit.
  • Inversion information 10 and inversion information feature amount 53 are input to the second prediction unit.
  • three or more prediction units may be configured, and in that case, information input to each prediction unit. The combination of types is not limited.
  • FIG. 18 is a block diagram showing a hardware configuration example of a computer 56 capable of realizing the information processing device 4.
  • the computer 56 includes a CPU 57, a ROM 58, a RAM 59, an input / output interface 60, and a bus 61 connecting them to each other.
  • a display unit 62, an input unit 63, a storage unit 64, a communication unit 65, a drive unit 66, and the like are connected to the input / output interface 60.
  • the display unit 62 is a display device using, for example, a liquid crystal display, an EL, or the like.
  • the input unit 63 is, for example, a keyboard, a pointing device, a touch panel, or other operation device.
  • the input unit 63 When the input unit 63 includes a touch panel, the touch panel may be integrated with the display unit 62.
  • the storage unit 64 is a non-volatile storage device, for example, an HDD, a flash memory, or other solid-state memory.
  • the drive unit 66 is a device capable of driving a removable recording medium 67, such as an optical recording medium or a magnetic recording tape.
  • the communication unit 65 is a modem, router, or other communication device for communicating with another device that can be connected to a LAN, WAN, or the like. The communication unit 65 may communicate using either wired or wireless. The communication unit 65 is often used separately from the computer 56.
  • Information processing by the computer 56 having the hardware configuration as described above is realized by the cooperation between the software stored in the storage unit 64 or the ROM 58 or the like and the hardware resources of the computer 56.
  • the information processing method according to the present technology is realized by loading the program constituting the software stored in the ROM 58 or the like into the RAM 59 and executing the program.
  • the program is installed on the computer 56, for example, via a removable recording medium 67.
  • the program may be installed on the computer 56 via a global network or the like.
  • any non-transient storage medium readable by the computer 56 may be used.
  • the information processing method according to the present technology may be executed by the cooperation of a plurality of computers connected so as to be communicable via a network or the like, and the information processing apparatus 4 according to the present technology may be constructed. That is, the information processing method according to the present technology can be executed not only in a computer system composed of a single computer but also in a computer system in which a plurality of computers operate in conjunction with each other.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether or not all the components are in the same housing.
  • a plurality of devices housed in separate housings and connected via a network, and one device in which a plurality of modules are housed in one housing are both systems.
  • the execution of the information processing method according to the present technology by the computer system is, for example, when the prediction of the protein information 2, the calculation of the feature amount 47, etc. are executed by a single computer, or when each process is executed by a different computer. Includes both. Further, the execution of each process by a predetermined computer includes having another computer execute a part or all of the process and acquiring the result. That is, the information processing method according to the present technology can be applied to a cloud computing configuration in which one function is shared and jointly processed by a plurality of devices via a network.
  • the protein analysis system 100, the information processing device 4, the information processing method, and the like described with reference to each drawing are merely embodiments, and can be arbitrarily modified without departing from the spirit of the present technique. That is, other arbitrary configurations, algorithms, and the like for implementing the present technique may be adopted.
  • expressions using "more” such as “greater than A” and “less than A” comprehensively include both the concept including the case equivalent to A and the concept not including the case equivalent to A. It is an expression included in. For example, “greater than A” is not limited to the case where the equivalent of A is not included, and “greater than or equal to A” is also included. Further, “less than A” is not limited to “less than A” and includes “less than or equal to A”. When implementing this technique, specific settings and the like may be appropriately adopted from the concepts included in “greater than A” and “less than A” so that the effects described above can be exhibited.
  • the present technology can also adopt the following configurations.
  • the acquisition unit that acquires sequence information related to the genome sequence, An inversion part that generates inversion information in which the array is inverted based on the arrangement information, An information processing device including a generation unit that generates protein information about a protein based on the inversion information.
  • the information processing apparatus according to (1) The sequence information is information about at least one of an amino acid sequence, a DNA sequence, or an RNA sequence.
  • the generator is A first predictor that predicts the first protein information based on the sequence information, A second predictor that predicts the second protein information based on the inversion information, Described in any one of (4), (1) to (3), which has an integration unit that generates the protein information by integrating the first protein information and the second protein information.
  • Information processing device of The protein information is an information processing apparatus including at least one of the structure of the protein and the function of the protein.
  • the protein information includes a contact map showing the binding between amino acid residues constituting the protein, a distance map showing the distance between the amino acid residues constituting the protein, or information including at least one of the tertiary structure of the protein. Processing equipment. (6) The information processing apparatus according to (3).
  • the integrated unit is an information processing device that predicts the protein information by executing machine learning by inputting the first protein information and the second protein information.
  • the first prediction unit predicts the first protein information by executing machine learning with the sequence information as an input.
  • the second prediction unit is an information processing device that predicts the second protein information by executing machine learning with the inversion information as an input.
  • the integration unit receives the first protein information for learning predicted by inputting the sequence information for learning associated with the correct answer data, and the inversion information generated based on the sequence information for learning.
  • An information processing apparatus including an integrated machine learning model learned based on an error between the protein information predicted by inputting the second protein information predicted as input and the correct answer data.
  • the information processing apparatus includes a first machine learning model learned based on an error between the first protein information for learning and the correct answer data.
  • the first machine learning model is based on an error between the protein information predicted by inputting the first protein information for learning and the second protein information for learning and the correct answer data.
  • the information processing apparatus includes a second machine learning model learned based on an error between the second protein information for learning and the correct answer data.
  • the second machine learning model is based on an error between the first protein information for learning and the protein information predicted by inputting the second protein information for learning and the correct answer data. Information processing device that is relearned.
  • the information processing apparatus further A feature amount calculation unit for calculating a feature amount based on the sequence information is provided.
  • the generation unit is an information processing device that generates the protein information based on the feature amount.
  • the information processing apparatus according to (11).
  • the feature amount calculation unit calculates the first feature amount based on the sequence information, and then The first prediction unit predicts the first protein information based on the sequence information and the first feature amount.
  • the second prediction unit is an information processing device that predicts the second protein information based on the inversion information and the first feature amount.
  • the feature amount calculation unit calculates the first feature amount based on the sequence information, and calculates the second feature amount based on the inversion information.
  • the first prediction unit predicts the first protein information based on the sequence information and the first feature amount.
  • the second prediction unit is an information processing device that predicts the second protein information based on the inversion information and the second feature amount.
  • the first prediction unit is predicted by inputting the sequence information for learning associated with the correct answer data and the first feature amount for learning calculated based on the sequence information for learning.
  • An information processing apparatus including a first machine learning model learned based on an error between the first protein information and the correct answer data.
  • the second prediction unit inputs the inversion information generated based on the sequence information for learning and the first feature amount for learning calculated based on the sequence information for learning.
  • An information processing apparatus including a second machine learning model learned based on an error between the predicted second protein information and the correct answer data (16) The information processing apparatus according to (13). The second prediction unit was predicted by inputting the inversion information generated based on the sequence information for learning and the second feature amount for learning calculated based on the inversion information. An information processing apparatus including a second machine learning model learned based on an error between the second protein information and the correct answer data. (17) The information processing apparatus according to any one of (11) to (16).
  • the feature amount is an information processing apparatus including at least one of the secondary structure of the protein, annotation information about the protein, catalytic contact degree of the protein, or mutual potential between amino acid residues constituting the protein. (18) The information processing apparatus according to any one of (1) to (17).
  • the sequence information is information indicating the binding order of amino acid residues constituting the protein from the N-terminal side.
  • the inversion information is information indicating the binding order of amino acid residues constituting the protein from the C-terminal side.
  • (19) Obtain sequence information about the genome sequence and Based on the sequence information, the inverted information in which the array is inverted is generated. An information processing method in which a computer system performs prediction of a first protein information about a protein based on the inversion information. (20) Steps to get sequence information about genomic sequences, A step of generating inverted information in which the array is inverted based on the sequence information, A program that causes a computer system to perform a step of predicting a first protein information about a protein based on the inversion information. (21) The information processing apparatus according to any one of (11) to (17).
  • the feature amount calculation unit is an information processing device that calculates the feature amount by accessing a database in which the sequence information and the feature amount are associated with each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本技術の一形態に係る情報処理装置は、取得部と、反転部と、生成部とを具備する。前記取得部は、ゲノム配列に関する配列情報を取得する。前記反転部は、前記配列情報に基づいて、配列が反転された反転情報を生成する。前記生成部は、前記反転情報に基づいて、タンパク質に関するタンパク質情報を生成する。この情報処理装置では、取得部により、ゲノム配列に関する配列情報が取得される。また、反転部により、配列情報に基づいて、配列が反転された反転情報が生成される。また、生成部により、反転情報に基づいて、タンパク質に関するタンパク質情報が生成される。これにより、タンパク質に関する情報を高い精度で予測することが可能となる。

Description

情報処理装置、情報処理方法、及びプログラム
 本技術は、タンパク質の立体構造の予測等に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。
 特許文献1には、タンパク質を構成するアミノ酸残基間の距離を示す距離マップを予測するための機械学習アルゴリズムについて開示されている。この機械学習アルゴリズムでは、タンパク質に含まれるアミノ酸の配列と、アミノ酸配列の特徴量とを入力としてニューラルネットワークにより距離マップが予測され、出力される。
国際公開第2020/058176号
 タンパク質の立体構造等を、高い精度で予測することが可能な技術が求められている。
 以上のような事情に鑑み、本技術の目的は、タンパク質に関する情報を高い精度で予測することを可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、反転部と、生成部とを具備する。
 前記取得部は、ゲノム配列に関する配列情報を取得する。
 前記反転部は、前記配列情報に基づいて、配列が反転された反転情報を生成する。
 前記生成部は、前記反転情報に基づいて、タンパク質に関するタンパク質情報を生成する。
 この情報処理装置では、取得部により、ゲノム配列に関する配列情報が取得される。また、反転部により、配列情報に基づいて、配列が反転された反転情報が生成される。また、生成部により、反転情報に基づいて、タンパク質に関するタンパク質情報が生成される。これにより、タンパク質に関する情報を高い精度で予測することが可能となる。
 前記配列情報は、アミノ酸の配列、DNAの配列、又はRNAの配列の少なくとも1つに関する情報であってもよい。
 前記生成部は、前記配列情報に基づいて、第1のタンパク質情報を予測する第1の予測部と、前記反転情報に基づいて、第2のタンパク質情報を予測する第2の予測部と、前記第1のタンパク質情報と、前記第2のタンパク質情報とを統合することで、前記タンパク質情報を生成する統合部とを有してもよい。
 前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含んでもよい。
 前記タンパク質情報は、前記タンパク質を構成するアミノ酸残基間の結合を示すコンタクトマップ、前記タンパク質を構成するアミノ酸残基間の距離を示す距離マップ、又は前記タンパク質の三次構造の少なくとも1つを含んでもよい。
 前記統合部は、前記第1のタンパク質情報、及び前記第2のタンパク質情報を入力として機械学習を実行することで、前記タンパク質情報を予測してもよい。
 前記第1の予測部は、前記配列情報を入力として機械学習を実行することで、前記第1のタンパク質情報を予測し、前記第2の予測部は、前記反転情報を入力として機械学習を実行することで、前記第2のタンパク質情報を予測してもよい。
 前記統合部は、正解データと関連付けられた学習用の前記配列情報を入力として予測された学習用の前記第1のタンパク質情報、及び前記学習用の前記配列情報に基づいて生成された前記反転情報を入力として予測された学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて学習された統合用の機械学習モデルを含んでもよい。
 前記第1の予測部は、前記学習用の前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含んでもよい。この場合、前記第1の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習されてもよい。
 前記第2の予測部は、前記学習用の前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含んでもよい。この場合、前記第2の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習されてもよい。
 前記情報処理装置は、さらに、前記配列情報に基づいて特徴量を算出する特徴量算出部を具備してもよい。この場合、前記生成部は、前記特徴量に基づいて、前記タンパク質情報を生成してもよい。
 前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、前記第2の予測部は、前記反転情報と、前記第1の特徴量とに基づいて、前記第2のタンパク質情報を予測してもよい。
 前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、前記反転情報に基づいて第2の特徴量を算出し、前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、前記第2の予測部は、前記反転情報と、前記第2の特徴量とに基づいて、前記第2のタンパク質情報を予測してもよい。
 前記第1の予測部は、正解データと関連付けられた学習用の前記配列情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含んでもよい。
 前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含んでもよい。
 前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記反転情報に基づいて算出された学習用の前記第2の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含んでもよい。
 前記特徴量は、前記タンパク質の二次構造、前記タンパク質に関する注釈情報、前記タンパク質の触媒接触度、又は前記タンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも1つを含んでもよい。
 前記配列情報は、前記タンパク質を構成するアミノ酸残基のN末端側からの結合順を示す情報であり、前記反転情報は、前記タンパク質を構成するアミノ酸残基のC末端側からの結合順を示す情報であってもよい。
 本技術の一形態に係る情報処理方法は、コンピュータシステムが実行する情報処理方法であって、ゲノム配列に関する配列情報を取得することを含む。
 前記配列情報に基づいて、配列が反転された反転情報が生成される。
 前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報が予測される。
 本発明の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
 ゲノム配列に関する配列情報を取得するステップ。
 前記配列情報に基づいて、配列が反転された反転情報を生成するステップ。
 前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報を予測するステップ。
本技術の一実施形態に係るタンパク質解析システムの構成例を示す模式図である。 タンパク質解析システムによる、タンパク質情報の生成例を示すフローチャートである。 配列情報の一例を示す模式図である。 反転情報について説明するための模式図である。 タンパク質情報について説明するための模式図である。 第1の実施形態における、情報処理装置の機能的な構成例を示すブロック図である。 第1の予測部における機械学習モデルの一例を示す模式図である。 第1の予測部における教師データを用いた機械学習モデルの学習を説明するための模式図である。 第2の予測部における機械学習モデルの一例を示す模式図である。 統合部における機械学習モデルの一例を示す模式図である。 統合部における機械学習モデルの学習を説明するための模式図である。 タンパク質情報の誤差について説明するための模式図である。 第2の実施形態における、情報処理装置の機能的な構成例を示すブロック図である。 特徴量の算出について説明するための模式図である。 第1の予測部における機械学習モデルの一例を示す模式図である。 第1の予測部における教師データを用いた機械学習モデルの学習を説明するための模式図である。 第3の実施形態における、情報処理装置の機能的な構成例を示すブロック図である。 情報処理装置を実現可能なコンピュータのハードウェア構成例を示すブロック図である。
 以下、本技術に係る実施形態を、図面を参照しながら説明する。
 [タンパク質解析システム]
 図1は、本技術の一実施形態に係るタンパク質解析システムの構成例を示す模式図である。
 図2は、タンパク質解析システムによる、タンパク質情報の生成例を示すフローチャートである。
 タンパク質解析システムは、本技術に係る情報処理システムの一実施形態に相当する。
 タンパク質解析システム100は、ゲノム配列に関する配列情報1を取得し、取得した配列情報1に基づいて、タンパク質情報2を生成することが可能である。
 本実施形態では、ゲノム配列に関する配列情報1として、アミノ酸の配列、DNA(デオキシリボ核酸)の配列、又はRNA(リボ核酸)の配列の少なくとも1つに関する情報が取得される。もちろんこれに限定されず、ゲノム配列に関する任意の配列情報1が取得されてよい。
 タンパク質情報2とは、タンパク質に関する任意の情報を含む。本実施形態では、タンパク質情報2として、タンパク質の構造、又はタンパク質の機能の少なくとも一方に関する情報が生成される。その他、タンパク質に関する任意の情報が生成されてよい。
 本タンパク質解析システム100を用いることで、例えば、アミノ酸の配列のみが分かっているタンパク質について、タンパク質の構造や機能を予測することが可能となる。
 図1に示すように、タンパク質解析システム100は、配列情報DB(データベース)3と、情報処理装置4とを有する。
 配列情報DB3には、配列情報1が格納される。例えば、ユーザ(オペレータ)等により配列情報DB3に配列情報1が登録されてもよい。あるいは、ネットワーク等を介して自動的に配列情報1が収集されてもよい。
 配列情報DB3は、例えばHDD、フラッシュメモリ等の記憶デバイスにより構成される。
 図1に示す例では、情報処理装置4の外部の記憶デバイスにより配列情報DB3が構築されている。これに限定されず、配列情報DB3が、情報処理装置4に備えられた記憶デバイスにより構築されてもよい。この場合、当該記憶デバイスも含めて、情報処理装置4の一実施形態として機能する。
 情報処理装置4は、例えばCPUやGPU、DSP等のプロセッサ、ROMやRAM等のメモリ、HDD等の記憶デバイス等、コンピュータの構成に必要なハードウェアを有する(図18参照)。
 例えばCPUがROM等に予め記録されている本技術に係るプログラムをRAMにロードして実行することにより、本技術に係る情報処理方法が実行される。
 例えばPC(Personal Computer)等の任意のコンピュータにより、情報処理装置4を実現することが可能である。もちろんFPGA、ASIC等のハードウェアが用いられてもよい。
 本実施形態では、CPU等が所定のプログラムを実行することで、機能ブロックとしての取得部5、反転部6、及び生成部7が構成される。もちろん機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
 プログラムは、例えば種々の記録媒体を介して情報処理装置4にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。
 プログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば、コンピュータが読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
 取得部5は、ゲノム配列に関する配列情報1を取得する。本実施形態では、取得部5により、配列情報DB3に格納された配列情報1が取得される。
 反転部6は、配列情報1に基づいて、配列が反転された反転情報を生成する。
 生成部7は、反転情報に基づいて、タンパク質に関するタンパク質情報2を生成する。なお、反転情報に基づいたタンパク質情報2の生成は、反転情報を用いた任意の生成方法(アルゴリズム)によるタンパク質情報2の生成を含む。
 [配列情報]
 図2に示すように、取得部5により、ゲノム配列に関する配列情報1が取得される(ステップ101)。
 図3は、配列情報1の一例を示す模式図である。
 本実施形態では、配列情報1として、アミノ酸の配列が取得される。例えば図3に示すような、タンパク質を構成するアミノ酸の配列をアルファベットで表記した文字列が、取得部5により取得される。
 タンパク質の構造は、アミノ酸残基の配列で表現することが可能である。しかしながら一般に、機能を持ったタンパク質は、数十~数千個ものアミノ酸残基により構成されており、それらのアミノ酸残基を示性式等で表記すると、非常に冗長になってしまう。
 そこで、簡潔にアミノ酸残基の配列を表記するために、アルファベット1文字によりアミノ酸残基の種類を表現する方法がしばしば用いられる。例えばグリシン残基は「G」、アラニン残基は「A」で表記される。その他、22種類のアミノ酸残基の各々が、アルファベット1文字により表現される。
 本実施形態では、このようなアルファベットの文字列が、アミノ酸の配列として取得部5により取得される。なお、このようなアミノ酸残基の配列を表現したアルファベットの文字列は、一次構造と呼ばれる。
 アルファベットによりアミノ酸残基の配列が表現される場合には、通常タンパク質のN末端からC末端に向かうように、アミノ酸残基が順番に記述される。
 図3に示すように、本実施形態において、配列情報1は、タンパク質を構成するアミノ酸残基のN末端側からの結合順を示す情報となる。
 なお、配列情報1の両端に記述された「N」及び「C」は、N末端及びC末端に相当する残基の位置を示している。
 例えば、配列情報1の左端に記述されている「S」は、セリン残基を示すアルファベットである。図3に示すように、セリン残基は、N末端に相当する残基である。
 また、左端から2番目の位置に記述されている「Q」は、グルタミン残基を示すアルファベットである。
 また、右端に記述されている「E」は、グルタミン酸残基を示すアルファベットである。図3に示すように、グルタミン酸残基は、C末端に相当する残基である。
 従って、図3に示す配列情報1は、残基がセリン残基、グルタミン残基、・・・、グルタミン酸残基の順に並べられた配列を示している。
 本実施形態では、このようにして表現されたアミノ酸の配列が、取得部5により取得される。
 もちろん、アミノ酸の配列を表現する方法はアルファベットの文字列に限定されない。例えば、アミノ酸の配列が構造式や示性式等で表された情報が、配列情報1として取得されてもよい。
 配列情報1として、DNAの配列が取得される場合、例えばDNA分子の塩基配列が取得される。
 DNAを構成する塩基としては、アデニン、グアニン、シトシン、チミンの4種類の物質が存在する。4種類の物質の結合順のことを、塩基配列という。
 各々の塩基は、しばしばアルファベット1文字の略称で表される。例えばアデニンは「A」で表される。同様に、グアニンは「G」、シトシンは「C」、チミンは「T」で表される。
 例えば、取得部5により、塩基配列がアルファベットの文字列で表現されたDNAの配列が、配列情報1として取得される。
 もちろん、DNA分子の構造式や示性式等が、DNAの配列として取得されてもよい。
 配列情報1として、RNAの配列が取得される場合、RNA分子の塩基配列が取得されてもよい。
 RNAを構成する塩基としては、アデニン、グアニン、シトシン、ウラシルの4種類の物質が存在する。
 各々の塩基は、しばしばアルファベット1文字の略称で表される。DNAの塩基配列を表す場合と同様に、アデニンは「A」、グアニンは「G」、シトシンは「C」で表される。また、ウラシルは「U」で表される。
 例えば、取得部5により、塩基配列がアルファベットの文字列で表現されたRNAの配列が、配列情報1として取得される。
 もちろん、RNA分子の構造式や示性式等が、RNAの配列として取得されてもよい。
 生体内では、タンパク質はDNA配列に基づいて生成される。具体的には、DNAが転写されてRNAが生成される。RNAが翻訳されてアミノ酸が生成される。そして、各々のアミノ酸の結合によりタンパク質が生成される。
 すなわち、DNAの配列、RNAの配列、及びアミノ酸の配列は、互いに関連付けられた情報となる。
 本実施形態では、取得部5により、ゲノム配列に関する配列情報1が取得される。
 ゲノム配列とは、DNAの塩基配列、及びRNAの塩基配列を意味する言葉である。従って、DNAの配列及びRNAの配列は、ゲノム配列に関する配列情報1に含まれる。
 また、アミノ酸の配列は、DNAの配列やRNAの配列に基づいて生成される配列である。従ってアミノ酸の配列も、ゲノム配列に関する配列情報1に含まれる。
 その他、配列情報1として取得される情報は限定されず、ゲノム配列に関する任意の情報が取得されてよい。
 本開示において、情報の取得は、当該情報を生成することを含む。従って、取得部5により、配列情報1が生成される場合もあり得る。
 もちろん、取得部5による配列情報1の生成方法は限定されない。
 [反転情報]
 図2に示すように、反転部6により、配列情報1に基づいて、配列が反転された反転情報が生成される(ステップ102)。
 図4は、反転情報について説明するための模式図である。
 図4には、配列情報1、及び反転部6により生成される反転情報10の一例が示されている。
 図4に示すように、反転情報10は、配列情報1の配列が反転された情報となる。具体的には、アミノ酸残基の配列を示すアルファベットの並び順を逆にした情報が、反転情報10として生成される。
 例えば配列情報1の右端に位置する「E」が、反転情報10の左端に位置する。また、配列情報1の右端から2番目に位置する「C」が、反転情報10の左端から2番目に位置する。また、配列情報1の左端に位置する「S」は、反転情報10の右端に位置する。
 このように、反転部6により、配列情報1におけるアルファベットの並び順を逆にする処理が実行され、反転情報10が生成される。
 従って、反転情報10は、配列情報1のC末端側からの結合順を示す情報となる。
 [タンパク質情報]
 図2に示すように、生成部7により、反転情報10に基づいて、タンパク質に関するタンパク質情報2が生成される(ステップ103)。
 図5は、タンパク質情報2について説明するための模式図である。
 図5に示すように、反転部6により生成された反転情報10に基づいて、生成部7により、タンパク質情報2が生成される。
 図5には、生成されるタンパク質情報2の一例として、三次構造13、コンタクトマップ14、及び距離マップ15を表す模式図が示されている。
 アミノ酸同士の結合によってタンパク質が生成されると、タンパク質はアミノ酸の配列に応じて折りたたまれ、固有の立体的な構造を持った状態となる。このような、タンパク質が取る三次元的な構造を、三次構造13という。
 なお、タンパク質の折りたたみのことを、フォールディングと呼称する場合がある。
 アミノ酸の配列(一次構造)は、タンパク質を構成するアミノ酸の単なる結合順を示す情報である。一方で三次構造13は、タンパク質がどのように折りたたまれているか、全体としてどのような形状を有しているか、といった情報を含む。
 三次構造13は、例えば各々のアミノ酸残基の三次元座標により規定することが可能である。
 例えばタンパク質を構成するアミノ酸残基のうち、ある1つのアミノ酸残基の座標を基準として、各々のアミノ酸残基の相対的な座標が規定される。もちろん、各アミノ酸残基の三次元座標を規定するための方法は限定されず、任意に設定されてよい。
 例えば、直交座標系や極座標系等の任意の座標系が用いられてもよい。また、タンパク質を構成する各々の原子や分子、官能基等の三次元座標が、三次構造13として生成されてもよい。
 また、三次構造13として、三次元座標以外の情報が生成されてもよい。例えば、タンパク質の折りたたみ位置や、折りたたみの角度といった情報が生成されてもよい。その他、タンパク質が取る三次元構造を示すことが可能な任意の情報が三次構造13として用いられてよい。
 コンタクトマップ14は、タンパク質を構成するアミノ酸残基間の結合を示す情報である。すなわち、コンタクトマップ14は、残基同士の結合の有無を示したマップである。例えば、コンタクトマップ14として、二次元の正方形のマップが用いられる。
 マップの縦軸及び横軸には、残基番号が割り当てられる。残基番号とは、アミノ酸残基がタンパク質において何番目に結合しているかを表す番号である。
 例えば図3に示すような配列情報1を持つタンパク質においては、配列の左端に位置する「S」、すなわちセリン残基が、残基番号1番の残基に相当する。また、左端から2番目に位置する「Q」、すなわちグルタミン残基は、残基番号2番の残基に相当する。このように、配列情報1において左側に位置する残基から順に、残基番号が割り振られる。
 ある2つのアミノ酸残基が結合している場合には、当該2つの残基番号に相当する位置のマップ上の点が、白色で表される。結合していない場合には、黒色で表される。
 例えば、残基番号80番のアミノ酸残基と、残基番号150番のアミノ酸残基とが結合している場合には、縦軸上の80番の位置と横軸上の150番の位置とが交差するマップ上の点が、白色で表示される。
 この場合、縦軸上の150番の位置及び横軸上の80番の位置が交差するマップ上の点も、同様に白色で表示される。従って、コンタクトマップ14は対角線(縦軸と横軸の残基番号が一致するような点の集合)に対して対称なマップとなる。
 なお、結合状態を表現するための色等は限定されない。例えば白及び黒以外の色で結合状態が表現されてもよい。
 コンタクトマップ14は、残基同士の結合状態を、全ての残基の組み合わせについて示したマップとなる。
 コンタクトマップ14により、タンパク質がどのように折れ曲がっているか等の、タンパク質の三次元構造を推定することが可能である。
 例えば、コンタクトマップ14から、80番の残基と150番の残基とが結合しているという情報が得られたとする。しかし、80番の残基及び150番の残基は、配列上は離れた位置に存在しているため、ペプチド結合による結合は、なされていない。
 このことから、80番の残基と150番の残基との間の、いずれかの位置でタンパク質が折れ曲がり、イオン結合等により残基が結合していると考えることができる。このように、コンタクトマップ14から、タンパク質がどのように折れ曲がっているか等の、三次元構造を推定することが可能となる。
 コンタクトマップ14は、本技術に係るタンパク質情報の一実施形態に相当する。
 距離マップ15は、アミノ酸残基間の距離を示すマップである。例えば距離マップ15として、コンタクトマップ14と同様に二次元の正方形のマップが用いられる。
 また、コンタクトマップ14と同様に、マップの縦軸及び横軸には、残基番号が割り当てられる。
 例えば、距離マップ15では、2つのアミノ酸残基間の距離がモノクロ色の明度で表現される。
 アミノ酸残基間の距離は、距離が近いほど、明度が高いモノクロ色で表現される。例えばアミノ酸残基間の距離が近い状態は、白色に近い色で表現される。一方、例えばアミノ酸残基間の距離が遠い状態は、黒色に近い色で表現される。
 なお、アミノ酸残基間の距離を表現する方法は限定されない。例えば、カラー色の明度、彩度、及び色相等により距離が表現されてもよい。
 距離マップ15は、コンタクトマップ14と同様に、対角線に対して対称なマップとなる。
 距離マップ15はアミノ酸残基間の距離を、全ての残基の組み合わせについて示したマップとなる。
 コンタクトマップ14と同様に、距離マップ15により、タンパク質の三次元構造を推定することが可能である。
 距離マップ15は、本技術に係るタンパク質情報の一実施形態に相当する。
 本実施形態では、タンパク質情報2として、タンパク質の構造、又はタンパク質の機能の少なくとも一方が生成される。
 タンパク質の構造とは、タンパク質を構成する、部分的な要素の配置や関係のことである。例えば、上記したような残基の三次元座標や、タンパク質の折りたたみ位置や角度といった情報が、タンパク質の構造に該当する。またタンパク質の構造として、水素結合やイオン結合等の、各々の結合が位置する座標が生成されてもよい。その他、タンパク質の構造として生成される情報は限定されない。
 図5に示す三次構造13、コンタクトマップ14、距離マップ15は、タンパク質の構造に関する情報に含まれる。
 タンパク質の機能とは、例えば生体内でタンパク質が有する機能である。
 タンパク質の機能には、例えば体を動かす収縮機能、栄養や酸素を運ぶ運搬機能、及び免疫機能等が該当する。その他、タンパク質の機能として生成される情報は限定されない。
 なお、タンパク質の機能が、タンパク質の構造に起因して現れる場合もある。例えば、免疫機能を持つ抗体のタンパク質はY字型の形状を有しており、2本の腕の部分に異物を捉えることが知られている。このように、タンパク質の構造の生成に伴って、タンパク質の機能が明らかになる場合もある。
 その他、タンパク質解析システム100により生成されるタンパク質情報2は限定されず、タンパク質に関する任意の情報が生成されてよい。
 生成部7により生成されたタンパク質情報2は、例えば情報処理装置4内の記憶デバイスに記憶される。また、例えば情報処理装置4の外部の記憶デバイスにデータベースが構築され、タンパク質情報が当該データベースに対して出力されてもよい。その他、生成されたタンパク質情報2の出力方法及び記憶方法等は限定されない。
 図1~図5を用いて、アミノ酸の配列、アミノ酸の配列の反転、及び反転されたアミノ酸の配列に基づくタンパク質情報2の生成等について説明したが、一連の処理は配列情報1がアミノ酸の配列である場合に限定されず、実行することが可能である。
 例えば、配列情報1がDNAの配列である場合には、「GAATTC」のように表現されたDNAの塩基配列が、反転部6により同様の処理で反転される。さらに、反転された文字列に基づいて、生成部7によりタンパク質情報2が生成される。
 また、配列情報1がRNAの配列である場合にも、同様の処理で反転部6による反転、及び生成部7による生成が実行される。
 また、配列情報1がDNAの配列やRNAの配列である場合に、一連の処理に、塩基配列の翻訳に相当する処理が含まれてもよい。
 この場合、例えば、情報処理装置4が図示しない翻訳部を有し、まず翻訳部により塩基配列の翻訳に相当する処理が実行される。例えば配列情報1がDNAの配列である場合には、DNAの塩基配列上でチミン(T)だった部分をウラシル(U)に置き換え、RNAの塩基配列を生成する処理が実行される。また、遺伝暗号表に基づき、RNAの3つ分の塩基配列を1つのアミノ酸に翻訳し、アミノ酸の配列を生成する処理が実行されてもよい。
 このようにして生成されたアミノ酸の配列に基づいて、反転部6による反転情報10の生成や、生成部7によるタンパク質情報2の生成が実行される。
 もちろん、翻訳に相当する処理が含まれずに、直接タンパク質情報2が生成されてもよい。すなわち、アミノ酸の配列の生成を経由せずに、DNAの配列やRNAの配列から直接タンパク質情報2が生成されてもよい。
 <第1の実施形態>
 図1に示すタンパク質解析システム100の詳細について、第1の実施形態を説明する。
 図6は、第1の実施形態における、情報処理装置4の機能的な構成例を示すブロック図である。
 図6に示すように、情報処理装置4は、取得部5、反転部6、第1の予測部18、第2の予測部19及び統合部20を有する。
 図6に示す各機能ブロックは、プロセッサが本技術に係るアプリケーションプログラム等を実行することで実現される。もちろん機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
 図6に示すように、本実施形態では、第1の予測部18により、第1のコンタクトマップ21が予測される。また、第2の予測部19により、第2のコンタクトマップ22が予測される。さらに、統合部20により、第1のコンタクトマップ21及び第2のコンタクトマップ22が統合されることで、最終的なタンパク質情報2としてのコンタクトマップ14が生成される。
 取得部5は、ゲノム配列に関する配列情報1を取得する。本実施形態では、配列情報1として、アミノ酸の配列を表すアルファベットの文字列が取得される。
 反転部6は、配列情報1に基づいて、配列が反転された反転情報10を生成する。
 第1の予測部18は、配列情報1に基づいて、第1のタンパク質情報を予測する。
 本実施形態では、第1のタンパク質情報として、第1のコンタクトマップ21が予測される。
 第1のコンタクトマップ21を予測するために、任意のアルゴリズムが用いられてもよい。すなわち、配列情報1を入力、第1のコンタクトマップ21を出力とした、任意の予測処理が実行されてよい。
 予測のためのアルゴリズムは、例えばタンパク質の構造予測における既知の手法を参酌して作成することが可能である。例えば、配列情報1から、タンパク質の一部の構造や機能を推定する手法が確立されている場合に、推定のための手順に相当する処理がアルゴリズムに組み込まれる。具体的には、推定のための数値計算等の処理が、アルゴリズムに組み込まれる。
 例えば、X線結晶構造解析法、核磁気共鳴法等の、タンパク質の構造予測における既知の手法が参酌され、アルゴリズムが作成されてもよい。
 本実施形態では、機械学習アルゴリズムが用いられて、第1のコンタクトマップ21が予測される。すなわち、第1の予測部18は、配列情報1を入力として機械学習を実行することで、第1のコンタクトマップ21を予測する。
 第2の予測部19は、反転情報10に基づいて、第2のタンパク質情報を予測する。
 本実施形態では、第2のタンパク質情報として、第2のコンタクトマップ22が予測される。
 図6に示すように、本実施形態では、反転部6により生成された反転情報10が、第2の予測部19に出力される。第2の予測部19は、反転情報10に基づいて、第2のコンタクトマップ22を予測する。
 第2のコンタクトマップ22を予測するために、任意のアルゴリズムが用いられてもよい。すなわち、反転情報10を入力、第2のコンタクトマップ22を出力とした、任意の予測処理が実行されてよい。
 本実施形態では、機械学習アルゴリズムが用いられて、第2のコンタクトマップ22が予測される。すなわち、第2の予測部19は、反転情報10を入力として機械学習を実行することで、第2のコンタクトマップ21を予測する。
 なお、第1の予測部18による第1のコンタクトマップ21の予測、及び第2の予測部19による第2のコンタクトマップ22の予測の各々を実行するために、同じアルゴリズムが用いられてもよいし、異なるアルゴリズムが用いられてもよい。
 統合部20は、第1のコンタクトマップ21と、第2のコンタクトマップ22とを統合することで、統合コンタクトマップ23を生成する。
 図6に示すように、第1の予測部18により予測された第1のコンタクトマップ21が、統合部20に対して出力される。同様に、第2の予測部19により予測された第2のコンタクトマップ22が、統合部20に対して出力される。統合部20が第1のコンタクトマップ21及び第2のコンタクトマップ22を受け取ると、第1のコンタクトマップ21及び第2のコンタクトマップ22の統合が実行され、統合コンタクトマップ23が生成される。
 統合コンタクトマップ23を生成するために、任意のアルゴリズムが用いられてよい。すなわち、第1のコンタクトマップ21及び第2のコンタクトマップ22を入力、統合コンタクトマップ23を出力とした、任意の統合処理が実行されてよい。
 例えば、第1のコンタクトマップ21の一部の情報と、第2のコンタクトマップ22の一部の情報とが統合されることで、統合コンタクトマップ23が生成されてもよい。
 例えば、残基番号が1番から100番までの範囲となる第1のコンタクトマップ21及び第2のコンタクトマップ22がそれぞれ予測されたとする。残基番号が1番から50番までの第1のコンタクトマップ21の情報と、前記番号が51番から100番までの第2のコンタクトマップ22の情報とが統合され、統合コンタクトマップ23が生成されてもよい。
 なお、第1のコンタクトマップ21や第2のコンタクトマップ22の一部が画像データとして扱われることで、抽出及び統合の処理が実行されてもよい。また第1のコンタクトマップ21や第2のコンタクトマップ22の一部が数値データ(例えば座標及び白色/黒色を表す数値が関連付けられたデータ)として扱われることで、処理が実行されてもよい。
 例えば統合部20のアルゴリズムは、第1の予測部18や第2の予測部19のアルゴリズムと同様に、タンパク質の構造予測における既知の手法を参酌して作成することが可能である。
 例えばタンパク質の構造予測における既知の手法を参酌して、統合コンタクトマップ23が実際のコンタクトマップ14に極力近くなるように、統合のアルゴリズムを作成することが可能である。
 本実施形態では、機械学習アルゴリズムが用いられて、統合コンタクトマップ23が予測される。すなわち、統合部20は、第1のコンタクトマップ21及び第2のコンタクトマップ22を入力として機械学習を実行することで、統合コンタクトマップ23を予測する。
 図6に示す例では、情報処理装置4によりコンタクトマップ14が生成されるが、もちろん図5に示すような三次構造13や、距離マップ15が生成されてもよい。
 また、例えば三次構造13、コンタクトマップ14、及び距離マップ15のうちの複数が、タンパク質情報2として生成されてもよい。この場合、第1の予測部18や第2の予測部19により、三次構造13、コンタクトマップ14、及び距離マップ15のうちの複数の情報が予測されてもよい。
 もちろん、第1の予測部18、第2の予測部19、及び統合部20により予測される情報は三次構造13、コンタクトマップ14、及び距離マップ15に限定されず、タンパク質に関する任意の情報が予測されてよい。
 また、配列情報1に基づいて第1のタンパク質情報を予測する第1の予測部18が複数構成されてもよい。同様に、反転情報10に基づいて第2のタンパク質情報を予測する第2の予測部19が複数構成されてもよい。
 そして、複数の第1のタンパク質情報、及び複数の第2のタンパク質情報が統合されて、最終的なタンパク質情報2が生成されてもよい。
 図6を用いた説明では取得部5、反転部6、第1の予測部18、第2の予測部19、統合部20の順に各機能ブロックの動作を説明したが、情報処理装置4による統合コンタクトマップ23の生成処理に関する処理順はこの順番に限定されない。各機能ブロックによる処理順は限定されず、一連の処理が可能な範囲の、任意の順番で処理が実行されてよい。
 本実施形態では、第1の予測部18、第2の予測部19、及び統合部20により、図1に示す生成部7が実現される。
 また、第1の予測部18により第1のコンタクトマップ21が予測され、第2の予測部19により第2のコンタクトマップ22が予測され、統合部20により統合コンタクトマップ23が予測される一連の動作は、生成部7によるタンパク質情報2の生成に相当する。
 このように、生成部7によるタンパク質情報2の生成には、第1の予測部18による第1のコンタクトマップ21の予測や、第2の予測部19による第2のコンタクトマップ22の予測や、統合部20による統合コンタクトマップ23の予測のような、タンパク質情報2の生成のための部分的な処理が含まれる。
 もちろん、タンパク質情報2の生成のために、予測や統合以外の任意の処理が実行されてよい。
 [機械学習モデル]
 本実施形態では、第1の予測部18、第2の予測部19、及び統合部20の各々が機械学習モデルを含み、機械学習により、予測及び統合が実行される。
 図7は、第1の予測部18における機械学習モデルの一例を示す模式図である。
 図8は、第1の予測部18における教師データを用いた機械学習モデルの学習を説明するための模式図である。
 第1の予測部18は、配列情報1を入力として機械学習を実行することで、第1のコンタクトマップ21を予測する。
 図7には、機械学習モデルの例として、第1の予測部18に含まれる機械学習モデル26aが示されている。
 図7に示すように、機械学習モデル26aには、配列情報1が入力される。例えば、アミノ酸の配列や、DNAの配列、RNAの配列のような配列情報1が、機械学習モデル26aに対して入力される。
 本実施形態では、アミノ酸の配列を表すアルファベットの文字列が、機械学習モデル26aに入力される。
 また、機械学習モデル26aにより、第1のコンタクトマップ21が予測される。
 機械学習モデル26aの学習のために、学習用データに教師ラベルが関連付けられた教師データが、学習部30に入力される。教師データは、入力に対して正解を予測する機械学習モデルを学習させるためのデータである。
 図8に示すように、本実施形態では、学習用データとして、学習用の配列情報29が学習部30に対して入力される。
 また、教師ラベルとして、コンタクトマップ14が学習部30に入力される。教師ラベルは、学習用の配列情報29に対応する正解(正解データ)である。
 本実施形態では、学習用の配列情報29(学習用データ)に、コンタクトマップ14(教師ラベル)が関連付けられたデータが、本実施形態における教師データに相当する。
 例えば、コンタクトマップ14が既知であるようなタンパク質が存在する場合に、当該既知のコンタクトマップ14が、教師ラベルとして用いられる。また、当該タンパク質に関する配列情報1が、学習用データとして用いられる。このように、既知のコンタクトマップ14と配列情報1とが関連付けられた教師データが複数用意され、学習のために用いられる。
 教師データを格納するために、例えば教師データDB(データベース)が構成される。
 教師データDBには、複数の教師データが格納される。すなわち、学習用の配列情報29にコンタクトマップ14が関連付けられた、複数のデータが格納される。
 また、図8に示す例では、教師ラベルが、ラベルDB31に格納されている。ラベルDB31は、例えば教師データDB内に構築される。
 教師データ(学習用データ及び教師ラベル)を保存するための構成や方法は限定されない。例えば、教師データDBやラベルDB31が情報処理装置4に含まれ、情報処理装置4により機械学習モデル26aの学習が実行されてもよい。もちろん、教師データDBやラベルDB31が、情報処理装置4の外部に構成されていてもよい。その他、任意の構成及び方法が採用されてよい。
 図8に示すように、学習用データと教師ラベルとが関連付けられ、教師データとして学習部30に入力される。
 学習部30により、教師データが用いられ、機械学習アルゴリズムに基づいて学習が実行される。学習により、正解(教師ラベル)を算出するためのパラメータ(係数)が更新され、学習済パラメータとして生成される。生成された学習済パラメータが組み込まれたプログラムが、機械学習モデル26aとして生成される。
 本実施形態では、第1の予測部18は、第1のコンタクトマップ21と、正解データとの誤差に基づいて学習された機械学習モデル26aを含む。すなわち、機械学習モデル26aは、予測された第1のコンタクトマップ21と、正解データとの誤差に基づいて学習される。このような学習の方法を、誤差逆伝播法という。
 誤差逆伝播法は、ニューラルネットワークの学習のために一般的に良く利用される学習手法である。ニューラルネットワークとは、元々人間の脳神経回路を模倣したモデルであり、入力層、中間層(隠れ層)、出力層の3種類の層からなる層構造を持ったモデルである。多数の中間層を持つニューラルネットワークは特にディープニューラルネットワークと呼ばれ、これを学習するためのディープラーニング技術は、大量データの中に潜んでいる複雑なパターンを学習できるモデルとして知られている。誤差逆伝播法はこのような学習手法の1つであり、例えば、画像や動画の認識に用いられる畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)などの学習に良く用いられる。
 また、このような機械学習を実現するハードウェア構造としては、ニューラルネットワークの概念を組み込まれたニューロチップ/ニューロモーフィック・チップが用いられ得る。
 誤差逆伝播法は、出力と正解データとの誤差に基づいて、誤差が小さくなるように機械学習モデルのパラメータを調整するような学習の方法である。
 もちろん、機械学習モデル26aを学習させるためのアルゴリズムは限定されず、任意の機械学習アルゴリズムが用いられてもよい。
 学習部30により生成された機械学習モデル26aは、第1の予測部18に組み込まれる。そして、第1の予測部18により、第1のコンタクトマップ21の予測が実行される。
 第2の予測部19は、反転情報10を入力として機械学習を実行することで、第2のコンタクトマップ22を予測する。
 図9は、第2の予測部19における機械学習モデルの一例を示す模式図である。
 図9には、機械学習モデルの例として、第2の予測部19に含まれる機械学習モデル26bが示されている。
 図9に示すように、機械学習モデル26bには、反転情報10が入力される。本実施形態では、アミノ酸の配列を表すアルファベットの文字列の並び順を逆にした文字列が、反転情報10として入力される。反転情報10が入力されると、機械学習モデル26bにより、第2のコンタクトマップ22が予測される。
 機械学習モデル26aと同様に、任意の機械学習アルゴリズムにより、機械学習モデル26bを学習させることが可能である。
 例えば図8と同様に、学習部に対して、学習用の反転情報が、学習用データとして入力される。また、学習部に対して、コンタクトマップ14が正解データとして入力される。
 例えば、学習用の反転情報は、学習用の配列情報29を反転させることで生成される。例えば、学習用の配列情報29が反転部6に入力され、反転部6により、学習用の反転情報が生成されてもよい。
 もちろん、あらかじめ学習用の反転情報が用意され、教師データDB等に格納されていてもよい。
 正解データは、学習用の配列情報29と関連付けられている教師ラベルを用いることが可能である。
 学習部により、機械学習モデル26aと同様に誤差逆伝播法による学習が実行され、機械学習モデル26bが生成される。すなわち、機械学習モデル26bは、予測された第2のコンタクトマップ22と、正解データとの誤差に基づいて学習される。
 もちろん、機械学習モデル26bに対する学習の方法としても、任意の方法(機械学習アルゴリズム)が採用されてよい。
 学習部により生成された機械学習モデル26bは、第2の予測部19に組み込まれる。そして、第2の予測部19により、第2のコンタクトマップ22の予測が実行される。
 なお、図8に示す学習部30が情報処理装置4に含まれ、情報処理装置4により機械学習モデル26aの学習が実行されてもよい。
 同様に、機械学習モデル26bの学習に用いられる学習部が情報処理装置4に含まれ、情報処理装置4により機械学習モデル26bの学習が実行されてもよい。
 一方で、学習部30が情報処理装置4の外部に構成されてもよい。すなわち、あらかじめ情報処理装置4の外部で学習部30による学習が実行され、学習済みの機械学習モデルaのみが、第1の予測部18に組み込まれてもよい。
 同様に、機械学習モデル26bの学習に用いられる学習部が情報処理装置4の外部に構成されてもよい。すなわち、あらかじめ情報処理装置4の外部で学習部による学習が実行され、学習済みの機械学習モデルbのみが、第2の予測部19に組み込まれてもよい。
その他、学習部30及び機械学習モデルbを学習するための学習部の具体的な構成は限定されない。
 機械学習モデル26aは、本技術に係る第1の機械学習モデルの一実施形態に相当する。
 また、機械学習モデル26bは、本技術に係る第2の機械学習モデルの一実施形態に相当する。
 また、誤差逆伝播法は、本技術に係る、タンパク質情報と、正解データとの誤差に基づく学習の一実施形態に相当する。
 図10は、統合部20における機械学習モデルの一例を示す模式図である。
 図11は、統合部20における機械学習モデルの学習を説明するための模式図である。
 本実施形態では、統合部20は、機械学習モデル26cを有する。そして、統合部20は、第1のコンタクトマップ21、及び第2のコンタクトマップ22を入力として機械学習を実行することで、統合コンタクトマップ23を予測する。
 図10に示すように、機械学習モデル26cに、第1の予測部18により予測された第1のコンタクトマップ21、及び第2の予測部19により予測された第2のコンタクトマップ22が入力される。そして、機械学習が実行されることで、統合コンタクトマップ23が予測される。
 本開示において、2つの情報を入力として機械学習により情報を出力することは、当該2つの情報を統合して情報を生成することに含まれる。
 図11に示すように、例えば誤差逆伝播法により、機械学習モデル26cを学習させることが可能である。
 具体的には、学習用の第1のコンタクトマップ、及び学習用の第2のコンタクトマップを入力として予測された統合コンタクトマップ23と、正解データとの差異に基づいて、統合用の機械学習モデル26cを学習させることが可能である。
 なお図11では、機械学習モデル26cに対する学習を、統合部20に対する処理として図示がされている。
 まず、正解データとしてのコンタクトマップ14と関連付けられた学習用の配列情報29が用意される。すなわち、学習用の配列情報29と、コンタクトマップ14(正解データ)とが互いに関連付けられた教師データが用意される。
 学習用の配列情報29を入力として第1の予測部18により予測された第1のコンタクトマップ21が、学習用の第1のコンタクトマップ35として用いられる。
 また、学習用の配列情報29に基づいて生成された反転情報を入力として第2の予測部19により予測された第2のコンタクトマップ22が、学習用の第2のコンタクトマップ36として用いられる。
 図11に示すように、反転部6により学習用の反転情報34を生成することが可能である。もちろんこれに限定されない。
 学習用の第1のコンタクトマップ35、及び学習用の第2のコンタクトマップ36を入力として、統合部20により、統合コンタクトマップ23が予測される。予測された統合コンタクトマップ23と、正解データとの誤差(LOSS)に基づいて、統合用の機械学習モデル26cが学習される。
 なお、正解データは、学習用の配列情報1に対応するコンタクトマップ14である。
 学習部30により生成された機械学習モデル26cは、統合部20に組み込まれる。そして、統合部20により、統合コンタクトマップ23の予測が実行される。
 なお、情報処理装置4により機械学習モデル26cの学習が実行されてもよい。あるいは、情報処理装置4の外部にて、機械学習モデル26cの学習が実行されてもよい。その他、機械学習モデル26cの学習のための学習部の具体的な構成や、学習の方法等は限定されない。
 学習用の第1のコンタクトマップ35は、本技術に係る学習用の第1のタンパク質情報の一実施形態に相当する。
 また、学習用の第2のコンタクトマップ36は、本技術に係る学習用の第2のタンパク質情報の一実施形態に相当する。
 また、機械学習モデル26cは、本技術に係る統合用の機械学習モデルの一実施形態に相当する。
 [予測部の再学習]
 図11に示すように、本実施形態では、機械学習モデル26aは、学習用の第1のコンタクトマップ35、及び学習用の第2のコンタクトマップ36を入力として統合部20により予測された統合コンタクトマップ23と、正解データとの誤差(LOSS)に基づいて再学習される。
 同様に、機械学習モデル26bは、学習用の第1のコンタクトマップ35、及び学習用の第2のコンタクトマップ36を入力として統合部20により予測された統合コンタクトマップ23と、正解データとの誤差(LOSS)に基づいて再学習される。
 すなわち、誤差逆伝播法による、機械学習モデル26a及び機械学習モデル26bの再学習が実行される。
 以上、本実施形態に係る情報処理装置4では、取得部5により、ゲノム配列に関する配列情報1が取得される。また、反転部6により、配列情報1に基づいて、配列が反転された反転情報10が生成される。また、生成部7により、反転情報10に基づいて、タンパク質に関するタンパク質情報2が生成される。これにより、タンパク質に関する情報を高い精度で予測することが可能となる。
 タンパク質情報2の予測における、既存の手法の課題を説明する。
 図12は、タンパク質情報2の誤差について説明するための模式図である。
 図12A及びBには、既存の手法により配列情報1から予測されたタンパク質情報2の誤差を示す誤差マップの一例が図示されている。
 図12A及びBに例示する誤差マップ39は、残基の三次元座標における誤差を表したマップである。具体的には、既存の手法で予測された残基の三次元座標と、実際の残基の三次元座標との、ユークリッド距離の差が示されている。
 図12A及びBに示す誤差マップ39において、横軸には、左側から右側にわたって、残基番号が割り振られる。例えば誤差が大きい残基番号の範囲には、斜線模様が図示されている。なお誤差は、所定の閾値等を用いて規定することが可能である。
 残基番号の小さい側(N末端側)は、誤差マップ39の左側に相当する。また、残基番号の大きい側(C末端側)は、誤差マップ39の右側に相当する。
 従って、例えばタンパク質を構成するアミノ酸残基の残基番号が1番から100番まで存在するような場合には、残基番号1番が誤差マップ39の左端に相当し、残基番号100番は右端に相当する。
 本発明者は、図12A及びBに示すように、既存の手法による予測結果には、誤差マップ39の両端付近に、誤差の大きい部分(誤差大)が偏在することが多いことを新たに見出した。
 図12Aに示すように、N末端側により広い範囲で誤差大が集中する場合がある。また、図12Bに示すように、C末端側により広い範囲で誤差大が集中する場合もある。
 図12A及びBに示すような誤差大の偏在は、予測の時系列に起因して発生すると考えられる。すなわち、既存の手法では、タンパク質情報2の予測は、残基番号の小さい順に処理される。
 従って、予測の開始時においては、処理対象となるアミノ酸残基の情報が少ないので、誤差が大きくなると考えられる。この結果、図12Aに例示するような、誤差がアミノ酸残基の先頭付近に多く見られるという現象が発生すると考えられる。
 また、タンパク質情報2の予測が残基番号の小さい順に処理されることにより、残基の末端側にかけて、予測の誤差が蓄積してしまうと考えられる。この結果、図12Bに例示するような、誤差がアミノ酸残基の末尾付近に多く見られるという現象が発生すると考えられる。
 図12Aに示すような誤差大の偏在となるか、図12Bに示すような誤差大の偏在となるかは、タンパク質の一次構造(アミノ酸残基の配列)によるものと考えられる。いずれにせよ、既存の手法による予測結果には、誤差マップ39の両端付近に、誤差の大きい部分が偏在することが多い。
 本実施形態では、配列情報1に基づいて予測された第1のコンタクトマップ21と、反転情報10に基づいて予測された第2のコンタクトマップ22とが、統合部20により統合され、タンパク質情報2が生成される。
 従って、第1のコンタクトマップ21、及び第2のコンタクトマップ22の各々の、予測精度が高い部分を抽出し、統合させることが可能となる。すなわち、第1のコンタクトマップ21及び第2のコンタクトマップ22の「良いとこ取り」をしたような、第1のコンタクトマップ21及び第2のコンタクトマップ22いずれよりも誤差の少ない、統合コンタクトマップ23を生成することが可能となる。
 例えば、予測されるタンパク質情報2が三次元座標であるような場合には、配列情報1から予測された三次元座標、及び反転情報10から予測された三次元座標の、誤差が少ない部分(残基番号)の情報を統合することが可能となる。
 この結果、図12A及びBに示すような、アミノ酸残の配列の両端付近に、誤差が偏在してしまうことを抑制することが可能となり、タンパク質に関する情報を高い精度で予測することが可能となる。
 また本実施形態では、第1の予測部18及び第2の予測部19による予測において、機械学習アルゴリズムが用いられる。さらに、統合部20による各々のタンパク質情報2の統合においても、機械学習アルゴリズムが用いられる。
 これにより、各機械学習モデルを十分に学習させることで、非常に精度の高い予測を実行することが可能となる。
 また、本実施形態では、統合部20の学習に合わせて、第1の予測部18及び第2の予測部19の再学習が実行される。これにより、予測精度をさらに向上させることが可能となる。
 タンパク質の三次元構造が解析されることにより、例えば薬の設計や、食品を醸造する酵母の設計等、様々な分野への応用が期待できる。
 一方で、アミノ酸の配列のような一次構造から、タンパク質が有する三次元構造を解析することは困難な課題である。例えば、三次元構造を網羅的に計算するためには膨大な時間を要するため、実質的に計算が不可能である。
 本技術が用いられることで、タンパク質が有する三次元構造を精度よく予測することが可能である。これにより、例えば個人に応じた薬の設計や、DNAに基づいた顔予測、バイオ燃料の高精度な設計、食品や農作物の直接的なデザイン等が可能となり、様々な分野における技術の発展に広く資することが期待できる。
 <第2の実施形態>
 本技術に係る第2の実施形態のタンパク質解析システム100について説明する。これ以降の説明では、上記の実施形態で説明したタンパク質解析システム100における構成及び作用と同様な部分については、その説明を省略又は簡略化する。
 図13は、第2の実施形態における、情報処理装置4の機能的な構成例を示すブロック図である。
 図13に示すように、情報処理装置4は、取得部5、反転部6、特徴量算出部42、第1の予測部18、第2の予測部19及び統合部20を有する。
 図13に示す各機能ブロックは、プロセッサが本技術に係るアプリケーションプログラム等を実行することで実現される。もちろん機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
 取得部5、反転部6、及び統合部20の構成及び作用については、第1の実施形態と同様であるため、説明を省略する。
 本実施形態では、第1の予測部18および第2の予測部19による予測において、タンパク質に関する特徴を示す特徴量が用いられる。また、第1の予測部18、第2の予測部19、及び統合部20において、特徴量を用いた学習が実行される。
 また、第1の実施形態と同様に、タンパク質情報2としてコンタクトマップ14が予測される。
 [特徴量]
 特徴量47とは、タンパク質に関する特徴を示す情報である。
 例えば、タンパク質の物理的な性質や、化学的な性質に関する特徴が特徴量47として用いられる。また、タンパク質が有する機能等も、特徴量47として用いられる。その他、タンパク質の特徴を示す任意の情報が、特徴量47として用いられてよい。
 本実施形態においては、特徴量47は、タンパク質の二次構造、タンパク質に関する注釈情報、タンパク質の触媒接触度、又はタンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも1つを含む。
 特徴量47の一例として、上記の4つの特徴量47について、説明する。
 タンパク質の二次構造とは、タンパク質が有する局所的な立体構造である。タンパク質は、アミノ酸の配列に応じて折りたたまれるが、折りたたみの過程で、まず局所的な立体構造が形成される。その後で全体的な折りたたみがなされることで、三次構造13が形成される。
 このような、三次構造13が形成される前の段階で、最初に形成される局所的な立体構造のことを、二次構造という。
 すなわち、タンパク質の折りたたみは、折りたたみのなされていない単なる配列である一次構造から始まり、局所的な構造である二次構造が形成され、最後に全体的な折りたたみにより三次構造13が形成される、といった順序で実現される。
 二次構造の一例としては、例えばαヘリックス、βシートという構造が知られている。
 本実施形態では、上記のような、αヘリックスやβシートといった二次構造が、特徴量47として用いられる。もちろん特徴量47として用いられる二次構造は限定されない。例えば二次構造の他の例として、ターンやループ等の局所的な構造が存在することが知られている。これらの二次構造が特徴量47として採用されてもよい。
 タンパク質に関する注釈情報とは、タンパク質に対して付与(タグ付け)されるメタデータである。メタデータとして、典型的には当該タンパク質に関係するような情報が付与される。注釈情報は、アノテーションと呼称される場合もある。
 例えば注釈情報として、タンパク質が有する構造や機能に関する情報が付与される。
 構造に関する情報としては、例えばタンパク質が有する官能基の名称が付与される。その他、タンパク質の分子量等が、注釈情報として付与されてもよい。
 また、機能に関する情報としては、例えばタンパク質が有する機能の種類が付与される。すなわち、「収縮機能」、「運搬機能」、又は「免疫機能」といった注釈情報がタグ付けされる。
 その他、タンパク質情報2に対して付与される注釈情報は限定されない。
 タンパク質の触媒接触度とは、タンパク質が有するアミノ酸残基が触媒と接触できる面積を、側鎖の大きさによらずに規格化した値のことである。すなわち、触媒接触度が大きいほど、タンパク質中の残基が、広い面積で触媒と接触することになる。
 触媒接触度は、例えば具体的な実数値として算出される。なお、触媒接触度は、触媒露出度等と呼称されることもある。
 タンパク質を構成するアミノ酸残基間の相互ポテンシャルとは、残基間の位置エネルギーのことである。
 タンパク質を構成する、ある2つの残基に注目した場合に、各々の残基には、残基間の距離に依存する力がはたらく。例えば、各々の残基を構成する原子間にはたらく引力や斥力に起因して、残基間に力がはたらく。
 例えば、残基同士が近づくと、各々の残基にはたらく斥力が大きくなり、引力は小さくなる。すなわち、各々の残基に対して斥力側の合力がはたらき、各々の残基は離れようとする。
 また、残基同士が離れると、各々の残基にはたらく引力が大きくなり、斥力は小さくなる。すなわち、各々の残基に対して引力側の合力がはたらき、各々の残基は近づこうとする。
 残基同士の距離がある値になると、各々の残基にはたらく斥力と引力が等しくなり、各々の残基にはたらく合力は0となる。この状態では、各々の残基は動こうとせず、安定する。この状態で、相互ポテンシャルは最低の値をとる。
 すなわち、各々の残基が離れようとしている場合や、近づこうとしている場合には、相互ポテンシャルが当該最低の値よりも高い状態となる。
 このように、相互ポテンシャルは各々の残基が安定しているか否かを示す指標となる。
 本実施形態では、このような相互ポテンシャルが、特徴量47として算出される。
 例えば特徴量47として、タンパク質を構成する全ての残基間の相互ポテンシャルの合計が、算出される。
 例えばタンパク質が残基A、残基B、残基Cから構成される場合には、まず残基A及び残基Bの間の相互ポテンシャルが算出される。同様に、残基Aと残基Cの相互ポテンシャル、及び残基Bと残基Cの相互ポテンシャルも算出される。算出された3つの相互ポテンシャルの和が、特徴量47として用いられる。
 以上のような、二次構造、注釈情報、触媒接触度、又は相互ポテンシャルの少なくとも1つが、特徴量47に含まれる。
 もちろん、特徴量47が上記の4つの情報に限定されるわけではなく、タンパク質に関する特徴を示す任意の情報を、特徴量47として用いることが可能である。
 [特徴量の算出]
 図14は、特徴量の算出について説明するための模式図である。
 図14には、データベース(DB)46、特徴量算出部42、及び特徴量47を表す模式図が示されている。
 図14に示すように、特徴量算出部42は、配列情報1に基づいて特徴量47を算出する。
 なお、図13においては、配列情報1に基づいて算出された特徴量を、配列情報特徴量43と記載している。これは、第3の実施形態において説明する、反転情報10に基づいた特徴量47(反転情報特徴量)と区別するための記載である。反転情報10に基づいた特徴量47の算出については、第3の実施形態において説明する。
 配列情報特徴量43は、本技術に係る第1の特徴量の一実施形態に相当する。
 特徴量の算出のために、データベース(DB)46が用いられる。データベース46には、配列情報1と特徴量47とが関連付けられたデータが格納されている。
 図14に示すように、特徴量算出部42は、配列情報1と特徴量47とが関連付けられたデータベース46にアクセスすることで、特徴量47を算出する。
 データベース46として、すでに構築されている既存のデータベースを利用することが可能である。
 特徴量47の算出方法の一例について、説明する。
 まず、特徴量算出部42により、配列情報1が取得される。例えば、取得部5により取得された配列情報1が特徴量算出部42に対して出力され、特徴量算出部42が配列情報1を受け取ることで、配列情報1の取得が実現される。
 特徴量算出部42により配列情報1が取得されると、配列情報1が複数に分割される。以降、分割により生成された各々の配列情報1を、部分配列情報と表現する場合がある。
 例えば、配列情報1がアミノ酸の配列であり、残基を表すアルファベットの文字列であるような場合には、文字列が分割されることで部分配列情報が生成される。
 例として、元々の配列情報1が「SQETRKKCT」であるような場合に、文字列の分割により、「SQET」と、「RKKCT」の2つの部分配列情報が生成される。
 もちろん文字列の分割の位置や個数は、上記した例に限定されない。
 また、配列情報1がDNAの配列やRNAの配列であるような場合でも、同様に文字列の分割が実行される。
 部分配列情報が生成されると、特徴量算出部42により、データベース46において、部分配列情報と一致する配列情報1の検索が実行される。
 データベース46には、配列情報1と特徴量47とが関連付けられたデータが格納されている。特徴量算出部42は、部分配列情報と一致する配列情報1を発見した場合に、当該配列情報1と、当該配列情報1に関連付けられた特徴量47とを、まとめて抽出する。
 なお部分配列情報と一致する配列情報1ではなく、類似する配列情報1の検索が実行されてもよい。
 以上のような、部分配列情報による配列情報1の検索により、配列情報1及び特徴量47からなるデータの組が、複数抽出される。
 このようにして得られた複数の特徴量47が、予測に用いられる。
 なお、特徴量算出部42により、抽出された複数の特徴量47に基づいて、1つの特徴量47が算出され、予測に用いられてもよい。
 上記したような、配列情報1の分割を含む特徴量算出の方法はあくまで一例であり、もちろん算出の方法は限定されない。
 例えば、配列情報1が分割されずに、当該配列情報1と一致する配列情報1の検索が実行されてもよい。その他、特徴量算出部42による特徴量47の算出方法として、任意の方法が採用可能である。
 なお、データベース46には、例えば過去に実行されたタンパク質の構造解析により、知られている特徴量47が格納される。
 例えば、X線結晶構造解析法や、核磁気共鳴法等の手法により、配列情報1に基づいた構造の解析に成功したタンパク質が存在する。具体的には、配列情報1に基づいて、実際の三次構造13、コンタクトマップ14、又は距離マップ15が解析されているようなタンパク質が存在する。
 このようなタンパク質においては、例えば解析の過程で、タンパク質が有する特徴量47も明らかとなっている場合がある。例えば、タンパク質が有する二次構造は、タンパク質が有する三次構造13に基づいて自然と明らかになる。
 このように、例えば過去の研究により明らかとなっている実際の配列情報1と特徴量47との組が、データベース46に格納される。
 もちろん、過去の予測により得られた特徴量47等が、データベース46に格納されてもよい。
 図13に示すように、第1の予測部18は、配列情報1と、配列情報特徴量43とに基づいて、第1のコンタクトマップ21を予測する。
 本実施形態では、取得部5により取得された配列情報1が、第1の予測部18に対して出力される。また、特徴量算出部42により算出された配列情報特徴量43が、第1の予測部18に対して出力される。第1の予測部18が配列情報1及び配列情報特徴量43を受け取ると、配列情報1及び配列情報特徴量43に基づいて、第1のコンタクトマップ21の予測が実行される。
 予測方法としては、例えば第1の実施形態と同様に、所定のアルゴリズムによる予測が採用される。具体的には、第1の予測部18は予測のためのアルゴリズムを含み、配列情報1及び配列情報特徴量43を入力、コンタクトマップ14を出力とした、アルゴリズムによる予測処理が実行される。
 例えばアルゴリズムは、タンパク質の構造予測における既知の手法が参酌され、作成される。本実施形態においては、アルゴリズムに対して配列情報特徴量43が入力されるため、精度の高い予測を実行するために、例えば配列情報特徴量43を有効に利用することが可能なアルゴリズムが作成される。
 具体的には、配列情報特徴量43を用いることで、精度の高い予測が可能であるような手法が存在する場合には、当該手法が参酌され、アルゴリズムが作成される。
 その他、第1の予測部18に含まれる予測のためのアルゴリズムは限定されない。例えば、本実施形態においても、第1の予測部18に機械学習アルゴリズムが含まれてよい。機械学習によるコンタクトマップ14の予測については、後述する。
 また、第1の予測部18による予測方法は、アルゴリズムによる予測に限定されず、任意の予測方法が採用されてよい。
 第2の予測部19は、反転情報10と、配列情報特徴量43とに基づいて、第2のコンタクトマップ22を予測する。
 本実施形態では、反転部6により反転された反転情報10が、第2の予測部19に対して出力される。また、特徴量算出部42により算出された配列情報特徴量43が、第2の予測部19に対して出力される。第2の予測部19が反転情報10及び配列情報特徴量43を受け取ると、反転情報10及び配列情報特徴量43に基づいて、第2のコンタクトマップ22の予測が実行される。
 第2の予測部19による予測方法としては、例えば第1の予測部18による予測方法と同じ方法が採用される。もちろん、第2の予測部19による予測方法として、第1の予測部18による予測方法とは異なる方法が採用されてもよい。
 統合部20により、第1のコンタクトマップ21及び第2のコンタクトマップ22に基づいた統合処理が実行され、統合コンタクトマップ23が生成される。
 なお、配列情報特徴量43を用いた予測が、一方の予測部においてのみ実行されてもよい。
 例えば、第1の予測部18においては配列情報1及び配列情報特徴量43に基づいて、予測が実行される。一方で、第2の予測部19においては反転情報10のみに基づいて、(配列情報特徴量43は用いられずに)予測が実行される。予測の方法として、このような方法が採用されてもよい。
 また、情報処理装置4による統合コンタクトマップ23の生成処理に関する処理順は限定されない。
 例えば、第1の予測部18による予測と、反転部6による反転情報10の生成は、どちらが先に実行されてもよい。また、特徴量算出部42による配列情報特徴量43の算出と、反転部6による反転情報10の生成は、どちらが先に実行されてもよい。
 その他、各機能ブロックによる処理順は限定されず、一連の処理が可能な範囲の、任意の順番で処理が実行されてよい。
 [機械学習モデル]
 本実施形態においても、第1の予測部18、第2の予測部19、及び統合部20の各々は機械学習モデルを含み、予測や統合のための機械学習が実行される。
 図15は、第1の予測部18における機械学習モデルの一例を示す模式図である。
 図16は、第1の予測部18における教師データを用いた機械学習モデルの学習を説明するための模式図である。
 第1の実施形態においては、第1の予測部18の学習のために配列情報1のみが用いられたが、本実施形態(第2の実施形態)においては、学習のために配列情報1及び配列情報特徴量43が用いられる。
 また、第1の実施形態においては、第2の予測部19の学習のために反転情報10のみが用いられたが、本実施形態においては、学習のために反転情報10及び配列情報特徴量43が用いられる。
 以降、上記の差異を中心に説明を行い、第1の実施形態と同様の内容については、説明を省略する。
 図15に示すように、第1の予測部18における機械学習モデル26aには、配列情報1及び配列情報特徴量43が入力される。
 入力された配列情報1及び配列情報特徴量43に基づいて、機械学習モデル26aにより、第1のコンタクトマップ21が予測される。
 図16に示すように、学習用データに、教師ラベルが関連付けられた教師データが、学習部30に入力される。
 本実施形態では、学習用の配列情報29及び学習用の配列情報特徴量50の組が、学習用データに相当する。
 また、コンタクトマップ14が教師ラベル(正解データ)に相当する。
 例えば、コンタクトマップ14が既知であるようなタンパク質が存在する場合に、当該既知のコンタクトマップ14が、正解データとして用いられる。また、当該タンパク質に関する配列情報1が、学習用の配列情報29として用いられる。
 さらに、当該タンパク質に関する特徴量47が、学習用の配列情報特徴量50として用いられる。例えば、特徴量算出部42により、学習用の配列情報29に基づいて特徴量47が算出され、当該特徴量47が学習用の配列情報特徴量50として用いられる。
 もちろん、学習用の配列情報特徴量50の生成方法は限定されず、任意の方法が採用されてよい。
 このように、既知のコンタクトマップ14、配列情報1、及び配列情報特徴量43が関連付けられた教師データが複数用意され、学習のために用いられる。
 学習用の配列情報特徴量50は、本技術に係る、学習用の第1の特徴量の一実施形態に相当する。
 本実施形態では、第1の予測部18は、正解データと関連付けられた学習用の配列情報29、及び学習用の配列情報29に基づいて算出された学習用の配列情報特徴量50を入力として予測された第1のコンタクトマップ21と、正解データとの誤差に基づいて学習された機械学習モデル26aを含む。
 すなわち、誤差逆伝搬法により、第1のコンタクトマップ21と正解データとの誤差に基づいて、第1の予測部18の学習が実行される。
 もちろん、第1の予測部18の学習方法は限定されず、任意の方法が採用されてよい。
 学習部30により生成された機械学習モデル26aは、第1の予測部18に組み込まれる。そして、第1の予測部18により、第1のコンタクトマップ21の予測が実行される。
 第2の予測部19においても、特徴量47を用いた学習が実行される。
 本実施形態では、第2の予測部19は、学習用の配列情報29に基づいて生成された反転情報、及び学習用の配列情報29に基づいて算出された学習用の配列情報特徴量50を入力として予測された第2のコンタクトマップ22と、正解データとの誤差に基づいて学習された機械学習モデル26bを含む。
 具体的には、学習用の反転情報34と、学習用の配列情報特徴量50とを入力として、誤差逆伝搬法による機械学習モデル26bの学習が実行される。
 もちろん、第2の予測部19の学習方法は限定されず、任意の方法が採用されてよい。
 次に、統合部20の学習について説明する。
 統合部20においても、第1の実施形態と同様に学習が実行される。具体的には、学習用の第1のコンタクトマップ35、及び学習用の第2のコンタクトマップ36が、機械学習モデル26cに入力されることで、学習が実行される。
 なお、学習用の第1のコンタクトマップ35は、学習用の配列情報29及び学習用の配列情報特徴量50に基づいて、第1の予測部18により予測される。また、学習用の第2のコンタクトマップ36は、学習用の反転情報34及び学習用の配列情報特徴量50に基づいて、第2の予測部19により予測される。
 [予測部の再学習]
 第1の実施形態と同様に、機械学習モデル26aは、学習用の第1のコンタクトマップ35、及び学習用の第2のコンタクトマップ36を入力として予測された統合コンタクトマップ23と、正解データとの誤差に基づいて再学習される。
 また、機械学習モデル26bも、統合コンタクトマップ23と、正解データとの誤差に基づいて再学習される。
 すなわち、誤差逆伝播法による機械学習モデル26a及び機械学習モデル26bの再学習が実行される。
 以上、本実施形態に係る情報処理装置4では、予測に配列情報特徴量43が用いられるため、第1の予測部18及び第2の予測部19において、精度の高い予測が可能である。また、統合部20により生成される統合コンタクトマップ23も、第1の予測部18及び第2の予測部19における予測結果を用いたものであるため、精度の高い予測結果となる。
 このように、配列情報特徴量43が用いられることにより、精度の高い予測が実現される。
 さらに本実施形態では、学習においても配列情報特徴量43が用いられるため、高い精度の予測を実行可能な機械学習モデルが生成される。
 <第3の実施形態>
 本技術に係る第3の実施形態のタンパク質解析システムについて説明する。なお、第1の実施形態及び第2の実施形態で説明したタンパク質解析システム100における構成及び作用と同様な部分については、その説明を省略又は簡略化する。
 第3の実施形態においては、第1の予測部18において、配列情報1及び配列情報特徴量43に基づいて、予測が実行される。
 また、第2の実施形態においては、第2の予測部19において、反転情報10及び配列情報特徴量43に基づいて予測及び学習が実行された。一方で、第3の実施形態においては、第2の予測部19において、反転情報10及び反転情報特徴量に基づいて予測及び学習が実行される。この点が、第2の実施形態と第3の実施形態との差異となる。
 [情報処理装置の構成例]
 図17は、第3の実施形態における、情報処理装置4の機能的な構成例を示すブロック図である。
 図17に示すように、情報処理装置4は、取得部5、反転部6、特徴量算出部42、第1の予測部18、第2の予測部19及び統合部20を有する。
 取得部5、反転部6、第1の予測部18、及び統合部20の構成及び作用については、第2の実施形態と同様であるため、説明を省略する。
 本実施形態では、他の実施形態と同様に、タンパク質情報2としてコンタクトマップ14が予測される。
 図17に示すように、本実施形態では、特徴量算出部42は、配列情報1に基づいて配列情報特徴量43を算出し、反転情報10に基づいて反転情報特徴量53を算出する。
 配列情報特徴量43は、第2の実施形態と同様の方法で算出される。
 反転情報特徴量53についても、第2の実施形態と概ね同様の方法で算出される。具体的には、例えば特徴量算出部42により反転情報10が取得され、反転情報10の分割やデータベースにおける検索等が、第2の実施形態と同様に実行され、反転情報特徴量53が算出される。
 なお、算出された反転情報特徴量53は、もちろん配列情報特徴量43とは異なる情報となりうる。これは、例えば部分配列情報と部分反転情報(反転情報10を分割した情報)とは異なる情報となるため、データベースにおける抽出結果も異なり、従って、最終的に算出される各々の特徴量47も異なるためである。
 反転情報特徴量53は、本技術に係る第2の特徴量の一実施形態に相当する。
 図17に示すように、第1の予測部18は、第2の実施形態と同様に、配列情報1と、配列情報特徴量43とに基づいて、第1のコンタクトマップ21を予測する。
 一方で、第2の予測部19は、反転情報10と、反転情報特徴量53とに基づいて、第2のコンタクトマップ22を予測する。
 本実施形態では、反転部6により生成された反転情報10が、第2の予測部19に対して出力される。また、特徴量算出部42により算出された反転情報特徴量53が、第2の予測部19に対して出力される。第2の予測部19が反転情報10及び反転情報特徴量53を受け取ると、反転情報10及び反転情報特徴量53に基づいて、第2のコンタクトマップ22の予測が実行される。
 予測方法としては、例えば他の実施形態と同様に、所定のアルゴリズムによる予測が採用される。もちろん、第2の予測部19による予測方法は、アルゴリズムによる予測に限定されず、任意の予測方法が採用されてよい。
 統合部20により、第1のコンタクトマップ21及び第2のコンタクトマップ22に基づいた統合処理が実行され、統合コンタクトマップ23が生成される。
 なお、情報処理装置4による統合コンタクトマップ23の生成処理に関する処理順は限定されない。
 例えば、第1の予測部18による予測と、特徴量算出部42による反転情報特徴量53の生成は、どちらが先に実行されてもよい。
 その他、各機能ブロックによる処理順は限定されず、一連の処理が可能な範囲の、任意の順番で処理が実行されてよい。
 [機械学習モデル]
 第3の実施形態においても、第2の実施形態と同様に、誤差逆伝搬法による学習が実行される。
 第1の予測部18については、第2の実施形態と同様に、学習用の配列情報29及び学習用の配列情報特徴量50を入力とした学習が実行される。
 一方で、第2の予測部19は、学習用の配列情報29に基づいて生成された反転情報10、及び反転情報10に基づいて算出された学習用の反転情報特徴量を入力として予測された第2のコンタクトマップ22と、正解データとの誤差に基づいて学習された機械学習モデル26bを含む。
 すなわち、学習用の反転情報34と、学習用の反転情報特徴量とを入力として、誤差逆伝搬法による機械学習モデル26bの学習が実行される。
 もちろん、第2の予測部19の学習方法は限定されず、任意の方法が採用されてよい。
 なお、例えば、特徴量算出部42により、学習用の反転情報34に基づいて特徴量47が算出され、当該特徴量47が学習用の反転情報特徴量として用いられる。
 もちろん、学習用の反転情報特徴量の生成方法は限定されず、任意の方法が採用されてよい。
 学習用の反転情報特徴量は、本技術に係る、学習用の第2の特徴量の一実施形態に相当する。
 統合部20においても、第2の実施形態と同様に学習が実行される。
 学習用の第2のコンタクトマップ36が、学習用の反転情報34及び学習用の反転情報特徴量に基づいて予測される点のみが、第2の実施形態との差異である。
 [予測部の再学習]
 各々の予測部の再学習についても、第2の実施形態と同様である。
 すなわち、誤差逆伝播法による、統合コンタクトマップ23と、正解データとの誤差に基づいた機械学習モデル26a及び機械学習モデル26bの再学習が実行される。
 以上、本実施形態に係る情報処理装置4では、予測に配列情報特徴量43及び反転情報特徴量53が用いられるため、第1の予測部18及び第2の予測部19において、精度の高い予測が可能である。また、統合部20により生成される統合コンタクトマップ23も、第1の予測部18及び第2の予測部19における予測結果を用いたものであるため、精度の高い予測結果となる。
 このように、配列情報特徴量43及び反転情報特徴量53が用いられることにより、精度の高い予測が実現される。
 さらに本実施形態では、学習においても配列情報特徴量43及び反転情報特徴量53が用いられるため、高い精度の予測を実行可能な機械学習モデルが生成される。
 <その他の実施形態>
 本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
 各々の予測部において、予測のために入力される情報の種類は限定されない。すなわち、予測部に対して配列情報1、反転情報10、配列情報特徴量43、反転情報特徴量53のいずれが入力されるかについては、限定されない。
 2つの予測部に入力される情報の種類の、第2の実施形態や第3の実施形態とは異なる組み合わせとして、以下のような例がある。
 (1)第1の予測部に対して、配列情報1及び配列情報特徴量43を入力、
    第2の予測部に対して、配列情報1及び反転情報特徴量53を入力
 (2)第1の予測部に対して、配列情報1及び反転情報特徴量53を入力
    第2の予測部に対して、反転情報10及び配列情報特徴量43を入力、
 (3)第1の予測部に対して、配列情報1及び反転情報特徴量53を入力、
    第2の予測部に対して、反転情報10及び反転情報特徴量53を入力
 (4)第1の予測部に対して、反転情報10及び配列情報特徴量43を入力、
    第2の予測部に対して、反転情報10及び反転情報特徴量53を入力
 また、もちろん3つ以上の予測部が構成されてもよいし、その場合に、各々の予測部に入力される情報の種類の組み合わせも限定されない。
 図18は、情報処理装置4を実現可能なコンピュータ56のハードウェア構成例を示すブロック図である。
 コンピュータ56は、CPU57、ROM58、RAM59、入出力インタフェース60、及びこれらを互いに接続するバス61を備える。入出力インタフェース60には、表示部62、入力部63、記憶部64、通信部65、及びドライブ部66等が接続される。
 表示部62は、例えば液晶、EL等を用いた表示デバイスである。入力部63は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。入力部63がタッチパネルを含む場合、そのタッチパネルは表示部62と一体となり得る。
 記憶部64は、不揮発性の記憶デバイスであり、例えばHDD、フラッシュメモリ、その他の固体メモリである。ドライブ部66は、例えば光学記録媒体、磁気記録テープ等、リムーバブル記録媒体67を駆動することが可能なデバイスである。
 通信部65は、LAN、WAN等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部65は、有線及び無線のどちらを利用して通信するものであってもよい。通信部65は、コンピュータ56とは別体で使用される場合が多い。
 上記のようなハードウェア構成を有するコンピュータ56による情報処理は、記憶部64またはROM58等に記憶されたソフトウェアと、コンピュータ56のハードウェア資源との協働により実現される。具体的には、ROM58等に記憶された、ソフトウェアを構成するプログラムをRAM59にロードして実行することにより、本技術に係る情報処理方法が実現される。
 プログラムは、例えばリムーバブル記録媒体67を介してコンピュータ56にインストールされる。あるいは、グローバルネットワーク等を介してプログラムがコンピュータ56にインストールされてもよい。その他、コンピュータ56が読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
 ネットワーク等を介して通信可能に接続された複数のコンピュータが協働することで、本技術に係る情報処理方法が実行され、本技術に係る情報処理装置4が構築されてもよい。
 すなわち本技術に係る情報処理方法は、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。
 なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
 コンピュータシステムによる本技術に係る情報処理方法の実行は、例えばタンパク質情報2の予測、特徴量47の算出等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
 すなわち本技術に係る情報処理方法は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
 各図面を参照して説明したタンパク質解析システム100、情報処理装置4、情報処理方法等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。
 本開示において、説明の理解を容易とするために、「略」「ほぼ」「おおよそ」等の文言が適宜使用されている。一方で、これら「略」「ほぼ」「おおよそ」等の文言を使用する場合と使用しない場合とで、明確な差異が規定されるわけではない。
 すなわち、本開示において、「中心」「中央」「均一」「等しい」「同じ」「直交」「平行」「対称」「延在」「軸方向」「円柱形状」「円筒形状」「リング形状」「円環形状」等の、形状、サイズ、位置関係、状態等を規定する概念は、「実質的に中心」「実質的に中央」「実質的に均一」「実質的に等しい」「実質的に同じ」「実質的に直交」「実質的に平行」「実質的に対称」「実質的に延在」「実質的に軸方向」「実質的に円柱形状」「実質的に円筒形状」「実質的にリング形状」「実質的に円環形状」等を含む概念とする。
 例えば「完全に中心」「完全に中央」「完全に均一」「完全に等しい」「完全に同じ」「完全に直交」「完全に平行」「完全に対称」「完全に延在」「完全に軸方向」「完全に円柱形状」「完全に円筒形状」「完全にリング形状」「完全に円環形状」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。
 従って、「略」「ほぼ」「おおよそ」等の文言が付加されていない場合でも、いわゆる「略」「ほぼ」「おおよそ」等を付加して表現され得る概念が含まれ得る。反対に、「略」「ほぼ」「おおよそ」等を付加して表現された状態について、完全な状態が必ず排除されるというわけではない。
 本開示において、「Aより大きい」「Aより小さい」といった「より」を使った表現は、Aと同等である場合を含む概念と、Aと同等である場合を含まない概念の両方を包括的に含む表現である。例えば「Aより大きい」は、Aと同等は含まない場合に限定されず、「A以上」も含む。また「Aより小さい」は、「A未満」に限定されず、「A以下」も含む。
 本技術を実施する際には、上記で説明した効果が発揮されるように、「Aより大きい」及び「Aより小さい」に含まれる概念から、具体的な設定等を適宜採用すればよい。
 以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
 なお、本技術は以下のような構成も採ることができる。
(1)
 ゲノム配列に関する配列情報を取得する取得部と、
 前記配列情報に基づいて、配列が反転された反転情報を生成する反転部と、
 前記反転情報に基づいて、タンパク質に関するタンパク質情報を生成する生成部と
 を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
 前記配列情報は、アミノ酸の配列、DNAの配列、又はRNAの配列の少なくとも1つに関する情報である
 情報処理装置。
(3)(1)又は(2)に記載の情報処理装置であって、
 前記生成部は、
 前記配列情報に基づいて、第1のタンパク質情報を予測する第1の予測部と、
 前記反転情報に基づいて、第2のタンパク質情報を予測する第2の予測部と、
 前記第1のタンパク質情報と、前記第2のタンパク質情報とを統合することで、前記タンパク質情報を生成する統合部と
 を有する
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
 前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含む
 情報処理装置。
(5)(4)に記載の情報処理装置であって、
 前記タンパク質情報は、前記タンパク質を構成するアミノ酸残基間の結合を示すコンタクトマップ、前記タンパク質を構成するアミノ酸残基間の距離を示す距離マップ、又は前記タンパク質の三次構造の少なくとも1つを含む
 情報処理装置。
(6)(3)に記載の情報処理装置であって、
 前記統合部は、前記第1のタンパク質情報、及び前記第2のタンパク質情報を入力として機械学習を実行することで、前記タンパク質情報を予測する
 情報処理装置。
(7)(6)に記載の情報処理装置であって、
 前記第1の予測部は、前記配列情報を入力として機械学習を実行することで、前記第1のタンパク質情報を予測し、
 前記第2の予測部は、前記反転情報を入力として機械学習を実行することで、前記第2のタンパク質情報を予測する
 情報処理装置。
(8)(7)に記載の情報処理装置であって、
 前記統合部は、正解データと関連付けられた学習用の前記配列情報を入力として予測された学習用の前記第1のタンパク質情報、及び前記学習用の前記配列情報に基づいて生成された前記反転情報を入力として予測された学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて学習された統合用の機械学習モデルを含む
 情報処理装置。
(9)(8)に記載の情報処理装置であって、
 前記第1の予測部は、前記学習用の前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含み、
 前記第1の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
 情報処理装置。
(10)(8)又は(9)に記載の情報処理装置であって、
 前記第2の予測部は、前記学習用の前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含み、
 前記第2の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
 情報処理装置。
(11)(3)に記載の情報処理装置であって、さらに、
 前記配列情報に基づいて特徴量を算出する特徴量算出部を具備し、
 前記生成部は、前記特徴量に基づいて、前記タンパク質情報を生成する
 情報処理装置。
(12)(11)に記載の情報処理装置であって、
 前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、
 前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、
 前記第2の予測部は、前記反転情報と、前記第1の特徴量とに基づいて、前記第2のタンパク質情報を予測する
 情報処理装置。
(13)(11)に記載の情報処理装置であって、
 前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、前記反転情報に基づいて第2の特徴量を算出し、
 前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、
 前記第2の予測部は、前記反転情報と、前記第2の特徴量とに基づいて、前記第2のタンパク質情報を予測する
 情報処理装置。
(14)(12)又は(13)に記載の情報処理装置であって、
 前記第1の予測部は、正解データと関連付けられた学習用の前記配列情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含む
 情報処理装置。
(15)(12)に記載の情報処理装置であって、
 前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含む
 情報処理装置。
(16)(13)に記載の情報処理装置であって、
 前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記反転情報に基づいて算出された学習用の前記第2の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含む
 情報処理装置。
(17)(11)から(16)のうちいずれか1つに記載の情報処理装置であって、
 前記特徴量は、前記タンパク質の二次構造、前記タンパク質に関する注釈情報、前記タンパク質の触媒接触度、又は前記タンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも1つを含む
 情報処理装置。
(18)(1)から(17)のうちいずれか1つに記載の情報処理装置であって、
 前記配列情報は、前記タンパク質を構成するアミノ酸残基のN末端側からの結合順を示す情報であり、
 前記反転情報は、前記タンパク質を構成するアミノ酸残基のC末端側からの結合順を示す情報である
 情報処理装置。
(19)
 ゲノム配列に関する配列情報を取得し、
 前記配列情報に基づいて、配列が反転された反転情報を生成し、
 前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報を予測する
 ことをコンピュータシステムが実行する情報処理方法。
(20)
 ゲノム配列に関する配列情報を取得するステップと、
 前記配列情報に基づいて、配列が反転された反転情報を生成するステップと、
 前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報を予測するステップと
 をコンピュータシステムに実行させるプログラム。
(21)(11)から(17)のうちいずれか1つに記載の情報処理装置であって、
 前記特徴量算出部は、前記配列情報と前記特徴量とが関連付けられたデータベースにアクセスすることで、前記特徴量を算出する
 情報処理装置。
 1…配列情報
 2…タンパク質情報
 4…情報処理装置
 5…取得部
 6…反転部
 7…生成部
 10…反転情報
 13…三次構造
 14…コンタクトマップ
 15…距離マップ
 18…第1の予測部
 19…第2の予測部
 20…統合部
 21…第1のコンタクトマップ
 22…第2のコンタクトマップ
 23…統合コンタクトマップ
 26a…機械学習モデル
 26b…機械学習モデル
 26c…機械学習モデル
 29…学習用の配列情報
 34…学習用の反転情報
 35…学習用の第1のコンタクトマップ
 36…学習用の第2のコンタクトマップ
 42…特徴量算出部
 43…配列情報特徴量
 46…データベース
 47…特徴量
 50…学習用の配列情報特徴量
 53…反転情報特徴量
 100…タンパク質解析システム

Claims (20)

  1.  ゲノム配列に関する配列情報を取得する取得部と、
     前記配列情報に基づいて、配列が反転された反転情報を生成する反転部と、
     前記反転情報に基づいて、タンパク質に関するタンパク質情報を生成する生成部と
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記配列情報は、アミノ酸の配列、DNAの配列、又はRNAの配列の少なくとも1つに関する情報である
     情報処理装置。
  3.  請求項1に記載の情報処理装置であって、
     前記生成部は、
     前記配列情報に基づいて、第1のタンパク質情報を予測する第1の予測部と、
     前記反転情報に基づいて、第2のタンパク質情報を予測する第2の予測部と、
     前記第1のタンパク質情報と、前記第2のタンパク質情報とを統合することで、前記タンパク質情報を生成する統合部と
     を有する
     情報処理装置。
  4.  請求項1に記載の情報処理装置であって、
     前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含む
     情報処理装置。
  5.  請求項4に記載の情報処理装置であって、
     前記タンパク質情報は、前記タンパク質を構成するアミノ酸残基間の結合を示すコンタクトマップ、前記タンパク質を構成するアミノ酸残基間の距離を示す距離マップ、又は前記タンパク質の三次構造の少なくとも1つを含む
     情報処理装置。
  6.  請求項3に記載の情報処理装置であって、
     前記統合部は、前記第1のタンパク質情報、及び前記第2のタンパク質情報を入力として機械学習を実行することで、前記タンパク質情報を予測する
     情報処理装置。
  7.  請求項6に記載の情報処理装置であって、
     前記第1の予測部は、前記配列情報を入力として機械学習を実行することで、前記第1のタンパク質情報を予測し、
     前記第2の予測部は、前記反転情報を入力として機械学習を実行することで、前記第2のタンパク質情報を予測する
     情報処理装置。
  8.  請求項7に記載の情報処理装置であって、
     前記統合部は、正解データと関連付けられた学習用の前記配列情報を入力として予測された学習用の前記第1のタンパク質情報、及び前記学習用の前記配列情報に基づいて生成された前記反転情報を入力として予測された学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて学習された統合用の機械学習モデルを含む
     情報処理装置。
  9.  請求項8に記載の情報処理装置であって、
     前記第1の予測部は、前記学習用の前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含み、
     前記第1の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
     情報処理装置。
  10.  請求項8に記載の情報処理装置であって、
     前記第2の予測部は、前記学習用の前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含み、
     前記第2の機械学習モデルは、前記学習用の前記第1のタンパク質情報、及び前記学習用の前記第2のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
     情報処理装置。
  11.  請求項3に記載の情報処理装置であって、さらに、
     前記配列情報に基づいて特徴量を算出する特徴量算出部を具備し、
     前記生成部は、前記特徴量に基づいて、前記タンパク質情報を生成する
     情報処理装置。
  12.  請求項11に記載の情報処理装置であって、
     前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、
     前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、
     前記第2の予測部は、前記反転情報と、前記第1の特徴量とに基づいて、前記第2のタンパク質情報を予測する
     情報処理装置。
  13.  請求項11に記載の情報処理装置であって、
     前記特徴量算出部は、前記配列情報に基づいて第1の特徴量を算出し、前記反転情報に基づいて第2の特徴量を算出し、
     前記第1の予測部は、前記配列情報と、前記第1の特徴量とに基づいて、前記第1のタンパク質情報を予測し、
     前記第2の予測部は、前記反転情報と、前記第2の特徴量とに基づいて、前記第2のタンパク質情報を予測する
     情報処理装置。
  14.  請求項12に記載の情報処理装置であって、
     前記第1の予測部は、正解データと関連付けられた学習用の前記配列情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第1のタンパク質情報と、前記正解データとの誤差に基づいて学習された第1の機械学習モデルを含む
     情報処理装置。
  15.  請求項12に記載の情報処理装置であって、
     前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第1の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含む
     情報処理装置。
  16.  請求項13に記載の情報処理装置であって、
     前記第2の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記反転情報に基づいて算出された学習用の前記第2の特徴量を入力として予測された前記第2のタンパク質情報と、前記正解データとの誤差に基づいて学習された第2の機械学習モデルを含む
     情報処理装置。
  17.  請求項11に記載の情報処理装置であって、
     前記特徴量は、前記タンパク質の二次構造、前記タンパク質に関する注釈情報、前記タンパク質の触媒接触度、又は前記タンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも1つを含む
     情報処理装置。
  18.  請求項2に記載の情報処理装置であって、
     前記配列情報は、前記タンパク質を構成するアミノ酸残基のN末端側からの結合順を示す情報であり、
     前記反転情報は、前記タンパク質を構成するアミノ酸残基のC末端側からの結合順を示す情報である
     情報処理装置。
  19.  ゲノム配列に関する配列情報を取得し、
     前記配列情報に基づいて、配列が反転された反転情報を生成し、
     前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報を予測する
     ことをコンピュータシステムが実行する情報処理方法。
  20.  ゲノム配列に関する配列情報を取得するステップと、
     前記配列情報に基づいて、配列が反転された反転情報を生成するステップと、
     前記反転情報に基づいて、タンパク質に関する第1のタンパク質情報を予測するステップと
     をコンピュータシステムに実行させるプログラム。
PCT/JP2021/040948 2020-12-04 2021-11-08 情報処理装置、情報処理方法、及びプログラム WO2022118607A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/254,883 US20240013863A1 (en) 2020-12-04 2021-11-08 Information processing apparatus, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-202081 2020-12-04
JP2020202081A JP2024015456A (ja) 2020-12-04 2020-12-04 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2022118607A1 true WO2022118607A1 (ja) 2022-06-09

Family

ID=81853104

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/040948 WO2022118607A1 (ja) 2020-12-04 2021-11-08 情報処理装置、情報処理方法、及びプログラム

Country Status (3)

Country Link
US (1) US20240013863A1 (ja)
JP (1) JP2024015456A (ja)
WO (1) WO2022118607A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102118662B1 (ko) * 2019-10-31 2020-06-04 (주)팜캐드 단백질 구조 추정 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102118662B1 (ko) * 2019-10-31 2020-06-04 (주)팜캐드 단백질 구조 추정 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHINTARO MINAMI: "Development of protein structure comparison method considering sequence order replacement and inversion and comprehensive protein structure comparison solution", DOCTORAL DISSERTATION, 8 May 2015 (2015-05-08), JP, pages 1 - 122, XP009537085 *
WANG YANGXU; MAO HUA; YI ZHANG: "Protein secondary structure prediction by using deep learning method", KNOWLEDGE-BASED SYSTEMS, ELSEVIER, AMSTERDAM, NL, vol. 118, 17 November 2016 (2016-11-17), AMSTERDAM, NL , pages 115 - 123, XP029882616, ISSN: 0950-7051, DOI: 10.1016/j.knosys.2016.11.015 *

Also Published As

Publication number Publication date
US20240013863A1 (en) 2024-01-11
JP2024015456A (ja) 2024-02-02

Similar Documents

Publication Publication Date Title
Hashemifar et al. Predicting protein–protein interactions through sequence-based deep learning
Graves et al. A review of deep learning methods for antibodies
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
Eguchi et al. Ig-vae: generative modeling of immunoglobulin proteins by direct 3d coordinate generation
Stamm et al. Alignment of helical membrane protein sequences using AlignMe
Defresne et al. Protein design with deep learning
Chen et al. Prediction of self-interacting proteins from protein sequence information based on random projection model and fast Fourier transform
Chen et al. Sequence-based peptide identification, generation, and property prediction with deep learning: a review
Lin et al. De novo peptide and protein design using generative adversarial networks: an update
Chen et al. 3D-equivariant graph neural networks for protein model quality assessment
Chauhan et al. Enabling full‐length evolutionary profiles based deep convolutional neural network for predicting DNA‐binding proteins from sequence
Agarwal et al. Identification of mannose interacting residues using local composition
Yi et al. Learning representation of molecules in association network for predicting intermolecular associations
Lee Recent advances in deep learning for protein-protein interaction analysis: A comprehensive review
Aguilera-Puga et al. Accelerating the discovery and design of antimicrobial peptides with artificial intelligence
Anselmetti et al. Comparative methods for reconstructing ancient genome organization
Berman et al. MutaGAN: A sequence-to-sequence GAN framework to predict mutations of evolving protein populations
Ghoreyshi et al. Quantitative approaches for decoding the specificity of the human T cell repertoire
Carter Jr et al. Multidimensional phylogenetic metrics identify Class I Aminoacyl-tRNA synthetase evolutionary mosaicity and inter-modular coupling
Xu et al. Eurnet: Efficient multi-range relational modeling of spatial multi-relational data
WO2022118607A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Xu et al. DeepRank-GNN-esm: a graph neural network for scoring protein–protein models using protein language model
Zhang et al. Unsupervisedly Prompting AlphaFold2 for Accurate Few-Shot Protein Structure Prediction
Lupo et al. Pairing interacting protein sequences using masked language modeling
Oberti et al. cnnAlpha: protein disordered regions prediction by reduced amino acid alphabets and convolutional neural networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21900362

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18254883

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21900362

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP