WO2023139933A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2023139933A1
WO2023139933A1 PCT/JP2022/043877 JP2022043877W WO2023139933A1 WO 2023139933 A1 WO2023139933 A1 WO 2023139933A1 JP 2022043877 W JP2022043877 W JP 2022043877W WO 2023139933 A1 WO2023139933 A1 WO 2023139933A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
protein
image
information processing
input
Prior art date
Application number
PCT/JP2022/043877
Other languages
English (en)
French (fr)
Inventor
諭志 河田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023139933A1 publication Critical patent/WO2023139933A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program applicable to predicting amino acid sequences.
  • Patent Document 1 discloses a prediction system that predicts protein structures based on amino acid sequences.
  • sequence alignment processing called multiple alignment is performed on amino acid sequences to predict protein structures. This makes it possible to predict the protein structure with high accuracy.
  • an object of the present technology is to provide an information processing device, an information processing method, and a program that enable efficient production of a desired protein.
  • an information processing apparatus includes an acquisition unit, an input unit, and a generation unit.
  • the acquisition unit acquires protein information about a protein.
  • Input information corresponding to a user's input operation for the protein information acquired by the acquisition unit is input to the input unit.
  • the generation unit generates sequence information regarding an amino acid sequence based on the protein information acquired by the acquisition unit and the input information input to the input unit.
  • protein information is acquired, and input information is input according to the user's input operation for the protein information. Also, sequence information about the amino acid sequence is generated based on the protein information and the input information. This enables efficient production of the desired protein.
  • the generation unit may generate reflected protein information in which the input information is reflected in the protein information, and predict the sequence information corresponding to the reflected protein information.
  • the generation unit may predict the sequence information by executing machine learning using the reflected protein information as input.
  • the protein information may include at least one of the structure of the protein and the function of the protein.
  • the input manipulation may include at least one of manipulation of editing the structure of the protein and manipulation of editing the function of the protein.
  • the function of the protein may include at least one of the hydrophilicity of the protein and the rigidity of the protein.
  • the information processing device may further comprise a protein prediction unit that predicts the protein information corresponding to the sequence information generated by the generation unit as predicted protein information.
  • the protein prediction unit may predict the predicted protein information by executing machine learning with the sequence information as input.
  • the generating unit may correct the reflected protein information based on the difference between the reflected protein information and the predicted protein information predicted by the protein prediction unit.
  • the information processing device may further include a display control unit that controls display of the protein image corresponding to the protein information acquired by the acquisition unit.
  • the input information may include information corresponding to the input operation on the protein image.
  • the display control unit may control display of the reflected protein image corresponding to the reflected protein information generated by the generation unit.
  • the input information may include information corresponding to the input operation on the reflected protein image.
  • the display control unit may control display of the arrangement information image corresponding to the arrangement information predicted by the generation unit.
  • the information processing device may further comprise a protein prediction unit that predicts the protein information corresponding to the sequence information predicted by the generation unit as predicted protein information.
  • the display control unit may control display of a difference image corresponding to the difference between the reflected protein information and the predicted protein information.
  • the difference image may include an image in which the reflected protein image and the predicted protein image corresponding to the predicted protein information are superimposed on each other.
  • the difference image may include an image in which the reflected protein image and the predicted protein image are superimposed and the difference between the reflected protein information and the predicted protein information is highlighted.
  • the information processing device may further comprise a protein prediction unit that predicts the protein information corresponding to the sequence information generated by the generation unit as predicted protein information.
  • the display control unit may control display so that at least one of the protein image, the reflected protein image corresponding to the reflected protein information generated by the generating unit, or the predicted protein image corresponding to the predicted protein information is displayed in at least one display format of a point cloud image, a polygon image, a mesh image, a surface image, a slice image, or a three-view image.
  • the protein information may include template information, which is a template of the protein information.
  • An information processing method is an information processing method executed by a computer system, and includes acquiring protein information about proteins. Input information is input according to a user's input operation for the acquired protein information. Sequence information about an amino acid sequence is generated based on the acquired protein information and the inputted input information.
  • a program causes a computer system to execute the following steps. Obtaining protein information about the protein. A step of inputting input information according to a user's input operation for the acquired protein information. generating sequence information about an amino acid sequence based on the obtained protein information and the inputted input information;
  • FIG. 1 is a schematic diagram showing a configuration example of a sequence generation system according to an embodiment of the present technology
  • FIG. 1 is a schematic diagram showing a configuration example of a sequence generation system including a cloud environment
  • FIG. 1 is a schematic diagram showing a configuration example of a sequence generation system including a cloud environment
  • FIG. 4 is a flow chart showing an example of processing for generating array information by an information processing apparatus
  • 1 is a block diagram showing a configuration example of a sequence generating system
  • FIG. 10 is a flow chart showing an example of processing related to prediction of sequence information
  • FIG. 3 is a schematic diagram showing an example of display contents by a display unit;
  • FIG. 1 is a schematic diagram showing a configuration example of a sequence generation system according to an embodiment of the present technology
  • FIG. 1 is a schematic diagram showing a configuration example of a sequence generation system including a cloud environment
  • FIG. 4 is a flow chart showing an example of processing for generating array information by an information processing apparatus
  • 1 is a block
  • FIG. 4 is a schematic diagram showing an example of a machine learning model included in a sequence prediction unit; 1 is a block diagram showing a configuration example of a sequence generating system; FIG. 7 is a flow chart showing an example of processing related to generation of a difference image, etc. FIG. 7 is a flow chart showing an example of processing related to generation of a difference image, etc. FIG. It is a schematic diagram which shows an example of a difference image.
  • 1 is a block diagram showing a configuration example of a sequence generating system;
  • FIG. FIG. 10 is a flow chart showing an example of processing related to modification of a reflected three-dimensional structure;
  • FIG. FIG. 10 is a flow chart showing an example of processing related to modification of a reflected three-dimensional structure;
  • FIG. 1 is a block diagram showing a hardware configuration example of a computer that can implement an information processing apparatus; FIG.
  • FIG. 1 is a schematic diagram showing a configuration example of a sequence generation system according to an embodiment of the present technology.
  • the sequence generation system 1 can generate and output an amino acid sequence that constitutes the protein based on information such as the structure of the protein.
  • amino acids When amino acids are combined into an amino acid sequence, the amino acid sequence is folded to produce a protein. Different starting amino acid sequences will fold differently, producing different proteins. Thus, it can be said that there is correspondence between amino acid sequences and proteins.
  • a protein to be given can be specified by a user who uses the sequence generation system 1 .
  • the user can edit the protein and decide which protein to give by editing. That is, in the sequence generation system 1, when a user wants to know what the original amino acid sequence of a certain protein is, the original amino acid sequence can be analyzed by creating the desired protein by editing. For example, it is possible for the user to input the structure of an unknown protein or the like.
  • the sequence generation system 1 can also generate and output an amino acid sequence corresponding to an unknown protein.
  • the sequence generation system 1 has a protein information DB (database) 2, a sequence information DB 3, and an information processing device 4.
  • Protein information DB2 is a database in which protein information 5 is stored.
  • the protein information 5 is information about proteins.
  • the protein information 5 includes the three-dimensional structure of the protein (specific three-dimensional structure and function of the protein).
  • the protein information 5 may contain any other information about the protein.
  • the array information DB3 is a database in which the array information 6 is stored.
  • the sequence information 6 is information on amino acid sequences.
  • the array information 6 includes an alphabetical string representing the array.
  • Amino acid sequences generally consist of tens to hundreds of amino acid residues. Describing these amino acid residues by a formula or the like would be extremely redundant. Therefore, in order to express amino acid sequences concisely, a method of expressing the type of amino acid residue by one letter of the alphabet is used. For example, serine residues are denoted by "S” and glutamine residues by "Q". In addition, each of the 20 types of amino acid residues in total is represented by one letter of the alphabet. For example, such an alphabetical character string becomes the array information 6 .
  • FIG. 1 schematically shows an alphabetical character string as the array information 6 .
  • the sequence information 6 may contain any other information regarding the amino acid sequence.
  • the protein information DB2 and the sequence information DB3 are composed of storage devices such as HDDs (Hard Disk Drives) and SSDs (Solid State Drives). In addition, any computer-readable non-transitory storage medium may be used.
  • the information processing device 4 includes hardware necessary for configuring a computer, such as processors such as CPU, GPU, and DSP, memories such as ROM and RAM, and storage devices such as HDD.
  • processors such as CPU, GPU, and DSP
  • memories such as ROM and RAM
  • storage devices such as HDD.
  • the information processing method according to the present technology is executed by the CPU loading a program according to the present technology pre-recorded in the ROM or the like into the RAM and executing the program.
  • the information processing device 4 can be realized by an arbitrary computer such as a PC (Personal Computer).
  • hardware such as FPGA and ASIC may be used.
  • the acquisition unit 7, the input unit 8, and the generation unit 9 as functional blocks are configured by the CPU or the like executing a predetermined program.
  • the program is installed in the information processing device 4 via various recording media, for example. Alternatively, program installation may be performed via the Internet or the like.
  • the type of recording medium on which the program is recorded is not limited, and any computer-readable recording medium may be used. For example, any computer-readable non-transitory storage medium may be used.
  • Acquisition unit 7 acquires protein information 5 .
  • the acquisition unit 7 acquires the protein information 5 stored in the protein information DB 2 .
  • Input information corresponding to a user's input operation for the protein information 5 acquired by the acquisition unit 7 is inputted to the input unit 8 .
  • the user can edit the protein information 5 by performing an input operation via a device such as a keyboard or mouse.
  • Input information is input to the input unit 8 when an input operation is performed by the user.
  • the generation unit 9 generates sequence information 6 based on the protein information 5 acquired by the acquisition unit 7 and the input information input to the input unit 8 .
  • the array information 6 generated by the generator 9 is output to the array information DB 3 .
  • the generation unit 9 also controls display of the array information 6 on a display device (PC display, etc.).
  • the sequence generation system 1 has two first information processing devices 12 and a second information processing device 13 . These terminals and devices are communicably connected to each other via a network 14 .
  • the network 14 is constructed by, for example, the Internet, a wide area communication network, or the like. In addition, any WAN (Wide Area Network), LAN (Local Area Network), or the like may be used, and the protocol for constructing the network 14 is not limited.
  • the sequence generating system 1 has a protein information DB2 and a sequence information DB3. In FIG. 2, illustration of the protein information DB2 and the sequence information DB3 is omitted.
  • the first information processing device 12 has the acquisition unit 7, the input unit 8, and the communication unit 15 shown in FIG.
  • the communication unit 15 is a module for performing network communication, short-range wireless communication, etc. with other devices.
  • a wireless LAN module such as WiFi
  • a communication module such as Bluetooth (registered trademark) are provided.
  • the communication unit 15 transmits the protein information 5 acquired by the acquisition unit 7 and the input information input to the input unit 8 to the network 14 . Also, the arrangement information 6 transmitted by the second information processing device 13 is received via the network 14 .
  • the second information processing device 13 has the generation unit 9 and the communication unit 16 shown in FIG.
  • the communication unit 16 receives the protein information 5 and the input information transmitted by the first information processing device 12 via the network 14 . Also, the array information 6 generated by the generation unit 9 is transmitted to the network 14 .
  • a user-operable device such as a PC is used as the first information processing device 12, for example.
  • Input information is input by a user performing an input operation via an input device for editing the protein information 5 .
  • the input information is sent to the second information processing device 13 together with the protein information 5 .
  • the second information processing device 13 is configured as, for example, a server device, and generates sequence information 6 based on the received protein information 5 and input information.
  • the arrangement information 6 is transmitted to the first information processing device 12, and the arrangement information 6 is displayed on the screen of the first information processing device 12, and the arrangement information 6 is output to the arrangement information DB3.
  • the sequence generation system 1 may be configured by the environment on the user side (local environment 17) and the environment (cloud environment 18) located away from the user.
  • the first information processing device 12 and the second information processing device 13 work together to realize the functions according to the present technology that the information processing device 4 shown in FIG. 1 has. That is, in the configuration examples shown in FIGS. 2 and 3, two computers communicably connected via the network 14 cooperate to realize the information processing apparatus according to the present technology, and the information processing method according to the present technology is executed.
  • two first information processing apparatuses 12 that can be operated by a user are arranged in the local environment 17 in this example.
  • a plurality of first information processing apparatuses 12 may be arranged on the local environment 17 side, and the sequence generating system 1 may be used by a plurality of users.
  • the number of first information processing apparatuses 12 arranged on the local environment 1 side is not limited, and three or more first information processing apparatuses 12 may be arranged.
  • a configuration in which the first information processing device 12 and the second information processing device 13 are communicably connected via a cable or the like can also be adopted.
  • a configuration in which the protein information DB 2 and the sequence information DB 3 are included in the cloud environment 18 side may be adopted.
  • the specific configuration of the sequence generating system 1 is not limited.
  • FIG. 4 is a flow chart showing an example of processing related to the generation of the array information 6 by the information processing device 4. As shown in FIG. In the configuration examples shown in FIGS. 2 and 3, the processing example shown in FIG. 4 is executed by cooperation of the first information processing device 12 and the second information processing device 13 .
  • the protein information 5 is obtained by the obtaining unit 7 (step 101). Specifically, the acquisition unit 7 acquires the protein information 5 stored in the protein information DB 2 .
  • Input information is acquired by the input unit 8 (step 102). For example, when the user performs an input operation for editing the protein information 5, the input unit 8 acquires the input information. Acquisition of input information by the input unit 8 is included in input of input information to the input unit 8 .
  • the array information 6 is generated by the generator 9 (step 103). Specifically, the generation unit 9 first acquires the protein information 5 from the acquisition unit 7 and acquires the input information from the input unit 8 . Furthermore, sequence information 6 is generated based on the protein information 5 and the input information. In this embodiment, the array information 6 is generated by the generator 9 through processing using a machine learning algorithm. A method for generating the array information 6 will be described later in detail.
  • the array information 6 generated by the generator 9 is output (step 104).
  • the array information 6 is output to the array information DB 3 by the generator 9 .
  • the array information 6 is stored in the array information DB3.
  • the array information 6 is displayed on a display device such as a PC display. A display of the alignment information 6 on a display device is included in the output of the alignment information 6 .
  • step 103 sequence information generation
  • step 104 sequence information output
  • FIG. 5 is a block diagram showing a configuration example of the sequence generating system 1. As shown in FIG.
  • the sequence generating system 1 has a protein information DB 2, a sequence information DB 3, and an information processing device 4.
  • a three-dimensional structure 19 is stored as protein information 5 in the protein information DB 2 .
  • the 3D structure 19 is information including the 3D structure and function inherent to the protein. Conformation 19 includes at least one of protein structure or protein function.
  • a protein structure is information about the structure of a protein.
  • the protein structure includes information including a coordinate sequence of three-dimensional coordinates of each atom, molecule, bond, functional group, etc. that constitute the protein.
  • a coordinate string of these three-dimensional coordinates is sometimes called volume data.
  • the specific information of the protein structure is not limited, and any information about the protein structure may be included.
  • a protein function is information about the function of a protein.
  • protein function includes at least one of protein hydrophilicity or protein rigidity.
  • Some proteins have local hydrophilicity in part of their structure. Moreover, some have local rigidity (difficulty in bending).
  • functional labels representing such hydrophilicity and rigidity are included in protein functions.
  • the functional label is, for example, a range of three-dimensional coordinates having hydrophilicity and rigidity, and a numerical value representing the level of hydrophilicity and rigidity.
  • the functional label may include numerical values representing ranges of three-dimensional coordinates having hydrophobicity or non-rigidity.
  • the arm of the Y-shape may exhibit the function of catching the virus.
  • Functional labels representing such immune functions may be included in protein functions.
  • the content of the protein information 5 is not limited to protein structure or protein function.
  • any information about protein such as an image about protein, may be stored in the protein information DB2.
  • template information which is a model of the protein information 5
  • the template information is the initial protein information 5 prepared for editing by the user.
  • the user selects template information that is close to the protein information 5 that the user wants to create from a plurality of template information. This makes it possible to reduce the labor and time involved in editing compared to editing from a state in which no information is given.
  • template information is created in advance by an administrator of the sequence generating system 1 and stored in the protein information DB2.
  • protein data published in the database of the International Protein Data Bank (wwPDB) may be used as template information.
  • the template information is created in a data format such as PDB format, PDBML format, or mmCIF format.
  • specific contents of the template information are not limited.
  • the sequence information DB 3 stores, as the sequence information 6, for example, alphabetic character strings representing sequences of amino acid residues.
  • the specific contents of the array information 6 are not limited.
  • the sequence information DB 3 may store arbitrary information about amino acid sequences, such as information in which amino acid sequences are represented by structural formulas, rational formulas, and the like.
  • the information processing device 4 has a controller 20 , a display section 21 , an operation section 22 , a communication section 23 and a storage section 24 .
  • the controller 20 , display section 21 , operation section 22 , communication section 23 and storage section 24 are interconnected via a bus 25 .
  • each block may be connected using a communication network, a unique unstandardized communication method, or the like.
  • the display unit 21 is, for example, a display device using liquid crystal, EL (Electro-Luminescence), etc., and displays various images, various GUIs (Graphical User Interface), and the like.
  • the operating unit 22 is, for example, a keyboard, pointing device, touch panel, or other operating device. If the operation unit 22 includes a touch panel, the touch panel can be integrated with the display unit 21 . In this embodiment, input information is generated according to an input operation by the user via the operation unit 22 .
  • the communication unit 23 is a module for performing network communication, short-range wireless communication, etc. with other devices. For example, when the sequence generation system 1 includes the cloud environment 18, the communication unit 23 communicates with the network 14. FIG.
  • the storage unit 24 is a storage device such as a nonvolatile memory, and for example, an HDD, an SSD, or the like is used. In addition, any computer-readable non-transitory storage medium may be used.
  • the storage unit 24 stores a control program for controlling the overall operation of the information processing device 4 .
  • the method of installing the control program in the information processing device 4 is not limited. For example, installation may be performed via various recording media, or program installation may be performed via the Internet or the like. Also, the three-dimensional structure 19 and the arrangement information 6 may be stored in the storage unit 24 .
  • the controller 20 has hardware necessary for configuring a computer, such as processors such as CPU, GPU, and DSP, memories such as ROM and RAM, and storage devices such as HDD.
  • processors such as CPU, GPU, and DSP
  • memories such as ROM and RAM
  • storage devices such as HDD.
  • the information processing method according to the present technology is executed by the CPU loading a program according to the present technology pre-recorded in the ROM or the like into the RAM and executing the program.
  • a device such as a PLD (Programmable Logic Device) such as an FPGA (Field Programmable Gate Array) or an ASIC (Application Specific Integrated Circuit) may be used.
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • ASIC Application Specific Integrated Circuit
  • the acquisition unit 7, the input unit 8, the three-dimensional structure generation unit 26, the sequence prediction unit 27, the display control unit 28, and the output unit 29 are realized as functional blocks by the CPU of the controller 20 executing a program (for example, an application program) according to the present technology. These functional blocks execute the information processing method according to the present embodiment. In order to implement each functional block, dedicated hardware such as an IC (integrated circuit) may be used as appropriate.
  • IC integrated circuit
  • Acquisition unit 7 acquires protein information 5 .
  • the acquisition unit 7 acquires the three-dimensional structure 19, which is template information, from the protein information DB 2.
  • FIG. Further, the three-dimensional structure 19 is output to the display control unit 28 by the acquisition unit 7 .
  • the input unit 8 acquires input information.
  • Input information is information corresponding to a user's input operation on the three-dimensional structure 19 acquired by the acquisition unit 7 .
  • the user can perform editing work on the screen while confirming the image of the three-dimensional structure 19 displayed on the display unit 21 .
  • a mouse included in the operation unit 22 can be used to drag an atom image to perform various editing operations such as changing the arrangement of atoms.
  • the "drag operation” corresponds to the input operation.
  • "new coordinates of atoms” corresponds to the input information.
  • the "new coordinates of the atom", which is the input information is determined, for example, according to the trajectory of the "drag operation", which is the input operation.
  • the specific contents of the input information are not limited, and arbitrary information according to the input operation is included.
  • the 3D structure generator 26 generates a reflected 3D structure in which the input information is reflected for the 3D structure 19 .
  • the 3D structure 19 and the reflected 3D structure may also include information such as coordinates and types of a plurality of atoms, coordinates and types of molecules, bonds and functional groups, and functional labels.
  • the 3D structure generation unit 26 outputs the reflective 3D structure to the sequence prediction unit 27 and the display control unit 28 .
  • a reflected three-dimensional structure corresponds to one embodiment of reflected protein information according to the present technology.
  • the sequence prediction unit 27 predicts the sequence information 6 corresponding to the reflected three-dimensional structure.
  • the sequence information 6 is predicted by a method using a machine learning algorithm.
  • the prediction of the array information 6 by the array prediction unit 27 is included in the generation of the array information 6.
  • FIG. The array information 6 predicted by the array prediction section 27 is output to the display control section 28 and the output section 29 .
  • the display control unit 28 controls display of the image corresponding to the three-dimensional structure 19 acquired by the acquisition unit 7 . It also controls display of an image corresponding to the reflected three-dimensional structure generated by the three-dimensional structure generation unit 26 and an image corresponding to the sequence information 6 predicted by the sequence prediction unit 27 .
  • the output unit 29 outputs the sequence information 6 predicted by the sequence prediction unit 27 as a file. Specifically, the output unit 29 outputs the array information 6 to the array information DB 3 . Alternatively, the array information 6 may be output to the storage unit 24 or a predetermined storage medium. Also, the array information 6 may be output to a storage medium included in the cloud environment 18 via the communication unit 23 . In addition, the specific output destination of the array information 6 by the output unit 29 is not limited.
  • a text file for example, a text file, a FASTA file, a csv file, or the like is used. Any format such as an image format may be employed without being limited to this.
  • the three-dimensional structure generation unit 26 implement one embodiment of the generation unit according to the present technology.
  • the configuration of the controller 20, the display unit 21, the operation unit 22, the communication unit 23, and the storage unit 24 described using FIG. 5 is merely an example, and the specific configuration is not limited.
  • FIG. 6 is a flow chart showing an example of processing related to prediction of the array information 6.
  • FIG. 7 is a schematic diagram showing an example of display contents by the display unit 21.
  • FIG. 8 is a schematic diagram showing an example of a machine learning model included in the sequence prediction unit 27.
  • the acquisition unit 7 acquires the three-dimensional structure 19 (step 201).
  • a three-dimensional structure image is displayed on the display unit 21 (step 202).
  • the display control unit 28 controls the display of the 3D structure image corresponding to the 3D structure 19 acquired by the acquisition unit 7 .
  • the three-dimensional structure 19 is acquired from the acquisition unit 7 by the display control unit 28 .
  • a 3D structure image corresponding to the 3D structure 19 is generated, and display of the 3D structure image on the display unit 21 is controlled.
  • FIG. 7A schematically shows a state in which a three-dimensional structure image 32 is displayed on the display section 21. As shown in FIG.
  • the display is controlled by the display control unit 28 so that the three-dimensional structure image 32 is displayed in at least one display format of a point cloud image, a polygon image, a mesh image, a surface image, a slice image, or a three-view drawing.
  • a point cloud image is an image in which data is represented by a set of points. For example, each atom contained in a protein is represented by a point and displayed as a point cloud image. Specifically, based on the three-dimensional coordinates of the atoms included in the three-dimensional structure 19, the positions of the points in the point cloud image are calculated to generate the point cloud image.
  • a specific method of generating a three-dimensional structure image such as a point cloud image is not limited.
  • atoms, molecules, functional groups, functional labels, main chains and side chains of proteins, etc. may be represented by points and displayed as a point group image.
  • dots may be displayed in different colors depending on the type of atom or functional label.
  • the specific content of display by the point cloud image is not limited.
  • a point group may be called a point cloud (Point Cloud).
  • a polygon image is an image in which data is represented by polygons.
  • the local shape of proteins is represented by triangles and squares.
  • a mesh image is an image in which data is represented by multiple polygons.
  • the shape of a protein is represented by a shape that connects triangles and squares.
  • a mesh image can also be said to be a collection of polygon images.
  • a surface image is an image in which data is represented by a smooth curved surface.
  • the shape of protein is represented by a smooth curved surface.
  • a slice image is an image that expresses the cross section of a protein. For example, a cross-sectional view at a predetermined position of the point cloud image is displayed as a slice image. Alternatively, a cross-sectional view of a polygon image, mesh image, or surface image may be displayed.
  • a trihedral view is an image that expresses the shape of a protein when viewed from three directions.
  • the three views may include views viewed from any direction, such as a front view, top view, bottom view, right side view, left side view, and rear view.
  • the user can intuitively grasp the protein structure and the like.
  • the slice image enables the user to easily grasp the internal structure of the protein (the structure that cannot be seen from the outside).
  • the display format, the position of the cross section in the slice image, the direction in the orthographic view, and the like can be appropriately changed by the user, for example, using a setting button or the like.
  • the specific display format of the three-dimensional structure image 32 is not limited.
  • the 3D structure image 32 corresponds to one embodiment of the protein image according to the present technology.
  • Input information is acquired by the input unit 8 (step 203).
  • the input information includes information corresponding to an input operation on the stereoscopic structure image 32 . That is, the user can perform an input operation on the stereoscopic structure image 32 while confirming the stereoscopic structure image 32 displayed on the display unit 21 . Thus, editing of the three-dimensional structure 19 is realized.
  • a "drag operation on a point representing an atom in the three-dimensional structure image 32" is executed as an input operation.
  • the operation is an input operation for the three-dimensional structure image 32 .
  • the input operation includes at least one of editing operation of protein structure and editing operation of protein function.
  • editing operation of protein structure For example, “change of atom arrangement” is editing of the protein structure, and corresponding “drag operation on a point representing an atom in the three-dimensional structure image 32" is editing operation of the protein structure.
  • Protein structure editing and other variations of protein structure editing operations are described. For example, it is possible not only to change the arrangement of atoms, but also to perform editing such as new arrangement, deletion, selection, and change of types ( ⁇ -carbon, ⁇ -carbon, oxygen, nitrogen, etc.) of atoms. These edits are realized by clicking, dragging, or the like on points representing atoms in the three-dimensional structure image 32 . In this case, as the input information, the input unit 8 acquires information such as “delete atom A” and “new type of atom A is carbon”. Alternatively, similar editing may be possible for molecules, functional groups, backbones and side chains of proteins. In this case, editing such as deformation of molecules may be possible.
  • atoms or the like in a desired region. That is, in addition to the method of pinpointing atoms and the like with respect to one point, a method of designating a desired region by, for example, a drag operation and collectively arranging atoms and the like in the entire region may be adopted. Similarly, it may be possible to collectively select, move, delete, etc. all atoms, etc. within the region.
  • the bonding relationship between atoms may be editable. For example, two atoms are specified by clicking, and a bond type selection screen is displayed by right-clicking. Then, a desired type (hydrogen bond, etc.) is selected using a check box or the like.
  • skeleton (rough shape) of the protein may be specified by the user, and the detailed arrangement of atoms, etc. may be automatically determined according to the specified skeleton.
  • the arrangement of atoms and the like is automatically determined based on the assigned functional label, for example. For example, when a region is given a functional label of “hydrophilic”, the arrangement of atoms in the region is automatically determined so that the protein has a “hydrophilic” function in that region. As a result, even if the user wants the protein to have a desired function but does not know how to arrange the atoms or the like, it is possible to impart the function.
  • the template information acquired by the acquisition unit 7 may be information in which only the positions of atoms or the like are determined, and the type is not determined. In this case, for example, the user himself/herself designates the type of atom or the like by editing.
  • template information in which each of the positions and structures of atoms and the like is determined such as data of the International Protein Structure Data Bank, may be acquired by the acquisition unit 7 .
  • GUIs Graphic User Interfaces
  • specific contents such as editing of protein structure, editing of protein function, input operation, and input information are not limited.
  • arbitrary GUIs Graphic User Interfaces
  • GUIs Graphic User Interfaces
  • windows, buttons, check boxes, tabs, input fields, etc. may be arranged in order to implement editing operations.
  • the input operation is not limited to the input operation on the image.
  • editing may be possible by input operations other than input operations for images, such as character input and voice recognition.
  • the 3D structure generator 26 generates a reflective 3D structure (step 204). Specifically, the 3D structure generation unit 26 acquires the 3D structure 19 from the acquisition unit 7 and acquires the input information from the input unit 8 . Furthermore, a reflected stereostructure is generated based on the acquired stereostructure 19 and the input information.
  • the reflected 3D structure will be information obtained by replacing atom A of 3D structure 19 from oxygen to carbon.
  • the input information in the three-dimensional structure 19 is generated.
  • a reflected three-dimensional structure image is displayed on the display unit 21 (step 205).
  • the display control unit 28 controls the display of the reflected 3D structure image corresponding to the 3D structure generated by the 3D structure generation unit 26 . Specifically, first, the display control unit 28 acquires the reflected three-dimensional structure from the three-dimensional structure generation unit 26 . Furthermore, a reflected stereostructure image corresponding to the reflected stereostructure is generated, and display of the reflected stereostructure image on the display unit 21 is controlled.
  • the reflected three-dimensional structure image 33 is generated based on the three-dimensional coordinates of atoms, etc. included in the reflected three-dimensional structure, similarly to the three-dimensional structure image 32 .
  • FIG. 7A can be regarded as a display example of the reflected three-dimensional structure image 33 .
  • the reflected three-dimensional structure image 33 when the reflected three-dimensional structure image 33 is newly displayed, the three-dimensional structure image 32 originally displayed in step 202 is deleted.
  • the display format of the reflected three-dimensional structure image 33 may be the same as or different from the display format of the originally displayed three-dimensional structure image 32 .
  • the 3D structure image 32 and the reflected 3D structure image 33 may be superimposed in the same display format without deleting the 3D structure image 32 .
  • the reflected three-dimensional structure image 33 corresponds to one embodiment of the reflected protein image according to the present technology.
  • step 206 It is determined whether or not there is an input to the operation unit 22 (step 206).
  • the user can make further edits to the reflected conformation.
  • a click operation or the like is performed on the reflected three-dimensional structure image 33 .
  • the determination is affirmative when there is an input operation associated with editing.
  • the determination is performed by the input unit 8, for example, based on whether or not an input operation has been obtained.
  • the input information is acquired again by the input unit 8 (step 203).
  • the input information includes information corresponding to an input operation on the reflected three-dimensional structure image 33 .
  • the 3D structure generator 26 generates a new 3D structure based on the 3D structure and the input information (step 204). Also, a new reflected three-dimensional structure image 33 is displayed on the display unit 21 (step 205).
  • step 207 the sequence information 6 is predicted by the sequence prediction unit 27 (step 207). For example, if there is no input for a certain period of time, it is determined that there has been no input. Alternatively, the sequence prediction processing in step 207 may be started when a button such as an input end button or sequence prediction button is pressed.
  • the sequence prediction unit 27 predicts the sequence information 6 corresponding to the reflected three-dimensional structure. Specifically, first, the sequence prediction unit 27 acquires the reflected 3D structure from the 3D structure generation unit 26 . Then, the sequence information 6 is predicted based on the acquired reflected three-dimensional structure.
  • the sequence information 6 is predicted by the sequence prediction unit 27 executing machine learning using the reflected three-dimensional structure as an input.
  • FIG. 8A is a schematic diagram showing an example of prediction of the sequence information 6 using a learning model with a reflected three-dimensional structure as an input. As shown in FIG. 8A , a reflected three-dimensional structure 36 is input to a learned machine learning model 37 that has undergone machine learning for estimating the sequence information 6 . Then, the sequence information 6 is predicted by the machine learning model 37 . This makes it possible to predict the sequence information 6 with high accuracy.
  • FIG. 8B is a schematic diagram for explaining learning of the machine learning model 37 using teacher data.
  • the three-dimensional structure 19 is used as learning data.
  • Data in which the array information 6 (teacher label 38) is associated with this learning data is used as teacher data. Therefore, the machine learning model 37 is a prediction model machine-learned using the three-dimensional structure 19 and the sequence information 6 as teacher data.
  • the learning unit 39 uses teacher data and performs learning based on a machine learning algorithm. Thereby, a machine learning model 37 is generated.
  • a graphical model and a distance map are generated based on the learning data (three-dimensional structure 19).
  • a graphical model and a distance map are generated by the sequence prediction unit 27, for example.
  • the graphical model or distance map and the array information 6 are input to the learning section 39 and learning is executed. Therefore, it can be said that a set of the graphical model or distance map generated from the three-dimensional structure 19 and the array information 6 (teacher label 38) is used as teacher data.
  • a graphical model is a graph that represents the dependencies of probabilities. Specifically, the graphical model is composed of multiple nodes and multiple edges. Nodes are connected by edges. Schematically, nodes are often represented by circles and edges by lines that connect nodes.
  • the length of the edge connecting the two nodes is determined according to the magnitude of some probability associated with the two nodes. If the probability is relatively large, the edge distance will be relatively short, and if the probability is relatively small, the edge distance will be relatively long.
  • a graphical model is created by assuming atoms as nodes and probabilities of bonding between atoms as edges. For example, when the probability that atom A and atom B are bonded is high, the node representing atom A and the node representing atom B are connected by a short edge. On the other hand, when the probability of being connected is low, the nodes are connected with long edges.
  • the probability that atoms are bonded to each other depends on the distance between atoms. For example, when the distance between atoms is short, there is a high probability that the atoms are bonded together. On the other hand, if the distance is long, the probability of bonding is low. That is, a graphical model may be created by assuming the distance between atoms as an edge.
  • the atoms may be connected by edges only if the distance is less than a predetermined threshold (eg, 10 angstroms). Such atom pairs whose distance is shorter than a threshold (considered to be in contact) are sometimes called contact atom pairs.
  • a predetermined threshold eg, 10 angstroms
  • functional labels may be embedded in nodes and edges. That is, the node feature amount and the edge feature amount may be generated based on the function label.
  • the specific method of generating the graphical model is not limited.
  • a distance map is a map that indicates the distance between atoms.
  • a two-dimensional square map is used as the distance map.
  • each atom that makes up a protein is assigned a number.
  • the distance between atoms is short, the color of the corresponding positions is close to white. Conversely, when the distance is long, the color is close to black.
  • the distance may be represented by the lightness, saturation, and hue of color.
  • a contact map may be generated as a distance map.
  • a contact map is a two-dimensional square map similar to a distance map and is included in the distance map. In the contact map, when the distance between atoms is shorter than a predetermined threshold, the color of the corresponding position is white. Conversely, if the distance is longer than the threshold, it will be black. In this way, the contact map is a map in which the distance between atoms is expressed as "0 or 1".
  • One-hot encoding is a representation of data that includes dummy variables (0). Specifically, one amino acid residue is represented by 20-digit one-hot encoding. For example, "serine (S)", which is the 16th amino acid, is represented by a numerical string "00000000000000010000" in which only the 16th amino acid is 1 and the others are 0. Similarly, for example, when an amino acid sequence consisting of five amino acids is represented by one-hot encoding, it becomes a 100-digit numerical string. In the above description, the amino acid order is defined in alphabetical order, and "serine (S)" is the 16th, but of course the order is not limited.
  • a specific learning algorithm using the graphical model, the distance map, and the array information 6 is not limited, and learning may be performed by a known method or the like.
  • a graphical model, a distance map, or a contact map itself may be included in the three-dimensional structure 19 and stored in the protein information DB2.
  • An array information image is displayed on the display unit 21 (step 208).
  • the display control unit 28 controls display of the arrangement information image corresponding to the arrangement information 6 predicted by the arrangement prediction unit 27 . Specifically, first, the display control unit 28 acquires the array information 6 from the array prediction unit 27 . Further, an array information image corresponding to the array information 6 is generated, and display of the array information image on the display section 21 is controlled.
  • FIG. 7B schematically shows a state in which the arrangement information image 40 is displayed on the display section 21.
  • the sequence information image 40 an alphabetical string representing an amino acid sequence is displayed. Any image corresponding to the sequence information 6 may be displayed, such as a structural formula or a rational formula of an amino acid sequence, for example.
  • the array information 6 is output by the output unit 29 (step 208). Specifically, first, the output unit 29 acquires the sequence information 6 from the sequence prediction unit 27 . Furthermore, the array information is output to the array information DB 3, the storage unit 24, other storage media, and the like. This allows the user to easily manage the predicted sequence information 6. FIG.
  • the processing of displaying the array information image 40 (step 208) and outputting the array information 6 (step 209) in the processing of FIG. 6 may be executed in reverse order. That is, the display of the array information image 40 may be executed after the array information 6 is output.
  • the specific contents of the processing related to the prediction of the array information 6 are not limited.
  • the three-dimensional structure 19 is acquired, and input information corresponding to the user's input operation on the three-dimensional structure 19 is input. Also, based on the three-dimensional structure 19 and the input information, sequence information 6 regarding the amino acid sequence is generated. This enables efficient production of the desired protein.
  • Proteins are formed by peptide bonds of tens to hundreds of amino acids, are folded into a unique three-dimensional structure in cells, and have functions. For example, certain antibody proteins act as immunity by forming structures that catch viruses and antigens. Since protein structure is directly related to protein function, understanding protein structure is a very important research topic.
  • protein design software is provided to the user.
  • a user can interactively design a desired protein by creating and editing protein information.
  • the throughput of the culture/analysis cycle in organic compound synthesis and drug discovery can be greatly increased.
  • a reflected three-dimensional structure 36 is generated by reflecting the input information on the three-dimensional structure 19, and the array information 6 corresponding to the reflected three-dimensional structure 36 is predicted.
  • the editing content is reflected with high precision, and the array information 6 is predicted with high precision.
  • editing of protein structure and editing of function are possible.
  • the 3D structure image 32 and the reflected 3D structure image 33 are displayed on the display unit 21 .
  • the user can perform editing while confirming how his or her editing operations are reflected.
  • the array information image 40 is displayed on the display section 21 . This allows the user to easily grasp what the predicted sequence information is.
  • ⁇ Second embodiment> A more detailed embodiment of the sequence generating system 1 according to the present technology will be described as a second embodiment with reference to FIGS. 9 to 11.
  • FIG. In the following description, the description of the same parts as the configuration and operation of the sequence generation system 1 described in the above embodiment will be omitted or simplified.
  • a three-dimensional structure 19 is further predicted based on the sequence information 6 predicted by the sequence prediction section 27 .
  • FIG. 9 is a block diagram showing a configuration example of the sequence generation system 1.
  • the CPU of the controller 20 executes the program according to the present technology, thereby further realizing a 3D structure prediction unit 43 and a 3D structure error calculation unit 44 as functional blocks.
  • the 3D structure prediction unit 43 predicts the 3D structure 19 corresponding to the sequence information 6 predicted by the sequence prediction unit 27 as a predicted 3D structure. Specifically, first, the sequence information 6 is obtained from the sequence prediction unit 27 by the three-dimensional structure prediction unit 43 . Further, prediction of the predicted three-dimensional structure is performed based on the acquired sequence information 6 .
  • the three-dimensional structure 19 is information about a certain protein A
  • the sequence information 6 is information about the amino acid sequence that is the source of protein A
  • the predicted three-dimensional structure is "information about the protein generated from the amino acid sequence that is the source of protein A". That is, the three-dimensional structure 19 and the predicted three-dimensional structure are basically similar information.
  • the sequence information 6 and the predicted three-dimensional structure are generated by prediction processing, errors may occur in the prediction process. Therefore, the three-dimensional structure 19 and the predicted three-dimensional structure may not completely match and errors may appear.
  • the predicted 3D structure predicted by the 3D structure prediction unit 43 is output to the display control unit 28 and the 3D structure error calculation unit 44 .
  • the three-dimensional structure prediction unit 43 corresponds to one embodiment of the protein prediction unit according to the present technology.
  • a predicted three-dimensional structure corresponds to one embodiment of predicted protein information according to the present technology.
  • the 3D structure error calculator 44 calculates the difference between the reflected 3D structure 36 and the predicted 3D structure predicted by the 3D structure prediction unit 43 . Note that the difference can also be called an error.
  • the difference in the information between the reflected stereostructure 36 and the predicted stereostructure may be referred to as a difference and an error, but there is no special meaning in using each word properly.
  • the difference calculated by the three-dimensional structure error calculator 44 is output to the display controller 28 .
  • the 3D structure generation unit 26, the sequence prediction unit 27, the output unit 29, and the 3D structure prediction unit 43 correspond to an embodiment of the generation unit according to the present technology.
  • the display control unit 28 controls the display of the difference image corresponding to the difference between the reflected 3D structure 36 and the predicted 3D structure. Specifically, first, the display control unit 28 acquires the reflected 3D structure 36 from the 3D structure generation unit 26 and acquires the predicted 3D structure from the 3D structure prediction unit 43 . Further, a difference image is generated based on the acquired reflected 3D structure 36 and predicted 3D structure, and the display on the display unit 21 is controlled.
  • FIG. 10 and 11 are flowcharts showing examples of processing related to generation of a difference image.
  • FIG. 12 is a schematic diagram showing an example of a difference image. In steps 301 to 309 shown in FIG. 10, processing similar to steps 201 to 209 shown in FIG. 6 is executed.
  • a predicted three-dimensional structure is predicted by the three-dimensional structure prediction unit 43 (step 310).
  • the three-dimensional structure prediction unit 43 predicts the predicted three-dimensional structure by executing machine learning with the sequence information 6 as input. This makes it possible to predict the predicted three-dimensional structure with high accuracy. Learning is performed using teacher data associated with sequence information 6 (learning data) and three-dimensional structure 19 (teacher label). A specific algorithm for learning is not limited, and learning may be performed by a known method or the like.
  • a difference is calculated by the three-dimensional structure error calculator 44 (step 311).
  • RMSD Root Mean Square Deviation
  • MAE Mean Absolute Error
  • the difference in the types of atoms or the like at the same position may be calculated as the difference. For example, if the atom at a certain position in the reflected stereostructure 36 is carbon and the atom at that position in the predicted stereostructure is oxygen, the calculated difference is information indicating that "the types of atoms are different". Alternatively, information including the type of each atom may be calculated, such as "the types of atoms are carbon and oxygen".
  • any information representing the difference between the information on the reflected three-dimensional structure 36 and the predicted three-dimensional structure such as a shift in the position to which the function is assigned, a difference in the type of function, a difference in the position and type of binding, etc., may be calculated as the difference.
  • a difference image is generated by the display control unit 28 (step 312).
  • the display control unit 28 generates an image in which the reflected 3D structure image 33 and the predicted 3D structure image corresponding to the predicted 3D structure are superimposed on each other as the difference image. Specifically, first, the display control unit 28 acquires the predicted three-dimensional structure from the three-dimensional structure prediction unit 43 . Also, a predicted three-dimensional structure image is generated based on the obtained predicted three-dimensional structure. Further, based on the reflected 3D structure image 33 generated in step 305 and the predicted 3D structure image, a difference image is generated by superimposing them.
  • the reflected three-dimensional structure image 33 is illustrated in white. Also, the predicted three-dimensional structure image 34 is shown in a hatched pattern. An image obtained by superimposing these images becomes the differential image 35 .
  • the predicted 3D structure image 34 is generated in the same manner as the 3D structure image 32 is generated based on the predicted 3D structure.
  • the predicted three-dimensional structure image 34 corresponds to one embodiment of the predicted protein image according to the present technology.
  • the reflected three-dimensional structure image 33 and the predicted three-dimensional structure image 34 are also the same image.
  • the difference image 35 is an image in which the same images are superimposed, the image appears to represent one three-dimensional structure 19 .
  • the differential image 35 will appear as if the two 3D structures 19 are shifted.
  • FIG. 12 shows, as an example, a state in which an error has occurred in the reflected 3D structure 36 and the predicted 3D structure, and the reflected 3D structure image 33 and the predicted 3D structure image 34 are out of alignment.
  • the display control unit 28 superimposes the reflected 3D structure image 33 and the predicted 3D structure image 34 on each other as the difference image 35, and generates an image in which the difference between the reflected 3D structure 36 and the predicted 3D structure is emphasized. Specifically, the display control unit 28 acquires the difference from the three-dimensional structure error calculation unit 44 . Furthermore, based on the reflected 3D structure image 33, the predicted 3D structure image 34, and the difference, the two images are superimposed on each other to generate a difference image 35 in which the difference is highlighted.
  • positions with relatively large differences are highlighted. Specifically, when the difference in coordinate values at a certain position is greater than a predetermined threshold, the position is displayed in a different color in the image in which the two images are superimposed. In the example shown in FIG. 12, since the position of the lower right atom is displaced, this portion is highlighted.
  • positions with relatively large differences in the types of atoms, etc. may also be highlighted. Conversely, positions where the difference is relatively small may be highlighted.
  • a specific method of highlighting is not limited. For example, highlighting may be performed by blinking or gradation.
  • an image that does not include highlighting may be generated as the difference image 35 .
  • any difference image 35 other than the image in which the reflected 3D structure image 33 and the predicted 3D structure image 34 are superimposed on each other may be generated.
  • an image may be generated by simply arranging two images side by side.
  • the difference image 35 is displayed on the display unit 21 (step 313). Specifically, display of the difference image 35 on the display unit 21 is controlled by the display control unit 28 . This allows the user to evaluate the validity of the predicted sequence information 6. FIG. In addition, the user can intuitively grasp the error between the reflected three-dimensional structure 36 created by editing by the user and the predicted three-dimensional structure. For example, a location in the difference image 35 with a large deviation is confirmed, and the corresponding position of the reflected three-dimensional structure 36 is edited in order to correct the error. In this way, it is possible to efficiently edit the three-dimensional structure 19, and improve the throughput of organic compound synthesis.
  • the error may be presented to the user by displaying the difference not only as an image but also as a specific numerical value.
  • the specific method of presenting the error to the user is not limited.
  • FIG. 13 to 15 A more detailed embodiment of the sequence generation system 1 according to the present technology will be described as a third embodiment with reference to FIGS. 13 to 15.
  • FIG. 13 to 15 the reflected three-dimensional structure 36 is automatically corrected on the sequence generation system 1 side based on the difference.
  • FIG. 13 is a block diagram showing a configuration example of the sequence generating system 1. As shown in FIG. In the present embodiment, the CPU of the controller 20 executes the program according to the present technology, so that the correction unit 47 is further realized as a functional block.
  • the correction unit 47 generates correction information based on the difference calculated by the three-dimensional structure error calculation unit 44 .
  • An embodiment of the generation unit according to the present technology is realized by the three-dimensional structure generation unit 26, the sequence prediction unit 27, the output unit 29, the three-dimensional structure prediction unit 43, and the correction unit 47.
  • FIGS. 14 and 15 are flow charts showing an example of processing related to correction of the reflecting three-dimensional structure 36.
  • FIG. In steps 401-413, processing similar to steps 301-313 shown in FIGS. 10 and 11 is executed.
  • step 414 It is determined whether modification of the reflected conformation 36 is required (step 414). For example, if the difference (error) is greater than a predetermined threshold, it is determined that correction is required. Alternatively, it may be determined that correction is necessary when the user presses a correction button. Determination is performed by the correction unit 47, for example.
  • step 415 modification of the reflected conformation 36 is performed (step 415).
  • the correction unit 47 and the 3D structure generation unit 26 correct the reflection 36D structure based on the difference between the 3D structure 36 and the predicted 3D structure predicted by the 3D structure prediction unit 43 .
  • the generated corrected conformation becomes information that matches the predicted conformation. That is, in this example, the process of correcting the reflected 3D structure 36 as it is to the predicted 3D structure is executed.
  • the specific contents of the correction are not limited.
  • an "averaged structure" of the reflected conformation 36 and the predicted conformation may be generated as the predicted conformation. In this case, for example, coordinate values of respective atoms are calculated as average values.
  • arbitrary information such as the types of atoms, the positions and types of molecules, the positions and types of bonds, and the positions and types of functional labels may be modified. Further, when the reflected stereostructure 36 and the predicted stereostructure match (no error occurs), correction may not be performed.
  • the reflected three-dimensional structure image 33 is displayed again on the display unit 21 (step 405).
  • a reflected stereostructure image 33 is generated based on the modified stereostructure. That is, the reflected three-dimensional structure image 33 reflecting the correction is displayed.
  • the reflected three-dimensional structure 36 is automatically corrected on the sequence generation system 1 side based on the difference (error). This saves the user the trouble of correcting the reflected three-dimensional structure 36, and makes it possible to design proteins efficiently.
  • the sequence prediction unit 27 may learn using the predicted three-dimensional structure predicted by the three-dimensional structure prediction unit 43 and the sequence information 6 predicted by the sequence prediction unit 27 as teacher data. This enables highly accurate sequence prediction.
  • the correction process is repeatedly executed a plurality of times, and the sequence information 6 and the predicted three-dimensional structure are predicted each time the process is performed. These may be used and the learning of the sequence prediction unit 27 may be executed each time processing is performed. This makes it possible to further improve the prediction accuracy of the sequence prediction unit 27 .
  • a part or all of the functions of the protein information DB 2 or the sequence information DB 3 shown in FIG. 1 may be installed in the information processing device 4 .
  • a portable information processing device 4 may be used, and a part or all of the functions of the protein information DB 2 or the sequence information DB 3 may be installed.
  • the sequence generation system 1 may be implemented by multiple computers or may be implemented by one computer.
  • FIG. 16 is a block diagram showing a hardware configuration example of a computer 500 capable of implementing the information processing device 4.
  • the computer 500 comprises a CPU 501, a ROM 502, a RAM 503, an input/output interface 505, and a bus 504 connecting them together.
  • a display unit 506, an operation unit 507, a storage unit 508, a communication unit 509, a drive unit 510, and the like are connected to the input/output interface 505.
  • the display unit 506 is a display device using liquid crystal, EL, or the like, for example.
  • the operating unit 507 is, for example, a keyboard, pointing device, touch panel, or other operating device.
  • a storage unit 508 is a non-volatile storage device, such as an HDD, flash memory, or other solid-state memory.
  • the drive unit 510 is a device capable of driving a removable recording medium 511 such as an optical recording medium or a magnetic recording tape.
  • a communication unit 509 is a modem, router, or other communication equipment connectable to a LAN, WAN, or the like, for communicating with other devices. The communication unit 509 may use either wired or wireless communication. The communication unit 509 is often used separately from the computer 500 .
  • Information processing by the computer 500 having the hardware configuration as described above is realized by cooperation of software stored in the storage unit 508 or the ROM 502 or the like and the hardware resources of the computer 500 .
  • the information processing method according to the present technology is realized by loading a program constituting software stored in the ROM 502 or the like into the RAM 503 and executing the program.
  • the program is installed in the computer 500 via the removable recording medium 511, for example.
  • the program may be installed on computer 500 via a global network or the like.
  • any non-transitory storage medium readable by computer 500 may be used.
  • a plurality of computers communicably connected via a network or the like may cooperate to execute the information processing method according to the present technology, and construct the sequence generation system and the information processing apparatus according to the present technology. That is, the information processing method according to the present technology can be executed not only in a computer system configured by a single computer, but also in a computer system in which a plurality of computers operate in conjunction with each other.
  • a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules within a single housing, are both systems.
  • Execution of the information processing method according to the present technology by a computer system includes, for example, the acquisition of protein information, the input of input information, the generation and correction of reflected protein information, the prediction and output of sequence information, the prediction of predicted protein information, the calculation of differences, the generation of correction information, and the display of protein images, etc., and includes both cases in which a single computer executes each process, and cases in which each process is executed by a different computer.
  • Execution of each process by a predetermined computer includes causing another computer to execute part or all of the process and obtaining the result. That is, the information processing method according to the present technology can also be applied to a configuration of cloud computing in which a single function is shared and processed jointly by a plurality of devices via a network.
  • the array generation system, the information processing device, the contents of the display by the display unit, each processing flow, etc. described with reference to each drawing are merely one embodiment, and can be arbitrarily modified within the scope of the present technology. That is, any other configuration, algorithm, or the like for implementing the present technology may be employed.
  • expressions using "more than” such as “greater than A” and “less than A” are expressions that include both a concept that includes the case of being equivalent to A and a concept that does not include the case of being equivalent to A.
  • greater than A is not limited to not including equal to A, but also includes “greater than or equal to A.”
  • less than A is not limited to “less than A”, but also includes “less than A”.
  • the present technology can also adopt the following configuration.
  • an acquisition unit that acquires protein information about a protein
  • an input unit for inputting input information according to a user's input operation on the protein information acquired by the acquisition unit
  • an information processing apparatus comprising: a generation unit that generates sequence information about an amino acid sequence based on the protein information acquired by the acquisition unit and the input information input to the input unit.
  • the information processing device (1), The information processing apparatus, wherein the generation unit generates reflected protein information in which the input information is reflected in the protein information, and predicts the sequence information corresponding to the reflected protein information.
  • the information processing device according to (2) The information processing apparatus, wherein the generating unit predicts the sequence information by executing machine learning using the reflected protein information as an input.
  • the protein information includes at least one of the structure of the protein and the function of the protein;
  • the information processing device, wherein the input operation includes at least one of an operation of editing the structure of the protein and an operation of editing the function of the protein.
  • the information processing device according to (4) The information processing device, wherein the function of the protein includes at least one of hydrophilicity of the protein and rigidity of the protein.
  • An information processing apparatus comprising a protein prediction unit that predicts the protein information corresponding to the sequence information generated by the generation unit as predicted protein information.
  • the information processing device (7) The information processing device according to (6), The information processing apparatus, wherein the protein prediction unit predicts the predicted protein information by executing machine learning using the sequence information as input.
  • the information processing device (8) The information processing device according to (6) or (7), The information processing apparatus, wherein the generation unit corrects the reflected protein information based on a difference between the reflected protein information and the predicted protein information predicted by the protein prediction unit.
  • the information processing device (2) or (3), further comprising: An information processing apparatus comprising a display control unit that controls display of a protein image corresponding to the protein information acquired by the acquisition unit.
  • the information processing device (10) The information processing device according to (9), The information processing apparatus, wherein the input information includes information corresponding to the input operation on the protein image.
  • the information processing device according to (9) or (10), The information processing apparatus, wherein the display control unit controls display of the reflected protein image corresponding to the reflected protein information generated by the generation unit.
  • the information processing device according to (11), The information processing apparatus, wherein the input information includes information corresponding to the input operation on the reflected protein image.
  • the information processing device according to any one of (9) to (12), The information processing apparatus, wherein the display control unit controls display of an array information image corresponding to the array information predicted by the generation unit.
  • the information processing device according to any one of (9) to (13), further comprising: a protein prediction unit that predicts, as predicted protein information, the protein information corresponding to the sequence information predicted by the generation unit; The information processing apparatus, wherein the display control unit controls display of a difference image corresponding to the difference between the reflected protein information and the predicted protein information.
  • the information processing device according to (14), The information processing apparatus, wherein the difference image includes an image in which the reflected protein image and the predicted protein image corresponding to the predicted protein information are superimposed on each other.
  • the difference image includes an image in which the reflected protein image and the predicted protein image are superimposed and the difference between the reflected protein information and the predicted protein information is highlighted.
  • the information processing device according to any one of (9) to (16), further comprising: a protein prediction unit that predicts the protein information corresponding to the sequence information generated by the generation unit as predicted protein information;
  • the display control unit controls display so that at least one of the protein image, the reflected protein image corresponding to the reflected protein information generated by the generating unit, or the predicted protein image corresponding to the predicted protein information is displayed in at least one display format of a point cloud image, a polygon image, a mesh image, a surface image, a slice image, or a three-view image.
  • the information processing device according to any one of (1) to (17), The information processing apparatus, wherein the protein information includes template information that is a template of the protein information.
  • sequence generation system information processing device 5 protein information 6 sequence information 7 acquisition unit 8 input unit 9 generation unit 12 first information processing device 13 second information processing device 19 three-dimensional structure 26 three-dimensional structure generation unit 27 sequence prediction unit 28 display control unit 29 output unit 32 three-dimensional structure image 33 reflected three-dimensional structure image 34 predicted three-dimensional structure image 35 difference image 36 reflection 3D structure 37 Machine learning model 40 Sequence information image 43 3D structure prediction unit 44 3D structure error calculation unit 47 Correction unit

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本技術の一形態に係る情報処理装置は、取得部と、入力部と、生成部とを具備する。前記取得部は、タンパク質に関するタンパク質情報を取得する。前記入力部には、前記取得部により取得された前記タンパク質情報に対するユーザの入力操作に応じた入力情報が入力される。前記生成部は、前記取得部により取得された前記タンパク質情報と、前記入力部に入力された前記入力情報とに基づいて、アミノ酸配列に関する配列情報を生成する。これにより、所望のタンパク質を効率よく生成することが可能となる。

Description

情報処理装置、情報処理方法、及びプログラム
 本技術は、アミノ酸配列の予測に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。
 特許文献1には、アミノ酸配列に基づいて、タンパク質の構造を予測する予測システムについて開示されている。この予測システムでは、アミノ酸配列に対して、マルチプルアライメントと呼ばれる配列の整列処理が実行され、タンパク質の構造が予測される。これにより、タンパク質の構造を精度よく予測することが可能となる。
米国特許出願公開第2021/0166779号明細書
 ところで、所望のタンパク質を効率よく生成することを可能とする技術が求められている。
 以上のような事情に鑑み、本技術の目的は、所望のタンパク質を効率よく生成することを可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、入力部と、生成部とを具備する。
 前記取得部は、タンパク質に関するタンパク質情報を取得する。
 前記入力部には、前記取得部により取得された前記タンパク質情報に対するユーザの入力操作に応じた入力情報が入力される。
 前記生成部は、前記取得部により取得された前記タンパク質情報と、前記入力部に入力された前記入力情報とに基づいて、アミノ酸配列に関する配列情報を生成する。
 この情報処理装置では、タンパク質情報が取得され、タンパク質情報に対するユーザの入力操作に応じた入力情報が入力される。また、タンパク質情報と入力情報とに基づいて、アミノ酸配列に関する配列情報が生成される。これにより、所望のタンパク質を効率よく生成することが可能となる。
 前記生成部は、前記タンパク質情報に対して前記入力情報が反映された反映タンパク質情報を生成し、前記反映タンパク質情報に対応する前記配列情報を予測してもよい。
 前記生成部は、前記反映タンパク質情報を入力として機械学習を実行することで、前記配列情報を予測してもよい。
 前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含んでもよい。この場合、前記入力操作は、前記タンパク質の構造の編集操作、又は前記タンパク質の機能の編集操作の少なくとも一方を含んでもよい。
 前記タンパク質の機能は、前記タンパク質の親水性、又は前記タンパク質の剛性の少なくとも一方を含んでもよい。
 前記情報処理装置は、さらに、前記生成部により生成された前記配列情報に対応する前記タンパク質情報を、予測タンパク質情報として予測するタンパク質予測部を具備してもよい。
 前記タンパク質予測部は、前記配列情報を入力として機械学習を実行することで、前記予測タンパク質情報を予測してもよい。
 前記生成部は、前記反映タンパク質情報と、前記タンパク質予測部により予測された前記予測タンパク質情報との差分に基づいて、前記反映タンパク質情報を修正してもよい。
 前記情報処理装置は、さらに、前記取得部により取得された前記タンパク質情報に対応するタンパク質画像の表示を制御する表示制御部を具備してもよい。
 前記入力情報は、前記タンパク質画像に対する前記入力操作に応じた情報を含んでもよい。
 前記表示制御部は、前記生成部により生成された前記反映タンパク質情報に対応する反映タンパク質画像の表示を制御してもよい。
 前記入力情報は、前記反映タンパク質画像に対する前記入力操作に応じた情報を含んでもよい。
 前記表示制御部は、前記生成部により予測された前記配列情報に対応する配列情報画像の表示を制御してもよい。
 前記情報処理装置は、さらに、前記生成部により予測された前記配列情報に対応する前記タンパク質情報を、予測タンパク質情報として予測するタンパク質予測部を具備してもよい。この場合、前記表示制御部は、前記反映タンパク質情報と前記予測タンパク質情報との差分に対応する差分画像の表示を制御してもよい。
 前記差分画像は、前記反映タンパク質画像と、前記予測タンパク質情報に対応する予測タンパク質画像とが互いに重畳された画像を含んでもよい。
 前記差分画像は、前記反映タンパク質画像と前記予測タンパク質画像とが互いに重畳され、前記反映タンパク質情報と前記予測タンパク質情報との差分が強調表示された画像を含んでもよい。
 前記情報処理装置は、さらに、前記生成部により生成された前記配列情報に対応する前記タンパク質情報を、予測タンパク質情報として予測するタンパク質予測部を具備してもよい。この場合、前記表示制御部は、前記タンパク質画像、前記生成部により生成された前記反映タンパク質情報に対応する反映タンパク質画像、又は前記予測タンパク質情報に対応する予測タンパク質画像の少なくとも1つを、点群画像、ポリゴン画像、メッシュ画像、サーフェス画像、スライス画像、又は三面図の少なくとも1つの表示形式により表示するように、表示を制御してもよい。
 前記タンパク質情報は、前記タンパク質情報の雛形であるテンプレート情報を含んでもよい。
 本技術の一形態に係る情報処理方法は、コンピュータシステムが実行する情報処理方法であって、タンパク質に関するタンパク質情報を取得することを含む。
 取得された前記タンパク質情報に対するユーザの入力操作に応じた入力情報が入力される。
 取得された前記タンパク質情報と、入力された前記入力情報とに基づいて、アミノ酸配列に関する配列情報が生成される。
 本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
 タンパク質に関するタンパク質情報を取得するステップ。
 取得された前記タンパク質情報に対するユーザの入力操作に応じた入力情報を入力するステップ。
 取得された前記タンパク質情報と、入力された前記入力情報とに基づいて、アミノ酸配列に関する配列情報を生成するステップ。
本技術の一実施形態に係る配列生成システムの構成例を示す模式図である。 クラウド環境を含む配列生成システムの構成例を示す模式図である。 クラウド環境を含む配列生成システムの構成例を示す模式図である。 情報処理装置による配列情報の生成に関する処理例を示すフローチャートである。 配列生成システムの構成例を示すブロック図である。 配列情報の予測に関する処理例を示すフローチャートである。 表示部による表示内容の一例を示す模式図である。 配列予測部に含まれる機械学習モデルの一例を示す模式図である。 配列生成システムの構成例を示すブロック図である。 差分画像の生成等に関する処理例を示すフローチャートである。 差分画像の生成等に関する処理例を示すフローチャートである。 差分画像の一例を示す模式図である。 配列生成システムの構成例を示すブロック図である。 反映立体構造の修正に関する処理例を示すフローチャートである。 反映立体構造の修正に関する処理例を示すフローチャートである。 情報処理装置を実現可能なコンピュータのハードウェア構成例を示すブロック図である。
 以下、本技術に係る実施形態を、図面を参照しながら説明する。
 [配列生成システム]
 図1は、本技術の一実施形態に係る配列生成システムの構成例を示す模式図である。
 配列生成システム1は、タンパク質の構造等の情報に基づいて、当該タンパク質を構成するアミノ酸配列を生成して出力することが可能である。
 まず、アミノ酸とタンパク質との関係について説明する。
 アミノ酸同士が結合してアミノ酸配列になると、アミノ酸配列は折り畳まれ、タンパク質が生成される。
 元となるアミノ酸配列が異なれば、配列がどのように折り畳まれるかも異なり、それぞれ違ったタンパク質が生成される。このように、アミノ酸配列及びタンパク質には対応関係があるといえる。
 本配列生成システム1では、タンパク質が与えられた場合に、そのタンパク質の元となるアミノ酸配列がどのようなものであるかを解析することが可能である。
 与えるタンパク質は、配列生成システム1を利用するユーザにより指定することが可能である。具体的には、ユーザはタンパク質を編集可能であり、編集により与えるタンパク質を決めることが可能である。
 すなわち本配列生成システム1では、ユーザが「あるタンパク質について、元となるアミノ酸配列がどのようなものであるかを知りたい」と考えた場合に、その所望のタンパク質を編集によって作成することで、元となるアミノ酸配列を解析させることが可能となる。
 例えば、ユーザにより、未知のタンパク質の構造等を入力することも可能である。本配列生成システム1により、未知のタンパク質に対応するアミノ酸配列を生成して出力することも可能である。
 図1に示すように、配列生成システム1は、タンパク質情報DB(データベース)2、配列情報DB3、及び情報処理装置4を有する。
 タンパク質情報DB2は、タンパク質情報5が記憶されるデータベースである。
 タンパク質情報5とは、タンパク質に関する情報である。
 例えば、タンパク質情報5にはタンパク質の立体構造(タンパク質が持つ固有の立体的な構造や機能)が含まれる。
 もちろん、タンパク質情報5にはタンパク質に関する他の任意の情報が含まれてよい。
 配列情報DB3は、配列情報6が記憶されるデータベースである。
 配列情報6とは、アミノ酸配列に関する情報である。
 例えば配列情報6には、配列を表現したアルファベットの文字列が含まれる。
 アミノ酸配列は、一般的に数十~数百個ものアミノ酸残基の配列となる。それらのアミノ酸残基を示性式等で表記すると、非常に冗長になってしまう。
 そこで、簡潔にアミノ酸配列を表記するために、アミノ酸残基の種類をアルファベット1文字により表現する方法が用いられる。例えばセリン残基は「S」、グルタミン残基は「Q」で表記される。その他、全部で20種類のアミノ酸残基の各々が、アルファベット1文字により表現される。
 例えばこのようなアルファベットの文字列が、配列情報6となる。図1には、配列情報6としてアルファベットの文字列が模式的に図示されている。
 もちろん、配列情報6にはアミノ酸配列に関する他の任意の情報が含まれてよい。
 タンパク質情報DB2及び配列情報DB3は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等の記憶デバイスにより構成される。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
 情報処理装置4は、例えばCPU、GPU、DSP等のプロセッサ、ROM、RAM等のメモリ、HDD等の記憶デバイス等、コンピュータの構成に必要なハードウェアを有する。
 例えばCPUがROM等に予め記録されている本技術に係るプログラムをRAMにロードして実行することにより、本技術に係る情報処理方法が実行される。
 例えばPC(Personal Computer)等の任意のコンピュータにより、情報処理装置4を実現することが可能である。もちろんFPGA、ASIC等のハードウェアが用いられてもよい。
 本実施形態では、CPU等が所定のプログラムを実行することで、機能ブロックとしての取得部7、入力部8、及び生成部9が構成される。もちろん機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
 プログラムは、例えば種々の記録媒体を介して情報処理装置4にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。
 プログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば、コンピュータが読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
 取得部7は、タンパク質情報5を取得する。
 本実施形態では、取得部7により、タンパク質情報DB2に記憶されたタンパク質情報5が取得される。
 入力部8には、取得部7により取得されたタンパク質情報5に対する、ユーザの入力操作に応じた入力情報が入力される。
 例えば、ユーザはキーボードやマウス等のデバイスを介して入力操作を行うことで、タンパク質情報5の編集が可能である。ユーザによる入力操作が実行された場合に、入力部8に対して入力情報が入力される。
 生成部9は、取得部7により取得されたタンパク質情報5と、入力部8に入力された入力情報とに基づいて、配列情報6を生成する。
 生成部9により生成された配列情報6は、配列情報DB3に出力される。
 また生成部9により、表示デバイス(PCのディスプレイ等)に対する配列情報6の表示が制御される。
 図2及び図3は、クラウド環境を含む配列生成システム1の構成例を示す模式図である。
 本例では、配列生成システム1は、2つの第1の情報処理装置12、及び第2の情報処理装置13を有する。
 これらの端末及び装置は、ネットワーク14を介して相互に通信可能に接続される。ネットワーク14は、例えばインターネットや広域通信回線網等により構築される。その他、任意のWAN(Wide Area Network)やLAN(Local Area Network)等が用いられてよく、ネットワーク14を構築するためのプロトコルは限定されない。
 また図3に示すように、配列生成システム1は、タンパク質情報DB2と、配列情報DB3とを有する。なお図2では、タンパク質情報DB2及び配列情報DB3の図示は省略されている。
 第1の情報処理装置12は、図1に示す取得部7及び入力部8と、通信部15とを有する。
 通信部15は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するためのモジュールである。例えばWiFi等の無線LANモジュールや、Bluetooth(登録商標)等の通信モジュールが設けられる。
 通信部15は、取得部7により取得されたタンパク質情報5と、入力部8に入力された入力情報とをネットワーク14に対して送信する。また、第2の情報処理装置13により送信された配列情報6を、ネットワーク14を介して受信する。
 第2の情報処理装置13は、図1に示す生成部9と、通信部16とを有する。
 通信部16は、第1の情報処理装置12により送信されたタンパク質情報5及び入力情報を、ネットワーク14を介して受信する。また、生成部9により生成された配列情報6を、ネットワーク14に対して送信する。
 本例では、例えば第1の情報処理装置12として、PC等の、ユーザが操作可能な装置が用いられる。ユーザがタンパク質情報5の編集のために、入力デバイスを介して入力操作を行うことで、入力情報が入力される。入力情報は、タンパク質情報5と共に第2の情報処理装置13に送信される。
 第2の情報処理装置13は、例えばサーバ装置として構成され、受信したタンパク質情報5及び入力情報に基づいて、配列情報6が生成される。そして、配列情報6が第1の情報処理装置12に送信され、第1の情報処理装置12の画面への配列情報6の表示、及び配列情報DB3に対する配列情報6の出力等が実行される。
 このように、ユーザ側の環境(ローカル環境17)、及びユーザと離れた場所にある環境(クラウド環境18)により、配列生成システム1が構成されてもよい。
 図2及び3に示す構成例では、第1の情報処理装置12及び第2の情報処理装置13が協働することで、図1に示す情報処理装置4が有する本技術に係る機能が実現される。
 すなわち、図2及び図3に示す構成例では、ネットワーク14を介して通信可能に接続された2つのコンピュータが協働することで、本技術に係る情報処理装置が実現され、本技術に係る情報処理方法が実行される。
 図2に示すように、本例ではローカル環境17にて、ユーザが操作可能な第1の情報処理装置12が2つ配置されている。このように、ローカル環境17側に複数の第1の情報処理装置12が配置され、複数のユーザにより本配列生成システム1が利用可能であってもよい。もちろん、ローカル環境1側に配置される第1の情報処理装置12の数は限定されず、3つ以上の第1の情報処理装置12が配置されてもよい。
 また、第1の情報処理装置12及び第2の情報処理装置13が、ケーブル等を介して通信可能に接続される構成も採用可能である。
 また、タンパク質情報DB2や配列情報DB3がクラウド環境18側に含まれる構成が採用されてもよい。
 その他、配列生成システム1の具体的な構成は限定されない。
 図4は、情報処理装置4による配列情報6の生成に関する処理例を示すフローチャートである。図2及び図3に示す構成例では、第1の情報処理装置12及び第2の情報処理装置13が協働することで、図4に示す処理例が実行される。
 取得部7により、タンパク質情報5が取得される(ステップ101)。
 具体的には、取得部7により、タンパク質情報DB2に記憶されたタンパク質情報5が取得される。
 入力部8により入力情報が取得される(ステップ102)。
 例えばユーザが、タンパク質情報5の編集のために入力操作を行った場合に、入力部8により入力情報が取得される。
 なお、入力部8による入力情報の取得は、入力部8に対する入力情報の入力に含まれる。
 生成部9により、配列情報6が生成される(ステップ103)。
 具体的には、まず生成部9により、取得部7からタンパク質情報5が取得され、入力部8から入力情報が取得される。さらに、タンパク質情報5及び入力情報に基づいて、配列情報6が生成される。
 本実施形態では、生成部9により、機械学習アルゴリズムを用いた処理により配列情報6が生成される。配列情報6の生成方法については、後に詳しく説明する。
 生成部9により生成された配列情報6が出力される(ステップ104)。
 本実施形態では、生成部9により、配列情報6が配列情報DB3に対して出力される。これにより、配列情報DB3に配列情報6が記憶される。
 また、PCのディスプレイ等の表示デバイスに、配列情報6が表示される。表示デバイスに対する配列情報6の表示は、配列情報6の出力に含まれる。
 なお配列生成システム1として、クラウド環境18を含む構成が採用される場合には、ステップ103(配列情報の生成)の直前及びステップ104(配列情報の出力)の直前に、第1の情報処理装置12と第2の情報処理装置13との通信に係る処理が実行される。
 <第1の実施形態>
 図5~図8を参照して、本技術に係る配列生成システム1について、さらに詳細な実施形態を、第1の実施形態として説明する。
 図5は、配列生成システム1の構成例を示すブロック図である。
 配列生成システム1は、タンパク質情報DB2、配列情報DB3、及び情報処理装置4を有する。
 タンパク質情報DB2には、タンパク質情報5として立体構造19が記憶される。
 立体構造19とは、タンパク質が持つ固有の立体的な構造や機能を含む情報である。
 立体構造19は、タンパク質の構造又はタンパク質の機能の少なくとも一方を含む。
 タンパク質の構造とは、タンパク質の構造に関する情報である。例えばタンパク質を構成する各々の原子や分子、結合、官能基等の三次元座標の座標列を含んだ情報が、タンパク質の構造に含まれる。これらの三次元座標の座標列は、ボリュームデータと呼称されることもある。
 もちろんタンパク質の構造が具体的にどのような情報であるかは限定されず、タンパク質の構造に関する任意の情報が含まれてよい。
 タンパク質の機能とは、タンパク質の機能に関する情報である。
 本実施形態では、タンパク質の機能には、タンパク質の親水性、又はタンパク質の剛性の少なくとも一方が含まれる。
 タンパク質の中には、構造の一部に局所的な親水性を有するものが存在する。また、局所的な剛性(折れ曲がりにくさ)を有するものが存在する。
 例えばこのような親水性や剛性を表す機能ラベルが、タンパク質の機能に含まれる。
 機能ラベルは、例えば親水性や剛性を有する三次元座標の範囲、及び親水性や剛性の高さを表す数値となる。
 逆に、疎水性や非剛性を有する三次元座標の範囲等を表す数値が、機能ラベルに含まれてもよい。
 また、タンパク質が局所的にY字型の構造を有する場合に、Y字の腕の部分でウイルスを捉える機能が発現する、といったこともある。このような免疫機能を表す機能ラベルが、タンパク質の機能に含まれてもよい。
 その他、タンパク質の機能が具体的にどのような情報であるかは限定されず、タンパク質の機能に関する任意の情報が含まれてよい。
 なおタンパク質情報5の内容は、タンパク質の構造又はタンパク質の機能に限定されない。例えばタンパク質に関する画像等、タンパク質に関する任意の情報がタンパク質情報DB2に記憶されてよい。
 また本実施形態では、タンパク質情報5として、タンパク質情報5の雛形であるテンプレート情報がタンパク質情報DB2に記憶される。
 テンプレート情報は、ユーザの編集のために用意された、初期値となるタンパク質情報5である。
 例えばユーザは、複数のテンプレート情報から、自分が作成したいタンパク質情報5に近い形のテンプレート情報を選択する。これにより、情報が何も与えられていない状態から編集する場合に比べて、編集に係る労力や時間を少なくすることが可能となる。
 例えば、配列生成システム1の管理者によって予めテンプレート情報が作成され、タンパク質情報DB2に記憶される。
 あるいは、国際タンパク質構造データバンク(wwPDB)のデータベースにて公開されているタンパク質のデータが、テンプレート情報として用いられてもよい。この場合、例えばPDB形式、PDBML形式、又はmmCIF形式といったデータ形式により、テンプレート情報が作成される。
 その他、テンプレート情報の具体的な内容は限定されない。
 配列情報DB3には、配列情報6として、例えばアミノ酸残基の配列を表現したアルファベットの文字列が記憶される。
 もちろん配列情報6の具体的な内容は限定されない。例えばアミノ酸配列が構造式や示性式等で表された情報等、アミノ酸配列に関する任意の情報が配列情報DB3に記憶されてよい。
 情報処理装置4は、コントローラ20、表示部21、操作部22、通信部23、及び記憶部24を有する。
 コントローラ20、表示部21、操作部22、通信部23、及び記憶部24は、バス25を介して相互に接続されている。バス25に代えて、通信ネットワークや規格化されていない独自の通信方式等を用いて、各ブロックが接続されてもよい。
 表示部21は、例えば液晶、EL(Electro-Luminescence)等を用いた表示デバイスで
あり、種々の画像や種々のGUI(Graphical User Interface)等が表示される。
 操作部22は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。操作部22がタッチパネルを含む場合、そのタッチパネルは表示部21と一体となり得る。
 本実施形態では、ユーザによる操作部22を介した入力操作に応じて、入力情報が生成される。
 通信部23は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するためのモジュールである。
 例えば配列生成システム1がクラウド環境18を含む場合に、通信部23によりネットワーク14との通信が実行される。
 記憶部24は、不揮発性メモリ等の記憶デバイスであり、例えばHDDやSSD等が用いられる。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
 記憶部24には、情報処理装置4の全体の動作を制御するための制御プログラムが記憶される。制御プログラムを情報処理装置4にインストールする方法は限定されない。
例えば、種々の記録媒体を介してインストールが実行されてもよいし、インターネット等を介してプログラムのインストールが実行されてもよい。
 また、記憶部24に立体構造19や配列情報6が記憶されてもよい。
 コントローラ20は、例えばCPU、GPU、DSP等のプロセッサ、ROMやRAM等のメモリ、HDD等の記憶デバイス等、コンピュータの構成に必要なハードウェアを有する。例えばCPUがROM等に予め記録されている本技術に係るプログラムをRAMにロードして実行することにより、本技術に係る情報処理方法が実行される。
 コントローラ20として、例えばFPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、その他ASIC(Application Specific Integrated Circuit)等のデバイスが用いられてもよい。
 本実施形態では、コントローラ20のCPUが本技術に係るプログラム(例えばアプリケーションプログラム)を実行することで、機能ブロックとして、取得部7、入力部8、立体構造生成部26、配列予測部27、表示制御部28、出力部29が実現される。
 そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
 取得部7は、タンパク質情報5を取得する。
 本実施形態では取得部7により、タンパク質情報DB2から、テンプレート情報である立体構造19が取得される。
 また取得部7により、表示制御部28に対して立体構造19が出力される。
 入力部8は、入力情報を取得する。
 入力情報とは、取得部7により取得された立体構造19に対する、ユーザの入力操作に応じた情報である。
 例えば、ユーザは表示部21に表示された立体構造19に関する画像を確認しながら、画面上で編集作業を行うことが可能である。具体的には、例えば操作部22に含まれるマウスを用いて原子の画像をドラッグ操作することで原子の配置を変更する等、様々な編集作業が可能である。
 この場合には、「ドラッグ操作」が、入力操作に該当する。そして、例えば「原子の新たな座標」が、入力情報に該当する。入力情報である「原子の新たな座標」は、例えば入力操作である「ドラッグ操作」の軌跡に応じて決まる。
 入力情報の具体的な内容は限定されず、入力操作に応じた任意の情報が含まれる。
 立体構造生成部26は、立体構造19に対して入力情報が反映された反映立体構造を生成する。
 例えば取得部7により取得された立体構造19に、「原子Aの座標はX=10、Y=20、Z=30」という三次元座標が含まれており、入力情報が「原子Aの新たな座標はX=20、Y=10、Z=40」という情報であったとする。この場合には、反映立体構造は、「原子Aの座標はX=20、Y=10、Z=40」という三次元座標を含んだ情報となる。
 なお、もちろん立体構造19及び反映立体構造には、複数の原子の座標や種類、分子、結合及び官能基の座標や種類、あるいは機能ラベル等の情報も含まれうる。
 また、立体構造生成部26により、配列予測部27及び表示制御部28に対して反映立体構造が出力される。
 反映立体構造は、本技術に係る反映タンパク質情報の一実施形態に相当する。
 配列予測部27は、反映立体構造に対応する配列情報6を予測する。
 本実施形態では、機械学習アルゴリズムを用いた方法により配列情報6が予測される。
 なお、配列予測部27による配列情報6の予測は、配列情報6の生成に含まれる。
 配列予測部27により予測された配列情報6は、表示制御部28及び出力部29に出力される。
 表示制御部28は、取得部7により取得された立体構造19に対応する画像の表示を制御する。また、立体構造生成部26により生成された反映立体構造に対応する画像、及び配列予測部27により予測された配列情報6に対応する画像の表示を制御する。
 出力部29は、配列予測部27により予測された配列情報6を、ファイルとして出力する。
 具体的には、出力部29により、配列情報DB3に対して配列情報6が出力される。あるいは、記憶部24や、所定の記憶媒体に対して配列情報6が出力されてもよい。
 また、通信部23を介して、クラウド環境18に含まれる記憶媒体に対して配列情報6が出力されてもよい。
 その他、出力部29による配列情報6の具体的な出力先は限定されない。
 配列情報6のファイル形式としては、例えばテキストファイル、FASTAファイル、csvファイル等の形式が用いられる。
 これに限らず、例えば画像形式等、任意の形式が採用されてよい。
 本実施形態において、立体構造生成部26、配列予測部27、及び出力部29により、本技術に係る生成部の一実施形態が実現される。
 図5を用いて説明したコントローラ20、表示部21、操作部22、通信部23、記憶部24の構成はあくまで一例であり、具体的な構成は限定されない。
 図6は、配列情報6の予測に関する処理例を示すフローチャートである。
 図7は、表示部21による表示内容の一例を示す模式図である。
 図8は、配列予測部27に含まれる機械学習モデルの一例を示す模式図である。
 まず、取得部7により、立体構造19が取得される(ステップ201)。
 [立体構造画像の表示]
 表示部21に立体構造画像が表示される(ステップ202)。
 本実施形態では、表示制御部28により、取得部7により取得された立体構造19に対応する立体構造画像の表示が制御される。
 具体的には、まず表示制御部28により、取得部7から立体構造19が取得される。さらに、立体構造19に対応する立体構造画像が生成され、表示部21に対する立体構造画像の表示が制御される。
 図7Aには、表示部21に立体構造画像32が表示された状態が模式的に図示されている。
 本実施形態では、表示制御部28により、立体構造画像32が、点群画像、ポリゴン画像、メッシュ画像、サーフェス画像、スライス画像、又は三面図の少なくとも1つの表示形式により表示されるように、表示が制御される。
 点群画像とは、データが点の集合により表された画像である。例えばタンパク質に含まれる各々の原子が点で表され、点群画像として表示される。
 具体的には、立体構造19に含まれる原子の三次元座標に基づいて、点群画像における点の位置が算出され、点群画像が生成される。
 もちろん、点群画像を始めとした立体構造画像の具体的な生成方法は限定されない。
 原子に限らず、分子、官能基、機能ラベル、あるいはタンパク質の主鎖や側鎖等が点で表され、点群画像として表示されてもよい。
 あるいは、原子や機能ラベルの種類に応じて、異なる色で点が表示されてもよい。
 その他、点群画像による具体的な表示の内容は限定されない。
 なお、点群はポイントクラウド(Point Cloud)と呼称されることもある。
 ポリゴン画像とは、データが多角形により表現された画像である。例えばタンパク質の局所的な形状が、三角形や四角形で表現される。
 メッシュ画像とは、データが複数の多角形により表現された画像である。例えばタンパク質の形状が、三角形や四角形を繋ぎ合わせた形状で表現される。メッシュ画像は、ポリゴン画像の集まりとも言える。
 サーフェス画像とは、データが滑らかな曲面により表現された画像である。例えばタンパク質の形状が、滑らかな曲面で表現される。
 スライス画像とは、タンパク質の断面が表現された画像である。例えば点群画像の所定の位置における断面図が、スライス画像として表示される。あるいは、ポリゴン画像、メッシュ画像、又はサーフェス画像の断面図が表示されてもよい。
 三面図とは、タンパク質を三方向から見た場合の形状が表現された画像である。例えば、タンパク質の所定の面を正面として、正面図、上面図、下面図、右側面図、左側面図、背面図等、任意の方向から見た図が三面図に含まれてよい。
 これらの表示形式で立体構造画像32が表示されることにより、ユーザはタンパク質の構造等を直感的に把握することが可能となる。
 また、スライス画像により、ユーザはタンパク質の内部構造(外側から見えない構造)を、容易に把握することが可能となる。
 なお、表示形式、スライス画像における断面の位置、及び三面図における方向等は、例えばユーザが設定ボタン等を介して適宜変更することが可能である。
 その他、立体構造画像32の具体的な表示形式は限定されない。
 立体構造画像32は、本技術に係るタンパク質画像の一実施形態に相当する。
 [入力操作]
 入力部8により、入力情報が取得される(ステップ203)。
 本実施形態では、入力情報は、立体構造画像32に対する入力操作に応じた情報を含む。
 すなわちユーザは、表示部21に表示された立体構造画像32を確認しながら、立体構造画像32に対して入力操作を行うことが可能となる。このようにして、立体構造19の編集が実現される。
 例えば「原子の配置の変更」という編集が行われる場合に、入力操作として、「立体構造画像32内の原子を表す点に対するドラッグ操作」が実行される。
 当該操作は、立体構造画像32に対する入力操作となる。
 また本実施形態では、入力操作に、タンパク質の構造の編集操作、又はタンパク質の機能の編集操作の少なくとも一方が含まれる。
 例えば「原子の配置の変更」はタンパク質の構造の編集であり、それに対応する「立体構造画像32内の原子を表す点に対するドラッグ操作」は、タンパク質の構造の編集操作である。
 タンパク質の構造の編集、及びタンパク質の構造の編集操作のその他のバリエーションについて説明する。
 例えば原子の配置の変更のみならず、原子の新たな配置、削除、選択、種類(α炭素、β炭素、酸素、窒素等)の変更といった編集も可能である。
 これらの編集は、立体構造画像32内の原子を表す点に対する、クリック操作やドラッグ操作等により実現される。
 この場合入力情報としては、「原子Aを削除」「原子Aの新たな種類は炭素」等の情報が、入力部8により取得される。
 あるいは、分子、官能基、タンパク質の主鎖や側鎖について、同様の編集が可能であってもよい。この場合、分子等の変形といった編集が可能であってもよい。
 また、所望の領域に対して、まとめて原子等を配置することが可能であってもよい。
 すなわち、1点に対してピンポイントに原子等を配置する方法のみならず、例えばドラッグ操作により所望の領域を指定し、その領域全てに原子等をまとめて配置する方法がとられてもよい。
 同様に、領域内の全ての原子等をまとめて選択、移動、削除等することが可能であってもよい。
 また、原子同士の結合関係が編集可能であってもよい。
 例えば2つの原子をクリック操作により指定し、右クリックにより結合の種類の選択画面を表示させる。そして、チェックボックス等により、所望の種類(水素結合等)を選択する。
 また、ユーザによりタンパク質の骨格(大まかな形状)のみが指定され、指定された骨格に従って、詳細な原子等の配置が自動的に決定されてもよい。
 タンパク質の機能の編集、及びタンパク質の機能の編集操作のその他のバリエーションについて説明する。
 例えば「親水」「疎水」「剛体」「非剛体」といった機能を表す機能ラベルを、局所的に付与することが可能である。
 例えばユーザは、所望の領域をドラッグ操作により選択した後、チェックボックス等により、付与させたい機能ラベルを選択する。
 この場合、例えば入力情報は「機能ラベルAの新たな機能は親水、座標の範囲はX=10~20、Y=10~30、Z=20~40」といった情報となる。
 機能ラベルが付与された場合、例えば付与された機能ラベルに基づいて、原子等の配置が自動的に決定される。
 例えば、ある領域に「親水」の機能ラベルが付与された場合には、その領域でタンパク質が「親水」の機能を持つように、領域内の原子等の配置が自動的に決定される。
 これにより、ユーザがタンパク質に所望の機能を持たせたいものの、どのように原子等を配置すればよいかが分からない場合であっても、機能を付与することが可能となる。
 なお、取得部7により取得されるテンプレート情報は、原子等の位置のみが決められており、種類は決められていない情報であってもよい。この場合には、例えばユーザが自ら原子等の種類を編集により指定する。
 もちろん、国際タンパク質構造データバンクのデータ等、原子等の位置及び構造の各々が決まっているテンプレート情報が、取得部7により取得されてもよい。
 その他、タンパク質の構造の編集、タンパク質の機能の編集、入力操作、及び入力情報等の具体的な内容は限定されない。
 また、編集操作を実現するために、種々のウィンドウ、ボタン、チェックボックス、タブ、入力欄等の任意のGUI(Graphical User Interface)が配置されてよい。
 なお入力操作は、画像に対する入力操作に限定されない。
 例えば文字の入力や音声認識等、画像に対する入力操作以外の入力操作により、編集が可能であってもよい。
 立体構造生成部26により、反映立体構造が生成される(ステップ204)。
 具体的には、立体構造生成部26により、取得部7から立体構造19が取得され、入力部8から入力情報が取得される。さらに、取得された立体構造19及び入力情報に基づいて、反映立体構造が生成される。
 例えば立体構造19に含まれる原子Aの種類が酸素であって、入力情報が「原子Aの新たな種類は炭素」である場合には、反映立体構造は、立体構造19の原子Aを酸素から炭素に置き換えた情報となる。
 このように、立体構造19に入力情報が反映されることで、反映立体構造が生成される。
 表示部21に反映立体構造画像が表示される(ステップ205)。
 本実施形態では、表示制御部28により、立体構造生成部26により生成された反映立体構造に対応する反映立体構造画像の表示が制御される。
 具体的には、まず表示制御部28により、立体構造生成部26から反映立体構造が取得される。さらに、反映立体構造に対応する反映立体構造画像が生成され、表示部21に対する反映立体構造画像の表示が制御される。
 反映立体構造画像33は、立体構造画像32と同様に、反映立体構造に含まれる原子等の三次元座標に基づいて生成される。
 例えば、図7Aを、反映立体構造画像33の表示例として見做すことも可能である。
 例えば、反映立体構造画像33が新たに表示される場合には、ステップ202で元々表示されていた立体構造画像32は削除される。反映立体構造画像33の表示形式は、元々表示されていた立体構造画像32の表示形式と同じでもよいし、異なっていてもよい。
 あるいは、立体構造画像32が削除されることなく、立体構造画像32及び反映立体構造画像33の各々が、同じ表示形式で重畳される形で表示されてもよい。これにより、ユーザは自分の編集内容がどのように反映されたかを、容易に把握することが可能となる。
 反映立体構造画像33は、本技術に係る反映タンパク質画像の一実施形態に相当する。
 操作部22に対する入力があるか否かが判定される(ステップ206)。
 本実施形態では、ユーザは、反映立体構造に対して更なる編集を行うことが可能である。この場合、例えば、反映立体構造画像33に対してクリック操作等を行う。
 編集に伴う入力操作があった場合に、判定が肯定となる。判定は、例えば入力部8により、入力操作の取得の有無に基づいて実行される。
 操作部22に対する入力があった場合には(ステップ206のYes)、入力部8により再び入力情報が取得される(ステップ203)。
 入力情報には、反映立体構造画像33に対する入力操作に応じた情報が含まれる。
 そして、立体構造生成部26により、反映立体構造及び入力情報に基づいて、新たな反映立体構造が生成される(ステップ204)。
 また、表示部21に新たな反映立体構造画像33が表示される(ステップ205)。
 操作部22に対する入力がなかった場合には(ステップ206のNo)、配列予測部27により、配列情報6が予測される(ステップ207)。
 例えば入力が一定時間なかった場合に、入力がなかったと判定される。あるいは、入力終了ボタンや配列予測ボタン等のボタンが押された場合に、ステップ207の配列予測処理が開始されてもよい。
 [配列情報の予測]
 本実施形態では、配列予測部27により、反映立体構造に対応する配列情報6が予測される。
 具体的には、まず配列予測部27により、立体構造生成部26から反映立体構造が取得される。そして、取得された反映立体構造に基づいて、配列情報6が予測される。
 また本実施形態では、配列予測部27により、反映立体構造を入力として機械学習が実行されることで、配列情報6が予測される。
 図8Aは、反映立体構造を入力とする学習モデルを用いた、配列情報6の予測例を示す模式図である。
 図8Aに示すように、配列情報6を推定するための機械学習を行った学習済みの機械学習モデル37に、反映立体構造36が入力される。そして、機械学習モデル37により配列情報6が予測される。
 これにより、高い精度で配列情報6を予測することが可能となる。
 図8Bは、教師データを用いた機械学習モデル37の学習を説明するための模式図である。
 本実施形態では、立体構造19が学習用データとして用いられる。この学習用データに配列情報6(教師ラベル38)が関連付けられたデータが、教師データとして用いられる。
 従って、機械学習モデル37は、立体構造19と、配列情報6とを教師データとして機械学習された予測モデルとなる。
 図8Bに示すように、学習部39により、教師データが用いられ、機械学習アルゴリズムに基づいて学習が実行される。これにより、機械学習モデル37が生成される。
 本実施形態では、学習用データ(立体構造19)に基づいて、まずグラフィカルモデルや距離マップが生成される。グラフィカルモデルや距離マップの生成は、例えば配列予測部27により実行される。
 そして、グラフィカルモデル又は距離マップと、配列情報6(教師ラベル38)とが学習部39に入力されて学習が実行される。従って、立体構造19から生成されるグラフィカルモデル又は距離マップと、配列情報6(教師ラベル38)との組を、教師データとしているともいえる。
 グラフィカルモデルとは、確率の依存関係を表すグラフである。具体的には、グラフィカルモデルは、複数のノードと複数のエッジにより構成される。ノード同士はエッジにより結ばれ、模式的にはノードは丸、エッジはノード同士を結ぶ線で表現されることが多い。
 例えば2つのノードに関連する何らかの確率の大きさに応じて、2つノードを結ぶエッジの長さが決定される。確率が相対的に大きい場合にはエッジの距離は相対的に短くなり、確率が相対的に小さい場合にはエッジの距離は相対的に長くなる。
 本実施形態では、原子をノード、原子同士が結合している確率をエッジと見立てて、グラフィカルモデルが作成される。
 例えば原子Aと原子Bが結合している確率が高い場合には、原子Aを表すノード及び原子Bを表すノードが、短いエッジで結ばれる。
 一方で、結合している確率が低い場合には、ノード同士が長いエッジで結ばれる。
 なお、原子同士が結合している確率は、原子同士の距離に依存することが知られている。
 例えば原子同士の距離が短い場合には、原子同士が結合している確率が高い。一方で、距離が長い場合には、結合している確率が低い。
 すなわち、原子同士の距離をエッジと見立てて、グラフィカルモデルが作成されてもよい。
 この場合、原子同士の距離が長い場合には、ノード同士が長いエッジで結ばれる。このことは、原子同士が結合している確率が低いことも意味している。
 逆に、原子同士の距離が短い場合には、ノード同士が短いエッジで結ばれる。このことは、原子同士が結合している確率が高いことも意味している。
 また、距離が所定の閾値(例えば10オングストローム等)よりも短い場合のみ、それらの原子同士がエッジにより結ばれてもよい。このような、距離が閾値より短い(接触しているとみなされる)原子対は、コンタクト原子対と呼称されることもある。
 また、機能ラベルがノードやエッジに埋め込まれてもよい。すなわち、機能ラベルに基づいて、ノード特徴量やエッジ特徴量が生成されてもよい。
 その他、グラフィカルモデルの具体的な生成方法は限定されない。
 距離マップは、原子同士の距離を示すマップである。例えば距離マップとして、二次元の正方形のマップが用いられる。
 例えばタンパク質を構成する各々の原子に番号が割り当てられる。そして、例えば「30番」の原子と、「50番」の原子との距離が、距離マップの「X=30、Y=50」の位置におけるモノクロ色の明度で表現される。
 例えば原子同士の距離が短い場合には、対応する位置の色は白色に近い色となる。逆に、距離が長い場合には、黒色に近い色となる。
 その他、カラー色の明度、彩度、及び色相等により距離が表現されてもよい。
 また、距離マップとしてコンタクトマップが生成されてもよい。
 コンタクトマップは、距離マップと同様の二次元の正方形のマップであり、距離マップに含まれる。
 コンタクトマップにおいては、原子同士の距離が所定の閾値よりも短い場合に、対応する位置の色が白色となる。逆に、距離が閾値よりも長い場合には、黒色となる。
 このようにコンタクトマップは、原子同士の距離が「0又は1」で表現されたマップとなる。
 生成されたグラフィカルモデルや距離マップに基づいて、学習が実行される。
 学習においては、例えばワンホットエンコーディングにより表された配列情報6が、教師ラベル38として用いられる。
 ワンホットエンコーディングとは、ダミー変数(0)を含むデータの表示形式である。
 具体的には1つのアミノ酸残基が、20桁のワンホットエンコーディングにより表現される。例えば16番目のアミノ酸である「セリン(S)」は、16番目のみが1であり、その他は0である「00000000000000010000」という数値列で表現される。
 同様に、例えば5つのアミノ酸からなるアミノ酸配列がワンホットエンコーディングにより表現される場合には、100桁の数値列となる。
 なお、上記ではアミノ酸を表記するアルファベット順に順番を定義し、「セリン(S)」を16番目としているが、もちろん順番の決め方は限定されない。
 グラフィカルモデルや距離マップ、配列情報6を用いた具体的な学習のアルゴリズムは限定されず、既知の手法等により学習が実行されてよい。
 なお、グラフィカルモデル、距離マップ、又はコンタクトマップ自体が立体構造19に含まれ、タンパク質情報DB2に記憶されてもよい。
 表示部21に配列情報画像が表示される(ステップ208)。
 本実施形態では、表示制御部28により、配列予測部27により予測された配列情報6に対応する配列情報画像の表示が制御される。
 具体的には、まず表示制御部28により、配列予測部27から配列情報6が取得される。さらに、配列情報6に対応する配列情報画像が生成され、表示部21に対する配列情報画像の表示が制御される。
 図7Bには、表示部21に配列情報画像40が表示された状態が模式的に図示されている。
 本例では、配列情報画像40として、アミノ酸配列を示すアルファベットの文字列が表示されている。
 これに限定されず、例えばアミノ酸配列の構造式や示性式等、配列情報6に対応する任意の画像が表示されてよい。
 出力部29により、配列情報6が出力される(ステップ208)。
 具体的には、まず出力部29により配列予測部27から配列情報6が取得される。さらに、配列情報DB3、記憶部24、その他の記憶媒体等に対して配列情報が出力される。
 これによりユーザは、予測された配列情報6を容易に管理することが可能となる。
 図6の処理における、配列情報画像40の表示(ステップ208)及び配列情報6の出力(ステップ209)の処理は、逆の順番で実行されてもよい。すなわち、配列情報6が出力された後に、配列情報画像40の表示が実行されてもよい。
 その他、配列情報6の予測に係る具体的な処理の内容は限定されない。
 以上、本実施形態に係る配列生成システム1では、立体構造19が取得され、立体構造19に対するユーザの入力操作に応じた入力情報が入力される。また、立体構造19と入力情報とに基づいて、アミノ酸配列に関する配列情報6が生成される。これにより、所望のタンパク質を効率よく生成することが可能となる。
 タンパク質は、数十から数百のアミノ酸がペプチド結合することにより形成され、細胞内で固有の3次元構造に折りたたまれ、機能を持つ。
 例えばある種の抗体タンパク質は、ウイルスや抗原をキャッチする構造を形成することで、免疫として作用する。
 タンパク質の構造はタンパク質の機能に直結するため、タンパク質の構造を理解することは非常に重要な研究課題である。
 しかしながら従来は、1次元のアミノ酸配列と3次元のタンパク質の構造との間の関係が十分に理解されていなかった。
 そのため、有機化合物の合成において、所望の構造や機能を有するタンパク質を生成するために、微生物培養と実験的解析のトライアンドエラーを繰り返す必要があり、膨大な時間や手間、コストがかかっていた。
 近年では、アミノ酸配列を入力とし、そこからニューラルネットワークにより立体構造の形状を予測する方法や装置が提案されている。
 これらの構造予測技術は近年大きく進化しており、例えばCovid-19の構造解析等にも利用され、急速なワクチン開発にも貢献している。
 また、グラフィカルモデルのエンコーダやデコーダを用いたタンパク質構造のモデリングも提案されてきている。
 一方で、所望の立体構造を得るにはどのようなアミノ酸配列を生成すればよいかという課題は依然として存在する。この課題に対して、立体構造を入力として、グラフニューラルネットワークを用いてアミノ酸配列を予測する手法も提案されてきている。
 このような、有機化合物合成の低スループット(効率)の問題を解決するための更なる手法が求められている。
 本技術に係る配列生成システムでは、ユーザに対してタンパク質デザインソフトウェアが提供される。ユーザはタンパク質情報を作成・編集することで、所望のタンパク質をインタラクティブにデザインすることが可能となる。
 これにより、有機化合物合成や創薬における培養・解析サイクルのスループットを大幅に高めることができる。
 また本実施形態では、立体構造19に対して入力情報が反映された反映立体構造36が生成され、反映立体構造36に対応する配列情報6が予測される。
 これにより、編集内容が高精度に反映され、精度よく配列情報6が予測される。
 また本実施形態では、タンパク質構造の編集や機能の編集が可能である。また、機能の編集として、タンパク質の親水性や剛性の編集が可能である。
 これにより、ユーザは高い自由度で編集を行うことが可能となる。また、得られるタンパク質の機能を想定しながら編集を行うことが可能となる。
 また、立体構造画像32や反映立体構造画像33が表示部21に表示される。
 これにより、ユーザは自分の編集操作がどのように反映されているかを確認しながら編集を行うことが可能となる。
 さらに、配列情報画像40が表示部21に表示される。
 これにより、ユーザは予測された配列情報がどのようなものであるかを容易に把握することが可能となる。
 また、立体構造画像32や反映立体構造画像33に対して、編集のための入力操作を行うことが可能である。
 これにより、ユーザは簡便かつ直感的な操作で編集を行うことが可能となる。
 <第2の実施形態>
 図9~図11を参照して、本技術に係る配列生成システム1について、さらに詳細な実施形態を、第2の実施形態として説明する。
 これ以降の説明では、上記の実施形態で説明した配列生成システム1における構成及び作用と同様な部分については、その説明を省略又は簡略化する。
 本実施形態では、配列予測部27により予測された配列情報6に基づいて、さらに立体構造19が予測される。
 図9は、配列生成システム1の構成例を示すブロック図である。
 本実施形態では、コントローラ20のCPUが本技術に係るプログラムを実行することで、機能ブロックとして、さらに、立体構造予測部43及び立体構造誤差算出部44が実現される。
 立体構造予測部43は、配列予測部27により予測された配列情報6に対応する立体構造19を、予測立体構造として予測する。
 具体的には、まず立体構造予測部43により、配列予測部27から配列情報6が取得される。さらに、取得された配列情報6に基づいて予測立体構造の予測が実行される。
 配列情報6により表されたアミノ酸配列により、あるタンパク質が生成される場合に、そのタンパク質に関する情報が予測立体構造として予測される。
 すなわち本実施形態では、立体構造19はあるタンパク質Aに関する情報であり、配列情報6はタンパク質Aの元となるアミノ酸配列に関する情報であり、予測立体構造は「タンパク質Aの元となるアミノ酸配列により生成されるタンパク質に関する情報」となる。
 すなわち、立体構造19及び予測立体構造は、基本的には類似する情報となる。
 一方で、配列情報6及び予測立体構造は予測処理により生成されるため、予測の過程で誤差が生じる場合もありうる。従って、立体構造19及び予測立体構造が完全には一致せず、誤差が現れる場合もありうる。
 立体構造予測部43により予測された予測立体構造は、表示制御部28及び立体構造誤差算出部44に出力される。
 立体構造予測部43は、本技術に係るタンパク質予測部の一実施形態に相当する。
 予測立体構造は、本技術に係る予測タンパク質情報の一実施形態に相当する。
 立体構造誤差算出部44は、反映立体構造36と、立体構造予測部43により予測された予測立体構造との差分を算出する。
 なお、差分は誤差と言うことも可能である。以降、反映立体構造36及び予測立体構造の情報の差を、差分と表記する場合、及び誤差と表記する場合があるが、各々の言葉の使い分けに特別な意味はない。
 立体構造誤差算出部44により算出された差分は、表示制御部28に出力される。
 立体構造生成部26、配列予測部27、出力部29、及び立体構造予測部43は、本技術に係る生成部の一実施形態に相当する。
 また本実施形態では、表示制御部28により、反映立体構造36と予測立体構造との差分に対応する差分画像の表示が制御される。
 具体的には、まず表示制御部28により、立体構造生成部26から反映立体構造36が取得され、立体構造予測部43から予測立体構造が取得される。さらに、取得された反映立体構造36及び予測立体構造に基づいて差分画像が生成され、表示部21に対する表示が制御される。
 図10及び図11は、差分画像の生成等に関する処理例を示すフローチャートである。
 図12は、差分画像の一例を示す模式図である。
 図10に示すステップ301~309では、図6に示すステップ201~209と同様の処理が実行される。
 立体構造予測部43により、予測立体構造が予測される(ステップ310)。
 本実施形態では、立体構造予測部43により、配列情報6を入力として機械学習が実行されることで、予測立体構造が予測される。
 これにより、高い精度で予測立体構造を予測することが可能となる。
 学習は、配列情報6(学習用データ)及び立体構造19(教師ラベル)が関連付けられた教師データが用いられ、実行される。
 学習のための具体的なアルゴリズムは限定されず、既知の手法等により学習が実行されてよい。
 立体構造誤差算出部44により、差分が算出される(ステップ311)。
 例えば立体構造誤差算出部44により、反映立体構造36及び予測立体構造に共通して含まれる原子の座標のズレが、差分として算出される。
 反映立体構造36における原子Aの座標が「X=20、Y=10、Z=40」、予測立体構造における原子Aの座標が「X=22、Y=13、Z=39」である場合には、算出される差分は「X=2、Y=3、Z=-1」という情報となる。
 あるいは、平均二乗偏差(RMSD、Root Mean Square Deviation)や平均絶対誤差(MAE、Mean Absolute Error)といった指標により、差分が算出されてもよい。
 また、同じ位置における原子等の種類の違いが、差分として算出されてもよい。
 例えば反映立体構造36のある位置における原子が炭素であり、予測立体構造の当該位置における原子が酸素である場合、算出される差分は「原子の種類が異なる」という情報となる。あるいは、「原子の種類は炭素と酸素」というように、各々の原子の種類を含んだ情報が算出されてもよい。
 その他、機能が付与された位置のズレ、機能の種類の違い、結合の位置や種類の違い等、反映立体構造36及び予測立体構造の情報の差を表す任意の情報が、差分として算出されてよい。
 表示制御部28により、差分画像が生成される(ステップ312)。
 本実施形態では、表示制御部28により、差分画像として、反映立体構造画像33と、予測立体構造に対応する予測立体構造画像とが互いに重畳された画像が生成される。
 具体的には、まず表示制御部28により、立体構造予測部43から予測立体構造が取得される。また、取得された予測立体構造に基づいて、予測立体構造画像が生成される。さらに、ステップ305で生成された反映立体構造画像33、及び予測立体構造画像に基づいて、これらが互いに重畳された差分画像が生成される。
 図12には、反映立体構造画像33が白色で図示されている。また、予測立体構造画像34が網掛け模様で図示されている。そして、これらの画像が重畳された画像が、差分画像35となる。
 予測立体構造画像34は、予測立体構造に基づいて、立体構造画像32の生成と同様の方法で生成される。
 予測立体構造画像34は、本技術に係る予測タンパク質画像の一実施形態に相当する。
 例えば反映立体構造36と予測立体構造とが一致している場合には、反映立体構造画像33及び予測立体構造画像34も同一の画像となる。この場合、差分画像35は同一の画像同士が重畳された画像となるため、1つの立体構造19を表すように見える画像となる。
 一方で、反映立体構造36及び予測立体構造に誤差が生じている場合には、差分画像35は2つの立体構造19がずれて表されたように見える画像となる。
 図12には、反映立体構造36及び予測立体構造に誤差が生じており、反映立体構造画像33及び予測立体構造画像34がずれている状態が、一例として示されている。
 また本実施形態では、表示制御部28により、差分画像35として、反映立体構造画像33と予測立体構造画像34とが互いに重畳され、反映立体構造36と予測立体構造との差分が強調表示された画像が生成される。
 具体的には、表示制御部28により、立体構造誤差算出部44から差分が取得される。さらに、反映立体構造画像33、予測立体構造画像34、及び差分に基づいて、2つの画像が互いに重畳され、差分が強調表示された差分画像35が生成される。
 例えば、差分が相対的に大きい位置が強調表示される。
 具体的には、ある位置における座標値の差が所定の閾値より大きい場合に、2つの画像が重畳された画像の、当該位置が異なる色で表示される。
 図12に示す例では、右下の原子において位置にズレが生じているため、当該部分が強調表示されている。
 また、座標値のみならず、原子等の種類、機能ラベルの位置や種類等の差分が相対的に大きい位置が強調表示されてもよい。
 逆に、差分が相対的に小さい位置が強調表示されてもよい。
 なお、強調表示の具体的な方法は限定されない。例えば点滅あるいはグラデーション等により強調表示がされてもよい。
 もちろん、差分画像35として強調表示を含まない画像が生成されてもよい。
 また、反映立体構造画像33及び予測立体構造画像34が互いに重畳された画像以外の、任意の差分画像35が生成されてよい。例えば2枚の画像を単に横に並べただけの画像が生成されてもよい。
 表示部21に差分画像35が表示される(ステップ313)。
 具体的には、表示制御部28により、表示部21に対する差分画像35の表示が制御される。
 これにより、ユーザは予測された配列情報6の妥当性について評価することが可能となる。
 また、ユーザは自分が編集により作成した反映立体構造36と、予測された予測立体構造との誤差を、直感的に把握することが可能となる。
 例えば差分画像35内のズレが大きい場所を確認し、誤差を修正するために、反映立体構造36の当該位置を編集する。このようにして、効率よく立体構造19の編集を行うことが可能となり、有機化合物合成のスループット改善を図ることができる。
 なお、画像のみならず、具体的な数値により差分が表示されることで、ユーザに対して誤差が提示されてもよい。
 その他、ユーザに対する誤差の具体的な提示の方法は限定されない。
 <第3の実施形態>
 図13~図15を参照して、本技術に係る配列生成システム1について、さらに詳細な実施形態を、第3の実施形態として説明する。
 本実施形態では、差分に基づいて、配列生成システム1側で反映立体構造36が自動的に修正される。
 図13は、配列生成システム1の構成例を示すブロック図である。
 本実施形態では、コントローラ20のCPUが本技術に係るプログラムを実行することで、機能ブロックとして、さらに修正部47が実現される。
 修正部47は、立体構造誤差算出部44により算出された差分に基づいて、修正情報を生成する。
 立体構造生成部26、配列予測部27、出力部29、立体構造予測部43、及び修正部47により、本技術に係る生成部の一実施形態が実現される。
 図14及び図15は、反映立体構造36の修正に関する処理例を示すフローチャートである。
 ステップ401~413では、図10及び図11に示すステップ301~313と同様の処理が実行される。
 反映立体構造36の修正が必要か否かが判定される(ステップ414)。
 例えば、差分(誤差)が所定の閾値よりも大きい場合に、修正が必要であると判定される。あるいは、ユーザにより修正ボタンが押された場合に、修正が必要であると判定されてもよい。
 判定は、例えば修正部47により実行される。
 修正が必要であると判定された場合(ステップ414のYes)、反映立体構造36の修正が実行される(ステップ415)。
 本実施形態では、修正部47及び立体構造生成部26により、反映立体構造36と、立体構造予測部43により予測された予測立体構造との差分に基づいて、反映立体構造36が修正される。
 具体的には、まず修正部47により、立体構造誤差算出部44から差分が取得される。そして、取得された差分に基づいて修正情報が生成される。
 例えば反映立体構造36の原子Aの座標が「X=20、Y=10、Z=40」、予測立体構造の原子Aの座標が「X=22、Y=13、Z=39」である場合には、差分は「X=2、Y=3、Z=-1」という情報となる。
 この場合修正部47により、修正情報として、「原子Aの座標値にX=+2、Y=+3、Z=-1を加算する」という情報が生成される。
 修正部47により生成された修正情報は、立体構造生成部26に出力される。
 立体構造生成部26は、修正部47から取得された修正情報に基づいて、反映立体構造36を修正した修正立体構造を生成する。
 例えば反映立体構造36の原子Aの座標「X=20、Y=10、Z=40」に、修正情報に基づいて、「X=+2、Y=+3、Z=-1」が加算される。その結果、原子Aの座標が「X=22、Y=13、Z=39」である修正立体構造が生成される。
 生成された修正立体構造は、予測立体構造と一致する情報となる。
 すなわち本例では、反映立体構造36をそのまま予測立体構造に修正する処理が実行される。
 もちろん修正の具体的な内容は限定されない。例えば反映立体構造36及び予測立体構造の「平均を取った構造」が、予測立体構造として生成されてもよい。この場合、例えば各々の原子の座標値が平均値として算出される。
 あるいは、原子の種類、分子等の位置や種類、結合の位置や種類、機能ラベルの位置や種類等、任意の情報が修正されてよい。
 また、反映立体構造36と予測立体構造とが一致する(誤差が生じていない)場合に、修正が実行されなくてもよい。
 立体構造生成部26により修正立体構造が生成された後、再び表示部21に反映立体構造画像33が表示される(ステップ405)。
 反映立体構造画像33は、修正立体構造に基づいて生成される。すなわち、修正が反映された反映立体構造画像33が表示される。
 ユーザは反映立体構造画像33に対する操作を行うことで、さらに修正立体構造の編集を行うことが可能である。
 修正が必要でないと判定された場合には(ステップ414のNo)、処理が終了する。
 本実施形態では、差分(誤差)に基づいて、反映立体構造36が配列生成システム1側で自動的に修正される。これにより、ユーザによる反映立体構造36の修正の手間が省かれ、効率よくタンパク質をデザインすることが可能となる。
 <その他の実施形態>
 本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
 第2の実施形態又は第3の実施形態において、立体構造予測部43により予測された予測立体構造、及び配列予測部27により予測された配列情報6を教師データとして、配列予測部27の学習が実行されてもよい。
 これにより、高精度に配列予測が予測可能となる。
 この場合、特に第3の実施形態においては、修正の処理が複数回繰り返し実行され、処理の度に配列情報6及び予測立体構造が予測される。これらが用いられ、処理の度に配列予測部27の学習が実行されてもよい。これにより、配列予測部27の予測精度をさらに向上させることが可能となる。
 図1に示すタンパク質情報DB2又は配列情報DB3の一部または全部の機能が、情報処理装置4に搭載されてもよい。あるいは、携帯可能な情報処理装置4が用いられ、タンパク質情報DB2又は配列情報DB3の一部または全部の機能が搭載されてもよい。
 配列生成システム1は、複数のコンピュータにより実現されてもよいし、1台のコンピュータにより実現されてもよい。
 図16は、情報処理装置4を実現可能なコンピュータ500のハードウェア構成例を示すブロック図である。
 コンピュータ500は、CPU501、ROM502、RAM503、入出力インタフェース505、及びこれらを互いに接続するバス504を備える。入出力インタフェース505には、表示部506、操作部507、記憶部508、通信部509、及びドライブ部510等が接続される。
 表示部506は、例えば液晶、EL等を用いた表示デバイスである。操作部507は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。操作部507がタッチパネルを含む場合、そのタッチパネルは表示部506と一体となり得る。
 記憶部508は、不揮発性の記憶デバイスであり、例えばHDD、フラッシュメモリ、その他の固体メモリである。ドライブ部510は、例えば光学記録媒体、磁気記録テープ等、リムーバブル記録媒体511を駆動することが可能なデバイスである。
 通信部509は、LAN、WAN等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部509は、有線及び無線のどちらを利用して通信するものであってもよい。通信部509は、コンピュータ500とは別体で使用される場合が多い。
 上記のようなハードウェア構成を有するコンピュータ500による情報処理は、記憶部508またはROM502等に記憶されたソフトウェアと、コンピュータ500のハードウェア資源との協働により実現される。具体的には、ROM502等に記憶された、ソフトウェアを構成するプログラムをRAM503にロードして実行することにより、本技術に係る情報処理方法が実現される。
 プログラムは、例えばリムーバブル記録媒体511を介してコンピュータ500にインストールされる。あるいは、グローバルネットワーク等を介してプログラムがコンピュータ500にインストールされてもよい。その他、コンピュータ500が読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
 ネットワーク等を介して通信可能に接続された複数のコンピュータが協働することで、本技術に係る情報処理方法が実行され、本技術に係る配列生成システム及び情報処理装置が構築されてもよい。
 すなわち本技術に係る情報処理方法は、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。
 なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
 コンピュータシステムによる本技術に係る情報処理方法の実行は、例えばタンパク質情報の取得、入力情報の入力、反映タンパク質情報の生成や修正、配列情報の予測や出力、予測タンパク質情報の予測、差分の算出、修正情報の生成、及びタンパク質画像等の表示等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
 すなわち本技術に係る情報処理方法は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
 各図面を参照して説明した配列生成システム、情報処理装置、表示部による表示の内容、各処理フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。
 本開示において、「略」という文言が使用される場合、これはあくまで説明の理解を容易とするための使用であり、「略」という文言の使用/不使用に特別な意味があるわけではない。
 すなわち、本開示において、「中心」「中央」「均一」「等しい」「同じ」「直交」「平行」「対称」「延在」「軸方向」「円柱形状」「円筒形状」「リング形状」「円環形状」「平均」等の、形状、サイズ、位置関係、状態等を規定する概念は、「実質的に中心」「実質的に中央」「実質的に均一」「実質的に等しい」「実質的に同じ」「実質的に直交」「実質的に平行」「実質的に対称」「実質的に延在」「実質的に軸方向」「実質的に円柱形状」「実質的に円筒形状」「実質的にリング形状」「実質的に円環形状」「実質的に平均」等を含む概念とする。
 例えば「完全に中心」「完全に中央」「完全に均一」「完全に等しい」「完全に同じ」「完全に直交」「完全に平行」「完全に対称」「完全に延在」「完全に軸方向」「完全に円柱形状」「完全に円筒形状」「完全にリング形状」「完全に円環形状」「完全に平均」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。
 従って、「略」の文言が付加されていない場合でも、いわゆる「略」を付加して表現される概念が含まれ得る。反対に、「略」を付加して表現された状態について、完全な状態が排除される訳ではない。
 本開示において、「Aより大きい」「Aより小さい」といった「より」を使った表現は、Aと同等である場合を含む概念と、Aと同等である場合を含まない概念の両方を包括的に含む表現である。例えば「Aより大きい」は、Aと同等は含まない場合に限定されず、「A以上」も含む。また「Aより小さい」は、「A未満」に限定されず、「A以下」も含む。
 本技術を実施する際には、上記で説明した効果が発揮されるように、「Aより大きい」及び「Aより小さい」に含まれる概念から、具体的な設定等を適宜採用すればよい。
 以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
 なお、本技術は以下のような構成も採ることができる。
(1)
 タンパク質に関するタンパク質情報を取得する取得部と、
 前記取得部により取得された前記タンパク質情報に対するユーザの入力操作に応じた入力情報が入力される入力部と、
 前記取得部により取得された前記タンパク質情報と、前記入力部に入力された前記入力情報とに基づいて、アミノ酸配列に関する配列情報を生成する生成部と
 を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
 前記生成部は、前記タンパク質情報に対して前記入力情報が反映された反映タンパク質情報を生成し、前記反映タンパク質情報に対応する前記配列情報を予測する
 情報処理装置。
(3)(2)に記載の情報処理装置であって、
 前記生成部は、前記反映タンパク質情報を入力として機械学習を実行することで、前記配列情報を予測する
 情報処理装置。
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
 前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含み、
 前記入力操作は、前記タンパク質の構造の編集操作、又は前記タンパク質の機能の編集操作の少なくとも一方を含む
 情報処理装置。
(5)(4)に記載の情報処理装置であって、
 前記タンパク質の機能は、前記タンパク質の親水性、又は前記タンパク質の剛性の少なくとも一方を含む
 情報処理装置。
(6)(1)から(5)のうちいずれか1つに記載の情報処理装置であって、さらに、
 前記生成部により生成された前記配列情報に対応する前記タンパク質情報を、予測タンパク質情報として予測するタンパク質予測部を具備する
 情報処理装置。
(7)(6)に記載の情報処理装置であって、
 前記タンパク質予測部は、前記配列情報を入力として機械学習を実行することで、前記予測タンパク質情報を予測する
 情報処理装置。
(8)(6)又は(7)に記載の情報処理装置であって、
 前記生成部は、前記反映タンパク質情報と、前記タンパク質予測部により予測された前記予測タンパク質情報との差分に基づいて、前記反映タンパク質情報を修正する
 情報処理装置。
(9)(2)又は(3)に記載の情報処理装置であって、さらに、
 前記取得部により取得された前記タンパク質情報に対応するタンパク質画像の表示を制御する表示制御部を具備する
 情報処理装置。
(10)(9)に記載の情報処理装置であって、
 前記入力情報は、前記タンパク質画像に対する前記入力操作に応じた情報を含む
 情報処理装置。
(11)(9)又は(10)に記載の情報処理装置であって、
 前記表示制御部は、前記生成部により生成された前記反映タンパク質情報に対応する反映タンパク質画像の表示を制御する
 情報処理装置。
(12)(11)に記載の情報処理装置であって、
 前記入力情報は、前記反映タンパク質画像に対する前記入力操作に応じた情報を含む
 情報処理装置。
(13)(9)から(12)のうちいずれか1つに記載の情報処理装置であって、
 前記表示制御部は、前記生成部により予測された前記配列情報に対応する配列情報画像の表示を制御する
 情報処理装置。
(14)(9)から(13)のうちいずれか1つに記載の情報処理装置であって、さらに、
 前記生成部により予測された前記配列情報に対応する前記タンパク質情報を、予測タンパク質情報として予測するタンパク質予測部を具備し、
 前記表示制御部は、前記反映タンパク質情報と前記予測タンパク質情報との差分に対応する差分画像の表示を制御する
 情報処理装置。
(15)(14)に記載の情報処理装置であって、
 前記差分画像は、前記反映タンパク質画像と、前記予測タンパク質情報に対応する予測タンパク質画像とが互いに重畳された画像を含む
 情報処理装置。
(16)(15)に記載の情報処理装置であって、
 前記差分画像は、前記反映タンパク質画像と前記予測タンパク質画像とが互いに重畳され、前記反映タンパク質情報と前記予測タンパク質情報との差分が強調表示された画像を含む
 情報処理装置。
(17)(9)から(16)のうちいずれか1つに記載の情報処理装置であって、さらに、
 前記生成部により生成された前記配列情報に対応する前記タンパク質情報を、予測タンパク質情報として予測するタンパク質予測部を具備し、
 前記表示制御部は、前記タンパク質画像、前記生成部により生成された前記反映タンパク質情報に対応する反映タンパク質画像、又は前記予測タンパク質情報に対応する予測タンパク質画像の少なくとも1つを、点群画像、ポリゴン画像、メッシュ画像、サーフェス画像、スライス画像、又は三面図の少なくとも1つの表示形式により表示するように、表示を制御する
 情報処理装置。
(18)(1)から(17)のうちいずれか1つに記載の情報処理装置であって、
 前記タンパク質情報は、前記タンパク質情報の雛形であるテンプレート情報を含む
 情報処理装置。
(19)
 タンパク質に関するタンパク質情報を取得し、
 取得された前記タンパク質情報に対するユーザの入力操作に応じた入力情報を入力し、
 取得された前記タンパク質情報と、入力された前記入力情報とに基づいて、アミノ酸配列に関する配列情報を生成する
 ことをコンピュータシステムが実行する情報処理方法。
(20)
 タンパク質に関するタンパク質情報を取得するステップと、
 取得された前記タンパク質情報に対するユーザの入力操作に応じた入力情報を入力するステップと、
 取得された前記タンパク質情報と、入力された前記入力情報とに基づいて、アミノ酸配列に関する配列情報を生成するステップと
 をコンピュータシステムに実行させるプログラム。
(21)(1)から(18)のうちいずれか1つに記載の情報処理装置であって、
 前記生成部は、前記配列情報をファイルとして出力する
 情報処理装置。
 1…配列生成システム
 4…情報処理装置
 5…タンパク質情報
 6…配列情報
 7…取得部
 8…入力部
 9…生成部
 12…第1の情報処理装置
 13…第2の情報処理装置
 19…立体構造
 26…立体構造生成部
 27…配列予測部
 28…表示制御部
 29…出力部
 32…立体構造画像
 33…反映立体構造画像
 34…予測立体構造画像
 35…差分画像
 36…反映立体構造
 37…機械学習モデル
 40…配列情報画像
 43…立体構造予測部
 44…立体構造誤差算出部
 47…修正部

Claims (20)

  1.  タンパク質に関するタンパク質情報を取得する取得部と、
     前記取得部により取得された前記タンパク質情報に対するユーザの入力操作に応じた入力情報が入力される入力部と、
     前記取得部により取得された前記タンパク質情報と、前記入力部に入力された前記入力情報とに基づいて、アミノ酸配列に関する配列情報を生成する生成部と
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記生成部は、前記タンパク質情報に対して前記入力情報が反映された反映タンパク質情報を生成し、前記反映タンパク質情報に対応する前記配列情報を予測する
     情報処理装置。
  3.  請求項2に記載の情報処理装置であって、
     前記生成部は、前記反映タンパク質情報を入力として機械学習を実行することで、前記配列情報を予測する
     情報処理装置。
  4.  請求項1に記載の情報処理装置であって、
     前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含み、
     前記入力操作は、前記タンパク質の構造の編集操作、又は前記タンパク質の機能の編集操作の少なくとも一方を含む
     情報処理装置。
  5.  請求項4に記載の情報処理装置であって、
     前記タンパク質の機能は、前記タンパク質の親水性、又は前記タンパク質の剛性の少なくとも一方を含む
     情報処理装置。
  6.  請求項1に記載の情報処理装置であって、さらに、
     前記生成部により生成された前記配列情報に対応する前記タンパク質情報を、予測タンパク質情報として予測するタンパク質予測部を具備する
     情報処理装置。
  7.  請求項6に記載の情報処理装置であって、
     前記タンパク質予測部は、前記配列情報を入力として機械学習を実行することで、前記予測タンパク質情報を予測する
     情報処理装置。
  8.  請求項6に記載の情報処理装置であって、
     前記生成部は、前記反映タンパク質情報と、前記タンパク質予測部により予測された前記予測タンパク質情報との差分に基づいて、前記反映タンパク質情報を修正する
     情報処理装置。
  9.  請求項2に記載の情報処理装置であって、さらに、
     前記取得部により取得された前記タンパク質情報に対応するタンパク質画像の表示を制御する表示制御部を具備する
     情報処理装置。
  10.  請求項9に記載の情報処理装置であって、
     前記入力情報は、前記タンパク質画像に対する前記入力操作に応じた情報を含む
     情報処理装置。
  11.  請求項9に記載の情報処理装置であって、
     前記表示制御部は、前記生成部により生成された前記反映タンパク質情報に対応する反映タンパク質画像の表示を制御する
     情報処理装置。
  12.  請求項11に記載の情報処理装置であって、
     前記入力情報は、前記反映タンパク質画像に対する前記入力操作に応じた情報を含む
     情報処理装置。
  13.  請求項9に記載の情報処理装置であって、
     前記表示制御部は、前記生成部により予測された前記配列情報に対応する配列情報画像の表示を制御する
     情報処理装置。
  14.  請求項9に記載の情報処理装置であって、さらに、
     前記生成部により予測された前記配列情報に対応する前記タンパク質情報を、予測タンパク質情報として予測するタンパク質予測部を具備し、
     前記表示制御部は、前記反映タンパク質情報と前記予測タンパク質情報との差分に対応する差分画像の表示を制御する
     情報処理装置。
  15.  請求項14に記載の情報処理装置であって、
     前記差分画像は、前記反映タンパク質画像と、前記予測タンパク質情報に対応する予測タンパク質画像とが互いに重畳された画像を含む
     情報処理装置。
  16.  請求項15に記載の情報処理装置であって、
     前記差分画像は、前記反映タンパク質画像と前記予測タンパク質画像とが互いに重畳され、前記反映タンパク質情報と前記予測タンパク質情報との差分が強調表示された画像を含む
     情報処理装置。
  17.  請求項9に記載の情報処理装置であって、さらに、
     前記生成部により生成された前記配列情報に対応する前記タンパク質情報を、予測タンパク質情報として予測するタンパク質予測部を具備し、
     前記表示制御部は、前記タンパク質画像、前記生成部により生成された前記反映タンパク質情報に対応する反映タンパク質画像、又は前記予測タンパク質情報に対応する予測タンパク質画像の少なくとも1つを、点群画像、ポリゴン画像、メッシュ画像、サーフェス画像、スライス画像、又は三面図の少なくとも1つの表示形式により表示するように、表示を制御する
     情報処理装置。
  18.  請求項1に記載の情報処理装置であって、
     前記タンパク質情報は、前記タンパク質情報の雛形であるテンプレート情報を含む
     情報処理装置。
  19.  タンパク質に関するタンパク質情報を取得し、
     取得された前記タンパク質情報に対するユーザの入力操作に応じた入力情報を入力し、
     取得された前記タンパク質情報と、入力された前記入力情報とに基づいて、アミノ酸配列に関する配列情報を生成する
     ことをコンピュータシステムが実行する情報処理方法。
  20.  タンパク質に関するタンパク質情報を取得するステップと、
     取得された前記タンパク質情報に対するユーザの入力操作に応じた入力情報を入力するステップと、
     取得された前記タンパク質情報と、入力された前記入力情報とに基づいて、アミノ酸配列に関する配列情報を生成するステップと
     をコンピュータシステムに実行させるプログラム。
PCT/JP2022/043877 2022-01-21 2022-11-29 情報処理装置、情報処理方法、及びプログラム WO2023139933A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022007704 2022-01-21
JP2022-007704 2022-01-21

Publications (1)

Publication Number Publication Date
WO2023139933A1 true WO2023139933A1 (ja) 2023-07-27

Family

ID=87348060

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/043877 WO2023139933A1 (ja) 2022-01-21 2022-11-29 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023139933A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07206894A (ja) * 1994-01-14 1995-08-08 Advanced Technol Insuteiteyuuto Kk 蛋白質の立体構造の予測精度演算方法及び予測精度演算装置
JP2002228656A (ja) * 2000-11-28 2002-08-14 Matsushita Electric Ind Co Ltd ポテンシャル尤度プロファイルの作成方法、タンパク質立体構造予測方法およびその装置、タンパク質のアミノ酸配列の設計方法およびその装置、プログラム並びに記憶媒体
WO2003060765A1 (fr) * 2002-01-09 2003-07-24 Hideaki Umeyama Methode de construction de la stereostructure d'une proteine a plusieurs chaines
JP2006236151A (ja) * 2005-02-25 2006-09-07 Dainippon Sumitomo Pharma Co Ltd 機能性生体分子設計方法
JP2021521503A (ja) * 2018-02-26 2021-08-26 ジャスト バイオセラピューティクス,インコーポレイテッド 配列に基づくタンパク質の構造と特性の決定
JP2022501696A (ja) * 2018-09-21 2022-01-06 ディープマインド テクノロジーズ リミテッド 品質スコアの勾配を使用した反復的なタンパク質構造予測

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07206894A (ja) * 1994-01-14 1995-08-08 Advanced Technol Insuteiteyuuto Kk 蛋白質の立体構造の予測精度演算方法及び予測精度演算装置
JP2002228656A (ja) * 2000-11-28 2002-08-14 Matsushita Electric Ind Co Ltd ポテンシャル尤度プロファイルの作成方法、タンパク質立体構造予測方法およびその装置、タンパク質のアミノ酸配列の設計方法およびその装置、プログラム並びに記憶媒体
WO2003060765A1 (fr) * 2002-01-09 2003-07-24 Hideaki Umeyama Methode de construction de la stereostructure d'une proteine a plusieurs chaines
JP2006236151A (ja) * 2005-02-25 2006-09-07 Dainippon Sumitomo Pharma Co Ltd 機能性生体分子設計方法
JP2021521503A (ja) * 2018-02-26 2021-08-26 ジャスト バイオセラピューティクス,インコーポレイテッド 配列に基づくタンパク質の構造と特性の決定
JP2022501696A (ja) * 2018-09-21 2022-01-06 ディープマインド テクノロジーズ リミテッド 品質スコアの勾配を使用した反復的なタンパク質構造予測

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISHII, TAKAHIRO ET AL.: "Development of an Interactive Biomolecular Graphics System LIVE", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, INFORMATION PROCESSING SOCIETY OF JAPAN, JP, vol. 32, no. 5, 15 May 1991 (1991-05-15), JP , pages 590 - 598, XP009547813, ISSN: 1882-7764 *

Similar Documents

Publication Publication Date Title
US20210110601A1 (en) Collaborative 3d modeling system
US7814427B2 (en) Object model tree diagram
Scheidegger et al. Querying and creating visualizations by analogy
WO2020055910A1 (en) Systems and methods for graph-based ai training
CN104102811B (zh) 创建人体工学人体模型的姿势以及使用自然用户界面控制计算机辅助设计环境
KR101798149B1 (ko) 데이터 테이블 중 일부 영역 선택을 통한 차트 시각화 방법
CN102141876A (zh) 链接和管理数学对象
US20130076756A1 (en) Data frame animation
Johnson et al. Artifact-based rendering: harnessing natural and traditional visual media for more expressive and engaging 3D visualizations
CN111402383B (zh) 应用于Houdini的Revit模型处理方法
CN107657150A (zh) 一种可视化生物信息分析工具生成方法和装置
Mann et al. Producing High‐Accuracy Lattice Models from Protein Atomic Coordinates Including Side Chains
Martin et al. A VR-CAD Data Model for Immersive Design: The cRea-VR Proof of Concept
US20140142900A1 (en) Information processing apparatus, information processing method, and program
WO2023139933A1 (ja) 情報処理装置、情報処理方法、及びプログラム
KR101910179B1 (ko) 데이터 시각화를 위한 웹 기반 차트 라이브러리 시스템
Autin et al. Mesoscope: A web-based tool for mesoscale data integration and curation
Twigg-Smith et al. Dynamic Toolchains: Software Infrastructure for Digital Fabrication Workflows
CN116452756A (zh) 三维场景局部自动化生成方法、装置、设备及存储介质
JP2009237759A (ja) 表示制御装置、表示制御方法、及び、表示制御プログラム
Yeh et al. Elfin UI: A Graphical Interface for Protein Design With Modular Building Blocks
US11132821B1 (en) Providing graphical user interface tools for efficiently selecting handles in vector artwork on touch-based devices
Filatovas et al. A visualization technique for accessing solution pool in interactive methods of multiobjective optimization
US11495328B2 (en) Arrowland: an online multiscale interactive tool for -omics data visualization
JP2017054467A (ja) 2次元または3次元の物体データを表示操作するシステム、方法及びコンピュータソフトウエアプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22922084

Country of ref document: EP

Kind code of ref document: A1