WO2020158609A1 - 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム - Google Patents

立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム Download PDF

Info

Publication number
WO2020158609A1
WO2020158609A1 PCT/JP2020/002543 JP2020002543W WO2020158609A1 WO 2020158609 A1 WO2020158609 A1 WO 2020158609A1 JP 2020002543 W JP2020002543 W JP 2020002543W WO 2020158609 A1 WO2020158609 A1 WO 2020158609A1
Authority
WO
WIPO (PCT)
Prior art keywords
dimensional structure
image
image set
discriminator
absence
Prior art date
Application number
PCT/JP2020/002543
Other languages
English (en)
French (fr)
Inventor
政和 関嶋
洸 依田
信明 安尾
Original Assignee
国立大学法人東京工業大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人東京工業大学 filed Critical 国立大学法人東京工業大学
Publication of WO2020158609A1 publication Critical patent/WO2020158609A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/15Medicinal preparations ; Physical properties thereof, e.g. dissolubility
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction

Definitions

  • the present invention relates to a three-dimensional structure determination device, a three-dimensional structure determination method, a three-dimensional structure discriminator learning device, a three-dimensional structure discriminator learning method, and a program.
  • Patent Document 1 discloses a docking scoring method that realizes more accurate screening than the conventional docking simulation.
  • Patent Document 1 after calculating the electronic state of the binding portion based on the three-dimensional structure of the protein, the chemical shift value is analyzed, the binding residue is determined from the chemical shift value, and the binding strength is compared. It is described that high-precision screening can be realized by doing so. However, considering that the number of ligands to be screened is enormous, the accuracy of Patent Document 1 and the conventional docking simulation is still insufficient.
  • the present invention has been made to solve the above problems, and a three-dimensional structure determination device, a three-dimensional structure determination method, and a three-dimensional structure determination method capable of significantly improving the determination accuracy of a three-dimensional structure such as protein/ligand binding.
  • An object is to provide a structure classifier learning device, a three-dimensional structure classifier learning method, and a program.
  • Image generating means for generating an image set including a plurality of images obtained by projecting a three-dimensional structure of a bond of the first substance and the second substance onto a two-dimensional plane from a plurality of viewpoints from the periphery of the three-dimensional structure.
  • a discriminator that discriminates whether or not there is a predetermined property of the combination related to the three-dimensional structure projected on the one image when one image included in the image set is input, A value obtained by inputting each of a plurality of images included in the image set to the discriminator is based on a value obtained by aggregating for all images included in the image set.
  • Comprehensive determination means for determining the presence or absence of the property of the bond related to the projected three-dimensional structure, Equipped with.
  • the determination accuracy of the three-dimensional structure such as protein/ligand binding can be significantly improved as compared with the conventional method.
  • FIG. 3 is a diagram showing a functional configuration of a determination device according to the first embodiment. It is a figure explaining the binding (docking) of a protein and a ligand.
  • FIG. 6 is a diagram illustrating a manner in which an image generation unit according to the first embodiment exhaustively generates images of docking structures of a protein and a ligand. It is a figure explaining the processing outline of a convolutional neural network (CNN).
  • CNN convolutional neural network
  • 6 is a flowchart of a learning process according to the first embodiment. 6 is a flowchart of an image generation process according to the first embodiment. 6 is a flowchart of a determination process according to the first embodiment. It is a figure explaining the processing outline of 3D average pooling.
  • FIG. 9 is a diagram illustrating a manner in which an image generation unit according to Modification 1 generates an image of a docking structure of a protein and a ligand. 8 is a flowchart of an image generation process according to modification
  • the discriminating device 100 uses a large amount of images of docking structures of protein/ligand binding of known activity to train the discriminator to train a learning model. get.
  • the determination device 100 inputs the image of the docking structure of the protein/ligand binding of which activity is unknown to the learned discriminator (learning model), so that the activity is unknown. The presence or absence of protein/ligand binding activity of is determined. Such a determination device 100 will be described below.
  • the determination device 100 includes a control unit 10, a storage unit 20, an output unit 31, a communication unit 32, and an operation input unit 33.
  • the control unit 10 is composed of a CPU (Central Processing Unit) and the like, and executes the programs stored in the storage unit 20 so that each unit (image generation unit 11, activity acquisition unit 12, discriminator 13, discriminator) described later is executed.
  • the functions of the learning unit 14 and the comprehensive determination unit 15) are realized.
  • the storage unit 20 is composed of a ROM (Read Only Memory), a RAM (Random Access Memory), etc., and stores programs executed by the CPU of the control unit 10 and necessary data. Further, the storage unit 20 may store an activity DB (Data base) in which the presence/absence of protein/ligand binding activity is recorded.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the output unit 31 is a device for outputting the determination result of protein/ligand binding.
  • the output unit 31 is a liquid crystal display or an organic EL (Electro-Luminescence) display.
  • the determination device 100 may include these displays as the output unit 31, or may include the output unit 31 as an interface for connecting an external display.
  • the determination device 100 displays the determination result and the like on an external display connected via the output unit 31.
  • the communication unit 32 is a device (network interface, etc.) for transmitting and receiving data to and from another external device (for example, a server that stores an activity DB in which the presence/absence of protein/ligand binding activity is recorded). is there.
  • the determination device 100 can acquire various data via the communication unit 32.
  • the operation input unit 33 is a device that receives a user's operation input to the determination device 100, and is, for example, a keyboard, a mouse, a touch panel, or the like.
  • the determination device 100 receives an instruction or the like from the user via the operation input unit 33.
  • control unit 10 realizes the functions of the image generation unit 11, the activity acquisition unit 12, the discriminator 13, the discriminator learning unit 14, and the comprehensive determination unit 15 by executing the programs stored in the storage unit 20.
  • the image generation unit 11 obtains a three-dimensional docking structure of the given protein and ligand by docking simulation, and obtains the docking structure from various angles around the docking structure. Generate an image projected on a two-dimensional plane from the viewpoint.
  • the image generator 11 comprehensively captures the docking structure 213 from the surrounding cameras 311 at various angles ( ⁇ , ⁇ ) at all angles (360°).
  • the image generation unit 11 does not shoot the image with the camera 311, but creates a 3D image from the docking structure and projects an image obtained by projecting the 3D image on a two-dimensional plane from various viewpoints. To generate.
  • Glide can be used as the software for obtaining the docking structure in the docking simulation.
  • PyMOL can be used, for example.
  • these softwares are merely examples, and any software can be used as long as it can generate an image obtained by projecting from the periphery of the docking structure onto the two-dimensional plane from various viewpoints.
  • the image generator 11 may generate an image in which hydrogen bonds are highlighted. Further, the image generation unit 11 may generate an image in which not only hydrogen bonds but also bonds and the like that are considered to play an important role in the properties of bonds determined by the determination apparatus 100 are highlighted.
  • the image generating unit 11 functions as an image generating unit.
  • the activity acquisition unit 12 refers to the activity DB in which the presence/absence of protein/ligand binding activity is recorded and refers to the presence/absence of activity of binding the given protein and ligand.
  • the activity acquisition unit 12 functions as a property acquisition unit.
  • the discriminator 13 is a discriminator based on a convolutional neural network (CNN) that outputs the presence/absence of its activity when an image of protein/ligand binding is given.
  • the control unit 10 functions as the discriminator 13 by the control unit 10 executing a program that realizes the discriminator based on CNN. As shown in FIG. 4, the discriminator 13 gradually performs convolution processing (scanning of the convolution filters 121 and 123) and pooling processing (scanning of the pooling windows 122 and 124) on the input image provided to the input layer 111.
  • the feature maps 112, 113, 114, 115, and 116 having a small size are calculated, and the two-dimensional vector indicating the determination result is finally obtained from the output layer 119 from the feature map 116 through the fully connected connection 125. Since the feature map 116 is a one-dimensional vector that directly affects the output (discrimination result) from the output layer 119, it is called a discrimination vector here.
  • the discriminator learning unit 14 trains the discriminator 13 by using a large amount of teacher data including images of protein/ligand binding and presence/absence of activity of the protein/ligand binding.
  • the presence/absence of the activity of the protein/ligand-binding sample recorded in the activity DB is usually significantly unbalanced, and the activity-free sample is significantly more active than the active one. For this reason, if learning is performed normally, there is a possibility that the discriminator 13 discriminates all "no activity" regardless of whether or not there is true activity. Therefore, the discriminator learning unit 14 trains the discriminator 13 by using a weighted error function that increases the penalty when discriminating active protein/ligand binding from inactive. As a result, the discriminator learning unit 14 can train the discriminator 13 without being affected by the imbalance of the presence or absence of the activity as much as possible.
  • the discriminator learning unit 14 functions as a learning unit.
  • the discriminator learning unit 14 backpropagates the error E calculated by the weighted cross entropy function using the weighting coefficient W pos as represented by the following equation (1).
  • the discriminator 13 is trained.
  • W pos (number of inactive samples)/(number of active samples)
  • n number of samples x (i) : output of the discriminator 13 when image data created by the i-th sample is input
  • y (i) presence/absence of true activity of the i-th sample
  • the overall determination unit 15 generates, in the image generation unit 11, an output obtained by inputting each of the plurality of images generated by the image generation unit 11 to the discriminator 13 for the protein/ligand binding whose activity is unknown. Whether or not the protein/ligand binding activity is present is determined based on the values aggregated for all the images.
  • the comprehensive determination unit 15 functions as a comprehensive determination unit.
  • the functional configuration of the determination device 100 has been described above. Next, the learning process performed by the determination device 100 will be described with reference to FIG. The learning process is started when the user instructs the determination device 100 to start the learning process via the operation input unit 33.
  • control unit 10 extracts an arbitrary number (a pair of a protein and a ligand) to be used as learning data from the proteins and ligands registered in the activity DB, and performs docking simulation for each to extract the extracted data.
  • a docking structure for protein/ligand binding is acquired in the number of protein/ligand pairs (step S101).
  • control unit 10 extracts data to be used as learning data from the docking structure of protein/ligand binding obtained in step S101 (step S102).
  • all the docking structures acquired in step S101 may be used as learning data, or some of them may be used as learning data and the rest may be used as evaluation data.
  • Step S103 is called an image generation step. Details of the process (image generation process) in step S103 will be described later.
  • Step S104 is called a property acquisition step.
  • the discriminator learning unit 14 generates teacher data including the image and the presence/absence of activity (step S105).
  • the teacher data may be generated by randomly rotating each image generated in step S103 by 0°, 90°, 180°, and 270°.
  • the discriminator learning unit 14 uses the teacher data generated in step S105 to train the discriminator 13 (step S106), and ends the learning process.
  • Step S106 is called a learning step.
  • the image generation process takes N ⁇ and N ⁇ as arguments. These mean that the shooting angle (the angle of the viewpoint when projecting onto a two-dimensional plane) is divided into N ⁇ in the ⁇ direction and N ⁇ in the ⁇ direction shown in FIG. , A total of N ⁇ ⁇ N ⁇ images are generated.
  • the image generation unit 11 initializes a variable i representing an index in the ⁇ direction to 0 (step S201). Then, the angle ⁇ is set to (360° ⁇ i)/N ⁇ (step S202).
  • the image generation unit 11 initializes the variable j representing the ⁇ -direction index to 0 (step S203). Then, the angle ⁇ is set to (360° ⁇ j)/N ⁇ (step S204).
  • the image generation unit 11 generates an image in which the 3D image of the docking structure is projected onto the two-dimensional plane from the viewpoint from the direction of ( ⁇ , ⁇ ) as shown in FIG. 3 (step S205). Then, the image generation unit 11 increments the variable j (step S206) and determines whether the variable j is less than N ⁇ (step S207).
  • step S207 If the variable j is less than N ⁇ (step S207; Yes), the process returns to step S204. If the variable j is N ⁇ or more (step S207; No), the image generation unit 11 increments the variable i (step S208) and determines whether the variable i is less than N ⁇ (step S209). ..
  • step S209 If the variable i is less than N ⁇ (step S209; Yes), the process returns to step S202. If the variable i is equal to or greater than N ⁇ (step S209; No), the image generation process ends.
  • the discriminator 13 is learned, and when an image of a protein/ligand binding whose activity is unknown is input to the discriminator 13, the protein/ligand binding Outputs the presence/absence of activity.
  • the determination device 100 comprehensively generates images from various viewpoints around the docking structure of protein/ligand binding from various viewpoints (360°), and the discriminator uses each of the entire-circumference comprehensive images. Train 13 Therefore, the CNN of the discriminator 13 after learning is a learning model in which the three-dimensional characteristics of the docking structure are extracted.
  • the determination process is started when the user instructs the determination device 100 to start the determination process via the operation input unit 33.
  • the user inputs the type of protein and the type of ligand to be determined to the determination device 100.
  • control unit 10 performs a docking simulation for a protein and a ligand input by the user, and acquires a docking structure for protein/ligand binding (step S301).
  • the image generation unit 11 creates a 3D image from the obtained docked structure in step S301, it from different angles (projected on a two-dimensional plane) entire circumference comprehensively captured N ⁇ ⁇ N ⁇
  • a set of determination images image set for determination
  • step S302 is also called an image generation step.
  • Step S303 is called a determination step.
  • the comprehensive determination unit 15 generates a comprehensive feature map 117 by using all the feature maps 115 obtained in step S303, and performs average pooling on the comprehensive feature map 117 (step S304). ..
  • This process is a process of performing normal (two-dimensional) average pooling also on the direction of N ⁇ ⁇ N ⁇ images that are comprehensively photographed (projected on a two-dimensional plane) around the entire circumference (one dimension is added). 3D average pooling processing).
  • the comprehensive determination unit 15 determines whether or not there is protein/ligand binding activity based on the output from the output layer 119 after the 3D average pooling process (step S305), and ends the determination process.
  • Step S305 is called a comprehensive determination step.
  • CNN discriminator 13
  • each of the feature maps 115 has a plurality of channels (2048 in FIG. 8)
  • each m-th channel of the n feature maps 115 is collected and averaged to be assigned to the m-th channel.
  • the feature map 117 is calculated.
  • the comprehensive feature map 117 thus obtained is subjected to the average pooling process to obtain the feature map 116. This is the 3D average pooling process.
  • the output of the output layer 119 is obtained from the feature map 116 via the all-connections 125.
  • the feature map 116 obtained by the 3D average pooling process is based on the comprehensive feature map 117, and is a one-dimensional vector that directly influences the output (discrimination result) from the output layer 119, so it is called a total discriminant vector.
  • the evaluation index “AUC” is a value of AUC (Area Under the receiver operator Curve) which is an area under an ROC (Receiver Operating Characteristic) curve.
  • EF1% is an index EF (Enrichment Factor) represented by the following equation (2). This represents how much the active ligand could be concentrated in the top 1%, and is an index that is emphasized in actual drug discovery.
  • EF na/(NA ⁇ 0.01) (2)
  • NA Number of active protein/ligand bindings of all experimental proteins
  • the image generation unit 11 photographs the docking structure 213 (projects it onto a two-dimensional plane) by looking at the ligand 212 in the surface-less portion of the protein 211 as shown in FIG. Then, an image is formed (projected on a two-dimensional plane) with the direction of the ligand 212 as a viewpoint from a point as shown by x and o in FIG.
  • the learning process and the determination process in the determination device 100 according to the modified example 1 are basically the same as the learning process (FIG. 5) and the determination process (FIG. 7) in the determination device 100 according to the first embodiment. Since the image generation process to be called is different, this process will be described with reference to FIG.
  • the image generation process of the first modification takes N as an argument.
  • N means that the angle of photographing (projecting onto a two-dimensional plane) is divided into N in the direction of ⁇ shown in FIG.
  • an image from the front, N images at an angle of ⁇ around the front, and N images at an angle of 2 ⁇ are generated, so that a total of (1+2 ⁇ N) images are generated.
  • An image is generated.
  • the image generation unit 11 generates an image obtained by projecting a 3D image of the docking structure onto a two-dimensional plane from the front side where the ligand 212 is not hidden by the surface of the protein 211 (step S221). Then, the image generation unit 11 initializes the variable i representing the index in the ⁇ direction to 0 (step S222). Then, the angle ⁇ is set to (360° ⁇ i)/N (step S223).
  • the image generation unit 11 generates an image in which a 3D image of the docking structure is projected on a two-dimensional plane from a viewpoint from the direction of ⁇ on the circumference deviated from the front by ⁇ , as indicated by x in FIG. Yes (step S224). Then, as shown by o in FIG. 9, the image generation unit 11 generates an image in which the 3D image of the docking structure is projected on the two-dimensional plane from the viewpoint from the direction of ⁇ on the circumference deviated from the front by 2 ⁇ . (Step S225).
  • the image generation unit 11 increments the variable i (step S226) and determines whether the variable i is less than N (step S227). If the variable i is less than N (step S227; Yes), the process returns to step S223. If the variable i is N or more (step S227; No), the image generation process ends.
  • the image in which the docking structure 213 including the ligand 212 is photographed is generated from the surface-less portion of the protein 211, the protein/ligand is obtained even from the image with the surface. It is possible to generate an image in which the three-dimensional structure of the bond can be grasped.
  • the determination device 100 performs both the learning process and the determination process in the first embodiment and the first modification described above, the determination device 100 is not limited to this.
  • the determination device 100 may be a discriminator learning device that does not perform the determination process but performs the learning process to learn the discriminator 13.
  • the determination device 100 may be a determination device that does not perform the learning process but performs the determination process by using the discriminator 13 learned by another determination device 100.
  • the learning process is difficult to implement unless it is a supercomputer, for example, it is necessary to create a large amount of learning image data and perform deep learning. However, if only the determination processing is performed, the determination can be performed by creating the determination image data by using the learned discriminator 13. Therefore, the determination processing may be performed by a computer such as a normal PC (Personal Computer). You can be performed by a computer such as a normal PC (Personal Computer). You can
  • step S303 the overall determination unit 15 inputs each of the determination images generated in step S302 to the discriminator 13, generates the output of the discriminator 13 for the number of determination images, and skips step S304. You may.
  • step S305 the comprehensive determination unit 15 determines the presence/absence of protein/ligand binding activity based on the average of the outputs of the discriminator 13 (existing for the number of determination images) acquired in step S303. Just make a decision.
  • the angle of the viewpoint when generating the image of the docking structure is changed at a constant angular interval, but the present invention is not limited to this.
  • the first embodiment when ⁇ is near 0° or 180° (the portion corresponding to the equator on the earth), the number of divisions in the ⁇ direction is increased, and ⁇ is 90° or 270° (on the earth, it is a pole).
  • the number of divisions in the ⁇ direction may be reduced in the vicinity of (the portion corresponding to).
  • the image input to the CNN of the discriminator 13 has been described as an input size of 224 ⁇ 224 pixels, and each pixel is a color image of RGB 3 channels, but this is an example.
  • the input size may be set to a larger value (for example, 448 ⁇ 448 pixels), or conversely, a smaller value (for example, 112 ⁇ 112 pixels).
  • the number of pixels in the vertical and horizontal directions does not have to be the same (for example, 1920 ⁇ 1080 pixels).
  • the image need not be a color image, but may be a monochrome image.
  • each pixel has one-channel information, so the convolution filter 121 shown in FIG. 4 is a one-channel filter (for example, 7 ⁇ 7 ⁇ 1ch).
  • the image generation unit 11 when the first embodiment and the modified example 1 are combined, the image generation unit 11 generates an image in which the docking structure 213 of the protein 211 and the ligand 212 is generated from a comprehensive viewpoint (360°) without a surface, and a surface. An image generated from the viewpoint from the side with and without the surface is generated. Then, the discriminator learning unit 14 trains the discriminator 13 using both the image without surface and the image with surface, and the comprehensive determination unit 15 determines using both the image without surface and the image with surface. .. By doing so, it becomes possible to perform the determination using both the feature with the surface and the feature without the surface.
  • the determination device 100 that determines the presence/absence of protein/ligand binding activity has been described as an example, but the determination device 100 determines the target of protein/ligand binding activity. It is not limited to the presence or absence.
  • the determination device 100 can also perform another determination according to the learning data by using the other learning data. For example, the determination device 100 uses the data regarding the presence or absence of binding activity between proteins and the data of docking structure of binding between proteins (generated by a molecular graphic tool such as PyMOL) as learning data. The presence or absence of protein/protein binding activity can be determined.
  • the device 100 can determine the presence/absence of activity of such an arbitrary biomolecule/substance bond.
  • the determination target of the determination device 100 is not limited to the presence/absence of the binding activity.
  • data about some property (predetermined property) regarding the bond between an arbitrary first substance and a second substance that binds to the first substance, and the bond between the first substance and the second substance If the docking structure data (created by a molecular graphic tool such as PyMOL) and the above can be prepared as learning data, the determination apparatus 100 determines that the nature of the bond related to such an arbitrary first substance and second substance. The presence or absence can be determined.
  • control unit 10 functions as the discriminator 13 by executing the program that realizes the discriminator 13 by CNN, but the present invention is not limited to this. I can't.
  • the determination device 100 may include a device that realizes the function of the discriminator 13 (for example, a GPU (Graphics Processing Unit) or a dedicated IC (Integrated Circuit)) separately from the control unit 10.
  • the discriminator 13 may be a discriminator using a neural network other than CNN (for example, RNN (Recurrent Neural Network)). If the 3D average pooling process is not performed in the determination process (FIG. 7), the discriminator 13 may be a discriminator other than a neural network, such as SVM (Support Vector Machine).
  • CNN Recurrent Neural Network
  • the determination processing of the determination device 100 can also be performed by a computer such as a normal PC. Further, in the future, it is considered that the learning process can be carried out not only by a super computer but also by a computer such as an ordinary PC.
  • the programs for the learning process and the determination process performed by the determination device 100 have been stored in the ROM of the storage unit 20 in advance.
  • the program can be a flexible disk, a CD-ROM (Compact Disc Read Only Memory), a DVD (Digital Versatile Disc), an MO (Magneto-Optical Disc), a memory card, a USB (Universal Serial) computer readable memory, or the like.
  • a computer capable of realizing the above-described functions may be configured by storing and distributing the program in a recording medium, reading the program into a computer, and installing the program.

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Biochemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Hematology (AREA)
  • Food Science & Technology (AREA)
  • Urology & Nephrology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Cell Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

判定装置(100)は、第1の物質と第2の物質の結合の立体構造を複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成部(11)と、画像セットに含まれる1枚の画像を入力すると1枚の画像に投影されている立体構造に係る結合の所定の性質の有無を判別する判別器(13)と、判別器(13)に画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を画像セットに含まれる全ての画像について集計した値に基づいて画像セットに含まれる画像に投影されている立体構造に係る結合の性質の有無を判定する総合判定部(15)と、を備える。

Description

立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム
 本発明は、立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラムに関する。
 創薬の初期段階においては、薬剤の標的となる蛋白質に結合する化合物、ペプチド、蛋白質、核酸等のリガンドを発見する必要がある。このようなリガンドを発見するスクリーニング手法の1つとして、蛋白質とリガンドのドッキングシミュレーションがある。そして、ドッキングシミュレーションの精度を向上させる技術の開発も進められている。例えば、特許文献1には、従来のドッキングシミュレーションよりも高精度なスクリーニングを実現するドッキングスコアリング方法が開示されている。
特開2005-181104号公報
 特許文献1には、蛋白質の立体構造を基に結合部分の電子状態の計算を行った後に、化学シフト値の解析を行い、化学シフト値から結合残基の決定および結合強さの比較を行うことにより高精度なスクリーニングを実現できることが記載されている。しかし、スクリーニングの対象となるリガンドの数が膨大であることを考えると、特許文献1や従来のドッキングシミュレーションの精度はまだ不十分である。
 本発明は、上記問題を解決するためになされたものであり、蛋白質・リガンド結合等の立体構造の判定精度を従来よりも格段に向上させることのできる立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラムを提供することを目的とする。
 上記目的を達成するため、本発明に係る立体構造判定装置は、
 第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成手段と、
 前記画像セットに含まれる1枚の画像を入力すると、前記1枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別器と、
 前記判別器に前記画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を、前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定手段と、
 を備える。
 本発明によれば、蛋白質・リガンド結合等の立体構造の判定精度を従来よりも格段に向上させることができる。
実施形態1に係る判定装置の機能構成を示す図である。 蛋白質とリガンドとの結合(ドッキング)を説明する図である。 実施形態1に係る画像生成部が蛋白質とリガンドのドッキング構造の画像を全周網羅的に生成する様子を説明する図である。 畳み込みニューラルネットワーク(CNN)の処理概要を説明する図である。 実施形態1に係る学習処理のフローチャートである。 実施形態1に係る画像生成処理のフローチャートである。 実施形態1に係る判定処理のフローチャートである。 3D average poolingの処理概要を説明する図である。 変形例1に係る画像生成部が蛋白質とリガンドのドッキング構造の画像を生成する様子を説明する図である。 変形例1に係る画像生成処理のフローチャートである。
 以下、本発明の実施形態に係る蛋白質・リガンド結合判定装置、蛋白質・リガンド結合の判別器学習装置等について、図表を参照して説明する。なお、図中同一又は相当部分には同一符号を付す。
(実施形態1)
 実施形態1に係る判定装置100は、蛋白質・リガンド結合の判別器学習装置としては、活性が既知の蛋白質・リガンド結合のドッキング構造の画像を大量に用いて、判別器を学習させて学習モデルを取得する。そして、判定装置100は、蛋白質・リガンド結合判定装置としては、学習済みの判別器(学習モデル)に、活性が未知の蛋白質・リガンド結合のドッキング構造の画像を入力することにより、当該活性が未知の蛋白質・リガンド結合の活性の有無を判定する。このような判定装置100について、以下に説明する。
 実施形態1に係る判定装置100は、図1に示すように、制御部10、記憶部20、出力部31、通信部32、操作入力部33、を備える。
 制御部10は、CPU(Central Processing Unit)等で構成され、記憶部20に記憶されたプログラムを実行することにより、後述する各部(画像生成部11、活性取得部12、判別器13、判別器学習部14、総合判定部15)の機能を実現する。
 記憶部20は、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成され、制御部10のCPUが実行するプログラムや必要なデータを記憶する。また、記憶部20は、蛋白質・リガンド結合の活性の有無が記録された活性DB(Database)を記憶していてもよい。
 出力部31は、蛋白質・リガンド結合の判定結果等を出力するためのデバイスである。例えば、出力部31は、液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイである。ただし、判定装置100は、出力部31としてこれらディスプレイを備えてもよいし、外部のディスプレイを接続するためのインタフェースとしての出力部31を備えてもよい。判定装置100は、インタフェースとしての出力部31を備える場合は、出力部31を介して接続した外部のディスプレイに判定結果等を表示する。
 通信部32は、外部の他の装置(例えば、蛋白質・リガンド結合の活性の有無が記録された活性DBが格納されているサーバ等)とデータの送受信を行うためのデバイス(ネットワークインタフェース等)である。判定装置100は、通信部32を介して様々なデータを取得することができる。
 操作入力部33は、判定装置100に対するユーザの操作入力を受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル等である。判定装置100は、操作入力部33を介して、ユーザからの指示等を受け付ける。
 次に、制御部10の機能について説明する。制御部10は、記憶部20に記憶されているプログラムを実行することにより、画像生成部11、活性取得部12、判別器13、判別器学習部14、総合判定部15の機能を実現する。
 画像生成部11は、蛋白質の種類とリガンドの種類とが与えられると、ドッキングシミュレーションにより、与えられた蛋白質及びリガンドの立体的なドッキング構造を得て、ドッキング構造をその周囲の様々な角度からの視点で2次元平面に投影した画像を生成する。ドッキングシミュレーションでは、図2に示すように、与えられた蛋白質211とリガンド212とから、これらが結合した立体構造(ドッキング構造213)が得られる。そして、画像生成部11は、図3に示すように、このドッキング構造213を周囲のカメラ311から様々な角度(θ、φ)で全周(360°)網羅的に撮影したかのような画像を生成する。実際には、画像生成部11は、カメラ311で撮影するのではなく、ドッキング構造から3Dイメージを作成し、その3Dイメージを様々な方向からの視点で2次元平面に投影して得られる画像を生成する。
 具体的には、ドッキングシミュレーションでドッキング構造を得るソフトウェアとしては、例えばGlideを用いることができる。また、ドッキング構造から3Dイメージを作成するソフトウェアとしては、例えばPyMOLを用いることができる。ただし、これらのソフトウェアは一例に過ぎず、ドッキング構造の周囲から様々な角度の視点で2次元平面に投影して得られる画像を生成できるのであれば、任意のソフトウェアを用いることができる。なお、ドッキングにおいて水素結合が重要と考えられることから、画像生成部11は、水素結合を強調表示した画像を生成してもよい。また、画像生成部11は、水素結合に限らず、判定装置100が判定する結合の性質に重要な役割を果たすと考えられる結合等を強調表示した画像を生成してもよい。画像生成部11は、画像生成手段として機能する。
 活性取得部12は、蛋白質の種類とリガンドの種類とが与えられると、蛋白質・リガンド結合の活性の有無が記録された活性DBを参照して、与えられた蛋白質とリガンドの結合の活性の有無を取得する。このような活性DBとしては、例えば、DUD-Eを用いることができる。活性取得部12は、性質取得手段として機能する。
 判別器13は、蛋白質・リガンド結合の画像が与えられるとその活性の有無を出力する、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)による判別器である。CNNによる判別器を実現するプログラムを制御部10が実行することにより、制御部10は判別器13として機能する。判別器13は、図4に示すように、入力層111に与えられた入力画像に、畳み込み処理(畳み込みフィルタ121,123の走査)やプーリング処理(プーリングウィンドウ122,124の走査)を行って徐々にサイズの小さな特徴マップ112,113,114,115,116を算出していき、特徴マップ116から全結合接続125を経て、最終的に出力層119から、判別結果を示す2次元ベクトルを得る。なお、特徴マップ116は、出力層119からの出力(判別結果)に直接影響を与える1次元ベクトルなので、ここでは判別ベクトルと呼ぶことにする。
 判別器学習部14は、蛋白質・リガンド結合の画像とその蛋白質・リガンド結合の活性の有無とからなる教師データを大量に用いて、判別器13を学習させる。ただし、通常、活性DBに記録されている蛋白質・リガンド結合のサンプルの活性の有無は著しく不均衡であり、活性が無いものの方が、活性があるものに比べて格段に多い。このため、普通に学習させると、真の活性の有無にかかわらず、全て「活性無し」と判別する判別器13になってしまう可能性がある。そこで、判別器学習部14は、活性有りの蛋白質・リガンド結合を活性無しと判別した場合のペナルティが大きくなるような、重み付きの誤差関数を用いて判別器13を学習させる。これにより、判別器学習部14は、活性の有無の不均衡の影響をできるだけ受けずに判別器13を学習させることができる。判別器学習部14は、学習手段として機能する。
 具体的には、判別器学習部14は、以下の式(1)で表されるような、重み係数Wposを用いた重み付きクロスエントロピー関数で算出される誤差Eを誤差逆伝播させることにより、判別器13を学習させる。
Figure JPOXMLDOC01-appb-M000001
 Wpos=(活性無しサンプルの個数)/(活性有りサンプルの個数)
 n:サンプルの個数
 x(i):i番目のサンプルで作成した画像データを入力した時の判別器13の出力
 y(i):i番目のサンプルの真の活性の有無
 総合判定部15は、活性が未知の蛋白質・リガンド結合について、画像生成部11で生成した複数の画像の1枚1枚を判別器13に入力して得られる出力を、画像生成部11で生成した全ての画像について集計した値に基づいて、当該蛋白質・リガンド結合の活性の有無を判定する。総合判定部15は、総合判定手段として機能する。
 以上、判定装置100の機能構成について説明した。次に、判定装置100が行う学習処理について、図5を参照して説明する。学習処理は、操作入力部33を介して、ユーザにより、判定装置100に対して学習処理の開始が指示されると開始される。
 まず、制御部10は、活性DBに登録されている蛋白質とリガンドとから、学習データとして用いたいもの(蛋白質とリガンドのペア)を任意の数抽出し、それぞれについてドッキングシミュレーションを行って、抽出した蛋白質とリガンドのペアの数の蛋白質・リガンド結合のドッキング構造を取得する(ステップS101)。
 次に、制御部10は、ステップS101で得られた蛋白質・リガンド結合のドッキング構造のうち、学習用データとして用いたいデータを抽出する(ステップS102)。ここでは、ステップS101で取得した全てのドッキング構造を学習用データとしてもよいし、一部を学習用データとし、残りを評価用データとしてもよい。
 次に、画像生成部11は、学習用データとして抽出されたドッキング構造から3Dイメージを作成し、これを様々な角度から全周網羅的に撮影(2次元平面に投影)した学習用画像の集合(学習用の画像セット)を生成する(ステップS103)。ステップS103は、画像生成ステップと呼ばれる。ステップS103の処理(画像生成処理)の詳細については、後述する。
 次に、活性取得部12は、ステップS103で生成した各画像に対応する(当該画像に写っている)蛋白質及びリガンドについて活性DBを参照して蛋白質・リガンド結合の活性の有無を取得する(ステップS104)。ステップS104は性質取得ステップと呼ばれる。
 次に、判別器学習部14は、当該画像と活性の有無とからなる教師データを生成する(ステップS105)。この時、ステップS103で生成した各画像をランダムに0°、90°、180°、270°と回転させたものを用いて教師データを生成してもよい。そして、判別器学習部14は、ステップS105で生成した教師データを用いて、判別器13を学習させ(ステップS106)、学習処理を終了する。ステップS106は学習ステップと呼ばれる。
 次に、ステップS103で行われる画像生成処理について図6を参照して説明する。画像生成処理は、Nθ及びNφを引数にとる。これらは、撮影する角度(2次元平面に投影する際の視点の角度)を、図3に示すθの方向にNθ分割、φの方向にNφ分割することを意味し、画像生成処理では、合計Nθ×Nφ枚の画像が生成される。
 まず、画像生成部11は、θ方向のインデックスを表す変数iを0に初期化する(ステップS201)。そして、角度θに(360°×i)/Nθをセットする(ステップS202)。
 次に、画像生成部11は、φ方向のインデックスを表す変数jを0に初期化する(ステップS203)。そして、角度φに(360°×j)/Nφをセットする(ステップS204)。
 そして、画像生成部11は、図3に示すような(θ,φ)の方向からの視点でドッキング構造の3Dイメージを2次元平面に投影した画像を生成する(ステップS205)。そして、画像生成部11は、変数jをインクリメントし(ステップS206)、変数jがNφ未満であるか否かを判定する(ステップS207)。
 変数jがNφ未満であるなら(ステップS207;Yes)、ステップS204に戻る。変数jがNφ以上であるなら(ステップS207;No)、画像生成部11は、変数iをインクリメントし(ステップS208)、変数iがNθ未満であるか否かを判定する(ステップS209)。
 変数iがNθ未満であるなら(ステップS209;Yes)、ステップS202に戻る。変数iがNθ以上であるなら(ステップS209;No)、画像生成処理を終了する。
 以上説明した学習処理(図5)及び画像生成処理(図6)により、判別器13は学習され、判別器13に活性が未知の蛋白質・リガンド結合の画像を入力すると、その蛋白質・リガンド結合の活性の有無を出力するようになる。判定装置100では、上述したように、蛋白質・リガンド結合のドッキング構造について全周(360°)網羅的に様々な視点からの画像を生成し、この全周網羅的画像のそれぞれを用いて判別器13を学習させる。したがって、学習後の判別器13のCNNは、ドッキング構造の立体的な特徴が抽出された学習モデルとなる。
 次に、このようにして得られた判別器13を用いて活性が未知の蛋白質・リガンド結合の判定を行う判定処理について、図7を参照して説明する。判定処理は、操作入力部33を介して、ユーザにより、判定装置100に対して判定処理の開始が指示されると開始される。この判定処理の開始の指示の際、ユーザは、判定する蛋白質の種類及びリガンドの種類を判定装置100に入力する。
 まず、制御部10は、ユーザから入力された蛋白質とリガンドについてドッキングシミュレーションを行って、蛋白質・リガンド結合のドッキング構造を取得する(ステップS301)。
 次に、画像生成部11は、ステップS301で取得されたドッキング構造から3Dイメージを作成し、これを様々な角度から全周網羅的に撮影(2次元平面に投影)したNθ×Nφ枚の判定用画像の集合(判定用の画像セット)を生成する(ステップS302)。この処理は前述の画像生成処理(図6)と同じであり、ステップS302も画像生成ステップと呼ばれる。
 次に、総合判定部15は、ステップS302で生成された判定用画像のそれぞれを判別器13に入力し、CNNの最終のアベレージプーリング層の直前の特徴マップ115を判定用画像の枚数分、取得する(ステップS303)。ステップS303は判別ステップと呼ばれる。
 そして、総合判定部15は、図8に示すように、ステップS303で得られた特徴マップ115を全て用いて総合特徴マップ117を生成し、その総合特徴マップ117にアベレージプーリングを行う(ステップS304)。この処理は、通常の(2次元の)アベレージプーリングを、全周網羅的に撮影(2次元平面に投影)したNθ×Nφ枚の画像の方向にも行う処理(次元が1つ追加されるアベレージプーリング処理)であるので、3D average pooling処理という。
 そして、総合判定部15は、3D average pooling処理後の出力層119からの出力に基づいて、蛋白質・リガンド結合の活性の有無を判定し(ステップS305)、判定処理を終了する。ステップS305は、総合判定ステップと呼ばれる。
 3D average pooling処理について、図8を参照して補足説明する。まず、ステップS302で、判定用画像がNθ×Nφ枚が得られるが、n=Nθ×Nφとすると、ステップS303で判定用画像のそれぞれ(n枚)を判別器13の入力層111に入力する。すると、判別器13のCNNの内部で、最終のアベレージプーリング層の直前の特徴マップ115がn枚得られる。ただし、これは同時並行に行う必要はなく、1つの判別器13(CNN)を順次n回使って、特徴マップ115をn枚得ればよい。
 特徴マップ115のそれぞれは複数(図8では2048)のチャネルを持つが、n枚の特徴マップ115のそれぞれの第m番目のチャネルを集めて平均したものを、第m番目のチャネルに割り当てて総合特徴マップ117を算出する。そして、このように得られた総合特徴マップ117をアベレージプーリング処理して特徴マップ116を得る。これが3D average pooling処理である。そして、特徴マップ116から、全結合接続125を経て出力層119の出力を得る。
 このように処理することにより、単一の画像を判別器13に入力して得られる出力(判別器13による判別結果)よりも、格段に判定精度の良い判定結果を得ることができる。3D average pooling処理によって得られる特徴マップ116は、総合特徴マップ117に基づくものであり、また、出力層119からの出力(判別結果)に直接影響を与える1次元ベクトルなので、総合判別ベクトルと呼ぶことにする。
 実際に実験した結果を以下に示す。この実験では、ドッキングシミュレーションにGlide、ドッキング構造の画像生成にPyMol、活性DBにDUD-Eを用い、DUD-E Diverse subsetにおける8種類の蛋白質を実験対象にした。そして、学習処理(図5)の学習用データ抽出(ステップS102)においては、ステップS101で取得したドッキング構造のうちの70%を学習用データとして抽出し、残りの30%を評価用データとした。また、画像の入力サイズは224とし、判別器13のCNNとしてはResNet-50を用いた。そして、学習時のバッチ数は128とし、バッチごとにランダムに画像を0°、90°、180°、270°と右回転させて学習を行った。
 表1は、画像生成処理において、Nθ=7、Nφ=7として、49枚の画像を生成した場合の判定装置100と、Glideとの判定結果の比較である。また、表2は、Nθ=9、Nφ=9として、81枚の画像を生成した場合の判定装置100と、Glideとの判定結果の比較である。
 なお、評価指標の「AUC」は、ROC(Receiver Operating Characteristic)曲線下の面積であるAUC(Area Under the receiver operator Curve)の値である。また、「EF1%」は、以下の式(2)で表される指標EF(Enrichment Factor)である。これは、活性のあるリガンドを上位1%にどれだけ濃縮できたかを表しており、実際の創薬において重視されている指標である。
 EF=na/(NA×0.01) …(2)
 na:上位1%にランキングされた中で活性が有る蛋白質・リガンド結合の数
 NA:実験対象の全ての蛋白質・リガンド結合のうち活性が有るものの数
Figure JPOXMLDOC01-appb-T000002
Figure JPOXMLDOC01-appb-T000003
 表1や表2を見れば、判定装置100での判定精度が従来技術(Glide)よりも格段に優れていることが確認できる。これは、蛋白質・リガンド結合の立体構造を全周網羅した多量の画像で学習することができたこと、偏りのある学習データに対して重み付きクロスエントロピー関数を用いて均等に学習することが可能になったこと、判定時に全周網羅的に撮影(2次元平面に投影)した複数の画像を用いて3D Average Poolingを用いることにより各々の画像学習結果を統合し、立体として把握することができたこと等によるものと考えられる。
(変形例1)
 上述の実施形態1では、蛋白質・リガンド結合のドッキング構造から作成した3Dイメージを全周網羅的に撮影(2次元平面に投影)する際、3Dイメージ生成時の蛋白質のサーフェスを無しにして、どの角度からの視点で撮影(2次元平面に投影)してもリガンドが確認できるようにしていた。しかし、実際には蛋白質にはサーフェスが存在し、リガンドはサーフェスのない部分からしか確認できない。そこで、3Dイメージ生成時の蛋白質のサーフェスを有りとして、サーフェスのない側から複数の画像を生成する変形例1について説明する。
 変形例1の判定装置100では、画像生成部11は、図9に示すように、蛋白質211のサーフェスの無い部分のリガンド212を正面に見て、ドッキング構造213を撮影(2次元平面に投影)し、さらにその周囲からθ、2θのように角度をつけて図9のxやoで示すような点からリガンド212の方向を視点として撮影(2次元平面に投影)した画像を生成する。変形例1の判定装置100における学習処理及び判定処理は、実施形態1の判定装置100における学習処理(図5)及び判定処理(図7)と基本的には同じであるが、これらの処理から呼び出される画像生成処理が異なるため、この処理について、図10を参照して説明する。
 変形例1の画像生成処理は、Nを引数にとる。Nは、撮影(2次元平面に投影)する角度を、図9に示すφの方向にN分割することを意味する。変形例1の画像生成処理では、正面からの画像と、正面の周囲でθの角度でN枚の画像と、2θの角度でN枚の画像を生成するので、合計(1+2×N)枚の画像が生成される。
 まず、画像生成部11は、図9に示すように、リガンド212が蛋白質211のサーフェスに隠れていない正面からドッキング構造の3Dイメージを2次元平面に投影した画像を生成する(ステップS221)。そして、画像生成部11は、φ方向のインデックスを表す変数iを0に初期化する(ステップS222)。そして、角度φに(360°×i)/Nをセットする(ステップS223)。
 次に、画像生成部11は、図9にxで示されるように、正面からθずれた円周上のφの方向からの視点でドッキング構造の3Dイメージを2次元平面に投影した画像を生成する(ステップS224)。そして、画像生成部11は、図9にoで示されるように、正面から2θずれた円周上のφの方向からの視点でドッキング構造の3Dイメージを2次元平面に投影した画像を生成する(ステップS225)。
 次に、画像生成部11は、変数iをインクリメントし(ステップS226)、変数iがN未満であるか否かを判定する(ステップS227)。そして、変数iがN未満であるなら(ステップS227;Yes)、ステップS223に戻る。変数iがN以上であるなら(ステップS227;No)、画像生成処理を終了する。
 以上のように、変形例1では、蛋白質211のサーフェスの無い部分からリガンド212を含むドッキング構造213を撮影(2次元平面に投影)した画像を生成するので、サーフェス有りの画像からでも蛋白質・リガンド結合の立体構造を把握できる画像を生成することができる。
(変形例2)
 上述の実施形態1及び変形例1では、判定装置100が、学習処理と判定処理の双方を行っているが、判定装置100はこれに限定されない。例えば、判定装置100は、判定処理を行わないが、学習処理を行って判別器13を学習させる判別器学習装置であってもよい。また、判定装置100は、学習処理を行わないが、他の判定装置100によって学習された判別器13を用いて判定処理を行う判定装置であってもよい。学習処理は、大量の学習用画像データを作成してディープラーニングを行う必要がある等、スーパーコンピュータでないと実施が難しい面がある。しかし、判定処理だけであれば、学習済みの判別器13を用いれば、判定用画像データを作成するだけで判定が可能であるため、通常のPC(Personal Computer)等のコンピュータによっても実施することができる。
(変形例3)
 上述の実施形態1及び変形例では、判定処理(図7)において、ステップS304で3D average pooling処理を行っているが、この処理は必須ではない。例えば、ステップS303では、総合判定部15は、ステップS302で生成された判定用画像のそれぞれを判別器13に入力して判別器13の出力を判定用画像の枚数分生成し、ステップS304をスキップしてもよい。この場合、ステップS305では、総合判定部15は、ステップS303で取得した判別器13の出力(判定用画像の枚数分存在する)を平均したものに基づいて、蛋白質・リガンド結合の活性の有無を判定すればよい。
(その他の変形例)
 上述の実施形態1及び変形例では、ドッキング構造の画像を生成する際の視点の角度を一定の角度間隔で変化させていたが、これに限られない。例えば、実施形態1ではφが0°や180°(地球で言うと赤道に対応する部分)付近においては、θ方向の分割数を多くし、φが90°や270°(地球で言うと極に対応する部分)付近においては、θ方向の分割数を少なくしてもよい。
 また、上述の実施形態及び変形例において、判別器13のCNNに入力する画像は、入力サイズが224×224ピクセルで、各ピクセルがRGB3チャネルのカラー画像として説明したが、これは一例である。入力サイズをもっと大きい値(例えば448×448ピクセル)にしてもよいし、逆にもっと小さい値(例えば112×112ピクセル)にしてもよい。また、縦横のピクセル数は同じである必要はない(例えば1920×1080ピクセル等)。また、カラー画像である必要もなく、白黒画像でもよい。白黒画像の場合は各ピクセルとも1チャネルの情報となるため、図4に示す畳み込みフィルタ121は1チャネルのフィルタ(例えば7×7×1ch)となる。
 また、上述の実施形態1及び変形例は適宜組み合わせることができる。例えば、実施形態1と変形例1を組み合わせた場合、画像生成部11は、蛋白質211とリガンド212のドッキング構造213をサーフェス無しで全周(360°)網羅的な視点で生成した画像と、サーフェス有りでサーフェスの無い側からの視点で生成した画像と、をそれぞれ生成する。そして、判別器学習部14は、サーフェス無しの画像とサーフェス有りの画像を両方用いて判別器13を学習させ、総合判定部15は、サーフェス無しの画像とサーフェス有りの画像を両方用いて判定する。このようにすることで、サーフェス有りの場合の特徴とサーフェス無しの場合の特徴とを両方とも用いた判定が行えるようになる。
 また、変形例1においては、θと2θというように2倍の関係の角度からの視点としているが、この2つの角度は全く無関係の角度でもよい。また、この角度は2つに限るわけではなく、正面の周囲の3以上の角度からの視点としてもよい。例えば、θ=20°、30°、55°、70°の4つのθについて、正面からそれぞれθずれた円周上のφの方向からの視点でドッキング構造の3Dイメージを2次元平面に投影した画像を生成することにしてもよい。また、φ方向の分割数Nについても、θ毎に異なる値にしてもよい。
 また、上述の実施形態及び変形例では、蛋白質・リガンド結合の活性の有無の判定を行う判定装置100を例に挙げて説明したが、判定装置100が判定する対象は蛋白質・リガンド結合の活性の有無に限られるわけではない。判定装置100は、他の学習データを用いることにより、学習データに応じた他の判定を行うことも可能である。例えば、蛋白質同士の結合の活性の有無についてのデータと、当該蛋白質同士の結合のドッキング構造のデータ(PyMOL等の分子グラフィックツールにより生成)と、を学習データとして用いることにより、判定装置100は、蛋白質・蛋白質結合の活性の有無の判定を行うことができる。その他、任意の生体分子と当該生体分子に結合する物質との結合の活性の有無についてのデータと、当該生体分子と当該物質の結合のドッキング構造のデータと、を学習データとして用意できるなら、判定装置100は、そのような任意の生体分子・物質結合の活性の有無の判定を行うことができる。
 また、判定装置100が判定する対象は、結合の活性の有無に限られるわけではない。例えば、任意の第1の物質と当該第1の物質に結合する第2の物質との結合に関する何らかの性質(所定の性質)についてのデータと、当該第1の物質と当該第2の物質の結合のドッキング構造のデータ(PyMOL等の分子グラフィックツールにより生成)と、を学習データとして用意できるなら、判定装置100は、そのような任意の第1の物質と第2の物質の結合に関する当該性質の有無についての判定を行うことができる。
 なお、上述の実施形態1及び変形例では、CNNによる判別器13を実現するプログラムを制御部10が実行することにより、制御部10は判別器13としても機能することとしていたが、これに限られない。判定装置100は、制御部10とは別に(例えば、GPU(Graphics Processing Unit)や、専用のIC(Integrated Circuit)等の)判別器13の機能を実現するデバイスを備えてもよい。
 また、判別器13はCNN以外(例えば、RNN(Recurrent Neural Network)等)のニューラルネットワークを用いた判別器であってもよい。また、判定処理(図7)において3D average pooling処理を行わないなら、判別器13は、SVM(Support Vector Machine)等、ニューラルネット以外の判別器であってもよい。
 なお、判定装置100の判定処理は、通常のPC等のコンピュータによっても実施することができる。また、将来的には学習処理もスーパーコンピュータによらず、通常のPC等のコンピュータによっても実施することができるようになると考えられる。具体的には、上記実施形態では、判定装置100が行う学習処理及び判定処理のプログラムが、記憶部20のROMに予め記憶されているものとして説明した。しかし、プログラムを、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)、MO(Magneto-Optical Disc)、メモリカード、USB(Universal Serial Bus)メモリ等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータに読み込んでインストールすることにより、上述の各機能を実現することができるコンピュータを構成してもよい。
 以上、本発明の好ましい実施形態について説明したが、本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、請求の範囲によって示される。そして、請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
 本出願は、2019年1月31日に出願された日本国特許出願特願2019-15086号に基づく。本明細書中に日本国特許出願特願2019-15086号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。
10…制御部、11…画像生成部、12…活性取得部、13…判別器、14…判別器学習部、15…総合判定部、20…記憶部、31…出力部、32…通信部、33…操作入力部、100…判定装置、111…入力層、112,113,114,115,116…特徴マップ、117…総合特徴マップ、119…出力層、121,123…畳み込みフィルタ、122,124…プーリングウィンドウ、125…全結合接続、211…蛋白質、212…リガンド、213ドッキング構造、311…カメラ

Claims (14)

  1.  第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成手段と、
     前記画像セットに含まれる1枚の画像を入力すると、前記1枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別器と、
     前記判別器に前記画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を、前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定手段と、
     を備える立体構造判定装置。
  2.  前記画像生成手段は、蛋白質とリガンドの結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成し、
     前記判別器は、前記画像セットに含まれる1枚の画像を入力すると、前記1枚の画像に投影されている前記立体構造に係る前記結合の活性の有無を判別し、
     前記総合判定手段は、前記判別器に前記画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を、前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の活性の有無を判定する、
     請求項1に記載の立体構造判定装置。
  3.  前記画像生成手段は、蛋白質とリガンドの結合の立体構造を全周網羅的な複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
     請求項2に記載の立体構造判定装置。
  4.  前記画像生成手段は、蛋白質とリガンドの結合の立体構造を、前記蛋白質のサーフェスを有りにして生成し、前記サーフェスの無い側からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
     請求項2又は3に記載の立体構造判定装置。
  5.  前記総合判定手段は、3D Average Poolingを用いて前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する、
     請求項1から4のいずれか1項に記載の立体構造判定装置。
  6.  第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップと、
     前記画像セットに含まれる1枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別ステップと、
     前記判別ステップで前記画像セットに含まれる複数枚の画像のそれぞれに投影されている前記立体構造に係る前記結合の前記性質の有無を判別した結果を前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定ステップと、
     を含む立体構造判定方法。
  7.  第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成手段と、
     前記結合の所定の性質の有無を取得する性質取得手段と、
     前記結合のそれぞれについて、前記画像生成手段が生成した画像セットに含まれる画像と前記性質取得手段が取得した前記性質の有無とを教師データとして、前記結合の前記性質の有無を判別する判別器を学習させる学習手段と、
     を備える立体構造の判別器学習装置。
  8.  前記画像生成手段は、蛋白質とリガンドの結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成し、
     前記性質取得手段は、前記結合の活性の有無を取得し、
     前記学習手段は、前記結合のそれぞれについて、前記画像生成手段が生成した画像セットに含まれる画像と前記性質取得手段が取得した活性の有無とを教師データとして、前記結合の活性の有無を判別する判別器を学習させる、
     請求項7に記載の立体構造の判別器学習装置。
  9.  前記画像生成手段は、蛋白質とリガンドの結合の立体構造を全周網羅的な複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
     請求項8に記載の立体構造の判別器学習装置。
  10.  前記画像生成手段は、蛋白質とリガンドの結合の立体構造を、前記蛋白質のサーフェスを有りにして生成し、前記サーフェスの無い側からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
     請求項8又は9に記載の立体構造の判別器学習装置。
  11.  前記学習手段は、重み付きクロスエントロピー関数を用いて前記判別器を学習させる、
     請求項7から10のいずれか1項に記載の立体構造の判別器学習装置。
  12.  第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップと、
     前記結合の所定の性質の有無を取得する性質取得ステップと、
     前記結合のそれぞれについて、前記画像生成ステップで生成した画像セットに含まれる画像と前記性質取得ステップで取得した前記性質の有無とを教師データとして、前記結合の前記性質の有無を判別する判別器を学習させる学習ステップと、
     を備える立体構造の判別器学習方法。
  13.  コンピュータに、
     第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップ、
     前記画像セットに含まれる1枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別ステップ、及び、
     前記判別ステップで前記画像セットに含まれる複数枚の画像のそれぞれに投影されている前記立体構造に係る前記結合の前記性質の有無を判別した結果を前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定ステップ、
     を実行させるためのプログラム。
  14.  コンピュータに、
     第1の物質と第2の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で2次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップ、
     前記結合の所定の性質の有無を取得する性質取得ステップ、及び、
     前記結合のそれぞれについて、前記画像生成ステップで生成した画像セットに含まれる画像と前記性質取得ステップで取得した前記性質の有無とを教師データとして、前記結合の前記性質の有無を判別する判別器を学習させる学習ステップ、
     を実行させるためのプログラム。
PCT/JP2020/002543 2019-01-31 2020-01-24 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム WO2020158609A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-015086 2019-01-31
JP2019015086A JP7168979B2 (ja) 2019-01-31 2019-01-31 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2020158609A1 true WO2020158609A1 (ja) 2020-08-06

Family

ID=71839991

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/002543 WO2020158609A1 (ja) 2019-01-31 2020-01-24 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム

Country Status (2)

Country Link
JP (1) JP7168979B2 (ja)
WO (1) WO2020158609A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022044315A1 (ja) * 2020-08-31 2022-03-03 日本電気株式会社 学習装置、学習方法および学習プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005508487A (ja) * 2000-06-15 2005-03-31 ファーマコピア インコーポレーティッド 生体標的に対するコンビナトリアル・ライブラリーの相補性を評価するための分子ドッキング法
JP2008506120A (ja) * 2004-07-09 2008-02-28 ワイス 明細書タンパク質−リガンド結合特異性を予測するための方法およびシステム
US20120239367A1 (en) * 2009-09-25 2012-09-20 Joo Chuan Victor Tong Method and system for evaluating a potential ligand-receptor interaction
CN106777986A (zh) * 2016-12-19 2017-05-31 南京邮电大学 药物筛选中基于深度哈希的配体分子指纹生成方法
CN107742061A (zh) * 2017-09-19 2018-02-27 中山大学 一种蛋白质相互作用预测方法、系统和装置
US20180341754A1 (en) * 2017-05-19 2018-11-29 Accutar Biotechnology Inc. Computational method for classifying and predicting ligand docking conformations

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005508487A (ja) * 2000-06-15 2005-03-31 ファーマコピア インコーポレーティッド 生体標的に対するコンビナトリアル・ライブラリーの相補性を評価するための分子ドッキング法
JP2008506120A (ja) * 2004-07-09 2008-02-28 ワイス 明細書タンパク質−リガンド結合特異性を予測するための方法およびシステム
US20120239367A1 (en) * 2009-09-25 2012-09-20 Joo Chuan Victor Tong Method and system for evaluating a potential ligand-receptor interaction
CN106777986A (zh) * 2016-12-19 2017-05-31 南京邮电大学 药物筛选中基于深度哈希的配体分子指纹生成方法
US20180341754A1 (en) * 2017-05-19 2018-11-29 Accutar Biotechnology Inc. Computational method for classifying and predicting ligand docking conformations
CN107742061A (zh) * 2017-09-19 2018-02-27 中山大学 一种蛋白质相互作用预测方法、系统和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022044315A1 (ja) * 2020-08-31 2022-03-03 日本電気株式会社 学習装置、学習方法および学習プログラム
JP7456512B2 (ja) 2020-08-31 2024-03-27 日本電気株式会社 学習装置、学習方法および学習プログラム

Also Published As

Publication number Publication date
JP2020123189A (ja) 2020-08-13
JP7168979B2 (ja) 2022-11-10

Similar Documents

Publication Publication Date Title
Yue et al. A lidar point cloud generator: from a virtual world to autonomous driving
CN108694700B (zh) 用于深度学习图像超分辨率的系统和方法
JP6431245B1 (ja) エッジ認識双方向画像処理
KR101671185B1 (ko) 렌더링을 위한 빛 및 질감 추출 장치 및 방법, 그리고, 빛 및 질감을 이용한 렌더링 장치
US11256958B1 (en) Training with simulated images
US20120212573A1 (en) Method, terminal and computer-readable recording medium for generating panoramic images
US20200184697A1 (en) Image Modification Using Detected Symmetry
CN103841894A (zh) 器官与解剖结构的图像分割
JP2018026064A (ja) 画像処理装置、画像処理方法、システム
EP3291532B1 (en) Image processing device and image processing method
KR20210049655A (ko) 특징맵 생성방법 및 특징맵 생성장치
US8934664B2 (en) System and method of estimating page position
CN107408294A (zh) 交叉水平的图像混合
WO2022017779A2 (en) Map for augmented reality
Davidson et al. 360 camera alignment via segmentation
WO2020158609A1 (ja) 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム
US20130182943A1 (en) Systems and methods for depth map generation
Cui et al. Fusing surveillance videos and three‐dimensional scene: A mixed reality system
CN109314774A (zh) 用于立体成像的系统和方法
CN115578432B (zh) 图像处理方法、装置、电子设备及存储介质
CN106408654A (zh) 一种三维地图的创建方法及系统
Englert et al. Enhancing the ar experience with machine learning services
CN103679684B (zh) 用于检测图像中的云的装置、方法以及电子设备
JP2012068062A (ja) 位置合わせ装置、位置合わせシステム及び位置合わせプログラム
CN113269214A (zh) 图形相似度的分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20747709

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20747709

Country of ref document: EP

Kind code of ref document: A1