WO2020158609A1

WO2020158609A1 - 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム

Info

Publication number: WO2020158609A1
Application number: PCT/JP2020/002543
Authority: WO
Inventors: 政和関嶋; 洸依田; 信明安尾
Original assignee: 国立大学法人東京工業大学
Priority date: 2019-01-31
Filing date: 2020-01-24
Publication date: 2020-08-06
Also published as: JP2020123189A; JP7168979B2

Abstract

判定装置（１００）は、第１の物質と第２の物質の結合の立体構造を複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成部（１１）と、画像セットに含まれる１枚の画像を入力すると１枚の画像に投影されている立体構造に係る結合の所定の性質の有無を判別する判別器（１３）と、判別器（１３）に画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を画像セットに含まれる全ての画像について集計した値に基づいて画像セットに含まれる画像に投影されている立体構造に係る結合の性質の有無を判定する総合判定部（１５）と、を備える。

Description

立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム

　本発明は、立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラムに関する。

　創薬の初期段階においては、薬剤の標的となる蛋白質に結合する化合物、ペプチド、蛋白質、核酸等のリガンドを発見する必要がある。このようなリガンドを発見するスクリーニング手法の１つとして、蛋白質とリガンドのドッキングシミュレーションがある。そして、ドッキングシミュレーションの精度を向上させる技術の開発も進められている。例えば、特許文献１には、従来のドッキングシミュレーションよりも高精度なスクリーニングを実現するドッキングスコアリング方法が開示されている。

特開２００５－１８１１０４号公報

　特許文献１には、蛋白質の立体構造を基に結合部分の電子状態の計算を行った後に、化学シフト値の解析を行い、化学シフト値から結合残基の決定および結合強さの比較を行うことにより高精度なスクリーニングを実現できることが記載されている。しかし、スクリーニングの対象となるリガンドの数が膨大であることを考えると、特許文献１や従来のドッキングシミュレーションの精度はまだ不十分である。

　本発明は、上記問題を解決するためになされたものであり、蛋白質・リガンド結合等の立体構造の判定精度を従来よりも格段に向上させることのできる立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラムを提供することを目的とする。

　上記目的を達成するため、本発明に係る立体構造判定装置は、
　第１の物質と第２の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成手段と、
　前記画像セットに含まれる１枚の画像を入力すると、前記１枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別器と、
　前記判別器に前記画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を、前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定手段と、
　を備える。

　本発明によれば、蛋白質・リガンド結合等の立体構造の判定精度を従来よりも格段に向上させることができる。

実施形態１に係る判定装置の機能構成を示す図である。蛋白質とリガンドとの結合（ドッキング）を説明する図である。実施形態１に係る画像生成部が蛋白質とリガンドのドッキング構造の画像を全周網羅的に生成する様子を説明する図である。畳み込みニューラルネットワーク（ＣＮＮ）の処理概要を説明する図である。実施形態１に係る学習処理のフローチャートである。実施形態１に係る画像生成処理のフローチャートである。実施形態１に係る判定処理のフローチャートである。３Ｄ　ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇの処理概要を説明する図である。変形例１に係る画像生成部が蛋白質とリガンドのドッキング構造の画像を生成する様子を説明する図である。変形例１に係る画像生成処理のフローチャートである。

　以下、本発明の実施形態に係る蛋白質・リガンド結合判定装置、蛋白質・リガンド結合の判別器学習装置等について、図表を参照して説明する。なお、図中同一又は相当部分には同一符号を付す。

（実施形態１）
　実施形態１に係る判定装置１００は、蛋白質・リガンド結合の判別器学習装置としては、活性が既知の蛋白質・リガンド結合のドッキング構造の画像を大量に用いて、判別器を学習させて学習モデルを取得する。そして、判定装置１００は、蛋白質・リガンド結合判定装置としては、学習済みの判別器（学習モデル）に、活性が未知の蛋白質・リガンド結合のドッキング構造の画像を入力することにより、当該活性が未知の蛋白質・リガンド結合の活性の有無を判定する。このような判定装置１００について、以下に説明する。

　実施形態１に係る判定装置１００は、図１に示すように、制御部１０、記憶部２０、出力部３１、通信部３２、操作入力部３３、を備える。

　制御部１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等で構成され、記憶部２０に記憶されたプログラムを実行することにより、後述する各部（画像生成部１１、活性取得部１２、判別器１３、判別器学習部１４、総合判定部１５）の機能を実現する。

　記憶部２０は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等で構成され、制御部１０のＣＰＵが実行するプログラムや必要なデータを記憶する。また、記憶部２０は、蛋白質・リガンド結合の活性の有無が記録された活性ＤＢ（Ｄａｔａｂａｓｅ）を記憶していてもよい。

　出力部３１は、蛋白質・リガンド結合の判定結果等を出力するためのデバイスである。例えば、出力部３１は、液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイである。ただし、判定装置１００は、出力部３１としてこれらディスプレイを備えてもよいし、外部のディスプレイを接続するためのインタフェースとしての出力部３１を備えてもよい。判定装置１００は、インタフェースとしての出力部３１を備える場合は、出力部３１を介して接続した外部のディスプレイに判定結果等を表示する。

　通信部３２は、外部の他の装置（例えば、蛋白質・リガンド結合の活性の有無が記録された活性ＤＢが格納されているサーバ等）とデータの送受信を行うためのデバイス（ネットワークインタフェース等）である。判定装置１００は、通信部３２を介して様々なデータを取得することができる。

　操作入力部３３は、判定装置１００に対するユーザの操作入力を受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル等である。判定装置１００は、操作入力部３３を介して、ユーザからの指示等を受け付ける。

　次に、制御部１０の機能について説明する。制御部１０は、記憶部２０に記憶されているプログラムを実行することにより、画像生成部１１、活性取得部１２、判別器１３、判別器学習部１４、総合判定部１５の機能を実現する。

　画像生成部１１は、蛋白質の種類とリガンドの種類とが与えられると、ドッキングシミュレーションにより、与えられた蛋白質及びリガンドの立体的なドッキング構造を得て、ドッキング構造をその周囲の様々な角度からの視点で２次元平面に投影した画像を生成する。ドッキングシミュレーションでは、図２に示すように、与えられた蛋白質２１１とリガンド２１２とから、これらが結合した立体構造（ドッキング構造２１３）が得られる。そして、画像生成部１１は、図３に示すように、このドッキング構造２１３を周囲のカメラ３１１から様々な角度（θ、φ）で全周（３６０°）網羅的に撮影したかのような画像を生成する。実際には、画像生成部１１は、カメラ３１１で撮影するのではなく、ドッキング構造から３Ｄイメージを作成し、その３Ｄイメージを様々な方向からの視点で２次元平面に投影して得られる画像を生成する。

　具体的には、ドッキングシミュレーションでドッキング構造を得るソフトウェアとしては、例えばＧｌｉｄｅを用いることができる。また、ドッキング構造から３Ｄイメージを作成するソフトウェアとしては、例えばＰｙＭＯＬを用いることができる。ただし、これらのソフトウェアは一例に過ぎず、ドッキング構造の周囲から様々な角度の視点で２次元平面に投影して得られる画像を生成できるのであれば、任意のソフトウェアを用いることができる。なお、ドッキングにおいて水素結合が重要と考えられることから、画像生成部１１は、水素結合を強調表示した画像を生成してもよい。また、画像生成部１１は、水素結合に限らず、判定装置１００が判定する結合の性質に重要な役割を果たすと考えられる結合等を強調表示した画像を生成してもよい。画像生成部１１は、画像生成手段として機能する。

　活性取得部１２は、蛋白質の種類とリガンドの種類とが与えられると、蛋白質・リガンド結合の活性の有無が記録された活性ＤＢを参照して、与えられた蛋白質とリガンドの結合の活性の有無を取得する。このような活性ＤＢとしては、例えば、ＤＵＤ－Ｅを用いることができる。活性取得部１２は、性質取得手段として機能する。

　判別器１３は、蛋白質・リガンド結合の画像が与えられるとその活性の有無を出力する、畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ：ＣＮＮ）による判別器である。ＣＮＮによる判別器を実現するプログラムを制御部１０が実行することにより、制御部１０は判別器１３として機能する。判別器１３は、図４に示すように、入力層１１１に与えられた入力画像に、畳み込み処理（畳み込みフィルタ１２１，１２３の走査）やプーリング処理（プーリングウィンドウ１２２，１２４の走査）を行って徐々にサイズの小さな特徴マップ１１２，１１３，１１４，１１５，１１６を算出していき、特徴マップ１１６から全結合接続１２５を経て、最終的に出力層１１９から、判別結果を示す２次元ベクトルを得る。なお、特徴マップ１１６は、出力層１１９からの出力（判別結果）に直接影響を与える１次元ベクトルなので、ここでは判別ベクトルと呼ぶことにする。

　判別器学習部１４は、蛋白質・リガンド結合の画像とその蛋白質・リガンド結合の活性の有無とからなる教師データを大量に用いて、判別器１３を学習させる。ただし、通常、活性ＤＢに記録されている蛋白質・リガンド結合のサンプルの活性の有無は著しく不均衡であり、活性が無いものの方が、活性があるものに比べて格段に多い。このため、普通に学習させると、真の活性の有無にかかわらず、全て「活性無し」と判別する判別器１３になってしまう可能性がある。そこで、判別器学習部１４は、活性有りの蛋白質・リガンド結合を活性無しと判別した場合のペナルティが大きくなるような、重み付きの誤差関数を用いて判別器１３を学習させる。これにより、判別器学習部１４は、活性の有無の不均衡の影響をできるだけ受けずに判別器１３を学習させることができる。判別器学習部１４は、学習手段として機能する。

　具体的には、判別器学習部１４は、以下の式（１）で表されるような、重み係数Ｗ_posを用いた重み付きクロスエントロピー関数で算出される誤差Ｅを誤差逆伝播させることにより、判別器１３を学習させる。

　Ｗ_pos＝（活性無しサンプルの個数）／（活性有りサンプルの個数）
　ｎ：サンプルの個数
　ｘ⁽ⁱ⁾：ｉ番目のサンプルで作成した画像データを入力した時の判別器１３の出力
　ｙ⁽ⁱ⁾：ｉ番目のサンプルの真の活性の有無

　総合判定部１５は、活性が未知の蛋白質・リガンド結合について、画像生成部１１で生成した複数の画像の１枚１枚を判別器１３に入力して得られる出力を、画像生成部１１で生成した全ての画像について集計した値に基づいて、当該蛋白質・リガンド結合の活性の有無を判定する。総合判定部１５は、総合判定手段として機能する。

　以上、判定装置１００の機能構成について説明した。次に、判定装置１００が行う学習処理について、図５を参照して説明する。学習処理は、操作入力部３３を介して、ユーザにより、判定装置１００に対して学習処理の開始が指示されると開始される。

　まず、制御部１０は、活性ＤＢに登録されている蛋白質とリガンドとから、学習データとして用いたいもの（蛋白質とリガンドのペア）を任意の数抽出し、それぞれについてドッキングシミュレーションを行って、抽出した蛋白質とリガンドのペアの数の蛋白質・リガンド結合のドッキング構造を取得する（ステップＳ１０１）。

　次に、制御部１０は、ステップＳ１０１で得られた蛋白質・リガンド結合のドッキング構造のうち、学習用データとして用いたいデータを抽出する（ステップＳ１０２）。ここでは、ステップＳ１０１で取得した全てのドッキング構造を学習用データとしてもよいし、一部を学習用データとし、残りを評価用データとしてもよい。

　次に、画像生成部１１は、学習用データとして抽出されたドッキング構造から３Ｄイメージを作成し、これを様々な角度から全周網羅的に撮影（２次元平面に投影）した学習用画像の集合（学習用の画像セット）を生成する（ステップＳ１０３）。ステップＳ１０３は、画像生成ステップと呼ばれる。ステップＳ１０３の処理（画像生成処理）の詳細については、後述する。

　次に、活性取得部１２は、ステップＳ１０３で生成した各画像に対応する（当該画像に写っている）蛋白質及びリガンドについて活性ＤＢを参照して蛋白質・リガンド結合の活性の有無を取得する（ステップＳ１０４）。ステップＳ１０４は性質取得ステップと呼ばれる。

　次に、判別器学習部１４は、当該画像と活性の有無とからなる教師データを生成する（ステップＳ１０５）。この時、ステップＳ１０３で生成した各画像をランダムに０°、９０°、１８０°、２７０°と回転させたものを用いて教師データを生成してもよい。そして、判別器学習部１４は、ステップＳ１０５で生成した教師データを用いて、判別器１３を学習させ（ステップＳ１０６）、学習処理を終了する。ステップＳ１０６は学習ステップと呼ばれる。

　次に、ステップＳ１０３で行われる画像生成処理について図６を参照して説明する。画像生成処理は、Ｎ_θ及びＮ_φを引数にとる。これらは、撮影する角度（２次元平面に投影する際の視点の角度）を、図３に示すθの方向にＮ_θ分割、φの方向にＮ_φ分割することを意味し、画像生成処理では、合計Ｎ_θ×Ｎ_φ枚の画像が生成される。

　まず、画像生成部１１は、θ方向のインデックスを表す変数ｉを０に初期化する（ステップＳ２０１）。そして、角度θに（３６０°×ｉ）／Ｎ_θをセットする（ステップＳ２０２）。

　次に、画像生成部１１は、φ方向のインデックスを表す変数ｊを０に初期化する（ステップＳ２０３）。そして、角度φに（３６０°×ｊ）／Ｎ_φをセットする（ステップＳ２０４）。

　そして、画像生成部１１は、図３に示すような（θ，φ）の方向からの視点でドッキング構造の３Ｄイメージを２次元平面に投影した画像を生成する（ステップＳ２０５）。そして、画像生成部１１は、変数ｊをインクリメントし（ステップＳ２０６）、変数ｊがＮ_φ未満であるか否かを判定する（ステップＳ２０７）。

　変数ｊがＮ_φ未満であるなら（ステップＳ２０７；Ｙｅｓ）、ステップＳ２０４に戻る。変数ｊがＮ_φ以上であるなら（ステップＳ２０７；Ｎｏ）、画像生成部１１は、変数ｉをインクリメントし（ステップＳ２０８）、変数ｉがＮ_θ未満であるか否かを判定する（ステップＳ２０９）。

　変数ｉがＮ_θ未満であるなら（ステップＳ２０９；Ｙｅｓ）、ステップＳ２０２に戻る。変数ｉがＮ_θ以上であるなら（ステップＳ２０９；Ｎｏ）、画像生成処理を終了する。

　以上説明した学習処理（図５）及び画像生成処理（図６）により、判別器１３は学習され、判別器１３に活性が未知の蛋白質・リガンド結合の画像を入力すると、その蛋白質・リガンド結合の活性の有無を出力するようになる。判定装置１００では、上述したように、蛋白質・リガンド結合のドッキング構造について全周（３６０°）網羅的に様々な視点からの画像を生成し、この全周網羅的画像のそれぞれを用いて判別器１３を学習させる。したがって、学習後の判別器１３のＣＮＮは、ドッキング構造の立体的な特徴が抽出された学習モデルとなる。

　次に、このようにして得られた判別器１３を用いて活性が未知の蛋白質・リガンド結合の判定を行う判定処理について、図７を参照して説明する。判定処理は、操作入力部３３を介して、ユーザにより、判定装置１００に対して判定処理の開始が指示されると開始される。この判定処理の開始の指示の際、ユーザは、判定する蛋白質の種類及びリガンドの種類を判定装置１００に入力する。

　まず、制御部１０は、ユーザから入力された蛋白質とリガンドについてドッキングシミュレーションを行って、蛋白質・リガンド結合のドッキング構造を取得する（ステップＳ３０１）。

　次に、画像生成部１１は、ステップＳ３０１で取得されたドッキング構造から３Ｄイメージを作成し、これを様々な角度から全周網羅的に撮影（２次元平面に投影）したＮ_θ×Ｎ_φ枚の判定用画像の集合（判定用の画像セット）を生成する（ステップＳ３０２）。この処理は前述の画像生成処理（図６）と同じであり、ステップＳ３０２も画像生成ステップと呼ばれる。

　次に、総合判定部１５は、ステップＳ３０２で生成された判定用画像のそれぞれを判別器１３に入力し、ＣＮＮの最終のアベレージプーリング層の直前の特徴マップ１１５を判定用画像の枚数分、取得する（ステップＳ３０３）。ステップＳ３０３は判別ステップと呼ばれる。

　そして、総合判定部１５は、図８に示すように、ステップＳ３０３で得られた特徴マップ１１５を全て用いて総合特徴マップ１１７を生成し、その総合特徴マップ１１７にアベレージプーリングを行う（ステップＳ３０４）。この処理は、通常の（２次元の）アベレージプーリングを、全周網羅的に撮影（２次元平面に投影）したＮ_θ×Ｎ_φ枚の画像の方向にも行う処理（次元が１つ追加されるアベレージプーリング処理）であるので、３Ｄ　ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇ処理という。

　そして、総合判定部１５は、３Ｄ　ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇ処理後の出力層１１９からの出力に基づいて、蛋白質・リガンド結合の活性の有無を判定し（ステップＳ３０５）、判定処理を終了する。ステップＳ３０５は、総合判定ステップと呼ばれる。

　３Ｄ　ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇ処理について、図８を参照して補足説明する。まず、ステップＳ３０２で、判定用画像がＮ_θ×Ｎ_φ枚が得られるが、ｎ＝Ｎ_θ×Ｎ_φとすると、ステップＳ３０３で判定用画像のそれぞれ（ｎ枚）を判別器１３の入力層１１１に入力する。すると、判別器１３のＣＮＮの内部で、最終のアベレージプーリング層の直前の特徴マップ１１５がｎ枚得られる。ただし、これは同時並行に行う必要はなく、１つの判別器１３（ＣＮＮ）を順次ｎ回使って、特徴マップ１１５をｎ枚得ればよい。

　特徴マップ１１５のそれぞれは複数（図８では２０４８）のチャネルを持つが、ｎ枚の特徴マップ１１５のそれぞれの第ｍ番目のチャネルを集めて平均したものを、第ｍ番目のチャネルに割り当てて総合特徴マップ１１７を算出する。そして、このように得られた総合特徴マップ１１７をアベレージプーリング処理して特徴マップ１１６を得る。これが３Ｄ　ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇ処理である。そして、特徴マップ１１６から、全結合接続１２５を経て出力層１１９の出力を得る。

　このように処理することにより、単一の画像を判別器１３に入力して得られる出力（判別器１３による判別結果）よりも、格段に判定精度の良い判定結果を得ることができる。３Ｄ　ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇ処理によって得られる特徴マップ１１６は、総合特徴マップ１１７に基づくものであり、また、出力層１１９からの出力（判別結果）に直接影響を与える１次元ベクトルなので、総合判別ベクトルと呼ぶことにする。

　実際に実験した結果を以下に示す。この実験では、ドッキングシミュレーションにＧｌｉｄｅ、ドッキング構造の画像生成にＰｙＭｏｌ、活性ＤＢにＤＵＤ－Ｅを用い、ＤＵＤ－Ｅ　Ｄｉｖｅｒｓｅ　ｓｕｂｓｅｔにおける８種類の蛋白質を実験対象にした。そして、学習処理（図５）の学習用データ抽出（ステップＳ１０２）においては、ステップＳ１０１で取得したドッキング構造のうちの７０％を学習用データとして抽出し、残りの３０％を評価用データとした。また、画像の入力サイズは２２４とし、判別器１３のＣＮＮとしてはＲｅｓＮｅｔ－５０を用いた。そして、学習時のバッチ数は１２８とし、バッチごとにランダムに画像を０°、９０°、１８０°、２７０°と右回転させて学習を行った。

　表１は、画像生成処理において、Ｎ_θ＝７、Ｎ_φ＝７として、４９枚の画像を生成した場合の判定装置１００と、Ｇｌｉｄｅとの判定結果の比較である。また、表２は、Ｎ_θ＝９、Ｎ_φ＝９として、８１枚の画像を生成した場合の判定装置１００と、Ｇｌｉｄｅとの判定結果の比較である。

　なお、評価指標の「ＡＵＣ」は、ＲＯＣ（Ｒｅｃｅｉｖｅｒ　Ｏｐｅｒａｔｉｎｇ　Ｃｈａｒａｃｔｅｒｉｓｔｉｃ）曲線下の面積であるＡＵＣ（Ａｒｅａ　Ｕｎｄｅｒ　ｔｈｅ　ｒｅｃｅｉｖｅｒ　ｏｐｅｒａｔｏｒ　Ｃｕｒｖｅ）の値である。また、「ＥＦ１％」は、以下の式（２）で表される指標ＥＦ（Ｅｎｒｉｃｈｍｅｎｔ　Ｆａｃｔｏｒ）である。これは、活性のあるリガンドを上位１％にどれだけ濃縮できたかを表しており、実際の創薬において重視されている指標である。
　ＥＦ＝ｎａ／（ＮＡ×０．０１）　…（２）
　ｎａ：上位１％にランキングされた中で活性が有る蛋白質・リガンド結合の数
　ＮＡ：実験対象の全ての蛋白質・リガンド結合のうち活性が有るものの数

　表１や表２を見れば、判定装置１００での判定精度が従来技術（Ｇｌｉｄｅ）よりも格段に優れていることが確認できる。これは、蛋白質・リガンド結合の立体構造を全周網羅した多量の画像で学習することができたこと、偏りのある学習データに対して重み付きクロスエントロピー関数を用いて均等に学習することが可能になったこと、判定時に全周網羅的に撮影（２次元平面に投影）した複数の画像を用いて３Ｄ　Ａｖｅｒａｇｅ　Ｐｏｏｌｉｎｇを用いることにより各々の画像学習結果を統合し、立体として把握することができたこと等によるものと考えられる。

（変形例１）
　上述の実施形態１では、蛋白質・リガンド結合のドッキング構造から作成した３Ｄイメージを全周網羅的に撮影（２次元平面に投影）する際、３Ｄイメージ生成時の蛋白質のサーフェスを無しにして、どの角度からの視点で撮影（２次元平面に投影）してもリガンドが確認できるようにしていた。しかし、実際には蛋白質にはサーフェスが存在し、リガンドはサーフェスのない部分からしか確認できない。そこで、３Ｄイメージ生成時の蛋白質のサーフェスを有りとして、サーフェスのない側から複数の画像を生成する変形例１について説明する。

　変形例１の判定装置１００では、画像生成部１１は、図９に示すように、蛋白質２１１のサーフェスの無い部分のリガンド２１２を正面に見て、ドッキング構造２１３を撮影（２次元平面に投影）し、さらにその周囲からθ、２θのように角度をつけて図９のｘやｏで示すような点からリガンド２１２の方向を視点として撮影（２次元平面に投影）した画像を生成する。変形例１の判定装置１００における学習処理及び判定処理は、実施形態１の判定装置１００における学習処理（図５）及び判定処理（図７）と基本的には同じであるが、これらの処理から呼び出される画像生成処理が異なるため、この処理について、図１０を参照して説明する。

　変形例１の画像生成処理は、Ｎを引数にとる。Ｎは、撮影（２次元平面に投影）する角度を、図９に示すφの方向にＮ分割することを意味する。変形例１の画像生成処理では、正面からの画像と、正面の周囲でθの角度でＮ枚の画像と、２θの角度でＮ枚の画像を生成するので、合計（１＋２×Ｎ）枚の画像が生成される。

　まず、画像生成部１１は、図９に示すように、リガンド２１２が蛋白質２１１のサーフェスに隠れていない正面からドッキング構造の３Ｄイメージを２次元平面に投影した画像を生成する（ステップＳ２２１）。そして、画像生成部１１は、φ方向のインデックスを表す変数ｉを０に初期化する（ステップＳ２２２）。そして、角度φに（３６０°×ｉ）／Ｎをセットする（ステップＳ２２３）。

　次に、画像生成部１１は、図９にｘで示されるように、正面からθずれた円周上のφの方向からの視点でドッキング構造の３Ｄイメージを２次元平面に投影した画像を生成する（ステップＳ２２４）。そして、画像生成部１１は、図９にｏで示されるように、正面から２θずれた円周上のφの方向からの視点でドッキング構造の３Ｄイメージを２次元平面に投影した画像を生成する（ステップＳ２２５）。

　次に、画像生成部１１は、変数ｉをインクリメントし（ステップＳ２２６）、変数ｉがＮ未満であるか否かを判定する（ステップＳ２２７）。そして、変数ｉがＮ未満であるなら（ステップＳ２２７；Ｙｅｓ）、ステップＳ２２３に戻る。変数ｉがＮ以上であるなら（ステップＳ２２７；Ｎｏ）、画像生成処理を終了する。

　以上のように、変形例１では、蛋白質２１１のサーフェスの無い部分からリガンド２１２を含むドッキング構造２１３を撮影（２次元平面に投影）した画像を生成するので、サーフェス有りの画像からでも蛋白質・リガンド結合の立体構造を把握できる画像を生成することができる。

（変形例２）
　上述の実施形態１及び変形例１では、判定装置１００が、学習処理と判定処理の双方を行っているが、判定装置１００はこれに限定されない。例えば、判定装置１００は、判定処理を行わないが、学習処理を行って判別器１３を学習させる判別器学習装置であってもよい。また、判定装置１００は、学習処理を行わないが、他の判定装置１００によって学習された判別器１３を用いて判定処理を行う判定装置であってもよい。学習処理は、大量の学習用画像データを作成してディープラーニングを行う必要がある等、スーパーコンピュータでないと実施が難しい面がある。しかし、判定処理だけであれば、学習済みの判別器１３を用いれば、判定用画像データを作成するだけで判定が可能であるため、通常のＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）等のコンピュータによっても実施することができる。

（変形例３）
　上述の実施形態１及び変形例では、判定処理（図７）において、ステップＳ３０４で３Ｄ　ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇ処理を行っているが、この処理は必須ではない。例えば、ステップＳ３０３では、総合判定部１５は、ステップＳ３０２で生成された判定用画像のそれぞれを判別器１３に入力して判別器１３の出力を判定用画像の枚数分生成し、ステップＳ３０４をスキップしてもよい。この場合、ステップＳ３０５では、総合判定部１５は、ステップＳ３０３で取得した判別器１３の出力（判定用画像の枚数分存在する）を平均したものに基づいて、蛋白質・リガンド結合の活性の有無を判定すればよい。

（その他の変形例）
　上述の実施形態１及び変形例では、ドッキング構造の画像を生成する際の視点の角度を一定の角度間隔で変化させていたが、これに限られない。例えば、実施形態１ではφが０°や１８０°（地球で言うと赤道に対応する部分）付近においては、θ方向の分割数を多くし、φが９０°や２７０°（地球で言うと極に対応する部分）付近においては、θ方向の分割数を少なくしてもよい。

　また、上述の実施形態及び変形例において、判別器１３のＣＮＮに入力する画像は、入力サイズが２２４×２２４ピクセルで、各ピクセルがＲＧＢ３チャネルのカラー画像として説明したが、これは一例である。入力サイズをもっと大きい値（例えば４４８×４４８ピクセル）にしてもよいし、逆にもっと小さい値（例えば１１２×１１２ピクセル）にしてもよい。また、縦横のピクセル数は同じである必要はない（例えば１９２０×１０８０ピクセル等）。また、カラー画像である必要もなく、白黒画像でもよい。白黒画像の場合は各ピクセルとも１チャネルの情報となるため、図４に示す畳み込みフィルタ１２１は１チャネルのフィルタ（例えば７×７×１ｃｈ）となる。

　また、上述の実施形態１及び変形例は適宜組み合わせることができる。例えば、実施形態１と変形例１を組み合わせた場合、画像生成部１１は、蛋白質２１１とリガンド２１２のドッキング構造２１３をサーフェス無しで全周（３６０°）網羅的な視点で生成した画像と、サーフェス有りでサーフェスの無い側からの視点で生成した画像と、をそれぞれ生成する。そして、判別器学習部１４は、サーフェス無しの画像とサーフェス有りの画像を両方用いて判別器１３を学習させ、総合判定部１５は、サーフェス無しの画像とサーフェス有りの画像を両方用いて判定する。このようにすることで、サーフェス有りの場合の特徴とサーフェス無しの場合の特徴とを両方とも用いた判定が行えるようになる。

　また、変形例１においては、θと２θというように２倍の関係の角度からの視点としているが、この２つの角度は全く無関係の角度でもよい。また、この角度は２つに限るわけではなく、正面の周囲の３以上の角度からの視点としてもよい。例えば、θ＝２０°、３０°、５５°、７０°の４つのθについて、正面からそれぞれθずれた円周上のφの方向からの視点でドッキング構造の３Ｄイメージを２次元平面に投影した画像を生成することにしてもよい。また、φ方向の分割数Ｎについても、θ毎に異なる値にしてもよい。

　また、上述の実施形態及び変形例では、蛋白質・リガンド結合の活性の有無の判定を行う判定装置１００を例に挙げて説明したが、判定装置１００が判定する対象は蛋白質・リガンド結合の活性の有無に限られるわけではない。判定装置１００は、他の学習データを用いることにより、学習データに応じた他の判定を行うことも可能である。例えば、蛋白質同士の結合の活性の有無についてのデータと、当該蛋白質同士の結合のドッキング構造のデータ（ＰｙＭＯＬ等の分子グラフィックツールにより生成）と、を学習データとして用いることにより、判定装置１００は、蛋白質・蛋白質結合の活性の有無の判定を行うことができる。その他、任意の生体分子と当該生体分子に結合する物質との結合の活性の有無についてのデータと、当該生体分子と当該物質の結合のドッキング構造のデータと、を学習データとして用意できるなら、判定装置１００は、そのような任意の生体分子・物質結合の活性の有無の判定を行うことができる。

　また、判定装置１００が判定する対象は、結合の活性の有無に限られるわけではない。例えば、任意の第１の物質と当該第１の物質に結合する第２の物質との結合に関する何らかの性質（所定の性質）についてのデータと、当該第１の物質と当該第２の物質の結合のドッキング構造のデータ（ＰｙＭＯＬ等の分子グラフィックツールにより生成）と、を学習データとして用意できるなら、判定装置１００は、そのような任意の第１の物質と第２の物質の結合に関する当該性質の有無についての判定を行うことができる。

　なお、上述の実施形態１及び変形例では、ＣＮＮによる判別器１３を実現するプログラムを制御部１０が実行することにより、制御部１０は判別器１３としても機能することとしていたが、これに限られない。判定装置１００は、制御部１０とは別に（例えば、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）や、専用のＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の）判別器１３の機能を実現するデバイスを備えてもよい。

　また、判別器１３はＣＮＮ以外（例えば、ＲＮＮ（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）等）のニューラルネットワークを用いた判別器であってもよい。また、判定処理（図７）において３Ｄ　ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇ処理を行わないなら、判別器１３は、ＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）等、ニューラルネット以外の判別器であってもよい。

　なお、判定装置１００の判定処理は、通常のＰＣ等のコンピュータによっても実施することができる。また、将来的には学習処理もスーパーコンピュータによらず、通常のＰＣ等のコンピュータによっても実施することができるようになると考えられる。具体的には、上記実施形態では、判定装置１００が行う学習処理及び判定処理のプログラムが、記憶部２０のＲＯＭに予め記憶されているものとして説明した。しかし、プログラムを、フレキシブルディスク、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌ　Ｄｉｓｃ）、メモリカード、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータに読み込んでインストールすることにより、上述の各機能を実現することができるコンピュータを構成してもよい。

　以上、本発明の好ましい実施形態について説明したが、本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、請求の範囲によって示される。そして、請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。

　本出願は、２０１９年１月３１日に出願された日本国特許出願特願２０１９－１５０８６号に基づく。本明細書中に日本国特許出願特願２０１９－１５０８６号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。

１０…制御部、１１…画像生成部、１２…活性取得部、１３…判別器、１４…判別器学習部、１５…総合判定部、２０…記憶部、３１…出力部、３２…通信部、３３…操作入力部、１００…判定装置、１１１…入力層、１１２，１１３，１１４，１１５，１１６…特徴マップ、１１７…総合特徴マップ、１１９…出力層、１２１，１２３…畳み込みフィルタ、１２２，１２４…プーリングウィンドウ、１２５…全結合接続、２１１…蛋白質、２１２…リガンド、２１３ドッキング構造、３１１…カメラ

Claims

　第１の物質と第２の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成手段と、
　前記画像セットに含まれる１枚の画像を入力すると、前記１枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別器と、
　前記判別器に前記画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を、前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定手段と、
　を備える立体構造判定装置。
　前記画像生成手段は、蛋白質とリガンドの結合の立体構造を前記立体構造の周囲からの複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成し、
　前記判別器は、前記画像セットに含まれる１枚の画像を入力すると、前記１枚の画像に投影されている前記立体構造に係る前記結合の活性の有無を判別し、
　前記総合判定手段は、前記判別器に前記画像セットに含まれる複数枚の画像のそれぞれを入力して得られる値を、前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の活性の有無を判定する、
　請求項１に記載の立体構造判定装置。
　前記画像生成手段は、蛋白質とリガンドの結合の立体構造を全周網羅的な複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
　請求項２に記載の立体構造判定装置。
　前記画像生成手段は、蛋白質とリガンドの結合の立体構造を、前記蛋白質のサーフェスを有りにして生成し、前記サーフェスの無い側からの複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
　請求項２又は３に記載の立体構造判定装置。
　前記総合判定手段は、３Ｄ　Ａｖｅｒａｇｅ　Ｐｏｏｌｉｎｇを用いて前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する、
　請求項１から４のいずれか１項に記載の立体構造判定装置。
　第１の物質と第２の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップと、
　前記画像セットに含まれる１枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別ステップと、
　前記判別ステップで前記画像セットに含まれる複数枚の画像のそれぞれに投影されている前記立体構造に係る前記結合の前記性質の有無を判別した結果を前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定ステップと、
　を含む立体構造判定方法。
　第１の物質と第２の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成手段と、
　前記結合の所定の性質の有無を取得する性質取得手段と、
　前記結合のそれぞれについて、前記画像生成手段が生成した画像セットに含まれる画像と前記性質取得手段が取得した前記性質の有無とを教師データとして、前記結合の前記性質の有無を判別する判別器を学習させる学習手段と、
　を備える立体構造の判別器学習装置。
　前記画像生成手段は、蛋白質とリガンドの結合の立体構造を前記立体構造の周囲からの複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成し、
　前記性質取得手段は、前記結合の活性の有無を取得し、
　前記学習手段は、前記結合のそれぞれについて、前記画像生成手段が生成した画像セットに含まれる画像と前記性質取得手段が取得した活性の有無とを教師データとして、前記結合の活性の有無を判別する判別器を学習させる、
　請求項７に記載の立体構造の判別器学習装置。
　前記画像生成手段は、蛋白質とリガンドの結合の立体構造を全周網羅的な複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
　請求項８に記載の立体構造の判別器学習装置。
　前記画像生成手段は、蛋白質とリガンドの結合の立体構造を、前記蛋白質のサーフェスを有りにして生成し、前記サーフェスの無い側からの複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する、
　請求項８又は９に記載の立体構造の判別器学習装置。
　前記学習手段は、重み付きクロスエントロピー関数を用いて前記判別器を学習させる、
　請求項７から１０のいずれか１項に記載の立体構造の判別器学習装置。
　第１の物質と第２の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップと、
　前記結合の所定の性質の有無を取得する性質取得ステップと、
　前記結合のそれぞれについて、前記画像生成ステップで生成した画像セットに含まれる画像と前記性質取得ステップで取得した前記性質の有無とを教師データとして、前記結合の前記性質の有無を判別する判別器を学習させる学習ステップと、
　を備える立体構造の判別器学習方法。
　コンピュータに、
　第１の物質と第２の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップ、
　前記画像セットに含まれる１枚の画像に投影されている前記立体構造に係る前記結合の所定の性質の有無を判別する判別ステップ、及び、
　前記判別ステップで前記画像セットに含まれる複数枚の画像のそれぞれに投影されている前記立体構造に係る前記結合の前記性質の有無を判別した結果を前記画像セットに含まれる全ての画像について集計した値に基づいて、前記画像セットに含まれる画像に投影されている前記立体構造に係る前記結合の前記性質の有無を判定する総合判定ステップ、
　を実行させるためのプログラム。
　コンピュータに、
　第１の物質と第２の物質の結合の立体構造を前記立体構造の周囲からの複数の視点で２次元平面に投影して得られる複数枚の画像を含む画像セットを生成する画像生成ステップ、
　前記結合の所定の性質の有無を取得する性質取得ステップ、及び、
　前記結合のそれぞれについて、前記画像生成ステップで生成した画像セットに含まれる画像と前記性質取得ステップで取得した前記性質の有無とを教師データとして、前記結合の前記性質の有無を判別する判別器を学習させる学習ステップ、
　を実行させるためのプログラム。