WO2020203551A1

WO2020203551A1 - 特徴量算出方法、特徴量算出プログラム、及び特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及びスクリーニング装置、化合物創出方法、化合物創出プログラム、及び化合物創出装置

Info

Publication number: WO2020203551A1
Application number: PCT/JP2020/013333
Authority: WO
Inventors: 享佑津村; 詩野大平; 淳中林; 瑞希武井
Original assignee: 富士フイルム株式会社
Priority date: 2019-03-29
Filing date: 2020-03-25
Publication date: 2020-10-08
Also published as: US20220068441A1; EP3951785A1; JPWO2020203551A1; CN113678205A; EP3951785A4; JP7317104B2; IL286760A

Abstract

本発明は対象構造体の化学的性質を的確に示す特徴量を算出できる特徴量算出方法、特徴量算出プログラム、特徴量算出装置、特徴量を用いて医薬候補化合物のスクリーニングを効率よく行うことができるスクリーニング方法、スクリーニングプログラム、スクリーニング装置、及び特徴量を用いて医薬候補化合物の立体構造を効率よく創出することができる化合物創出方法、化合物創出プログラム、化合物創出装置を提供することを目的とする。対象構造体の化学的性質は対象構造体とその周辺におけるプローブとの相互作用の結果として表されるので、対象構造体どうしでプローブの集積度合いが類似であることはそれら対象構造体の化学的性質が類似していることを示す。したがって、本発明の一の態様に係る特徴量算出方法により、対象構造体の化学的性質を的確に示す特徴量を算出することができる。

Description

特徴量算出方法、特徴量算出プログラム、及び特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及びスクリーニング装置、化合物創出方法、化合物創出プログラム、及び化合物創出装置

　本発明は特徴量の算出、化合物のスクリーニング、及び化合物の立体構造の創出を行う方法、プログラム、及び装置に関し、特に医薬候補化合物を探索する技術に関する。

　従来、コンピュータを用いた創薬研究では、既存の化合物を数万から十万程度集めたライブラリを用意し化合物の構造式を与えて１つの標的タンパク質に対する結合力を調べることで、医薬候補化合物（以下、「ヒット」という）を探索してきた。例えば、下記特許文献１では、化合物の構造式を与えて結合力を予測している。また特許文献２においても、構造式の発生と結合力の予測とを繰り返して、望ましい結合力を有する化合物を少しずつ探索する（試行錯誤する）ことが記載されている。

　また、特許文献３には「化合物指紋（フィンガープリント）」と呼ばれる記述子を用いて探索を行うことが記載されている。「記述子」とは化合物の構造式から得られる情報であり、「化合物指紋」は様々な官能基の有無などの情報を示す。このような記述子は「化合物の記述子が類似ならば、化合物の骨格が類似する」のが特徴である。

米国特許第９３７３０５９号公報特許第５９４６０４５号公報特許第４５６４０９７号公報

　最近はニーズの高い標的タンパク質が複雑で高難度になり、単なるライブラリのスクリーニングではヒットを見つけづらい。他方、化合物の理論上の数は分子量５００以下の低分子に限っても（１０の６０乗）個はあり、分子量１，０００前後の中分子まで拡大するとその数はさらに増え、有史以来合成された化合物が（１０の９乗）個程度であることを考えると、まだまだヒット発見の可能性がある。しかしながら、このような天文学的な数の化合物すべてに対して結合力を調べることは、実験はもちろん、シミュレーションでもほとんど不可能である。一部の化合物に対して結合力を調べる場合でも、上述した特許文献１，２のような試行錯誤の繰り返しでは効率が低い。また、特許文献３に記載されたFingerprintのような従来の記述子（特徴量）の場合、同じ薬効を示す化合物であっても特徴量が類似しているとは限らず、特徴量が対象構造体の化学的性質を的確に示していなかったため、特徴量を用いた探索の効率が低かった。

　このように、従来の技術では特徴量が対象構造体の化学的性質を的確に示しておらず、このため特徴量を用いたスクリーニング、立体構造創出の効率が低かった。

　本発明はこのような事情に鑑みてなされたもので、対象構造体の化学的性質を的確に示す特徴量を算出できる特徴量算出方法、特徴量算出プログラム、及び特徴量算出装置を提供することを目的とする。また、本発明は特徴量を用いて医薬候補化合物のスクリーニングを効率よく行うことができるスクリーニング方法、スクリーニングプログラム、及びスクリーニング装置を提供することを目的とする。また、本発明は特徴量を用いて医薬候補化合物の立体構造を効率よく創出することができる化合物創出方法、化合物創出プログラム、及び化合物創出装置を提供することを目的とする。

　上述した目的を達成するため、本発明の第１の態様に係る特徴量算出方法は、化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定工程と、対象構造体について複数の単位構造体による立体構造を発生させる立体構造発生工程と、立体構造の周辺における１種類以上のプローブの集積度合いを３次元空間において定量化した特徴量を算出する特徴量算出工程と、特徴量を対象構造体の回転及び並進について不変量化して不変量化特徴量を算出する不変量化工程と、を有する特徴量算出方法であって、プローブは実数電荷を持ちファンデルワールス力を発生させる単一の点である。

　対象構造体の化学的性質は対象構造体とその周辺における１種類以上のプローブとの相互作用の結果として表されるので、対象構造体どうしでプローブの集積度合いが類似であることはそれら対象構造体の化学的性質が類似していることを示す。すなわち第１の態様により算出される特徴量が類似な対象構造体は類似の化学的性質を示す。したがって第１の態様により対象構造体の化学的性質を的確に示す特徴量を算出することができる。また、第１の態様では特徴量を化合物の回転及び並進について不変量化するので、扱いやすくまたデータ容量を小さくすることができる。特徴量の不変量化は、フーリエ変換、相関関数の角度積分等により行うことができる。

　第１の態様において、プローブ（「単一の点」）は数学的な「点」とは異なり大きさがあってもよい（実際の単原子、単原子イオン等）。また実際の単原子等ではなく仮想的な点電荷（「点」の一態様）をプローブとしてもよい。プローブは、ターゲット（対象構造体）となる化合物に応じて選択することができる。

　第２の態様に係る特徴量算出方法は第１の態様において、対象構造体指定工程では対象構造体として化合物を指定し、立体構造発生工程では複数の原子による化合物の立体構造を発生させ、特徴量算出工程では、立体構造発生工程で発生させた化合物の立体構造の周辺におけるプローブの集積度合いであって、１種類以上の単原子イオンをプローブとした集積度合いを３次元空間において定量化した特徴量である第１の特徴量を算出し、不変量化工程では、第１の特徴量を化合物の回転及び並進について不変量化して第１の不変量化特徴量を算出する。

　本発明では、医薬のターゲットとしてタンパク質以外の生体高分子（化合物）であるＤＮＡ（Deoxyribonucleic Acid）、ＲＮＡ（Ribonucleic Acid）、細胞膜、多糖を扱うことができる。第２の態様はこれらのターゲット化合物についての特徴量の算出方法を規定するもので、プローブは１種類以上の単原子イオンである。化合物の薬効（ＤＮＡ等のターゲットへの結合力）は局所的には化合物とプローブとの相互作用の結果として表されるので、化合物間で単原子イオン（プローブ）の集積度合いが類似であれば、それら化合物はターゲットとの結合力が類似していることを示す。すなわち第１の不変量化特徴量が類似な化合物は類似の薬効を示す。したがって、第２の態様により化合物の化学的性質を的確に示す特徴量を算出することができる。

　第３の態様に係る特徴量算出方法は第２の態様において、特徴量算出工程では１種類以上の単原子イオンである第１のプローブと、１種類以上の単原子イオンである第２のプローブであって第１のプローブとは異なる第２のプローブと、について第１の特徴量を算出し、不変量化工程では第１のプローブについての第１の特徴量と、第２のプローブについての第１の特徴量と、を用いて第１の不変量化特徴量を算出する。

　第３の態様によれば、第１の不変量化特徴量の算出において２種類の異なるプローブ（第１，第２のプローブ）についての第１の特徴量を用いることによりプローブの相互作用の情報を維持しつつ不変量化を行うことができるので、特徴量（第１の不変量化特徴量）に基づく化合物の比較（薬効判定）を正確に行うことができる。なお第３の態様において、第１，第２のプローブの構成要素（１種類以上の単原子イオン）の種類、数、組合せのうち少なくとも１つが異なっていれば「第２のプローブが第１のプローブと異なる」に該当する。

　第４の態様に係る特徴量算出方法は第１の態様において、対象構造体指定工程では対象構造体として化合物を指定し、立体構造発生工程では複数の原子による化合物の立体構造を発生させ、特徴量算出工程では、立体構造発生工程で発生させた化合物の立体構造の周辺におけるプローブの集積度合いであって、電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、電荷がゼロである第５の点電荷のうち１つ以上をプローブとした集積度合いを３次元空間において定量化した特徴量である第２の特徴量を算出し、不変量化工程では、第２の特徴量を化合物の回転及び並進について不変量化して第２の不変量化特徴量を算出する。なお、第４の態様において対象構造体とする化合物は生体高分子でもよい。

　第４の態様はバーチャル（仮想的）なプローブについての特徴量算出方法を規定するものであるが、第２の態様と同様に、第４の態様に係る特徴量が類似な化合物は類似の薬効を示す。したがってバーチャルなプローブを用いる場合でも、対象構造体の化学的性質を的確に示す特徴量を算出することができる。

　第５の態様に係る特徴量算出方法は第４の態様において、特徴量算出工程では、第１の点電荷、第２の点電荷、第３の点電荷、第４の点電荷、第５の点電荷のうち１つ以上で構成される第１のプローブと、第１の点電荷、第２の点電荷、第３の点電荷、第４の点電荷、第５の点電荷のうち１つ以上で構成される第２のプローブであって第１のプローブとは異なる第２のプローブと、について第２の特徴量を算出し、不変量化工程では第１のプローブについての第２の特徴量と第２のプローブについての第２の特徴量とを用いて第２の不変量化特徴量を算出する。

　第５の態様によれば、第２の不変量化特徴量の算出において２種類の異なるプローブ（第１，第２のプローブ）についての第２の特徴量を用いることによりプローブの相互作用の情報を維持しつつ不変量化を行うことができるので、特徴量（第２の不変量化特徴量）に基づく化合物の比較（薬効判定）を正確に行うことができる。なお第５の態様において、第１，第２のプローブの構成要素（第１の点電荷等）の種類、数、組合せのうち少なくとも１つが異なっていれば「第２のプローブが第１のプローブと異なる」に該当する。

　第６の態様に係る特徴量算出方法は第５の態様において、対象構造体指定工程では対象構造体として化合物を指定し、立体構造発生工程では複数の原子による化合物の立体構造を発生させ、特徴量算出工程では、立体構造発生工程で発生させた化合物の立体構造の周辺におけるプローブの集積度合いであって、１種類以上の単原子イオンである第１のプローブと、電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、電荷がゼロである第５の点電荷のうち１つ以上である第２のプローブとをプローブとした集積度合いを３次元空間において定量化した特徴量である第３の特徴量を算出し、不変量化工程では第１のプローブについての第３の特徴量と第２のプローブについての第３の特徴量とを用いて第３の不変量化特徴量を算出する。

　第７の態様に係る特徴量算出方法は第６の態様において、特徴量算出工程では、第１のプローブと第２のプローブとのうち少なくとも一方が異なる２種類のプローブについて第３の特徴量を算出し、不変量化工程では２種類のプローブについての第３の特徴量を用いて第３の不変量化特徴量を算出する。

　第７の態様によれば、第３の不変量化特徴量の算出において２種類の異なるプローブについての第３の特徴量を用いることによりプローブの相互作用の情報を維持しつつ不変量化を行うことができるので、特徴量（第３の不変量化特徴量）に基づく化合物の比較（薬効判定）を正確に行うことができる。なお第７の態様において「第１のプローブと第２のプローブとのうち少なくとも一方が異なる２種類のプローブ」とは、第１のプローブと第２のプロ―ブからなるプローブであって、第１のプローブと第２のプローブの組み合わせが異なる２種類のプローブのうち、一方のプローブがナトリウムイオン（単原子イオン；第１のプローブの一例）及び第１の点電荷（第２のプローブの一例）で構成され、他方のプローブがナトリウムイオン（単原子イオン；第１のプローブの一例）及び第２の点電荷（第２のプローブの他の例）で構成される場合のように「第１のプローブが同一で第２のプローブが異なる」場合と、一方のプローブがナトリウムイオン（単原子イオン；第１のプローブの一例）及び第１の点電荷（第２のプローブの一例）で構成され、他方のプローブがカルシウムイオン（単原子イオン；第１のプローブの他の例）及び第１の点電荷（第２のプローブの一例）で構成される場合のように「第１のプローブが異なり第２のプローブが同一である」場合と、一方のプローブがナトリウムイオン（単原子イオン；第１のプローブの一例）及び第１の点電荷（第２のプローブの一例）で構成され、他方のプローブがカルシウムイオン（単原子イオン；第１のプローブの他の例）及び第２の点電荷（第２のプローブの他の例）で構成される場合のように「第１，第２のプローブの双方が異なる」場合とを含む。ここで、プローブの構成要素の種類、数、組合せのうち少なくとも１つが異なっていれば「一のプローブが他のプローブと異なる」に該当する。

　上述した目的を達成するため、本発明の第８の態様に係る特徴量算出プログラムは第１から第７の態様のいずれか１つに係る特徴量算出方法をコンピュータに実行させる。第８の態様における「コンピュータ」は、ＣＰＵ（Central Processing Unit）等の各種プロセッサを１つ以上用いて実現することができる。なお、第８の態様に係る特徴量算出プログラムのコンピュータ読み取り可能なコードが記録された非一時的記録媒体も、本発明の態様として挙げることができる。

　上述した目的を達成するため、本発明の第９の態様に係る特徴量算出装置は化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定部と、対象構造体について複数の単位構造体による立体構造を発生させる立体構造発生部と、立体構造の周辺における１種類以上のプローブの集積度合いを３次元空間において定量化した特徴量を算出する特徴量算出部と、特徴量を対象構造体の回転及び並進について不変量化して不変量化特徴量を算出する不変量化部と、を備える特徴量算出装置であって、プローブは実数電荷を持ちファンデルワールス力を発生させる単一の点である。

　第９の態様では、第１から第８の態様について上述したように、ターゲット化合物をＤＮＡ等とし、プローブを単原子イオン、仮想電荷、及びその組み合わせとして、第１～第３の特徴量、及び第１～第３の不変量化特徴量を算出することができる。

　上述した目的を達成するため、本発明の第１０の態様に係るスクリーニング方法は複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物を抽出するスクリーニング方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、化合物の立体構造について第２の態様に係る特徴量算出方法を用いて算出した第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、タンパク質以外の標的生体高分子に結合することが確認されている化合物である結合化合物について第１の不変量化特徴量を算出する特徴量算出工程と、複数の化合物についての第１の不変量化特徴量と結合化合物についての第１の不変量化特徴量との類似度を算出する類似度算出工程と、複数の化合物から類似度に基づいて標的化合物を抽出する化合物抽出工程と、を有する。

　第２の態様について上述したように、本発明はタンパク質以外の標的生体高分子であるＤＮＡ等を扱うことができ、標的生体高分子に結合する結合化合物と対象化合物とで第１の不変量化特徴量が類似ならば、両者の薬効が類似している。したがって第１０の態様によれば、第１の不変量化特徴量に基づいて結合化合物と薬効が類似した標的化合物を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。なお、化合物抽出工程では類似度がしきい値以上である化合物を抽出してもよいし、類似度が高い順に化合物を抽出してもよい。

　上述した目的を達成するため、本発明の第１１の態様に係るスクリーニング方法は複数の化合物から標的生体高分子に結合する標的化合物を抽出するスクリーニング方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、化合物の立体構造について第４の態様に係る特徴量算出方法を用いて算出した第２の不変量化特徴量と、を関連付けて記憶する記憶工程と、標的生体高分子との結合が確認されている化合物である結合化合物について第２の不変量化特徴量を算出する特徴量算出工程と、複数の化合物についての第２の不変量化特徴量と結合化合物についての第２の不変量化特徴量との類似度を算出する類似度算出工程と、複数の化合物から類似度に基づいて標的化合物を抽出する化合物抽出工程と、を有する。

　第４の態様について上述したように、第２の不変量化特徴量が類似な化合物は類似の薬効を示す。したがって第１１の態様によれば、バーチャルなプローブ（点電荷等）を用いる場合でも、第２の不変量化特徴量に基づいて結合化合物と薬効が類似した標的化合物を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。なお、化合物抽出工程では類似度がしきい値以上である化合物を抽出してもよいし、類似度が高い順に化合物を抽出してもよい。

　上述した目的を達成するため、本発明の第１２の態様に係るスクリーニングプログラムは第１０または第１１の態様に係るスクリーニング方法をコンピュータに実行させる。第１２の態様における「コンピュータ」は、ＣＰＵ（Central Processing Unit）等の各種プロセッサを１つ以上用いて実現することができる。なお、第１２の態様に係るスクリーニングプログラムのコンピュータ読み取り可能なコードが記録された非一時的記録媒体も、本発明の態様として挙げることができる。

　上述した目的を達成するため、本発明の第１３の態様に係るスクリーニング装置は複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物を抽出するスクリーニング装置であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、化合物の立体構造について第２の態様に係る特徴量算出方法を用いて算出した第１の不変量化特徴量と、を関連付けて記憶する記憶部と、タンパク質以外の標的生体高分子に結合することが確認されている化合物である結合化合物について第１の不変量化特徴量を算出する特徴量算出部と、複数の化合物についての第１の不変量化特徴量と結合化合物についての第１の不変量化特徴量との類似度を算出する類似度算出部と、複数の化合物から類似度に基づいて標的化合物を抽出する化合物抽出部と、を備える。

　第２の態様について上述したように、タンパク質以外の標的生体高分子と対象化合物とで第１の不変量化特徴量が類似ならば、両者の薬効が類似している。したがって第１３の態様によれば、第１の不変量化特徴量に基づいてタンパク質以外の標的生体高分子と薬効が類似した標的化合物を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。なお、化合物抽出部は類似度がしきい値以上である化合物を抽出してもよいし、類似度が高い順に化合物を抽出してもよい。

　上述した目的を達成するため、本発明の第１４の態様に係るスクリーニング装置は複数の化合物から標的生体高分子に結合する標的化合物を抽出するスクリーニング装置であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、化合物の立体構造について第４の態様に係る特徴量算出方法を用いて算出した第２の不変量化特徴量と、を関連付けて記憶する記憶部と、標的生体高分子との結合が確認されている化合物である結合化合物について第２の不変量化特徴量を算出する特徴量算出部と、複数の化合物についての第２の不変量化特徴量と結合化合物についての第２の不変量化特徴量との類似度を算出する類似度算出部と、複数の化合物から類似度に基づいて標的化合物を抽出する化合物抽出部と、を備える。

　第４の態様について上述したように、第２の不変量化特徴量が類似な化合物は類似の薬効を示す。したがって第１４の態様によれば、バーチャルなプローブを用いる場合でも、第２の不変量化特徴量に基づいて結合化合物と薬効が類似した標的化合物を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。なお、化合物抽出部は類似度がしきい値以上である化合物を抽出してもよいし、類似度が高い順に化合物を抽出してもよい。

　上述した目的を達成するため、本発明の第１５の態様に係る化合物創出方法は複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、タンパク質以外の標的生体高分子との結合が確認されている化合物である結合化合物について、第２の態様に係る特徴量算出方法を用いて第１の不変量化特徴量を算出する特徴量算出工程と、複数の化合物の立体構造を教師データとし、第１の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、生成器を用いて、結合化合物の第１の不変量化特徴量から標的化合物の立体構造を生成する化合物立体構造生成工程と、を有する。

　上述した第１０から第１１の態様に係るスクリーニング方法では、構造式が既に決定されている（書き下されている）複数の化合物の中から、タンパク質以外の標的生体高分子に適合する化合物を見出している。このため、化合物の特徴量を算出した上で、別途算出した標的生体高分子の特徴量との類似度に基づいて化合物を抽出する方策、つまり検索の方策を採る。したがって化合物の構造式と特徴量との対応関係を記録しておけば、類似度が高い（あるいはしきい値以上の）構造式を見出すことができる。これに対し第１５の態様では、検索をせずに、標的生体高分子の特徴量（第１の不変量化特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成する。

　特徴量が与えられた場合の構造式の生成は、機械学習により構築した生成器を用いて行うことができる。具体的には、第１５の態様では化合物の立体構造を教師データとし、第１の不変量化特徴量を説明変数とした機械学習（学習手法は特に限定されない）により生成器を構築し、この生成器を用いて、標的生体高分子の第１の不変量化特徴量から標的化合物の立体構造を生成する。第１５の態様では検索を行わないので、「スクリーニングによる検索の結果、解なし」となる場合でも化合物の立体構造を生成することができ、したがって医薬候補化合物の立体構造を効率よく創出することができる。

　なお、第１５の態様において生成される立体構造は教師データとして与える化合物の特徴に影響される。したがって、教師データとして与える化合物の特徴を選択することで、特徴が異なる立体構造を有する化合物を生成できる。例えば、合成が容易な化合物を教師データとして与えることで、合成が容易な立体構造を有する化合物を生成することができる。

　上述した目的を達成するため、本発明の第１６の態様に係る化合物創出方法は複数の化合物から標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出方法であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、第２の不変量化特徴量と、を関連付けて記憶する記憶工程と、標的生体高分子との結合が確認されている化合物である結合化合物について、第４の態様に係る特徴量算出方法を用いて第２の不変量化特徴量を算出する特徴量算出工程と、複数の化合物の立体構造を教師データとし、第２の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、生成器を用いて、結合化合物の第２の不変量化特徴量から標的化合物の立体構造を生成する化合物立体構造生成工程と、を有する。

　第１６の態様によれば、第１５の態様と同様に、検索をせずに、結合化合物の特徴量（第２の不変量化特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。なお第１５の態様と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。

　上述した目的を達成するため、本発明の第１７の態様に係る化合物創出プログラムは第１５または第１６の態様に係る化合物創出方法をコンピュータに実行させる。第１７の態様における「コンピュータ」は、ＣＰＵ（Central Processing Unit）等の各種プロセッサを１つ以上用いて実現することができる。なお、第１７の態様に係る化合物創出プログラムのコンピュータ読み取り可能なコードが記録された非一時的記録媒体も、本発明の態様として挙げることができる。

　上述した目的を達成するため、本発明の第１８の態様に係る化合物創出装置は複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出装置であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、第１の不変量化特徴量と、を関連付けて記憶する記憶部と、タンパク質以外の標的生体高分子との結合が確認されている化合物である結合化合物について、第２の態様に係る特徴量算出方法を用いて第１の不変量化特徴量を算出する特徴量算出部と、複数の化合物の立体構造を教師データとし、第１の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築部と、生成器を用いて、結合化合物の第１の不変量化特徴量から標的化合物の立体構造を生成する化合物立体構造生成部と、を有する。

　第１８の態様によれば、第１５または第１６の態様と同様に、検索をせずに、結合化合物の特徴量（第１の不変量化特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。なお第１５または第１６の態様と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。

　上述した目的を達成するため、本発明の第１９の態様に係る化合物創出装置は複数の化合物から標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出装置であって、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、第２の不変量化特徴量と、を関連付けて記憶する記憶部と、標的生体高分子との結合が確認されている化合物である結合化合物について、第４の態様に係る特徴量算出方法を用いて第２の不変量化特徴量を算出する特徴量算出部と、複数の化合物の立体構造を教師データとし、第２の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築部と、生成器を用いて、結合化合物の第２の不変量化特徴量から標的化合物の立体構造を生成する化合物立体構造生成部と、を備える。

　第１９の態様によれば、第１５または第１６の態様と同様に、検索をせずに、結合化合物の特徴量（第２の不変量化特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。なお第１５または第１６の態様と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。

　以上説明したように、本発明の特徴量算出方法、特徴量算出プログラム、及び特徴量算出装置によれば、対象構造体の化学的性質を的確に示す特徴量を算出することができる。また、本発明のスクリーニング方法、スクリーニングプログラム、及びスクリーニング装置によれば医薬候補化合物のスクリーニングを効率よく行うことができる。また、本発明の化合物創出方法、化合物創出プログラム、及び化合物創出装置によれば医薬候補化合物の立体構造を効率よく創出することができる。

図１は、第１の実施形態に係るスクリーニング装置の構成を示すブロック図である。図２は、処理部の構成を示すブロック図である。図３は、記憶部に記憶される情報を示す図である。図４は、化合物の構造情報と特徴量とを関連付けて記憶する様子を示す図である。図５は、化合物の３次元ＡＡＭ特徴量の算出手順を示すフローチャートである。図６は、構造式の３次元化の例を示す図である。図７は、３次元ＡＡＭ特徴量の例を示す図である。図８は、３次元ＡＡＭ特徴量の例を示す表である。図９は、ポケット構造体についての３次元ＡＡＭ記述子の手順を示すフローチャートである。図１０は、ポケット構造体についての３次元ＡＡＭ記述子の様子を示す概念図である。図１１は、不変量化ＡＡＭ記述子の例を示す図である。図１２は、不変量化ＡＡＭ記述子が類似である化合物の例を示す図である。図１３は、不変量化ＡＡＭ記述子を用いた場合のヒットの見つけやすさを示す図である。図１４は、不変量化ＡＡＭ記述子を用いた場合のヒットの探索時間を示す図である。図１５は、不変量化ＡＡＭ記述子を用いた場合のヒットの探索時間を示す他の図である。図１６は、記述子の類似度に基づく標的化合物の抽出手順を示す図である。図１７は、記述子の類似度に基づく標的化合物の抽出結果の例を示す表である。図１８は、記述子の類似度に基づく標的化合物の抽出手順を示す他の図である。図１９は、記述子の類似度に基づく標的化合物の抽出結果の例を示す他の表である。図２０は、第２の実施形態に係る化合物創出装置の構成を示すブロック図である。図２１は、処理部の構成を示す図である。図２２は、記憶部に記憶される情報を示す図である。図２３は、リガンド入力の場合の立体構造生成手順を示すフローチャートである。図２４は、機械学習の結果を用いた立体構造生成の様子を示す図である。図２５は、中間層の数とｃｏｓ類似度との関係を示す図である。図２６は、立体構造の生成例を示す図である。図２７は、標的タンパク質入力の場合の立体構造生成手順を示す図である。図２８は、第３の実施形態に係る医薬候補化合物探索装置の構成を示すブロック図である。図２９は、処理部の構成を示す図である。図３０は、記憶部に記憶される情報を示す図である。図３１は、ヒットの見つけやすさの比較結果を示す図である。図３２は、ヒットの見つけやすさの比較結果を示す他の図である。図３３は、ヒットの見つけやすさの比較結果を示すさらに他の図である。図３４は、階層型ネットワークの構成例を示す図である。図３５は、階層型ネットワークの構成例を示す他の図である。

　以下、添付図面を参照しつつ、本発明の特徴量算出方法、スクリーニング装置、及び化合物創出装置の実施形態について、詳細に説明する。

　＜第１の実施形態＞
　図１は第１の実施形態に係るスクリーニング装置１０（特徴量算出装置、スクリーニング装置）の構成を示すブロック図である。スクリーニング装置１０は化合物（対象構造体）及び／またはポケット構造体（対象構造体）についての特徴量の算出、及び標的化合物の抽出（スクリーニング）を行う装置であり、コンピュータを用いて実現することができる。図１に示すように、スクリーニング装置１０は処理部１００、記憶部２００、表示部３００、及び操作部４００を備え、互いに接続されて必要な情報が送受信される。これらの構成要素については各種の設置形態を採用することができ、各構成要素が１箇所（１筐体内、１室内等）に設置されていてもよいし、離れた場所に設置されネットワークを介して接続されていてもよい。また、スクリーニング装置１０はインターネット等のネットワークＮＷを介して外部サーバ５００、及びＰＤＢ（Protein Data Bank）等の外部データベース５１０に接続し、必要に応じて化合物の構造式、タンパク質の結晶構造等の情報を取得することができる。

　＜処理部の構成＞
　図２は処理部１００の構成を示す図である。処理部１００は情報入力部１１０、特徴量算出部１２０、類似度算出部１３０、化合物抽出部１４０、表示制御部１５０、ＣＰＵ１６０（ＣＰＵ：Central Processing Unit）、ＲＯＭ１７０（ＲＯＭ：Read Only Memory）、及びＲＡＭ１８０（ＲＡＭ：Random Access Memory）を備える。

　情報入力部１１０は、不図示のＤＶＤドライブ、半導体メモリ用端子等の記録媒体インタフェース及び／またはネットワークＮＷを介して化合物の構造式、標的タンパク質のＸ結晶構造及びポケット位置等の情報を入力する。特徴量算出部１２０（対象構造体指定部、立体構造発生部、特徴量算出部、不変量化部）は、本発明に係る特徴量（第１の特徴量、第１の不変量化特徴量、第２の特徴量、第２の不変量化特徴量、第３の特徴量、第３の不変量化特徴量）を算出する。類似度算出部１３０（類似度算出部）は、算出した特徴量どうしの類似度を算出する。化合物抽出部１４０（化合物抽出部）は、複数の化合物から類似度に基づいて標的化合物を抽出する。表示制御部１５０は、入力した情報及び処理結果のモニタ３１０への表示を制御する。処理部１００のこれらの機能を用いた特徴量算出及び標的化合物のスクリーニングの処理については、詳細を後述する。なお、これらの機能による処理はＣＰＵ１６０の制御の下で行われる。

　上述した処理部１００の各部の機能は、各種のプロセッサ（processor）を用いて実現できる。各種のプロセッサには、例えばソフトウェア（プログラム）を実行して各種の機能を実現する汎用的なプロセッサであるＣＰＵが含まれる。また、上述した各種のプロセッサには、画像処理に特化したプロセッサであるＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）も含まれる。さらに、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路なども上述した各種のプロセッサに含まれる。

　各部の機能は１つのプロセッサにより実現されてもよいし、同種または異種の複数のプロセッサ（例えば、複数のＦＰＧＡ、あるいはＣＰＵとＦＰＧＡの組み合わせ、またはＣＰＵとＧＰＵの組み合わせ）で実現されてもよい。また、複数の機能を１つのプロセッサで実現してもよい。複数の機能を１つのプロセッサで構成する例としては、第１に、クライアント、サーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の機能として実現する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、システム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の機能は、ハードウェア的な構造として、上述した各種のプロセッサを１つ以上用いて構成される。さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

　上述したプロセッサあるいは電気回路がソフトウェア（プログラム）を実行する際は、実行するソフトウェアのコンピュータ（例えば、処理部１００を構成する各種のプロセッサや電気回路、及び／またはそれらの組み合わせ）で読み取り可能なコードをＲＯＭ１７０（図２を参照）等の非一時的記録媒体に記憶しておき、プロセッサがそのソフトウェアを参照する。非一時的記録媒体に記憶しておくソフトウェアは、本発明に係る特徴量算出方法及び標的化合物の抽出処理を実行するためのプログラム（特徴量算出プログラム及びスクリーニングプログラム）を含む。ＲＯＭ１７０ではなく各種光磁気記録装置、半導体メモリ等の非一時的記録媒体にコードを記録してもよい。ソフトウェアを用いた処理の際には例えばＲＡＭ１８０が一時的記憶領域として用いられ、また例えば不図示のＥＥＰＲＯＭ（Electronically Erasable and Programmable Read Only Memory）に記憶されたデータを参照することもできる。

　＜記憶部の構成＞
　記憶部２００はＤＶＤ（Digital Versatile Disk）、ハードディスク（Hard Disk）、各種半導体メモリ等の非一時的記録媒体及びその制御部により構成され、図３に示す画像及び情報が記憶される。構造情報２１０は化合物の構造式、標的タンパク質の立体構造及びポケット位置を含む。立体構造情報２２０は、構造情報２１０から発生させた化合物及び／またはポケット構造体の立体構造の情報である。３次元ＡＡＭ記述子２３０は、化合物またはポケット構造体の立体構造の周辺における１種類以上のアミノ酸の集積度合いを３次元空間において定量化した特徴量であり、後述する特徴量算出方法により算出される。なお、「ＡＡＭ」は「アミノ酸マッピング（Amino Acid Mapping）」を意味する。不変量化ＡＡＭ記述子２４０は、３次元ＡＡＭ記述子２３０を化合物またはポケット構造体の回転及び並進について不変量化した特徴量である。類似度情報２５０は特徴量どうしの類似度を示す情報であり、化合物抽出結果２６０は類似度に基づいて抽出した標的化合物を示す情報である。

　図４は、Ｎ個（Ｎは２以上の整数）の化合物について、構造情報２１０、立体構造情報２２０、３次元ＡＡＭ記述子２３０、及び不変量化ＡＡＭ記述子２４０が関連付けられて記憶部２００に記憶される様子を示す図である。図４において、例えば構造式を構造情報２１０とし、立体化した構造式（後述）を立体構造情報２２０とすることができる。また図４では、各化合物に対し、２０種類のアミノ酸のそれぞれについて、３次元ＡＡＭ記述子２３０（“ｇ_ａ(ｒ)”のように記載；ａはアミノ酸の種類を表す添字）と、その３次元ＡＡＭ記述子２３０に対応する不変量化ＡＡＭ記述子２４０（“Ｆ_ａｂ(ｓ)”のように記載；ａ，ｂはアミノ酸の種類を表す添字）を関連付けて記憶している。３次元ＡＡＭ記述子２３０及び不変量化ＡＡＭ記述子２４０は、２０種類のアミノ酸すべてについてではなく、スクリーニングに用いる記述子の数に応じて一部のアミノ酸について記憶してもよい。

　記憶部２００において、図４に示すような情報のセット（ライブラリ）を複数記憶してもよい。なお、図４では化合物についての情報の記憶の様子を示したが、標的タンパク質についても同様の構成で情報を記憶することができる。また、このような構造情報及び立体構造情報を用いた３次元ＡＡＭ記述子及び／または不変量化ＡＡＭ記述子の算出方法は後述する。

　＜表示部及び操作部の構成＞
　表示部３００はモニタ３１０（表示装置）を備えており、入力した画像、記憶部２００に記憶された画像及び情報、処理部１００による処理の結果等を表示することができる。操作部４００は入力デバイス及び／またはポインティングデバイスとしてのキーボード４１０及びマウス４２０を含んでおり、ユーザはこれらのデバイス及びモニタ３１０の画面を介して、本発明に係る特徴量算出方法の実行及び標的化合物の抽出に必要な操作を行うことができる（後述）。ユーザが実行できる操作には、例えば処理モード、算出する記述子の種類、スクリーニングに用いる記述子、類似度に対するしきい値の指定等が含まれる。

　＜スクリーニング装置における処理＞
　上述した構成のスクリーニング装置１０では、操作部４００を介したユーザの指示に応じて、特徴量（記述子）の算出及び／または標的化合物の抽出を行うことができる。以下、各処理の詳細を説明する。

　＜特徴量の算出＞
　スクリーニング装置１０は、操作部４００を介したユーザの指示に応じて、３次元ＡＡＭ記述子及び／または不変量化ＡＡＭ記述子を算出することができる。

　＜化合物に対する３次元ＡＡＭ記述子の算出＞
　図５は、化合物（対象構造体）についての３次元ＡＡＭ記述子の算出手順を示すフローチャートである。なおリガンドは標的タンパク質との結合が確認されている化合物であり、図５の手順で３次元ＡＡＭ記述子を算出することができる。ステップＳ１００で、情報入力部１１０はユーザの操作に応じて化合物の構造式を入力する。これにより、入力した化学式で表される化合物が対象構造体として指定される（対象構造体指定工程）。

　特徴量算出部１２０は、入力した構造式を３次元化して、複数の原子（化学的性質を有する複数の単位構造体）による化合物の立体構造を発生させる（ステップＳ１０２：立体構造発生工程）。構造式の３次元化は種々の手法が知られており、ステップＳ１０２で用いる手法は特に限定されない。図６は構造式の立体化の例、（ａ）部分は入力した構造式、（ｂ）部分は３次元化した構造式を示す。

　特徴量算出部１２０は、でアミノ酸“ａ”（ａはアミノ酸の種類を表す数字；１から２０）の各原子“μ”が感じる自由エネルギーの空間分布ΔＧ_aμ(r)を算出する（ステップＳ１０４；特徴量算出工程）。ΔＧ_aμ(r)の算出方法としては分子動力学法（MD：Molecular Dynamics）を採用することができるが、これに限定されない。特徴量を算出するアミノ酸はあらかじめ決められた種類でもよいし、ユーザの指示に応じて決定してもよい（１種類以上であればよく、複数種類でもよい）。

　特徴量算出部１２０は、ΔＧ_aμ(r)からアミノ酸“ａ”の各原子“μ”の分布関数ｇ_aμ(r)を算出する（ステップＳ１０６：特徴量算出工程）。ｇ_aμ(r)は、Ｔを室温、Ｋ_Ｂをボルツマン定数とすると、以下の式（１）により表される。

　特徴量算出部１２０は、分布関数ｇ_aμ(r)からアミノ酸の重心の分布関数ｇ_a(r)を算出する（ステップＳ１０８：特徴量算出工程）。算出のためには、ｇ_aμ(r)を各原子“μ”について相乗平均する。この分布関数ｇ_a(r)が、化合物の立体構造の周辺における１種類以上のアミノ酸“ａ”の集積度合いを３次元空間において定量化した３次元ＡＡＭ記述子である。特徴量算出部１２０は、算出した３次元ＡＡＭ記述子を、３次元ＡＡＭ記述子２３０として化合物の構造情報（構造情報２１０）、立体構造情報（立体構造情報２２０）と関連付けて記憶部２００に記憶する（図４参照）。

　図７は、図６に示す化合物についての３次元ＡＡＭ記述子の例である。（ａ）部分はアラニンについての３次元ＡＡＭ記述子を示し、（ｂ）部分はバリンについての３次元ＡＡＭ記述子を示す。図７において色の濃い領域は、アミノ酸の集積度合い（存在確率）が高い領域である。図８は図６に示す化合物についての３次元ＡＡＭ記述子の他の例を示す表であり、それぞれ異なる方向１、方向２、方向３（それぞれ表の１段目、２段目、３段目）についての３次元ＡＡＭ記述子を示す。表の左欄は３次元ＡＡＭ記述子（しきい値に対する等高面）を示し、右欄は３次元ＡＡＭ記述子（しきい値に対する等高面）及び化合物の立体構造を示す。

　＜ポケット構造体に対する３次元ＡＡＭ記述子の算出＞
　スクリーニング装置１０では、化合物ではなく標的タンパク質に結合するポケット構造体を対象構造体として指定し、このポケット構造体に対する特徴量（３次元ＡＡＭ記述子）を算出することができる。ポケット構造体は標的タンパク質の活性部位であるポケットに結合する対象構造体であり、「活性部位」とはポケット構造体が結合することにより標的タンパク質の活性が促進または抑制される部位を意味する。図９はポケット構造体に対する３次元ＡＡＭ記述子の算出手順を示すフローチャートである。また、図１０はポケット構造体に対する３次元ＡＡＭ記述子の様子を示す概念図である。

　図９のフローチャートでは、情報入力部１１０が標的タンパク質の立体構造の実測及びポケットの位置情報を入力する（ステップＳ２００：対象構造体指定工程）。図１０の（ａ）部分は、標的タンパク質ＴＰにおけるポケットＰＯを示す。ステップＳ２００の処理によりポケット構造体が対象構造として指定される。

　特徴量算出部１２０は、標的タンパク質のポケットに複数の仮想的球体（化学的性質を有する複数の単位構造体）を詰める（ステップＳ２０２：対象構造体指定工程、立体構造発生工程）。「仮想的球体」はファンデルワールス半径、電荷等の化学的性質を有すると考えることができ、「仮想的球体を詰める」のはシミュレーション（例えば分子動力学法）により行うことができる。ステップＳ２０２により、詰められた仮想的球体の集まり（立体構造）をポケット構造体（対象構造体）の立体構造として得ることができる（ステップＳ２０４：立体構造発生工程）。図１０の（ｂ）部分に、標的タンパク質ＴＰに対するポケット構造体ＰＳの例を示す。

　特徴量算出部１２０は、標的タンパク質の立体構造の実測を用いて、ポケット構造体の周辺への１種類以上のアミノ酸の集積度合いを３次元で定量化する（ステップＳ２０６：特徴量算出工程）。実際に、ポケット構造体の周辺にどの種類のアミノ酸が集積しているか読み出すことが可能である。図１０の（ｃ）部分は、ポケット構造体ＰＳの周辺に３種類のアミノ酸Ａ１，Ａ２，Ａ３が集積している様子を示す。なお集積度合いを定量化するアミノ酸は１種類以上であればよい（複数種類でもよい）。またあらかじめ決められた種類のアミノ酸について定量化してもよいし、ユーザの操作に応じて設定したアミノ酸について定量化してもよい。特徴量算出部１２０は、算出した３次元ＡＡＭ記述子を、３次元ＡＡＭ記述子２３０として化合物の構造情報（構造情報２１０）、立体構造情報（立体構造情報２２０）と関連付けて記憶部２００に記憶する（図３，４参照；記憶工程）。後述する不変量化ＡＡＭ記述子が算出されている場合は、特徴量算出部１２０は３次元ＡＡＭ記述子と不変量化ＡＡＭ記述子との関連付けを行う。

　＜３次元ＡＡＭ記述子の不変量化＞
　上述した３次元ＡＡＭ記述子はアミノ酸の３次元的な集積度合いを示しているが、化合物が同じでも重心移動、回転等が起きると値が変化し、また３次元情報であるのでデータ容量が大きい。そこで第１の実施形態に係るスクリーニング装置１０では、３次元ＡＡＭ記述子に加え、またはこれに代えて「３次元ＡＡＭ記述子を化合物の回転及び並進に対して不変量化した不変量化ＡＡＭ記述子」（不変量化特徴量）を算出することができる。なお、化合物の場合もポケット構造体の場合も、同じ手順で不変量化を行うことができる。化合物についての３次元ＡＡＭ記述子を用いた場合は化合物についての不変量化ＡＡＭ記述子が得られ、ポケット構造体についての３次元ＡＡＭ記述子を用いた場合はポケット構造体についての不変量化ＡＡＭ記述子が得られる。

　特徴量算出部１２０（不変量化部）は、以下の式（２）に示すようにフーリエ変換を用いてｆ_ａ(ｋ)を算出する（不変量化工程）。上述したように、“ａ”はアミノ酸の種類を示す添字（１～２０）である。また、“ｉ”は虚数単位である。

　特徴量算出部１２０は、このｆ_ａ(ｋ)を用いて以下の式（３）により不変量化ＡＡＭ記述子であるＦ_ａｂ(ｓ)（不変量化特徴量）を算出することができる（不変量化工程）。式（３）では、２種類の異なるアミノ酸（“ａ”，“ｂ”で示す）についての３次元ＡＡＭ記述子（ｇ_ａ(ｒ)，ｇ_ｂ(ｒ)）を用いて、相関関数の角度積分により不変量化ＡＡＭ記述子を算出する。なお、２０種類のアミノ酸のうちで不変量化ＡＡＭ記述子の算出に用いる２種類のアミノ酸の組合せは特に限定されない。

　式（３）では不変量化の際にデルタ関数を用いているが、以下の式（４）に示すように、任意の関数（ｈ(ｋ^２－ｓ)）を用いて不変量化を行うことができる。

　このようにして算出した不変量化ＡＡＭ記述子の例を図１１に示す。図１１の（ａ）部分は不変量化ＡＡＭ記述子であるＦ_１２(ｓ)（アミノ酸１，２についての不変量化ＡＡＭ記述子）の実部であり、（ｂ）部分は虚部である。このように２種類の異なるアミノ酸についての３次元ＡＡＭ記述子を用いて不変量化を行うことで、アミノ酸の相互作用の情報を維持しつつ不変量化を行うことができ、特徴量（不変量化特徴量）に基づく化合物の比較（薬効判定）を正確に行うことができる。

　特徴量算出部１２０は、算出した不変量化ＡＡＭ記述子を、不変量化ＡＡＭ記述子２４０として化合物の構造情報（構造情報２１０）、立体構造情報（立体構造情報２２０）、及び元の３次元ＡＡＭ記述子２３０と関連付けて記憶部２００に記憶する（図３，４参照；記憶工程）。なお、第１の実施形態では２種類の異なるアミノ酸についての３次元ＡＡＭ記述子を用いて不変量化ＡＡＭ記述子を算出するので、３次元ＡＡＭ記述子と不変量化ＡＡＭ記述子との関連付けも複数ありうる。

　＜不変量化ＡＡＭ記述子の有効性評価＞
　上述の処理により算出した不変量化ＡＡＭ記述子の有効性を説明する。

　＜類似の不変量化ＡＡＭ記述子を有する化合物の活性の例＞
　図１２の（ａ）部分は、タンパク質ＡＢＬ１（標的タンパク質の一例）に対するリガンドの構造式を示す。このリガンドの結合力は、ＩＣ５０（５０％阻害濃度）で１μＭレベルである。これに対し、図１２の（ｂ）部分はリガンドとほぼ同じ不変量化ＡＡＭ記述子を持つ化合物の構造式である。この化合物の活性を実測すると、リガンドと同じレベルであった。すなわち、図１１は不変量化ＡＡＭ記述子が類似の化合物が類似の薬効を有することを示す例である。このように、第１の実施形態によれば対象構造体の化学的性質を的確に示す特徴量（不変量化ＡＡＭ記述子）を得ることができる。

　＜ヒットの見つけやすさ＞
　以下の手順１～５により、不変量化ＡＡＭ記述子によるヒットの見つけやすさを評価した。
（手順１）あるタンパク質（標的タンパク質）に対して、ヒット化合物Ｘ個とヒットでない化合物Ｙ個とを混ぜる。
（手順２）（Ｘ＋Ｙ）個の化合物すべてについて、不変量化ＡＡＭ記述子を計算する。
（手順３）記述子ごとの類似度を算出する。
（手順４）（Ｘ＋Ｙ）個の化合物を、不変量化ＡＡＭ記述子の類似度に基づいてチーム分けする。
（手順５）ヒットが集まったチームが機械的に発生するかどうかチェックする。

　タンパク質ＡＢＬ１（キナーゼ）に対し１８３個のヒットを含む１０，９３３個の化合物（ヒット含有率１．６％）を上述の手順によりチーム分けしたところ、２２１チームに分かれた。あるチームは１６個のヒットとその他の化合物を１４個含んでおり、ヒット含有率は５３．３％であった。またこのチームは図１２の（ａ）部分に示す化合物及び（ｂ）部分に示す化合物を含んでいたが、従来の記述子であるFingerprintを用いた場合、これら化合物の類似度は２５％であり、本来ならばヒットであるにも関わらず別物と認識されていた。このように、上述のチームにおいて本発明の第１の実施形態に係る不変量化ＡＡＭ記述子を用いた場合、Fingerprintではまとまらなかったヒットでも同一チームに属することが分かる。

　上述した２２１チームについて、チームごとのヒットの見つけやすさ（＝期待値；ヒット数×ヒット含有率）を求めた結果を図１３に示す。比較のため、ランダムにチーム分けした場合、及びFingerprintを用いてチーム分けした場合の結果を示す。この結果より、上述の化合物群に対し不変量化ＡＡＭ記述子を用いた場合、ランダムなチーム分けやFingerprintを用いたチーム分けよりも多くのヒットを含むチームが発生することが分かる。なお、図１３においてチーム番号はチーム分け方法（ランダム、不変量化ＡＡＭ記述子、Fingerprint）によって異なるので、チーム分けの優劣は、同一のチーム番号での期待値を比較するのではなく「期待値の高い（より多くのヒットを含む）チームが含まれるかどうか」により判断している。

　＜ヒット探索時間（その１）＞
　図１４は、上述した化合物群についてのImportance Sampling（重点サンプリング）のシミュレーション結果を示すグラフである。第１の実施形態に係る不変量化ＡＡＭ記述子を用いた場合、ランダムなチーム分けの場合と比較したヒット探索時間（同じヒット数を発見するための薬効評価の回数）は、５０％探索の場合で約２分の１、２５％探索の場合約４分の１に短縮された。一方、Fingerprintを用いたチーム分けの場合、ヒット探索時間は短縮しなかった。なお、ここでのImportance Samplingのシミュレーションとは、チームごとに優先度を表す変数を与え、測定ごとに、ヒットが出たチームの優先度を上げ、ヒットが出なかったチームの優先度を下げるように、変数を更新しながら、より少ない測定回数でより多くのヒットを集める方法を意味する。図１４では優先度の制御に機械学習手法の一種であるＮＢ法（NB：Naive Bayes）を用いた例を示したが、これに限定する必要はない。

　＜ヒット探索時間（その２）＞
　タンパク質ＡＡ２ＡＲに対する３２，４６４個の化合物（４８３個のヒットを含む）について、（その１）と同様にImportance Sampling（重点サンプリング）のシミュレーション結果を図１５に示す。タンパク質ＡＡ２ＡＲはＸ線結晶構造を得るのが困難な膜タンパクであるが、そのような膜タンパクの場合でも、ヒット探索時間は５０％探索で約２分の１まで短縮された。

　上述した不変量化ＡＡＭ記述子によれば、記述子が類似の化合物は類似した薬効（標的タンパク質への結合）を示すので、対象構造体（化合物、ポケット構造体）の化学的性質を的確に示す。３次元ＡＡＭ記述子を不変量化した不変量化ＡＡＭ記述子によれば、２種類の異なるアミノ酸についての３次元ＡＡＭ記述子を用いて不変量化を行うことで、記述子に基づく化合物の比較（薬効判定）を正確に行いつつ、扱いやすくデータ容量を削減することができる。さらに不変量化ＡＡＭ記述子によればヒットを見つけやすく、探索を高速化することができる。

　＜特徴量算出方法及び特徴量算出プログラムの効果＞
　以上説明したように、第１の実施形態に係るスクリーニング装置１０では、本発明に係る特徴量算出方法及び特徴量算出プログラムを用いて、対象構造体の化学的性質を的確に示す特徴量（３次元ＡＡＭ記述子、不変量化ＡＡＭ記述子）を算出することができる。

　＜標的化合物の抽出（スクリーニング）＞
　上述した３次元ＡＡＭ記述子、不変量化ＡＡＭ記述子を用いた、複数の化合物からの標的化合物（医薬候補化合物）の抽出について説明する。標的化合物の抽出はリガンドの記述子（３次元ＡＡＭ記述子、不変量化ＡＡＭ記述子）に基づいて行うモード（第１のモード）と標的タンパク質のポケット構造体の記述子（３次元ＡＡＭ記述子、不変量化ＡＡＭ記述子）に基づいて行うモード（第２のモード）がある。いずれのモードにより抽出を行うかは、操作部４００を介したユーザの操作に応じて選択することができる。

　＜リガンド入力のスクリーニング＞
　図１６はリガンドの３次元ＡＡＭ記述子を用いたスクリーニングの手順を示すフローチャートである。処理が開始すると、特徴量算出部１２０はリガンドの３次元ＡＡＭ記述子を算出する（ステップＳ３００：特徴量算出工程）。なおリガンドは標的タンパク質との結合が確認されている化合物なので、ステップＳ３００における３次元ＡＡＭ記述子の算出は図５のフローチャートに示す手順により算出することができる。

　図４について上述したように、スクリーニング装置１０では、複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、この立体構造に対応する３次元ＡＡＭ記述子とが関連付けて記憶部２００に記憶されている。類似度算出部１３０は、化合物についての３次元ＡＡＭ記述子と、ステップＳ３００で算出したリガンドの３次元ＡＡＭ記述子との類似度を算出する（ステップＳ３０２：類似度算出工程）。類似度を算出したら、化合物抽出部１４０は類似度に基づいて標的化合物を抽出する（ステップＳ３０４：標的化合物抽出工程）。上述のように３次元ＡＡＭ記述子が類似であれば類似の薬効（標的タンパク質への結合）を示すので、３次元ＡＡＭ記述子の類似度を用いることにより、リガンドと類似の薬効を有する化合物（すなわち、医薬候補である標的化合物）を抽出することができる。なお類似度に基づく標的化合物の抽出（ステップＳ３０４）は、具体的には「類似度がしきい値以上の化合物を抽出する」、「類似度が高い順に化合物を抽出する」等により行うことができる。

　図１６では３次元ＡＡＭ記述子を用いたスクリーニングの手順について説明しているが、不変量化ＡＡＭ記述子を用いたスクリーニングも同様の手順で行うことができる。具体的には、特徴量算出部１２０が図５の手順及び上述した式（２），（３）によりリガンドの不変量化ＡＡＭ記述子（不変量化特徴量）を算出し、類似度算出部１３０が、記憶部２００に記憶されている化合物の不変量化ＡＡＭ記述子との類似度を算出する。類似度を算出したら、化合物抽出部１４０が類似度に基づいて標的化合物を抽出する。類似度に基づく標的化合物抽出の具体的態様は、３次元ＡＡＭ記述子と同様に行うことができる。

　図１７はリガンド入力のスクリーニング結果の例を示す表である。図１７の（ａ）部分は３次元ＡＡＭ記述子を用い「類似度がしきい値以上の化合物を抽出する」とした場合の結果を示し、（ｂ）部分は不変量化ＡＡＭ記述子を用い「類似度が高い順に化合物を抽出する」とした場合の結果を示す。なお、図１７の（ａ）部分ではアミノ酸１についての３次元ＡＡＭ記述子（ｇ_１(ｒ)）に基づいて化合物を抽出しているが、他のアミノ酸（アミノ酸２～２０）についての３次元ＡＡＭ記述子（例えば、ｇ_２(ｒ)）に基づいて化合物を抽出してもよい。また、異なるアミノ酸についての複数の３次元ＡＡＭ記述子（例えば、ｇ_１(ｒ)とｇ_２(ｒ)）の類似度（ｇ_１(ｒ)どうしの類似度とｇ_２(ｒ)どうしの類似度）をそれぞれ算出し、これに基づいて化合物を抽出してもよい。化合物の抽出に用いる３次元ＡＡＭ記述子は１種類でよいが、複数種類の３次元ＡＡＭ記述子を用いることにより、類似度に基づく化合物の抽出を正確に行うことができる。なお、複数種類の３次元ＡＡＭ記述子を用いる場合、それら記述子の間でのアミノ酸の組み合わせは特に限定されない（例えば、ｇ_１(ｒ)とｇ_２(ｒ)でもよいし、ｇ_３(ｒ)とｇ_４(ｒ)でもよい）。

　同様に、図１７の（ｂ）部分ではアミノ酸１，２についての不変量化ＡＡＭ記述子（Ｆ_１２(ｓ)）に基づいて化合物を抽出しているが、不変量化ＡＡＭ記述子の算出を行うアミノ酸は他の組合せ（例えば、アミノ酸３，４によるＦ_３４(ｓ)）であってもよい。また、アミノ酸の組合せが異なる複数の不変量化ＡＡＭ記述子（例えば、Ｆ_１２(ｓ)とＦ_３４(ｓ)）に基づいて化合物の抽出を行ってもよい（例えば、Ｆ_１２(ｓ)どうしの類似度とＦ_３４(ｓ)どうしの類似度を用いる）。化合物の抽出に用いる不変量化ＡＡＭ記述子は１種類でよいが、複数種類の不変量化ＡＡＭ記述子を用いることにより、類似度に基づく化合物の抽出を正確に行うことができる。なお、複数種類の不変量化ＡＡＭ記述子を用いる場合、それら記述子の間でのアミノ酸の組み合わせは特に限定されない（例えば、Ｆ_１２(ｓ)とＦ_３４(ｓ)でもよいし、Ｆ_１２(ｓ)とＦ_１３(ｓ)でもよい）。いずれのアミノ酸について記述子及び類似度を算出するかは、操作部４００を介したユーザの指示に応じて処理部１００（特徴量算出部１２０、類似度算出部１３０、化合物抽出部１４０）が決定してもよいし、ユーザの指示によらず処理部１００が決定してもよい。

　なお、（ａ）部分では類似度のしきい値を８０％とし（ｂ）部分では抽出個数を１００個としているが、これらの値は例示であり、スクリーニングの精度等の条件に応じてしきい値及び抽出個数を設定することができる。設定は、操作部４００を介したユーザの入力に応じて行うことができる。また、図１７と逆に３次元ＡＡＭ記述子を用いた場合に「類似度が高い順に化合物を抽出する」とし、不変量化ＡＡＭ記述子を用いた場合に「類似度がしきい値以上の化合物を抽出する」としてもよい。化合物抽出部１４０は、図１７に示すような抽出結果を、化合物抽出結果２６０として記憶部２００に記憶させる（図３参照）。

　＜標的タンパク質入力のスクリーニング＞
　図１８は標的タンパク質のポケット構造体についての３次元ＡＡＭ記述子を用いたスクリーニングの手順を示すフローチャートである。処理が開始すると、特徴量算出部１２０は標的タンパク質のポケット構造体についての３次元ＡＡＭ記述子を算出する（ステップＳ４００：特徴量算出工程）。ステップＳ４００における３次元ＡＡＭ記述子の算出は図９のフローチャートに示す手順により算出することができる。類似度算出部１３０は、化合物についての３次元ＡＡＭ記述子と、ステップＳ４００で算出したポケット構造体についての３次元ＡＡＭ記述子との類似度を算出する（ステップＳ４０２：類似度算出工程）。類似度を算出したら、化合物抽出部１４０は類似度に基づいて標的化合物を抽出する（ステップＳ４０４：標的化合物抽出工程）。上述したリガンド入力の場合と同様に、類似度に基づく標的化合物の抽出（ステップＳ４０４）は、具体的には「類似度がしきい値以上の化合物を抽出する」、「類似度が高い順に化合物を抽出する」等により行うことができる。

　不変量化ＡＡＭ記述子を用いる場合も、図１８のフローチャートと同様の手順で標的化合物を抽出することができる。

　図１９は標的タンパク質入力のスクリーニング結果の例を示す表である。図１９の（ａ）部分は３次元ＡＡＭ記述子を用い「類似度がしきい値以上の化合物を抽出する」とした場合の結果を示し、（ｂ）部分は不変量化ＡＡＭ記述子を用い「類似度が高い順に化合物を抽出する」とした場合の結果を示す。類似度のしきい値及び抽出個数は、スクリーニングの精度等の条件に応じて設定することができる。設定は、操作部４００を介したユーザの入力に応じて行うことができる。また、図１９と逆に３次元ＡＡＭ記述子を用いた場合に「類似度が高い順に化合物を抽出する」とし、不変量化ＡＡＭ記述子を用いた場合に「類似度がしきい値以上の化合物を抽出する」としてもよい。

　標的タンパク質入力のスクリーニングの場合も、リガンド入力のスクリーニングの場合（図１７及びその説明を参照）と同様にアミノ酸の種類を変えてもよいし、異なるアミノ酸についての複数の記述子（３次元ＡＡＭ記述子、不変量化ＡＡＭ記述子）を用いてもよい。化合物の抽出に用いる記述子は１種類でよいが、複数種類の記述子を用いることにより、類似度に基づく化合物の抽出を正確に行うことができる。なお、複数種類の記述子を用いる場合、それら記述子の間でのアミノ酸の組み合わせは特に限定されない。いずれのアミノ酸について記述子及び類似度を算出するかは、操作部４００を介したユーザの指示に応じて処理部１００（特徴量算出部１２０、類似度算出部１３０、化合物抽出部１４０）が決定してもよいし、ユーザの指示によらず処理部１００が決定してもよい。

　化合物抽出部１４０は、図１９に示すような抽出結果を、化合物抽出結果２６０として記憶部２００に記憶させる（図３参照）。

　＜スクリーニング装置の効果＞
　以上説明したように、第１の実施形態に係るスクリーニング装置１０では、本発明に係る特徴量算出方法及び特徴量算出プログラムにより算出した特徴量（３次元ＡＡＭ記述子、不変量化ＡＡＭ記述子）を用いて、本発明に係るスクリーニング方法及びスクリーニングプログラムにより医薬候補化合物のスクリーニングを効率よく行うことができる。

　＜第２の実施形態＞
　本発明の第２の実施形態に係る化合物創出装置について説明する。図２０は化合物創出装置２０（特徴量算出装置、化合物創出装置）の構成を示すブロック図である。なお、第１の実施形態と同様の要素には同一の参照符号を付し、詳細な説明を省略する。

　化合物創出装置２０は処理部１０１を含む。処理部１０１は図２１のように構成され、情報入力部１１０、特徴量算出部１２０（特徴量算出部）、生成器構築部１３２（生成器構築部）、化合物立体構造生成部１４２（化合物立体構造生成部）、表示制御部１５０を含む。情報入力部１１０、特徴量算出部１２０、表示制御部１５０の機能は上述したスクリーニング装置１０における情報入力部１１０、特徴量算出部１２０、表示制御部１５０とそれぞれ同様である。これら各部の機能は、スクリーニング装置１０について上述したのと同様に、各種のプロセッサ（processor）を用いて実現することができる。

　図２２は記憶部２０１に記憶される情報を示す図である。記憶部２０１には、スクリーニング装置１０における化合物抽出結果２６０に代えて立体構造生成結果２７０が記憶される。記憶部２０１に記憶される情報は、図４について上述したのと同様に、互いに関連付けて記憶される。

　＜標的化合物の立体構造生成＞
　上述した３次元ＡＡＭ記述子、不変量化ＡＡＭ記述子を用いた、標的化合物（医薬候補化合物）の立体構造生成について説明する。化合物創出装置２０による標的化合物の立体構造生成では、検索を行わないので「スクリーニングによる検索の結果、解なし」となる場合でも化合物の立体構造を生成することができ、したがって医薬候補化合物の立体構造を効率よく創出することができる。立体構造の生成は、リガンドの記述子（３次元ＡＡＭ記述子、不変量化ＡＡＭ記述子）に基づいて行うモードと、標的タンパク質のポケット構造体の記述子（３次元ＡＡＭ記述子、不変量化ＡＡＭ記述子）に基づいて行うモードとがある。いずれのモードにより立体構造の生成を行うかは、操作部４００を介したユーザの操作に応じて選択することができる。

　＜リガンドが入力の立体構造生成＞
　図２３はリガンド入力の場合の立体構造生成手順を示すフローチャートである。処理が開始すると、特徴量算出部１２０はリガンドの記述子（３次元ＡＡＭ記述子）を算出する（ステップＳ５００：対象構造体指定工程、立体構造発生工程、特徴量算出工程）。ステップＳ５００の処理は、第１の実施形態と同様に本発明に係る特徴量算出方法及び特徴量算出プログラムを用いて行うことができる（図５～８及びそれらの図についての説明を参照）。

　ステップＳ５０２では、生成器構築部１３２は機械学習により生成器を構築する（生成器構築工程）。以下、図２４を参照してステップＳ５０２の処理を説明する。（Ｓｔｅｐ１）特徴量算出部１２０が複数の化合物について３次元ＡＡＭ記述子を算出し、構造式（立体化された構造式）と３次元ＡＡＭ記述子とのペア（３次元データどうし）を作る。（Ｓｔｅｐ２）生成器構築部１３２が、化合物の立体構造を教師データとし３次元ＡＡＭ記述子を説明変数とした機械学習（深層学習）により生成器を構築する。深層学習の手法は特定の手法に限定されず、例えば単純な全結合のニューラルネットでもよいし、畳み込みニューラルネット（ＣＮＮ：Convolutional Neural Network）でもよい。ただし、立体構造の生成精度は用いる学習手法に依存するので、立体構造の生成条件、要求精度等の条件に応じて学習手法を選択することが好ましい。生成器構築方法として、後述する付記１４，１５に記載の方法を用いてもよい。

　上述したＳｔｅｐ１，２の処理が終わると図２３のフローチャートに戻る。化合物立体構造生成部１４２は、構築した生成器を用いて、リガンドの３次元ＡＡＭ記述子から標的化合物（ヒット）の立体構造（立体化された構造式）を生成する（ステップＳ５０４：化合物立体構造生成工程）。これにより、リガンドと類似の薬効（標的タンパク質との結合）を有する化合物、すなわち医薬候補化合物の立体構造を得ることができる。なお、同一の３次元ＡＡＭ記述子を与える立体構造は複数存在しうる。化合物立体構造生成部１４２は、生成した立体構造を、立体構造生成結果２７０として３次元ＡＡＭ記述子（３次元ＡＡＭ記述子２３０）と関連付けて記憶部２０１に記憶させる（図２２参照）。操作部４００を介したユーザの指示に応じて、表示制御部１５０が、生成した立体構造をモニタ３１０に表示してもよい。

　なお、上述した手順において、機械学習のための３次元ＡＡＭ記述子を算出するアミノ酸は１種類でもよいし複数種類でもよい。ただし、複数種類のアミノ酸について３次元ＡＡＭ記述子を算出し学習に供することにより、生成される立体構造の精度を向上させることができる。なお、アミノ酸の種類が異なる複数の３次元ＡＡＭ記述子を用いる場合、それら記述子の間でのアミノ酸の組み合わせは特に限定されない。いずれのアミノ酸について３次元ＡＡＭ記述子を算出し学習に供するかは、操作部４００を介したユーザの指示に応じて処理部１００（特徴量算出部１２０、類似度算出部１３０、化合物抽出部１４０）が決定してもよいし、ユーザの指示によらず処理部１００が決定してもよい。

　＜立体構造の生成例＞
　機械学習により構築した生成器を用いて生成した立体構造の例について説明する。この例では単純な全結合のニューラルネットを用いてライブラリ化合物のうち１，８００個を上述の手法により学習し、残り２００個の化合物の立体構造がどの程度再現できるかを調べた。その結果を図２５に示す。ニューラルネットの中間層の数を増やすと、平均ｃｏｓ類似度は５９％になった。図２６はそのような類似度を示す例についての、３次元ＡＡＭ記述子から生成した立体構造（構造式）と正解構造式（それぞれ図２６の（ａ）部分、（ｂ）部分）を示す図である。

　＜教師データの特徴と生成される立体構造との関係＞
　上述した手順により生成される立体構造は、教師データとして与える化合物の特徴に影響される。したがって、教師データとして与える化合物の特徴を選択することで、特徴が異なる立体構造を有する化合物を生成できる。例えば、合成が容易な立体構造を有する化合物の３次元ＡＡＭ記述子を教師データとして与えることで、リガンドと類似の薬効を有し、かつ合成が容易な立体構造を有する化合物を生成することができる。どのような化合物についての３次元ＡＡＭ記述子を教師データとして与えるかは、生成したい化合物の特徴に合わせて選択することができる。

　＜不変量化ＡＡＭ記述子を用いた立体構造の生成＞
　図２３～２６では３次元ＡＡＭ記述子を用いた立体構造の生成について説明した。これに対し不変量化ＡＡＭ記述子（不変量化特徴量）を用いた場合も、３次元ＡＡＭ記述子を用いる場合と同様に、不変量化ＡＡＭ記述子を教師データとし立体構造（立体化した構造式）を説明変数とした機械学習（深層学習）により標的化合物の立体構造を生成することができる。

　＜標的タンパク質が入力の立体構造生成＞
　化合物創出装置２０では、上述したリガンド入力による立体構造生成に加えて、標的タンパク質を入力として標的化合物の立体構造を生成することができる。この場合も、リガンド入力の場合と同様に、３次元ＡＡＭ記述子を用いた立体構造生成と不変量化ＡＡＭ記述子を用いた立体構造生成とを行うことができる。

　図２７は、標的タンパク質が入力の場合（３次元ＡＡＭ記述子を用いるものとしている）の立体構造生成手順を示すフローチャートである。処理が開始すると、特徴量算出部１２０は標的タンパク質のポケット構造体の３次元ＡＡＭ記述子を算出する（ステップＳ６００：対象構造体指定工程、立体構造発生工程、特徴量算出工程）。ステップＳ６００の処理は、第１の実施形態と同様に本発明に係る特徴量算出方法を用いて行うことができる（図９，１０及びそれらの図についての説明を参照）。

　ステップＳ６０２では、生成器構築部１３２は、リガンド入力の場合と同様に機械学習（深層学習）により生成器を構築する（生成器構築工程）。生成器の構築は上述したＳｔｅｐ１，２と同様にして行うことができる。化合物立体構造生成部１４２は、構築した生成器を用いて、ポケット構造体の３次元ＡＡＭ記述子から標的化合物（ヒット）の立体構造（立体化された構造式）を生成する（ステップＳ６０４：化合物立体構造生成工程）。これにより、ポケット構造体と類似の薬効（標的タンパク質との結合）を有する化合物、すなわち医薬候補化合物の立体構造を得ることができる。なお、同一の３次元ＡＡＭ記述子を与える立体構造は複数存在しうる。化合物立体構造生成部１４２は、生成した立体構造を、立体構造生成結果２７０として３次元ＡＡＭ記述子（３次元ＡＡＭ記述子２３０）と関連付けて記憶部２０１に記憶させる（図２２参照）。操作部４００を介したユーザの指示に応じて、表示制御部１５０が、生成した立体構造をモニタ３１０に表示してもよい。

　＜化合物創出装置の効果＞
　以上説明したように、第２の実施形態に係る化合物創出装置２０では、本発明に係る特徴量算出方法及び特徴量算出プログラムにより算出した特徴量（３次元ＡＡＭ記述子、不変量化ＡＡＭ記述子）を用いて、本発明に係る化合物創出方法及び化合物創出プログラムにより医薬候補化合物の立体構造を効率よく創出することができる。

　＜第３の実施形態＞
　上述した第１の実施形態は特徴量の算出及びこれに基づくスクリーニングを行う態様であり、第２の実施形態は特徴量の算出及びこれに基づく標的化合物の立体構造創出を行う態様であるが、特徴量の算出に加えてスクリーニングと標的化合物の立体構造創出の両方を行ってもよい。そのため第３の実施形態に係る医薬候補化合物探索装置３０（特徴量算出装置、スクリーニング装置、化合物創出装置；図２８参照）では、図１に示すスクリーニング装置１０の処理部１００、あるいは図２０に示す化合物創出装置２０の処理部１０１に代えて図２８に示す処理部１０２を有する。図２９に示すように、処理部１０２は特徴量算出部１２０（特徴量算出部、不変量化部）、類似度算出部１３０（類似度算出部）、生成器構築部１３２（生成器構築部）、化合物抽出部１４０（化合物抽出部）、化合物立体構造生成部１４２（化合物立体構造生成部）を有し、特徴量の算出、スクリーニング、及び化合物の立体構造創出を行うことができる。また、医薬候補化合物探索装置３０はこれに合わせた情報を記憶部２０２に記憶する。具体的には、図３０に示すように、記憶部２００及び記憶部２０１に記憶される情報（図３，２２参照）が合わせて記憶部２０２に記憶される。

　その他の要素は図１に示すスクリーニング装置１０、図２０に示す化合物創出装置２０と同様であるので同一の参照符号を付し詳細な説明を省略する。

　上述した構成により、第３の実施形態に係る医薬候補化合物探索装置３０においても、スクリーニング装置１０、化合物創出装置２０と同様に、対象構造体の化学的性質を的確に示す特徴量を算出し、医薬候補化合物のスクリーニングを効率よく行い、医薬候補化合物の立体構造を効率よく創出することができる。

　以上で本発明の実施形態に関して説明してきたが、本発明は上述した態様に限定されず、以下に例示するように本発明の精神を逸脱しない範囲で種々の変形が可能である。

　＜扱える医薬のターゲット＞
　本発明では、医薬のターゲットとしてタンパク質以外に、ＤＮＡ（Deoxyribonucleic Acid）、ＲＮＡ（Ribonucleic Acid）、細胞膜、多糖を扱うことができる。ただし、第１～第３の実施形態において、アミノ酸を別のものに変更する必要がある。具体的には、ＤＮＡの場合はアミノ酸を核酸塩基へ変更し、ＲＮＡの場合はアミノ酸を核酸塩基へ変更し、細胞膜の場合はアミノ酸を脂質分子へ変更し、多糖の場合はアミノ酸を単糖分子へ変更する。以下では、この変更で、本発明でＤＮＡ、ＲＮＡ、細胞膜、多糖も扱える理由を説明する。タンパク質、ＤＮＡ、ＲＮＡ、細胞膜、多糖は纏めて生体高分子と呼ばれ、固有のビルディングブロックから成り立っている。具体的には、タンパク質のビルディングブロックはアミノ酸、ＤＮＡのビルディングブロックは核酸塩基、ＲＮＡのビルディングブロックは同様に核酸塩基、細胞膜のビルディングブロックは脂質分子、多糖のビルディングブロックは単糖分子である。タンパク質以外の生体高分子であるＤＮＡ、ＲＮＡ、細胞膜、多糖にも、タンパク質と同様に、活性部位であるポケットがあるため、本発明は、医薬のターゲット（標的生体高分子）がＤＮＡ、ＲＮＡ、細胞膜、多糖の場合にも、タンパク質の場合に示した第１～第３の実施形態において、アミノ酸をターゲットのビルディングブロックへ変更することで、対応できる。なお、化合物あるいはポケット構造体の周辺におけるアミノ酸、核酸塩基、脂質分子、単糖分子の集積度合いの定量化時に、水を考慮することもできる。

　＜扱える活性＞
　本発明では、「化合物による標的生体分子単独での活性」という通常の活性以外にも、「化合物による、標的生体分子に加えてその他の生体分子からなる複合体である細胞の活性」についても扱うことができる。

　＜（変形例１）アミノ酸以外の生体高分子についての特徴量及びその利用＞
　＜ターゲット及びプローブ＞
　医薬のターゲット（標的生体高分子）としてタンパク質以外の生体高分子（化合物）であるＤＮＡ、ＲＮＡ、細胞膜、多糖を扱う場合、特徴量の算出においてプローブはアミノ酸ではなく別の物質（各ターゲットのビルディングブロック）にする。具体的には、ターゲットが「ＤＮＡ、ＲＮＡ、細胞膜、多糖」の場合、プローブはそれぞれ「１種類以上の核酸塩基、１種類以上の核酸塩基、１種類以上の脂質分子、１種類以上の単糖分子」とする。また、これらをプローブとして集積度合いを定量化する際に、水、１種類以上のイオンを考慮してもよい。また、ターゲットが「ＤＮＡ、ＲＮＡ、細胞膜、多糖」のうち複数種類の生体高分子により構成される場合、プローブもターゲットの構成に応じて「１種類以上の核酸塩基、１種類以上の核酸塩基、１種類以上の脂質分子、１種類以上の単糖分子、水、１種類以上のイオン」のうち１つ以上（ターゲットの構成に応じた種類、数、及びそれらの組合せでよい）とすることができる。プローブを構成するイオンは、単原子イオンでもよいし多原子イオンでもよい。なお、いずれものプローブも、ファンデルワールス力を発生させることを前提とする。

　＜特徴量の算出及びスクリーニング＞
　特徴量（変形例１に係る特徴量）の算出及びスクリーニングを行う装置（特徴量算出装置、スクリーニング装置）の構成は、第１の実施形態と同様である（図１～３を参照）。ただし、図３における３次元ＡＡＭ記述子２３０に代えて変形例１に係る記述子を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて変形例１に係る不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第１の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、第１の実施形態に係る特徴量の算出（図５参照）におけるプローブとしての「アミノ酸」を「１種類以上の核酸塩基、１種類以上の脂質分子、１種類以上の単糖分子、水、１種類以上のイオンのうち１つ以上（任意の種類、数、及び組合せで良い）」として分布関数を算出して（式（１）参照）この分布関数から変形例１に係る特徴量を算出し、変形例１に係る特徴量をフーリエ変換して変形例１に係る不変量化特徴量を算出する（式（２）参照）。また、２種類の異なるプローブ（１種類以上の核酸塩基、１種類以上の脂質分子、１種類以上の単糖分子、水、及び１種類以上のイオンのうち１つ以上で構成される第１のプローブと、１種類以上の核酸塩基、１種類以上の脂質分子、１種類以上の単糖分子、水、及び１種類以上のイオンのうち１つ以上で構成される第２のプローブであって第１のプローブとは異なる第２のプローブ）についての変形例１に係る特徴量を用いて、相関関数の角度積分により変形例１に係る不変量化特徴量を算出してもよい（式（３）、（４）参照）。

　また、第１の実施形態における３次元ＡＡＭ記述子に代えて変形例１に係る特徴量を用いて、複数の化合物についての変形例１に係る特徴量と、結合化合物についての変形例１に係る特徴量の類似度に基づいて標的化合物を抽出することができる。類似度がしきい値以上の化合物を抽出してもよいし、類似度が高い順に化合物を抽出してもよい。

　＜特徴量の算出及び化合物の創出＞
　特徴量（変形例１に係る特徴量）の算出及び化合物の創出を行う装置（特徴量算出装置、化合物創出装置）の構成は、第２の実施形態と同様である（図２０～２２を参照）。ただし、図２２における３次元ＡＡＭ記述子２３０に代えて変形例１に係る記述子（変形例１に係る特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて変形例１に係る不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第２の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例１においては、化合物の立体構造を教師データとし、変形例１に係る特徴量を説明変数とした機械学習（深層学習）により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての変形例１に係る特徴量から標的生体高分子の立体構造を生成することができる。なお第１から第３の実施形態と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。

　第１から第３の実施形態について上述したのと同様に、化合物の薬効（ＤＮＡ等のターゲットへの結合力）は局所的には化合物と核酸塩基等（プローブ）との相互作用の結果として表されるので、化合物間で核酸塩基等の集積度合いが類似であれば、それら化合物はターゲットとの結合力が類似している。すなわち変形例１に係る特徴量が類似な化合物は類似の薬効を示す。したがって変形例１では、変形例１に係る特徴量により化合物の化学的性質を的確に示すことができる。また、標的生体高分子に結合する結合化合物と対象化合物とで変形例１に係る特徴量が類似ならば、両者の薬効が類似している。したがって変形例１によれば、変形例１に係る特徴量に基づいて結合化合物と薬効が類似した標的化合物を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。また変形例１によれば、上述した実施形態と同様に、検索をせずに結合化合物の特徴量（変形例１に係る特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。

　なお、特徴量算出、スクリーニング、及び化合物創出を行う場合（第３の実施形態に対応）は、図２８～３０と同様の構成により行うことができる。

　＜（変形例２）アミノ酸及びアミノ酸以外についての特徴量及びその利用＞
　＜ターゲット及びプローブ＞
　変形例２では、「タンパク質とタンパク質以外の生体高分子（ＤＮＡ、ＲＮＡ、細胞膜、多糖）との複合体」をターゲットとする。また、「１種類以上のアミノ酸」（第１のプローブ）と「１種類以上の核酸塩基、１種類以上の核酸塩基、１種類以上の脂質分子、１種類以上の単糖分子、水、１種類以上のイオンのうち１つ以上」（第２のプローブ；任意の種類、数、組合せでよい）とをプローブとする。第１，第２のプローブの構成（種類、数、及びそれらの組合せ）はターゲットの構成に応じて設定することができる。プローブを構成するイオンは、単原子イオンでもよいし多原子イオンでもよい。なお、いずれものプローブもファンデルワールス力を発生させることを前提とする。

　＜特徴量の算出及びスクリーニング＞
　特徴量（変形例２に係る特徴量）の算出及びスクリーニングを行う装置（特徴量算出装置、スクリーニング装置）の構成は、第１の実施形態と同様である（図１～３を参照）。ただし、図３における３次元ＡＡＭ記述子２３０に代えて変形例２に係る記述子（変形例２に係る特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて変形例２に係る不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第１の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、変形例２に係る特徴量の算出（図５参照）におけるプローブとしての「アミノ酸」を「１種類以上のアミノ酸」（第１のプローブ）と「１種類以上の核酸塩基、１種類以上の脂質分子、水、１種類以上の単糖分子、１種類以上のイオンのうち１つ以上」（第２のプローブ；任意の種類、数、組合せでよい）として分布関数を算出して（式（１）参照）この分布関数から変形例２に係る特徴量を算出し、変形例２に係る特徴量をフーリエ変換して変形例２に係る不変量化特徴量を算出する（式（２）参照）。また、「１種類以上のアミノ酸」（第１のプローブ）と「１種類以上の核酸塩基、１種類以上の脂質分子、１種類以上の単糖分子、水、１種類以上のイオンのうち１つ以上」（第２のプローブ；任意の種類、数、組合せでよい）とのうち少なくとも一方が異なる２種類のプローブについての変形例２に係る特徴量を用いて、相関関数の角度積分により変形例２に係る不変量化特徴量を算出してもよい（式（３）、（４）参照）。

　また、第１の実施形態における３次元ＡＡＭ記述子に代えて変形例２に係る特徴量を用い、複数の化合物についての変形例２に係る特徴量と、結合化合物についての変形例２に係る特徴量の類似度に基づいて標的化合物を抽出することができる。類似度がしきい値以上の化合物を抽出してもよいし、類似度が高い順に化合物を抽出してもよい。

　＜特徴量の算出及び化合物の創出＞
　特徴量（変形例２に係る特徴量）の算出及び化合物の創出を行う装置（特徴量算出装置、化合物創出装置）の構成は、第２の実施形態と同様である（図２０～２２を参照）。ただし、図２２における３次元ＡＡＭ記述子２３０に代えて変形例２に係る記述子（変形例２に係る特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて変形例２に係る不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第２の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例２においては、化合物の立体構造を教師データとし、変形例２に係る特徴量を説明変数とした機械学習（深層学習）により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての変形例２に係るから標的生体高分子の立体構造を生成することができる。なお第１から第３の実施形態及び変形例１と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。

　第１から第３の実施形態及び変形例１について上述したのと同様に、化合物の薬効（ターゲットへの結合力）は局所的には化合物とプローブとの相互作用の結果として表されるので、化合物間でプローブの集積度合いが類似であれば、それら化合物はターゲットとの結合力が類似している。すなわち変形例２に係る特徴量が類似な化合物は類似の薬効を示す。したがって変形例２では、変形例２に係る特徴量により化合物の化学的性質を的確に示すことができる。また、標的生体高分子に結合する結合化合物と対象化合物とで変形例２に係る特徴量が類似ならば、両者の薬効が類似している。したがって変形例２によれば、変形例２に係る特徴量に基づいて結合化合物と薬効が類似した標的化合物を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。また変形例２によれば、上述した実施形態及び変形例１と同様に、検索をせずに、結合化合物の特徴量（変形例２に係る特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。

　＜（変形例３）仮想的な点電荷等についての特徴量及びその利用＞
　＜ターゲット及びプローブ＞
　変形例３では生体高分子（化合物）をターゲットとし、「電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、電荷がゼロである第５の点電荷のうち１つ以上（任意の種類、数、及びそれらの組合せでよい）」（実数電荷を持ちファンデルワールス力を発生させる仮想的な点電荷）をプローブとする。これらの点電荷は「単一の点」の一例である。

　＜特徴量の算出及びスクリーニング＞
　特徴量（変形例３に係る特徴量；第２の特徴量、第２の不変量化特徴量）の算出及びスクリーニングを行う装置（特徴量算出装置、スクリーニング装置）の構成は、第１の実施形態と同様である（図１～３を参照）。ただし、図３における３次元ＡＡＭ記述子２３０に代えて第２の記述子（第２の特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて第２の不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第１の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、第１の実施形態に係る特徴量の算出（図５参照）におけるプローブとしての「アミノ酸」を「電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、電荷がゼロである第５の点電荷のうち１つ以上（任意の種類、数、及びそれらの組合せでよい）」として分布関数を算出して（式（１）参照）この分布関数から第２の特徴量を算出し、第２の特徴量をフーリエ変換して第２の不変量化特徴量を算出する（式（２）参照）。また、２種類の異なるプローブ（第１の点電荷、第２の点電荷、第３の点電荷、第４の点電荷、第５の点電荷のうち１つ以上で構成される第１のプローブと、第１の点電荷、第２の点電荷、第３の点電荷、第４の点電荷、第５の点電荷のうち１つ以上で構成される第２のプローブであって第１のプローブとは異なる第２のプローブ）についての第２の特徴量を用いて、相関関数の角度積分により第２の不変量化特徴量を算出してもよい（式（３）、（４）参照）。

　また、第１の実施形態における３次元ＡＡＭ記述子に代えて第２の特徴量を用い、複数の化合物についての第２の特徴量と、結合化合物についての第２の特徴量の類似度に基づいて標的化合物を抽出することができる。類似度がしきい値以上の化合物を抽出してもよいし、類似度が高い順に化合物を抽出してもよい。

　＜特徴量の算出及び化合物の創出＞
　特徴量（第２の特徴量）の算出及び化合物の創出を行う装置（特徴量算出装置、化合物創出装置）の構成は、第２の実施形態と同様である（図２０～２２を参照）。ただし、図２２における３次元ＡＡＭ記述子２３０に代えて第２の記述子（第２の特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて第２の不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第２の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例３においては、化合物の立体構造を教師データとし、第２の特徴量を説明変数とした機械学習（深層学習）により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての第２の特徴量から標的生体高分子の立体構造を生成することができる。なお第１から第３の実施形態及び変形例１、２と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。

　第１から第３の実施形態及び変形例１、２について上述したのと同様に、化合物の薬効（ターゲットへの結合力）は局所的には化合物とプローブとの相互作用の結果として表されるので、化合物間でプローブの集積度合いが類似であれば、それら化合物はターゲットとの結合力が類似している。すなわち第２の特徴量が類似な化合物は類似の薬効を示す。したがって変形例３では、第２の特徴量により化合物の化学的性質を的確に示すことができる。また、標的生体高分子に結合する結合化合物と対象化合物とで第２の特徴量が類似ならば、両者の薬効が類似している。したがって変形例３によれば、第２の特徴量に基づいて結合化合物と薬効が類似した標的化合物を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。また変形例３によれば、第１から第３の実施形態及び変形例１、２と同様に、検索をせずに、結合化合物の特徴量（第２の特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。

　＜（変形例４）アミノ酸及び仮想的な点電荷等についての特徴量及びその利用＞
　＜ターゲット及びプローブ＞
　変形例４では生体高分子（化合物）をターゲットとし、「１種類以上のアミノ酸である第１のプローブと、電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、第１の点電荷と第２の点電荷とが離間して配置されたダイポール、電荷がゼロである第５の点電荷のうち１つ以上（任意の種類、数、及び組合せで良い）である第２のプローブ」とをプローブとする。第２のプローブはダイポールを除く点電荷（第１～第５の点電荷のうち１つ以上）でもよい。第１から第５の点電荷は、「単一の点」の一例である。

　＜特徴量の算出及びスクリーニング＞
　特徴量（変形例４に係る特徴量）の算出及びスクリーニングを行う装置（特徴量算出装置、スクリーニング装置）の構成は、第１の実施形態と同様である（図１～３を参照）。ただし、図３における３次元ＡＡＭ記述子２３０に代えて変形例４に係る記述子（変形例４に係る特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて変形例４に係る不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第１の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、第１の実施形態に係る特徴量の算出（図５参照）におけるプローブとしての「アミノ酸」を「１種類以上のアミノ酸である第１のプローブと、電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、第１の点電荷と第２の点電荷とが離間して配置されたダイポール、電荷がゼロである第５の点電荷のうち１つ以上（任意の種類、数、及び組合せで良い）である第２のプローブ」として分布関数を算出して（式（１）参照）この分布関数から変形例４に係る特徴量を算出し、変形例４に係る特徴量をフーリエ変換して変形例４に係る不変量化特徴量を算出する（式（２）参照）。第２のプローブはダイポールを除く点電荷（第１～第５の点電荷のうち１つ以上）でもよい。また、第１のプローブと第２のプローブとのうち少なくとも一方が異なる２種類のプローブについての変形例４に係る特徴量を用いて、相関関数の角度積分により変形例４に係る不変量化特徴量を算出してもよい（式（３）、（４）参照）。

　また、第１の実施形態における３次元ＡＡＭ記述子に代えて変形例４に係る特徴量を用いて、複数の化合物についての変形例４に係る特徴量と、結合化合物についての変形例４に係る特徴量の類似度に基づいて標的化合物を抽出することができる。類似度がしきい値以上の化合物を抽出してもよいし、類似度が高い順に化合物を抽出してもよい。

　＜特徴量の算出及び化合物の創出＞
　特徴量（変形例４に係る特徴量）の算出及び化合物の創出を行う装置（特徴量算出装置、化合物創出装置）の構成は、第２の実施形態と同様である（図２０～２２を参照）。ただし、図２２における３次元ＡＡＭ記述子２３０に代えて変形例４に係る記述子（変形例４に係る特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて変形例４に係る不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第２の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例４においては、化合物の立体構造を教師データとし、変形例４に係る特徴量を説明変数とした機械学習（深層学習）により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての変形例４に係る特徴量から標的生体高分子の立体構造を生成することができる。なお第１から第３の実施形態と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。

　第１から第３の実施形態について上述したのと同様に、化合物の薬効（ターゲットへの結合力）は局所的には化合物とプローブとの相互作用の結果として表されるので、化合物間でプローブの集積度合いが類似であれば、それら化合物はターゲットとの結合力が類似している。すなわち変形例４に係る特徴量が類似な化合物は類似の薬効を示す。したがって変形例４では、変形例４に係る特徴量により化合物の化学的性質を的確に示すことができる。また、標的生体高分子に結合する結合化合物と対象化合物とで変形例４に係る特徴量が類似ならば、両者の薬効が類似している。したがって変形例４によれば、変形例４に係る特徴量に基づいて結合化合物と薬効が類似した標的化合物を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。また変形例４によれば、上述した実施形態と同様に、検索をせずに結合化合物の特徴量（変形例４に係る特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。

　＜（変形例５）核酸塩基等及び仮想的な点電荷等についての特徴量及びその利用＞
　＜ターゲット及びプローブ＞
　変形例５では生体高分子（化合物）をターゲットとし、「１種類以上の核酸塩基、１種類以上の脂質分子、水、１種類以上の単糖分子、１種類以上のイオンのうち１つ以上（任意の種類、数、及び組合せでよい）」である第１のプローブと、「電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、第１の点電荷と第２の点電荷とが離間して配置されたダイポール、電荷がゼロである第５の点電荷のうち１つ以上（任意の種類、数、及び組合せでよい）」である第２のプローブとをプローブとする。第１のプローブを１種類以上の単原子イオンとし、第２のプローブを点電荷（第１～第５の点電荷のうち１つ以上）としてもよい。「単原子イオン」及び「点電荷」は「単一の点」の一例である。

　＜特徴量の算出及びスクリーニング＞
　特徴量（変形例５に係る特徴量；第３の特徴量、第３の不変量化特徴量）の算出及びスクリーニングを行う装置（特徴量算出装置、スクリーニング装置）の構成は、第１の実施形態と同様である（図１～３を参照）。ただし、図３における３次元ＡＡＭ記述子２３０に代えて第３の記述子（第３の特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて第３の不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第１の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、第１の実施形態に係る特徴量の算出（図５参照）におけるプローブとしての「アミノ酸」を「１種類以上の核酸塩基、１種類以上の脂質分子、水、１種類以上の単糖分子、１種類以上のイオンのうち１つ以上（任意の種類、数、及び組合せでよい）」である第１のプローブと、「電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、第１の点電荷と第２の点電荷とが離間して配置されたダイポール、電荷がゼロである第５の点電荷のうち１つ以上（任意の種類、数、及び組合せでよい）」である第２のプローブとして分布関数を算出して（式（１）参照）この分布関数から第３の特徴量を算出し、第３の特徴量をフーリエ変換して第３の不変量化特徴量を算出する（式（２）参照）。また、第１のプローブと第２のプローブとのうち少なくとも一方が異なる２種類のプローブについての第３の特徴量を用いて、相関関数の角度積分により第３の不変量化特徴量を算出してもよい（式（３）、（４）参照）。上述のように、第１のプローブを１種類以上の単原子イオンとし、第２のプローブを点電荷（第１～第５の点電荷のうち１つ以上）としてもよい。「単原子イオン」及び「点電荷」は「単一の点」の一例である。

　また、第１の実施形態における３次元ＡＡＭ記述子に代えて第３の特徴量を用いて、複数の化合物についての第３の特徴量と、結合化合物についての第３の特徴量の類似度に基づいて標的化合物を抽出することができる。類似度がしきい値以上の化合物を抽出してもよいし、類似度が高い順に化合物を抽出してもよい。

　＜特徴量の算出及び化合物の創出＞
　特徴量（第３の特徴量）の算出及び化合物の創出を行う装置（特徴量算出装置、化合物創出装置）の構成は、第２の実施形態と同様である（図２０～２２を参照）。ただし、図２２における３次元ＡＡＭ記述子２３０に代えて第３の記述子（第３の特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて第３の不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第２の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例５においては、化合物の立体構造を教師データとし、第３の特徴量を説明変数とした機械学習（深層学習）により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての第３の特徴量から標的生体高分子の立体構造を生成することができる。なお第１から第３の実施形態と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。

　第１から第３の実施形態について上述したのと同様に、化合物の薬効（ターゲットへの結合力）は局所的には化合物とプローブとの相互作用の結果として表されるので、化合物間でプローブの集積度合いが類似であれば、それら化合物はターゲットとの結合力が類似している。すなわち第３の特徴量が類似な化合物は類似の薬効を示す。したがって変形例５では、第３の特徴量により化合物の化学的性質を的確に示すことができる。また、標的生体高分子に結合する結合化合物と対象化合物とで第３の特徴量が類似ならば、両者の薬効が類似している。したがって変形例５によれば、第３の特徴量に基づいて結合化合物と薬効が類似した標的化合物を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。また変形例５によれば、上述した実施形態と同様に、検索をせずに結合化合物の特徴量（第３の特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。

　＜（変形例６）アミノ酸、核酸塩基等、及び仮想的な点電荷等についての特徴量及びその利用＞
　＜ターゲット及びプローブ＞
　変形例６では生体高分子（化合物）をターゲットとし、「１種類以上のアミノ酸」である第１のプローブと、「１種類以上の核酸塩基、１種類以上の脂質分子、水、１種類以上の単糖分子、１種類以上のイオンのうち１つ以上（任意の種類、数、及び組合せで良い）」である第２のプローブと、「電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、第１の点電荷と第２の点電荷とが離間して配置されたダイポール、電荷がゼロである第５の点電荷のうち１つ以上（任意の種類、数、及び組合せで良い）」である第３のプローブと、をプローブとする。第２のプローブを１種類以上の単原子イオンとし、第３のプローブを第１～第５の点電荷のうち１つ以上としてもよい。「単原子イオン」及び「点電荷」は「単一の点」の一例である。

　＜特徴量の算出及びスクリーニング＞
　特徴量（変形例６に係る特徴量）の算出及びスクリーニングを行う装置（特徴量算出装置、スクリーニング装置）の構成は、第１の実施形態と同様である（図１～３を参照）。ただし、図３における３次元ＡＡＭ記述子２３０に代えて変形例６に係る記述子（変形例６に係る特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて変形例６に係る不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第１の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、第１の実施形態に係る特徴量の算出（図５参照）におけるプローブとしての「アミノ酸」を「１種類以上のアミノ酸」である第１のプローブと、「１種類以上の核酸塩基、１種類以上の脂質分子、水、１種類以上の単糖分子、１種類以上のイオンのうち１つ以上（任意の種類、数、及び組合せで良い）」である第２のプローブと、「電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、第１の点電荷と第２の点電荷とが離間して配置されたダイポール、電荷がゼロである第５の点電荷のうち１つ以上（任意の種類、数、及び組合せで良い）」である第３のプローブと、として分布関数を算出して（式（１）参照）この分布関数から変形例６に係る特徴量を算出し、変形例６に係る特徴量をフーリエ変換して変形例６に係る不変量化特徴量を算出する（式（２）参照）。また、第１のプローブと、第２のプローブと、第３のプローブとのうち少なくとも１つが異なる２種類のプローブについての変形例６に係る特徴量を用いて、相関関数の角度積分により変形例６に係る不変量化特徴量を算出してもよい（式（３）、（４）参照）。上述のように、第２のプローブを１種類以上の単原子イオンとし、第３のプローブを第１～第５の点電荷のうち１つ以上としてもよい。

　また、第１の実施形態における３次元ＡＡＭ記述子に代えて変形例６に係る特徴量を用いて、複数の化合物についての変形例６に係る特徴量と、結合化合物についての変形例６に係る特徴量の類似度に基づいて標的化合物を抽出することができる。類似度がしきい値以上の化合物を抽出してもよいし、類似度が高い順に化合物を抽出してもよい。

　＜特徴量の算出及び化合物の創出＞
　特徴量（変形例６に係る特徴量）の算出及び化合物の創出を行う装置（特徴量算出装置、化合物創出装置）の構成は、第２の実施形態と同様である（図２０～２２を参照）。ただし、図２２における３次元ＡＡＭ記述子２３０に代えて変形例６に係る記述子（変形例６に係る特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて変形例６に係る不変量化特徴量を算出及び記憶する。特徴量の算出及び化合物の創出手順は第２の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、化合物創出方法、及び化合物創出プログラムを用いることができる。変形例６においては、化合物の立体構造を教師データとし、変形例６に係る特徴量を説明変数とした機械学習（深層学習）により生成器を構築し、構築した生成器を用いて、標的生体高分子との結合が確認されている化合物である結合化合物についての変形例６に係る特徴量から標的生体高分子の立体構造を生成することができる。なお第１から第３の実施形態と同様に、教師データとして与える化合物の特徴を選択することにより、特徴が異なる立体構造を有する化合物を生成することができる。

　第１から第３の実施形態について上述したのと同様に、化合物の薬効（ターゲットへの結合力）は局所的には化合物とプローブとの相互作用の結果として表されるので、化合物間でプローブの集積度合いが類似であれば、それら化合物はターゲットとの結合力が類似している。すなわち変形例６に係る特徴量が類似な化合物は類似の薬効を示す。したがって変形例６では、変形例６に係る特徴量により化合物の化学的性質を的確に示すことができる。また、標的生体高分子に結合する結合化合物と対象化合物とで変形例６に係る特徴量が類似ならば、両者の薬効が類似している。したがって変形例６によれば、変形例６に係る特徴量に基づいて結合化合物と薬効が類似した標的化合物を抽出し、医薬候補化合物のスクリーニングを効率よく行うことができる。また変形例６によれば、上述した実施形態と同様に、検索をせずに結合化合物の特徴量（変形例６に係る特徴量）に特徴量が類似した（したがって薬効が類似した）化合物の構造式を生成するので、医薬候補化合物の立体構造を効率よく創出することができる。

　＜（変形例７）単原子イオンについての特徴量及びその利用＞
　＜ターゲット及びプローブ＞
　変形例７では化合物をターゲットとし、「１種類以上の単原子イオン」をプローブとする。単原子イオンは「単一の点」の一例である。

　＜特徴量の算出及びスクリーニング＞
　特徴量（変形例７に係る特徴量；第１の特徴量、第１の不変量化特徴量）の算出及びスクリーニングを行う装置（特徴量算出装置、スクリーニング装置）の構成は、第１の実施形態と同様である（図１～３を参照）。ただし、図３における３次元ＡＡＭ記述子２３０に代えて第１の記述子（第１の特徴量）を算出及び記憶し、不変量化ＡＡＭ記述子２４０に代えて第１の不変量化特徴量を算出及び記憶する。特徴量の算出及びスクリーニング手順は第１の実施形態と同様であり、本発明の特徴量算出方法、特徴量算出プログラム、スクリーニング方法、及びスクリーニングプログラムを用いることができる。具体的には、第１の実施形態に係る特徴量の算出（図５参照）におけるプローブとしての「アミノ酸」を「１種類以上の単原子イオン（任意の種類、数、及び組合せで良い）」として分布関数を算出して（式（１）参照）この分布関数から第１の特徴量を算出し、第１の特徴量をフーリエ変換して第１の不変量化特徴量を算出する（式（２）参照）。また、第１のプローブと第２のプローブとのうち少なくとも一方が異なる２種類のプローブ（１種類以上の単原子イオンで構成される第１のプローブと、１種類以上の単原子イオンで構成される第２のプローブであって第１のプローブとは異なる第２のプローブ）についての第１の特徴量を用いて、相関関数の角度積分により第１の不変量化特徴量を算出してもよい（式（３）、（４）参照）。

　＜各特徴量によるヒット数の比較＞
　図３１は、上述した図１３と同様の系（タンパク質ＡＢＬ１）について、化合物を対象構造体とする不変量化特徴量（アミノ酸をプローブとする不変量化特徴量、及びアミノ酸以外をプローブとする不変量化特徴量）によるヒットの見つけやすさを比較評価した結果の一例を示す図である。図３１によれば、記述子（特徴量）の種類によって効果（ヒット数の期待値）に差があるものの、ランダムの場合（図１３参照）と比較して期待値が向上することが分かる。なお、図３１は（チーム数＝１８３）でのクラスタリングの結果なので、「ＡＡＭ」についてのヒット数が図１３の場合（チーム数＝２２１でのクラスタリングの結果）と異なっている。このように、アミノ酸以外をプローブとする不変量化特徴量を用いる場合においても、医薬候補化合物のスクリーニングを効率よく行うことができる。

　（付記）
　上述した態様に加えて、以下に記載の構成も本発明の範囲に含まれる。なお、以下に記載の方法、装置、及びプログラムの具体的な実施形態は、第１～第３の実施形態と同様である。

　（付記１）
　付記１に係る特徴量算出装置は第９の態様において、対象構造体指定部は対象構造体として化合物を指定し、立体構造発生部は複数の原子による化合物の立体構造を発生させ、特徴量算出部は、立体構造発生部で発生させた化合物の立体構造の周辺におけるプローブの集積度合いであって、１種類以上の単原子イオンをプローブとした集積度合いを３次元空間において定量化した特徴量である第１の特徴量を算出し、不変量化部は、第１の特徴量を化合物の回転及び並進について不変量化して第１の不変量化特徴量を算出する。付記１の構成によれば、上述した第２の態様と同様に化合物の化学的性質を的確に示す特徴量を算出することができる。

　（付記２）
　付記２に係る特徴量算出装置は付記１において、特徴量算出部は１種類以上の単原子イオンである第１のプローブと、１種類以上の単原子イオンである第２のプローブであって第１のプローブとは異なる第２のプローブと、について第１の特徴量を算出し、不変量化部は第１のプローブについての第１の特徴量と、第２のプローブについての第１の特徴量と、を用いて第１の不変量化特徴量を算出する。付記２の構成によれば、上述した第３の態様と同様に特徴量（第１の不変量化特徴量）に基づく化合物の比較（薬効判定）を正確に行うことができる。

　（付記３）
　付記３に係る特徴量算出装置は付記１において、対象構造体指定部は対象構造体として化合物を指定し、立体構造発生部は複数の原子による化合物の立体構造を発生させ、特徴量算出部は、立体構造発生部が発生させた化合物の立体構造の周辺におけるプローブの集積度合いであって、電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、電荷がゼロである第５の点電荷のうち１つ以上をプローブとした集積度合いを３次元空間において定量化した特徴量である第２の特徴量を算出し、不変量化部は、第２の特徴量を化合物の回転及び並進について不変量化して第２の不変量化特徴量を算出する。付記３の構成によれば、上述した第４の態様と同様に対象構造体の化学的性質を的確に示す特徴量を算出することができる。

　図３２は、上述した図１３，３１と同様の系（タンパク質ＡＢＬ１）について、化合物を対象構造体とする不変量化特徴量によるヒットの見つけやすさを比較評価した結果の一例を示す図である。具体的には、電荷が＋０．１である点電荷（第３の点電荷）をプローブとする不変量化特徴量（第２の不変量化特徴量）、及び電荷が－０．１である点電荷（第４の点電荷）をプローブとする不変量化特徴量（第２の不変量化特徴量）についての評価結果を示す。図３２によれば、記述子（特徴量）の種類によって効果（ヒット数の期待値）に差があるものの、ランダムの場合（図１３参照）と比較して期待値が向上することが分かる。このように、点電荷をプローブとする不変量化特徴量を用いる場合においても、医薬候補化合物のスクリーニングを効率よく行うことができる。

　（付記４）
　付記４に係る特徴量算出装置は付記３において、特徴量算出部は、第１の点電荷、第２の点電荷、第３の点電荷、第４の点電荷、第５の点電荷のうち１つ以上で構成される第１のプローブと、第１の点電荷、第２の点電荷、第３の点電荷、第４の点電荷、第５の点電荷のうち１つ以上で構成される第２のプローブであって第１のプローブとは異なる第２のプローブと、について第２の特徴量を算出し、不変量化部は第１のプローブについての第２の特徴量と第２のプローブについての第２の特徴量とを用いて第２の不変量化特徴量を算出する。付記４の構成によれば、上述した第５の態様と同様に特徴量（第２の不変量化特徴量）に基づく化合物の比較（薬効判定）を正確に行うことができる。

　（付記５）
　付記５に係る特徴量算出装置は付記４において、対象構造体指定部は対象構造体として化合物を指定し、立体構造発生部は複数の原子による化合物の立体構造を発生させ、特徴量算出部は、立体構造発生部が発生させた化合物の立体構造の周辺におけるプローブの集積度合いであって、１種類以上の単原子イオンである第１のプローブと、電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、電荷がゼロである第５の点電荷のうち１つ以上である第２のプローブとをプローブとした集積度合いを３次元空間において定量化した特徴量である第３の特徴量を算出し、不変量化部は第１のプローブについての第３の特徴量と第２のプローブについての第３の特徴量とを用いて第３の不変量化特徴量を算出する。

　（付記６）
　付記６に係る特徴量算出装置は付記５において、特徴量算出部は、第１のプローブと第２のプローブとのうち少なくとも一方が異なる２種類のプローブについて第３の特徴量を算出し、不変量化部は２種類のプローブについての第３の特徴量を用いて第３の不変量化特徴量を算出する。付記６の構成によれば、上述した第７の態様と同様に特徴量（第３の不変量化特徴量）に基づく化合物の比較（薬効判定）を正確に行うことができる。

　（付記７）
　付記７に係る特徴量算出方法は、化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定工程と、対象構造体について複数の単位構造体による立体構造を発生させる立体構造発生工程と、立体構造の周辺における１種類以上のプローブの集積度合いを３次元空間において定量化した特徴量を算出する特徴量算出工程と、を有する特徴量算出方法であって、プローブは実数電荷を持ちファンデルワールス力を発生させる単一の点である第１のプローブと、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された第２のプローブと、を含む。付記７の構成によれば、上述した第１の態様と同様に対象構造体の化学的性質を的確に示す特徴量を算出することができる。

　（付記８）
　付記８に係る特徴量算出方法は付記７において、第１のプローブは１種類以上の単原子イオンまたは１種類以上の点電荷（上述した第１～第５の点電荷）であり、第２のプローブは１種類以上の多原子イオンまたはダイポール（第１の点電荷と第２の点電荷とが離間して配置されたダイポール）である。また、対象構造体指定工程では対象構造体として化合物を指定し、立体構造発生工程では複数の原子による化合物の立体構造を発生させ、特徴量算出工程では、立体構造発生工程で発生させた化合物の立体構造の周辺における第１及び第２のプローブの集積度合いを３次元空間において定量化した特徴量である第４の特徴量を算出する。

　（付記９）
　付記９に係る特徴量算出方法は付記７または８において、第４の特徴量を対象構造体の回転及び並進について不変量化して第４の不変量化特徴量を算出する不変量化工程をさらに有する。付記９の構成によれば、第４の特徴量を化合物の回転及び並進について不変量化するので、扱いやすくまたデータ容量を小さくすることができる。

　図３３は、付記７～９に関し、図１３，３１，３２と同様の系（タンパク質ＡＢＬ１）について、化合物を対象構造体とする不変量化特徴量（第４の不変量化特徴量）によるヒットの見つけやすさを比較評価した結果の一例を示す図である。この例では、単一体プローブである第１のプローブと、複合体プローブである第２のプローブと、を組み合わせてプローブとした。具体的には、電荷が＋１である点電荷（第１の点電荷）と電荷が－１である点電荷（第２の点電荷）とを第１のプローブとし、第１の点電荷と第２の点電荷によるダイポールを第２のプローブとしている。図３３によれば、図３２と同様にランダムの場合（図１３参照）と比較して期待値が向上することが分かる。このように、単一体プローブ（第１のプローブ）と複合体プローブ（第２のプローブ）とをプローブとする不変量化特徴量を用いる場合においても、医薬候補化合物のスクリーニングを効率よく行うことができる。

　（付記１０）
　付記１０に係る特徴量算出プログラムは、付記７から９のいずれか１つに係る特徴量算出方法をコンピュータに実行させる。

　（付記１１）
　付記１１に係る特徴量算出装置は、化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定部と、対象構造体について複数の単位構造体による立体構造を発生させる立体構造発生部と、立体構造の周辺における１種類以上のプローブの集積度合いを３次元空間において定量化した特徴量を算出する特徴量算出部と、を備える特徴量算出装置であって、プローブは実数電荷を持ちファンデルワールス力を発生させる単一の点である第１のプローブと、実数電荷を持ちファンデルワールス力を発生させる複数の点が離間して配置された第２のプローブと、を含む。付記１０の構成によれば、上述した第１の態様と同様に対象構造体の化学的性質を的確に示す特徴量を算出することができる。

　（付記１２）
　付記１１において、第１のプローブは単原子イオンまたは点電荷（上述した第１～第５の点電荷）であり、第２のプローブは多原子イオンまたはダイポール（第１の点電荷と第２の点電荷とが離間して配置されたダイポール）である。また、対象構造体指定部は対象構造体として化合物を指定し、立体構造発生部は複数の原子による化合物の立体構造を発生させ、特徴量算出部は、立体構造発生部が発生させた化合物の立体構造の周辺における第１及び第２のプローブの集積度合いを３次元空間において定量化した特徴量である第４の特徴量を算出する。

　（付記１３）
　付記１３に係る特徴量算出装置は付記１２において、第４の特徴量を対象構造体の回転及び並進について不変量化して第４の不変量化特徴量を算出する不変量化部をさらに有する。付記１３の構成によれば、特徴量を化合物の回転及び並進について不変量化するので、扱いやすくまたデータ容量を小さくすることができる。

　（付記１４）
　付記１４に係る構築方法は、化合物の特徴量（化合物の周辺におけるプローブの集積度合いを３次元空間において定量化した特徴量、またはその特徴量を化合物の回転及び並進に対し不変量化した特徴量）を受け付けてその化合物の立体構造を示す情報を出力する生成器の構築方法（予測モデルの生成方法）であって、複数の化合物について、化合物の立体構造を示す情報を教師データとし、第１から第７の態様のいずれか１つに係る特徴量算出方法、または付記７から９のいずれか１つに係る特徴量算出方法により算出した特徴量を説明変数とした学習用データセットを生成器に入力して機械学習により学習させる学習処理工程を有する。生成器（予測モデル）は階層型ネットワークを備えていてもよい。生成器（予測モデル）は、化合物の立体構造を示す情報として３次元画像を受け付けてもよい。階層型ネットワーク（生成器の一例）は、３次元フィルタを用いた畳み込み演算を行って特徴マップ（入力層から得られる情報）を縮小する畳み込み層と、３次元フィルタを用いた逆畳み込み演算を行って特徴マップを拡大する逆畳み込み層と、を含んでいてもよい。階層型ネットワークは、学習処理工程において、化合物を構成する原子の種類を色の相違（例えば、赤、緑、青を重み付けした組み合わせを用いる）で表現した３次元画像を受け付けてもよい。３次元画像をそれぞれ異なる色に対応した複数のチャンネル（例えば、赤、緑、青の３チャンネル）に分けて受け付けてもよい。また、階層型ネットワークは、学習処理工程において、３次元画像をそれぞれ異なる種類の原子に対応した複数のチャンネルに分けて受け付けてもよい。階層型ネットワークは畳み込みニューラルネットワークでもよい。

　図３４は付記１４に係る階層型ネットワークの構成例を示す図である。図３４の（ａ）部分は、階層型ネットワーク６００は入力層６１０と、中間層６２０と、出力層６３０とを含む畳み込みニューラルネットワークである。中間層６２０は、第１の中間層６２２と、第２の中間層６２４とを備える。第１の中間層６２２は、畳み込み演算を行う畳み込み層と、プーリング処理を行うプーリング層とを含み（図３４ではこれら２つの層をまとめて層６２５としている）、入力側に近い層では低次の特徴抽出が行われ、出力側に近づくにつれて高次の特徴抽出が行われる。学習時は、入力層６１０から出力層６３０に向けて情報が更新されてゆく。

　第２の中間層６２４は、３次元フィルタを用いた逆畳み込み演算を行う逆畳み込み層と、逆プーリング処理を行う逆プーリング層とを含む（図３４の（ａ）部分ではこれら２つの層をまとめて層６２７としている）。第１の中間層６２２では畳み込み演算及びプーリング処理により特徴マップがダウンスケーリングされ、第２の中間層６２４では逆畳み込み演算及び逆プーリング処理により特徴マップがアップスケーリングされる。３次元フィルタのサイズを変更すること等によりダウンスケーリング及びアップスケーリングの度合いを調節することができ、これにより入力した３次元画像と同じサイズの３次元情報（対象構造体の周囲の３次元空間におけるプローブの集積度合いを定量化した特徴量）を得ることができる。なお、第１の中間層６２２及び第２の中間層６２４における層（畳み込み層、プーリング層、逆畳み込み層、逆プーリング層）の数及び組み合わせは特に限定されない（図３４中に点線で記載した矢印は、層が省略されていることを示す）。

　上述した構成の階層型ネットワーク６００を用いる場合、学習の過程において、出力層６３０が出力する結果と画像セットに対する認識（プローブの集積度合いを示す特徴量）の正解とを比較して損失（誤差）を計算し、損失が小さくなるように中間層６２０における重みパラメータを出力側の層から入力側の層に向けて更新していく処理（誤差逆伝播）を行うことが好ましい。なお、中間層６２０は畳み込み層及びプーリング層（、並びに逆畳み込み層及び逆プーリング層）の他にバッチノーマライゼーションを行う層を含んでいてもよい。バッチノーマライゼーション処理は学習を行う際のミニバッチを単位としてデータの分布を正規化する処理であり、学習を速く進行させる、初期値への依存性を下げる、過学習を抑制する等の役割を担う。

　上述の階層型ネットワーク６００の学習が終了すると、化合物の３次元画像（立体構造を示す情報）を入力して本発明に係る特徴量を算出することができる。この場合、学習データとしての立体構造情報に代えて実データとしての立体構造情報を入力層６１０に入力すると、入力層６１０から出力層６３０に向けて（図３４の（ａ）部分における矢印の方向に）各層の重みパラメータ等の情報が更新されてゆき、出力層６３０から特徴量が出力される。また、入力と出力を逆にする（出力層６３０に特徴量を入力して入力層６１０から３次元画像を出力させる）ことで、化合物の立体構造を創出することもできる。これは階層型ネットワーク６００を生成器、予測モデル、学習済みモデルとして使用する態様である。この場合、特徴量を出力層６３０に入力すると、出力層６３０から入力層６１０に向けて（図３４の（ｂ）部分における矢印の方向に）情報が更新されてゆき、入力層６１０から化合物の立体構造を示す３次元画像が出力される。

　（付記１５）
　付記１５に係る構築方法は、化合物の特徴量を受け付けてその化合物の構造式を示す情報を出力する生成器の構築方法（予測モデルの生成方法）であって、複数の化合物について、化合物の構造式を示す情報を教師データとし、第１から第７の態様のいずれか１つに係る特徴量算出方法により算出した特徴量、または付記７から９のいずれか１つに係る特徴量算出方法により算出した特徴量を説明変数とした学習用データセットを生成器に入力して機械学習により学習させる学習処理工程を有する。学習処理工程において、生成器は、構造式から構成される記述子（文字、数字、記号の組み合わせにより表現することができる）を受け付けて、プローブの集積度合いを不変量化した特徴量を出力することができる。付記１５に係る生成器はニューラルネットワーク等の階層型ネットワークを用いて構成することができ、この場合生成器は全結合層により構成される中間層を含んでいてよい。付記１５において、構造式から構成できる記述子（例えばFingerprint記述子）を「構造式を示す情報」として用いることができる。

　図３５は付記１５に係る階層型ネットワークの構成例を示す図である。図３５の（ａ）部分において、階層型ネットワーク６５０は入力層６６０と、中間層６７０と、出力層６８０とを含む。中間層６７０は、第１の中間層６７２と、第２の中間層６７４とを備える（第１の中間層６７２の各層を層６７５と記載し、第２の中間層６７４の各層を層６７７と記載する）。階層型ネットワーク６５０は、入力層６６０、中間層６７０、出力層６８０の各層が全結合のニューラルネットワークである。第１の中間層６７２では特徴マップがダウンスケーリングされ、第２の中間層６７４では特徴マップがアップスケーリングされる。ダウンスケーリング及びアップスケーリングの度合いを調節することにより、入力した情報（記述子）と同じサイズの特徴量（不変量化特徴量）を得ることができる。なお、第１の中間層６７２及び第２の中間層６７４における層の数及び組み合わせは特に限定されない（図３５中に点線で記載した矢印は、層が省略されていることを示す）。

　上述した構成の階層型ネットワーク６５０を用いる場合、学習の過程において、出力層６８０が出力する結果と入力した記述子に対する出力（不変量化特徴量）の正解とを比較して損失（誤差）を計算し、損失が小さくなるように中間層６７０における重みパラメータを出力側の層から入力側の層に向けて更新していく処理（誤差逆伝播）を行うことが好ましい。

　上述の階層型ネットワーク６５０の学習が終了すると、化合物の記述子（構造式から構成できる記述子）を入力して本発明に係る特徴量（不変量化特徴量）を算出することができる。この場合、学習データとしての記述子に代えて、実データとしての記述子を入力すると、入力層６６０から出力層６８０に向けて（図３５の（ａ）部分における矢印の方向に）各層の重みパラメータ等の情報が更新されてゆき、出力層６８０から不変量化特徴量が出力される。また、入力と出力を逆にする（出力層６８０に不変量化特徴量を入力して入力層６６０から記述子を出力させる）ことで、化合物の立体構造を示す情報を創出することもできる。これは階層型ネットワーク６５０を生成器、予測モデル、学習済みモデルとして使用する態様である。この場合、不変量化特徴量を出力層６８０に入力すると、出力層６８０から入力層６６０に向けて（図３５の（ｂ）部分における矢印の方向に）情報が更新されてゆき、入力層６６０から化合物の記述子が出力される。

　（付記１６）
　付記１６は、付記１４または１５に係る構築方法により構築された生成器（予測モデル、学習済みモデル）である。

　（付記１７）
　付記１７に係る特徴量方法は、付記１６に係る生成器を用いた特徴量算出方法であって、化合物の立体構造を示す情報（例えば、３次元画像）を付記１６に係る生成器に入力して特徴量（その化合物の周囲におけるプローブの集積度合い）を生成する特徴量算出工程を有する。

　（付記１８）
　付記１８に係る化合物創出方法は、付記１６に係る生成器を用いた化合物創出方法であって、第１から第７の態様のいずれか１つに係る特徴量算出方法、または付記７から９のいずれか１つに係る特徴量算出方法により算出した特徴量をその特徴量の算出方法に対応した生成器に入力して、化合物の立体構造を示す情報（立体構造、３次元画像、３次元記述子等）を生成する立体構造生成工程を有する。付記１８に係る化合物創出方法は、第１５または第１６の態様に係る化合物創出方法、または付記１１から付記１３のいずれか１つに係る化合物創出方法と同様の処理（化合物の創出）を行うことができる。生成器は、学習処理工程では立体構造を示す情報を受け付けて特徴量を出力するが、化合物の創出を行う場合は入力と出力を逆にする（学習処理工程での出力層に３次元特徴量または不変量化特徴量を入力して、学習処理工程での入力層から３次元画像または記述子を出力させる）。なお、付記１８に係る化合物創出方法において、特徴量を入力する生成器は、その特徴量を算出した特徴量算出方法に対応した生成器であることが好ましい。例えば、第１の特徴量（あるいは第１の不変量化特徴量）を生成器に入力する場合、その生成器は第１の特徴量（あるいは第１の不変量化特徴量）を用いた学習により構成された生成器であることが好ましい。

１０　　スクリーニング装置
２０　　化合物創出装置
３０　　医薬候補化合物探索装置
１００　処理部
１０１　処理部
１０２　処理部
１１０　情報入力部
１２０　特徴量算出部
１３０　類似度算出部
１３２　生成器構築部
１４０　化合物抽出部
１４２　化合物立体構造生成部
１５０　表示制御部
１６０　ＣＰＵ
１７０　ＲＯＭ
１８０　ＲＡＭ
２００　記憶部
２０１　記憶部
２０２　記憶部
２１０　構造情報
２２０　立体構造情報
２３０　３次元ＡＡＭ記述子
２４０　不変量化ＡＡＭ記述子
２５０　類似度情報
２６０　化合物抽出結果
２７０　立体構造生成結果
３００　表示部
３１０　モニタ
４００　操作部
４１０　キーボード
４２０　マウス
５００　外部サーバ
５１０　外部データベース
６００　階層型ネットワーク
６１０　入力層
６２０　中間層
６２２　第１の中間層
６２４　第２の中間層
６２５　層
６２７　層
６３０　出力層
６５０　階層型ネットワーク
６６０　入力層
６７０　中間層
６７２　第１の中間層
６７４　第２の中間層
６７５　層
６７７　層
６８０　出力層
Ａ１　　アミノ酸
Ａ２　　アミノ酸
Ａ３　　アミノ酸
ＡＡ２ＡＲ　タンパク質
ＡＢＬ１　　タンパク質
ＮＷ　　ネットワーク
ＰＯ　　ポケット
ＰＳ　　ポケット構造体
Ｓ１００～Ｓ１０８　特徴量算出方法の各ステップ
Ｓ２００～Ｓ２０６　特徴量算出方法の各ステップ
Ｓ３００～Ｓ３０４　標的化合物抽出方法の各ステップ
Ｓ４００～Ｓ４０４　標的化合物抽出方法の各ステップ
Ｓ５００～Ｓ５０４　立体構造創出方法の各ステップ
Ｓ６００～Ｓ６０４　立体構造創出方法の各ステップ
ＴＰ　　標的タンパク質

Claims

　化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定工程と、
　前記対象構造体について前記複数の単位構造体による立体構造を発生させる立体構造発生工程と、
　前記立体構造の周辺における１種類以上のプローブの集積度合いを３次元空間において定量化した特徴量を算出する特徴量算出工程と、
　前記特徴量を前記対象構造体の回転及び並進について不変量化して不変量化特徴量を算出する不変量化工程と、
　を有する特徴量算出方法であって、
　前記プローブは実数電荷を持ちファンデルワールス力を発生させる単一の点である特徴量算出方法。
　前記対象構造体指定工程では前記対象構造体として化合物を指定し、
　前記立体構造発生工程では複数の原子による前記化合物の立体構造を発生させ、
　前記特徴量算出工程では、前記立体構造発生工程で発生させた前記化合物の前記立体構造の周辺における前記プローブの集積度合いであって、１種類以上の単原子イオンを前記プローブとした集積度合いを前記３次元空間において定量化した特徴量である第１の特徴量を算出し、
　前記不変量化工程では、前記第１の特徴量を前記化合物の回転及び並進について不変量化して第１の不変量化特徴量を算出する請求項１に記載の特徴量算出方法。
　前記特徴量算出工程では前記１種類以上の単原子イオンである第１のプローブと、前記１種類以上の単原子イオンである第２のプローブであって前記第１のプローブとは異なる第２のプローブと、について前記第１の特徴量を算出し、
　前記不変量化工程では前記第１のプローブについての前記第１の特徴量と、前記第２のプローブについての前記第１の特徴量と、を用いて前記第１の不変量化特徴量を算出する請求項２に記載の特徴量算出方法。
　前記対象構造体指定工程では前記対象構造体として化合物を指定し、
　前記立体構造発生工程では複数の原子による前記化合物の立体構造を発生させ、
　前記特徴量算出工程では、前記立体構造発生工程で発生させた前記化合物の前記立体構造の周辺における前記プローブの集積度合いであって、電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、電荷がゼロである第５の点電荷のうち１つ以上を前記プローブとした集積度合いを前記３次元空間において定量化した特徴量である第２の特徴量を算出し、
　前記不変量化工程では、前記第２の特徴量を前記化合物の回転及び並進について不変量化して第２の不変量化特徴量を算出する請求項１に記載の特徴量算出方法。
　前記特徴量算出工程では、前記第１の点電荷、前記第２の点電荷、前記第３の点電荷、前記第４の点電荷、前記第５の点電荷のうち１つ以上で構成される第１のプローブと、前記第１の点電荷、前記第２の点電荷、前記第３の点電荷、前記第４の点電荷、前記第５の点電荷のうち１つ以上で構成される第２のプローブであって前記第１のプローブとは異なる第２のプローブと、について前記第２の特徴量を算出し、
　前記不変量化工程では前記第１のプローブについての前記第２の特徴量と前記第２のプローブについての前記第２の特徴量とを用いて前記第２の不変量化特徴量を算出する請求項４に記載の特徴量算出方法。
　前記対象構造体指定工程では前記対象構造体として化合物を指定し、
　前記立体構造発生工程では複数の原子による前記化合物の立体構造を発生させ、
　前記特徴量算出工程では、前記立体構造発生工程で発生させた前記化合物の前記立体構造の周辺における前記プローブの集積度合いであって、１種類以上の単原子イオンである第１のプローブと、電荷が＋１である第１の点電荷、電荷が－１である第２の点電荷、電荷が＋０．１である第３の点電荷、電荷が－０．１である第４の点電荷、電荷がゼロである第５の点電荷のうち１つ以上である第２のプローブとを前記プローブとした集積度合いを前記３次元空間において定量化した特徴量である第３の特徴量を算出し、
　前記不変量化工程では前記第１のプローブについての前記第３の特徴量と前記第２のプローブについての前記第３の特徴量とを用いて第３の不変量化特徴量を算出する請求項５に記載の特徴量算出方法。
　前記特徴量算出工程では、前記第１のプローブと前記第２のプローブとのうち少なくとも一方が異なる２種類の前記プローブについて前記第３の特徴量を算出し、
　前記不変量化工程では前記２種類の前記プローブについての前記第３の特徴量を用いて前記第３の不変量化特徴量を算出する請求項６に記載の特徴量算出方法。
　請求項１から７のいずれか１項に記載の特徴量算出方法をコンピュータに実行させる特徴量算出プログラム。
　非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項８に記載の特徴量算出プログラムをコンピュータに実行させる記録媒体。
　化学的性質を有する複数の単位構造体から構成される対象構造体を指定する対象構造体指定部と、
　前記対象構造体について前記複数の単位構造体による立体構造を発生させる立体構造発生部と、
　前記立体構造の周辺における１種類以上のプローブの集積度合いを３次元空間において定量化した特徴量を算出する特徴量算出部と、
　前記特徴量を前記対象構造体の回転及び並進について不変量化して不変量化特徴量を算出する不変量化部と、
　を備える特徴量算出装置であって、
　前記プローブは実数電荷を持ちファンデルワールス力を発生させる単一の点である特徴量算出装置。
　複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物を抽出するスクリーニング方法であって、
　前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項２に記載の特徴量算出方法を用いて算出した前記第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、
　前記タンパク質以外の前記標的生体高分子に結合することが確認されている化合物である結合化合物について前記第１の不変量化特徴量を算出する特徴量算出工程と、
　前記複数の化合物についての前記第１の不変量化特徴量と前記結合化合物についての前記第１の不変量化特徴量との類似度を算出する類似度算出工程と、
　前記複数の化合物から前記類似度に基づいて前記標的化合物を抽出する化合物抽出工程と、
　を有するスクリーニング方法。
　複数の化合物から標的生体高分子に結合する標的化合物を抽出するスクリーニング方法であって、
　前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項４に記載の特徴量算出方法を用いて算出した前記第２の不変量化特徴量と、を関連付けて記憶する記憶工程と、
　前記標的生体高分子との結合が確認されている化合物である結合化合物について前記第２の不変量化特徴量を算出する特徴量算出工程と、
　前記複数の化合物についての前記第２の不変量化特徴量と前記結合化合物についての前記第２の不変量化特徴量との類似度を算出する類似度算出工程と、
　前記複数の化合物から前記類似度に基づいて前記標的化合物を抽出する化合物抽出工程と、
　を有するスクリーニング方法。
　請求項１１または１２に記載のスクリーニング方法をコンピュータに実行させるスクリーニングプログラム。
　非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項１３に記載のスクリーニングプログラムをコンピュータに実行させる記録媒体。
　複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物を抽出するスクリーニング装置であって、
　前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項２に記載の特徴量算出方法を用いて算出した前記第１の不変量化特徴量と、を関連付けて記憶する記憶部と、
　前記タンパク質以外の前記標的生体高分子に結合することが確認されている化合物である結合化合物について前記第１の不変量化特徴量を算出する特徴量算出部と、
　前記複数の化合物についての前記第１の不変量化特徴量と前記結合化合物についての前記第１の不変量化特徴量との類似度を算出する類似度算出部と、
　前記複数の化合物から前記類似度に基づいて前記標的化合物を抽出する化合物抽出部と、
　を備えるスクリーニング装置。
　複数の化合物から標的生体高分子に結合する標的化合物を抽出するスクリーニング装置であって、
　前記複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記化合物の前記立体構造について請求項４に記載の特徴量算出方法を用いて算出した前記第２の不変量化特徴量と、を関連付けて記憶する記憶部と、
　前記標的生体高分子との結合が確認されている化合物である結合化合物について前記第２の不変量化特徴量を算出する特徴量算出部と、
　前記複数の化合物についての前記第２の不変量化特徴量と前記結合化合物についての前記第２の不変量化特徴量との類似度を算出する類似度算出部と、
　前記複数の化合物から前記類似度に基づいて前記標的化合物を抽出する化合物抽出部と、
　を備えるスクリーニング装置。
　複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出方法であって、
　複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記第１の不変量化特徴量と、を関連付けて記憶する記憶工程と、
　前記タンパク質以外の前記標的生体高分子との結合が確認されている化合物である結合化合物について、請求項２に記載の特徴量算出方法を用いて前記第１の不変量化特徴量を算出する特徴量算出工程と、
　前記複数の化合物の前記立体構造を教師データとし、前記第１の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
　前記生成器を用いて、前記結合化合物の前記第１の不変量化特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
　を有する化合物創出方法。
　複数の化合物から標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出方法であって、
　複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記第２の不変量化特徴量と、を関連付けて記憶する記憶工程と、
　前記標的生体高分子との結合が確認されている化合物である結合化合物について、請求項４に記載の特徴量算出方法を用いて前記第２の不変量化特徴量を算出する特徴量算出工程と、
　前記複数の化合物の前記立体構造を教師データとし、前記第２の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築工程と、
　前記生成器を用いて、前記結合化合物の前記第２の不変量化特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成工程と、
　を有する化合物創出方法。
　請求項１７または１８に記載の化合物創出方法をコンピュータに実行させる化合物創出プログラム。
　非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項１９に記載の化合物創出プログラムをコンピュータに実行させる記録媒体。
　複数の化合物からタンパク質以外の標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出装置であって、
　複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記第１の不変量化特徴量と、を関連付けて記憶する記憶部と、
　前記タンパク質以外の前記標的生体高分子との結合が確認されている化合物である結合化合物について、請求項２に記載の特徴量算出方法を用いて前記第１の不変量化特徴量を算出する特徴量算出部と、
　前記複数の化合物の前記立体構造を教師データとし、前記第１の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築部と、
　前記生成器を用いて、前記結合化合物の前記第１の不変量化特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成部と、
　を備える化合物創出装置。
　複数の化合物から標的生体高分子に結合する標的化合物の立体構造を創出する化合物創出装置であって、
　複数の化合物のそれぞれについて、複数の原子による化合物の立体構造と、前記第２の不変量化特徴量と、を関連付けて記憶する記憶部と、
　前記標的生体高分子との結合が確認されている化合物である結合化合物について、請求項４に記載の特徴量算出方法を用いて前記第２の不変量化特徴量を算出する特徴量算出部と、
　前記複数の化合物の前記立体構造を教師データとし、前記第２の不変量化特徴量を説明変数とした機械学習により生成器を構築する生成器構築部と、
　前記生成器を用いて、前記結合化合物の前記第２の不変量化特徴量から前記標的化合物の立体構造を生成する化合物立体構造生成部と、
　を備える化合物創出装置。