WO2022118607A1

WO2022118607A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2022118607A1
Application number: PCT/JP2021/040948
Authority: WO
Inventors: 諭志河田; 裕大櫻井
Original assignee: ソニーグループ株式会社
Priority date: 2020-12-04
Filing date: 2021-11-08
Publication date: 2022-06-09
Also published as: US20240013863A1; JP2024015456A

Abstract

本技術の一形態に係る情報処理装置は、取得部と、反転部と、生成部とを具備する。前記取得部は、ゲノム配列に関する配列情報を取得する。前記反転部は、前記配列情報に基づいて、配列が反転された反転情報を生成する。前記生成部は、前記反転情報に基づいて、タンパク質に関するタンパク質情報を生成する。この情報処理装置では、取得部により、ゲノム配列に関する配列情報が取得される。また、反転部により、配列情報に基づいて、配列が反転された反転情報が生成される。また、生成部により、反転情報に基づいて、タンパク質に関するタンパク質情報が生成される。これにより、タンパク質に関する情報を高い精度で予測することが可能となる。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、タンパク質の立体構造の予測等に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。

　特許文献１には、タンパク質を構成するアミノ酸残基間の距離を示す距離マップを予測するための機械学習アルゴリズムについて開示されている。この機械学習アルゴリズムでは、タンパク質に含まれるアミノ酸の配列と、アミノ酸配列の特徴量とを入力としてニューラルネットワークにより距離マップが予測され、出力される。

国際公開第２０２０／０５８１７６号

　タンパク質の立体構造等を、高い精度で予測することが可能な技術が求められている。

　以上のような事情に鑑み、本技術の目的は、タンパク質に関する情報を高い精度で予測することを可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、反転部と、生成部とを具備する。
　前記取得部は、ゲノム配列に関する配列情報を取得する。
　前記反転部は、前記配列情報に基づいて、配列が反転された反転情報を生成する。
　前記生成部は、前記反転情報に基づいて、タンパク質に関するタンパク質情報を生成する。

　この情報処理装置では、取得部により、ゲノム配列に関する配列情報が取得される。また、反転部により、配列情報に基づいて、配列が反転された反転情報が生成される。また、生成部により、反転情報に基づいて、タンパク質に関するタンパク質情報が生成される。これにより、タンパク質に関する情報を高い精度で予測することが可能となる。

　前記配列情報は、アミノ酸の配列、ＤＮＡの配列、又はＲＮＡの配列の少なくとも１つに関する情報であってもよい。

　前記生成部は、前記配列情報に基づいて、第１のタンパク質情報を予測する第１の予測部と、前記反転情報に基づいて、第２のタンパク質情報を予測する第２の予測部と、前記第１のタンパク質情報と、前記第２のタンパク質情報とを統合することで、前記タンパク質情報を生成する統合部とを有してもよい。

　前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含んでもよい。

　前記タンパク質情報は、前記タンパク質を構成するアミノ酸残基間の結合を示すコンタクトマップ、前記タンパク質を構成するアミノ酸残基間の距離を示す距離マップ、又は前記タンパク質の三次構造の少なくとも１つを含んでもよい。

　前記統合部は、前記第１のタンパク質情報、及び前記第２のタンパク質情報を入力として機械学習を実行することで、前記タンパク質情報を予測してもよい。

　前記第１の予測部は、前記配列情報を入力として機械学習を実行することで、前記第１のタンパク質情報を予測し、前記第２の予測部は、前記反転情報を入力として機械学習を実行することで、前記第２のタンパク質情報を予測してもよい。

　前記統合部は、正解データと関連付けられた学習用の前記配列情報を入力として予測された学習用の前記第１のタンパク質情報、及び前記学習用の前記配列情報に基づいて生成された前記反転情報を入力として予測された学習用の前記第２のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて学習された統合用の機械学習モデルを含んでもよい。

　前記第１の予測部は、前記学習用の前記第１のタンパク質情報と、前記正解データとの誤差に基づいて学習された第１の機械学習モデルを含んでもよい。この場合、前記第１の機械学習モデルは、前記学習用の前記第１のタンパク質情報、及び前記学習用の前記第２のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習されてもよい。

　前記第２の予測部は、前記学習用の前記第２のタンパク質情報と、前記正解データとの誤差に基づいて学習された第２の機械学習モデルを含んでもよい。この場合、前記第２の機械学習モデルは、前記学習用の前記第１のタンパク質情報、及び前記学習用の前記第２のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習されてもよい。

　前記情報処理装置は、さらに、前記配列情報に基づいて特徴量を算出する特徴量算出部を具備してもよい。この場合、前記生成部は、前記特徴量に基づいて、前記タンパク質情報を生成してもよい。

　前記特徴量算出部は、前記配列情報に基づいて第１の特徴量を算出し、前記第１の予測部は、前記配列情報と、前記第１の特徴量とに基づいて、前記第１のタンパク質情報を予測し、前記第２の予測部は、前記反転情報と、前記第１の特徴量とに基づいて、前記第２のタンパク質情報を予測してもよい。

　前記特徴量算出部は、前記配列情報に基づいて第１の特徴量を算出し、前記反転情報に基づいて第２の特徴量を算出し、前記第１の予測部は、前記配列情報と、前記第１の特徴量とに基づいて、前記第１のタンパク質情報を予測し、前記第２の予測部は、前記反転情報と、前記第２の特徴量とに基づいて、前記第２のタンパク質情報を予測してもよい。

　前記第１の予測部は、正解データと関連付けられた学習用の前記配列情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第１の特徴量を入力として予測された前記第１のタンパク質情報と、前記正解データとの誤差に基づいて学習された第１の機械学習モデルを含んでもよい。

　前記第２の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第１の特徴量を入力として予測された前記第２のタンパク質情報と、前記正解データとの誤差に基づいて学習された第２の機械学習モデルを含んでもよい。

　前記第２の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記反転情報に基づいて算出された学習用の前記第２の特徴量を入力として予測された前記第２のタンパク質情報と、前記正解データとの誤差に基づいて学習された第２の機械学習モデルを含んでもよい。

　前記特徴量は、前記タンパク質の二次構造、前記タンパク質に関する注釈情報、前記タンパク質の触媒接触度、又は前記タンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも１つを含んでもよい。

　前記配列情報は、前記タンパク質を構成するアミノ酸残基のＮ末端側からの結合順を示す情報であり、前記反転情報は、前記タンパク質を構成するアミノ酸残基のＣ末端側からの結合順を示す情報であってもよい。

　本技術の一形態に係る情報処理方法は、コンピュータシステムが実行する情報処理方法であって、ゲノム配列に関する配列情報を取得することを含む。
　前記配列情報に基づいて、配列が反転された反転情報が生成される。
　前記反転情報に基づいて、タンパク質に関する第１のタンパク質情報が予測される。

　本発明の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
　ゲノム配列に関する配列情報を取得するステップ。
　前記配列情報に基づいて、配列が反転された反転情報を生成するステップ。
　前記反転情報に基づいて、タンパク質に関する第１のタンパク質情報を予測するステップ。

本技術の一実施形態に係るタンパク質解析システムの構成例を示す模式図である。タンパク質解析システムによる、タンパク質情報の生成例を示すフローチャートである。配列情報の一例を示す模式図である。反転情報について説明するための模式図である。タンパク質情報について説明するための模式図である。第１の実施形態における、情報処理装置の機能的な構成例を示すブロック図である。第１の予測部における機械学習モデルの一例を示す模式図である。第１の予測部における教師データを用いた機械学習モデルの学習を説明するための模式図である。第２の予測部における機械学習モデルの一例を示す模式図である。統合部における機械学習モデルの一例を示す模式図である。統合部における機械学習モデルの学習を説明するための模式図である。タンパク質情報の誤差について説明するための模式図である。第２の実施形態における、情報処理装置の機能的な構成例を示すブロック図である。特徴量の算出について説明するための模式図である。第１の予測部における機械学習モデルの一例を示す模式図である。第１の予測部における教師データを用いた機械学習モデルの学習を説明するための模式図である。第３の実施形態における、情報処理装置の機能的な構成例を示すブロック図である。情報処理装置を実現可能なコンピュータのハードウェア構成例を示すブロック図である。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

　［タンパク質解析システム］
　図１は、本技術の一実施形態に係るタンパク質解析システムの構成例を示す模式図である。
　図２は、タンパク質解析システムによる、タンパク質情報の生成例を示すフローチャートである。
　タンパク質解析システムは、本技術に係る情報処理システムの一実施形態に相当する。

　タンパク質解析システム１００は、ゲノム配列に関する配列情報１を取得し、取得した配列情報１に基づいて、タンパク質情報２を生成することが可能である。
　本実施形態では、ゲノム配列に関する配列情報１として、アミノ酸の配列、ＤＮＡ（デオキシリボ核酸）の配列、又はＲＮＡ（リボ核酸）の配列の少なくとも１つに関する情報が取得される。もちろんこれに限定されず、ゲノム配列に関する任意の配列情報１が取得されてよい。
　タンパク質情報２とは、タンパク質に関する任意の情報を含む。本実施形態では、タンパク質情報２として、タンパク質の構造、又はタンパク質の機能の少なくとも一方に関する情報が生成される。その他、タンパク質に関する任意の情報が生成されてよい。
　本タンパク質解析システム１００を用いることで、例えば、アミノ酸の配列のみが分かっているタンパク質について、タンパク質の構造や機能を予測することが可能となる。

　図１に示すように、タンパク質解析システム１００は、配列情報ＤＢ（データベース）３と、情報処理装置４とを有する。
　配列情報ＤＢ３には、配列情報１が格納される。例えば、ユーザ（オペレータ）等により配列情報ＤＢ３に配列情報１が登録されてもよい。あるいは、ネットワーク等を介して自動的に配列情報１が収集されてもよい。
　配列情報ＤＢ３は、例えばＨＤＤ、フラッシュメモリ等の記憶デバイスにより構成される。
　図１に示す例では、情報処理装置４の外部の記憶デバイスにより配列情報ＤＢ３が構築されている。これに限定されず、配列情報ＤＢ３が、情報処理装置４に備えられた記憶デバイスにより構築されてもよい。この場合、当該記憶デバイスも含めて、情報処理装置４の一実施形態として機能する。

　情報処理装置４は、例えばＣＰＵやＧＰＵ、ＤＳＰ等のプロセッサ、ＲＯＭやＲＡＭ等のメモリ、ＨＤＤ等の記憶デバイス等、コンピュータの構成に必要なハードウェアを有する（図１８参照）。
　例えばＣＰＵがＲＯＭ等に予め記録されている本技術に係るプログラムをＲＡＭにロードして実行することにより、本技術に係る情報処理方法が実行される。
　例えばＰＣ（Personal Computer）等の任意のコンピュータにより、情報処理装置４を実現することが可能である。もちろんＦＰＧＡ、ＡＳＩＣ等のハードウェアが用いられてもよい。
　本実施形態では、ＣＰＵ等が所定のプログラムを実行することで、機能ブロックとしての取得部５、反転部６、及び生成部７が構成される。もちろん機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが用いられてもよい。
　プログラムは、例えば種々の記録媒体を介して情報処理装置４にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。
　プログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば、コンピュータが読み取り可能な非一過性の任意の記憶媒体が用いられてよい。

　取得部５は、ゲノム配列に関する配列情報１を取得する。本実施形態では、取得部５により、配列情報ＤＢ３に格納された配列情報１が取得される。
　反転部６は、配列情報１に基づいて、配列が反転された反転情報を生成する。
　生成部７は、反転情報に基づいて、タンパク質に関するタンパク質情報２を生成する。なお、反転情報に基づいたタンパク質情報２の生成は、反転情報を用いた任意の生成方法（アルゴリズム）によるタンパク質情報２の生成を含む。

　［配列情報］
　図２に示すように、取得部５により、ゲノム配列に関する配列情報１が取得される（ステップ１０１）。
　図３は、配列情報１の一例を示す模式図である。
　本実施形態では、配列情報１として、アミノ酸の配列が取得される。例えば図３に示すような、タンパク質を構成するアミノ酸の配列をアルファベットで表記した文字列が、取得部５により取得される。

　タンパク質の構造は、アミノ酸残基の配列で表現することが可能である。しかしながら一般に、機能を持ったタンパク質は、数十～数千個ものアミノ酸残基により構成されており、それらのアミノ酸残基を示性式等で表記すると、非常に冗長になってしまう。
　そこで、簡潔にアミノ酸残基の配列を表記するために、アルファベット１文字によりアミノ酸残基の種類を表現する方法がしばしば用いられる。例えばグリシン残基は「Ｇ」、アラニン残基は「Ａ」で表記される。その他、２２種類のアミノ酸残基の各々が、アルファベット１文字により表現される。
　本実施形態では、このようなアルファベットの文字列が、アミノ酸の配列として取得部５により取得される。なお、このようなアミノ酸残基の配列を表現したアルファベットの文字列は、一次構造と呼ばれる。

　アルファベットによりアミノ酸残基の配列が表現される場合には、通常タンパク質のＮ末端からＣ末端に向かうように、アミノ酸残基が順番に記述される。
　図３に示すように、本実施形態において、配列情報１は、タンパク質を構成するアミノ酸残基のＮ末端側からの結合順を示す情報となる。
　なお、配列情報１の両端に記述された「Ｎ」及び「Ｃ」は、Ｎ末端及びＣ末端に相当する残基の位置を示している。
　例えば、配列情報１の左端に記述されている「Ｓ」は、セリン残基を示すアルファベットである。図３に示すように、セリン残基は、Ｎ末端に相当する残基である。
　また、左端から２番目の位置に記述されている「Ｑ」は、グルタミン残基を示すアルファベットである。
　また、右端に記述されている「Ｅ」は、グルタミン酸残基を示すアルファベットである。図３に示すように、グルタミン酸残基は、Ｃ末端に相当する残基である。
　従って、図３に示す配列情報１は、残基がセリン残基、グルタミン残基、・・・、グルタミン酸残基の順に並べられた配列を示している。
　本実施形態では、このようにして表現されたアミノ酸の配列が、取得部５により取得される。
　もちろん、アミノ酸の配列を表現する方法はアルファベットの文字列に限定されない。例えば、アミノ酸の配列が構造式や示性式等で表された情報が、配列情報１として取得されてもよい。

　配列情報１として、ＤＮＡの配列が取得される場合、例えばＤＮＡ分子の塩基配列が取得される。
　ＤＮＡを構成する塩基としては、アデニン、グアニン、シトシン、チミンの４種類の物質が存在する。４種類の物質の結合順のことを、塩基配列という。
　各々の塩基は、しばしばアルファベット１文字の略称で表される。例えばアデニンは「Ａ」で表される。同様に、グアニンは「Ｇ」、シトシンは「Ｃ」、チミンは「Ｔ」で表される。
　例えば、取得部５により、塩基配列がアルファベットの文字列で表現されたＤＮＡの配列が、配列情報１として取得される。
　もちろん、ＤＮＡ分子の構造式や示性式等が、ＤＮＡの配列として取得されてもよい。

　配列情報１として、ＲＮＡの配列が取得される場合、ＲＮＡ分子の塩基配列が取得されてもよい。
　ＲＮＡを構成する塩基としては、アデニン、グアニン、シトシン、ウラシルの４種類の物質が存在する。
　各々の塩基は、しばしばアルファベット１文字の略称で表される。ＤＮＡの塩基配列を表す場合と同様に、アデニンは「Ａ」、グアニンは「Ｇ」、シトシンは「Ｃ」で表される。また、ウラシルは「Ｕ」で表される。
　例えば、取得部５により、塩基配列がアルファベットの文字列で表現されたＲＮＡの配列が、配列情報１として取得される。
　もちろん、ＲＮＡ分子の構造式や示性式等が、ＲＮＡの配列として取得されてもよい。

　生体内では、タンパク質はＤＮＡ配列に基づいて生成される。具体的には、ＤＮＡが転写されてＲＮＡが生成される。ＲＮＡが翻訳されてアミノ酸が生成される。そして、各々のアミノ酸の結合によりタンパク質が生成される。
　すなわち、ＤＮＡの配列、ＲＮＡの配列、及びアミノ酸の配列は、互いに関連付けられた情報となる。

　本実施形態では、取得部５により、ゲノム配列に関する配列情報１が取得される。
　ゲノム配列とは、ＤＮＡの塩基配列、及びＲＮＡの塩基配列を意味する言葉である。従って、ＤＮＡの配列及びＲＮＡの配列は、ゲノム配列に関する配列情報１に含まれる。
　また、アミノ酸の配列は、ＤＮＡの配列やＲＮＡの配列に基づいて生成される配列である。従ってアミノ酸の配列も、ゲノム配列に関する配列情報１に含まれる。
　その他、配列情報１として取得される情報は限定されず、ゲノム配列に関する任意の情報が取得されてよい。

　本開示において、情報の取得は、当該情報を生成することを含む。従って、取得部５により、配列情報１が生成される場合もあり得る。
　もちろん、取得部５による配列情報１の生成方法は限定されない。

　［反転情報］
　図２に示すように、反転部６により、配列情報１に基づいて、配列が反転された反転情報が生成される（ステップ１０２）。
　図４は、反転情報について説明するための模式図である。
　図４には、配列情報１、及び反転部６により生成される反転情報１０の一例が示されている。

　図４に示すように、反転情報１０は、配列情報１の配列が反転された情報となる。具体的には、アミノ酸残基の配列を示すアルファベットの並び順を逆にした情報が、反転情報１０として生成される。
　例えば配列情報１の右端に位置する「Ｅ」が、反転情報１０の左端に位置する。また、配列情報１の右端から２番目に位置する「Ｃ」が、反転情報１０の左端から２番目に位置する。また、配列情報１の左端に位置する「Ｓ」は、反転情報１０の右端に位置する。
　このように、反転部６により、配列情報１におけるアルファベットの並び順を逆にする処理が実行され、反転情報１０が生成される。
　従って、反転情報１０は、配列情報１のＣ末端側からの結合順を示す情報となる。

　［タンパク質情報］
　図２に示すように、生成部７により、反転情報１０に基づいて、タンパク質に関するタンパク質情報２が生成される（ステップ１０３）。
　図５は、タンパク質情報２について説明するための模式図である。
　図５に示すように、反転部６により生成された反転情報１０に基づいて、生成部７により、タンパク質情報２が生成される。
　図５には、生成されるタンパク質情報２の一例として、三次構造１３、コンタクトマップ１４、及び距離マップ１５を表す模式図が示されている。

　アミノ酸同士の結合によってタンパク質が生成されると、タンパク質はアミノ酸の配列に応じて折りたたまれ、固有の立体的な構造を持った状態となる。このような、タンパク質が取る三次元的な構造を、三次構造１３という。
　なお、タンパク質の折りたたみのことを、フォールディングと呼称する場合がある。
　アミノ酸の配列（一次構造）は、タンパク質を構成するアミノ酸の単なる結合順を示す情報である。一方で三次構造１３は、タンパク質がどのように折りたたまれているか、全体としてどのような形状を有しているか、といった情報を含む。

　三次構造１３は、例えば各々のアミノ酸残基の三次元座標により規定することが可能である。
　例えばタンパク質を構成するアミノ酸残基のうち、ある１つのアミノ酸残基の座標を基準として、各々のアミノ酸残基の相対的な座標が規定される。もちろん、各アミノ酸残基の三次元座標を規定するための方法は限定されず、任意に設定されてよい。
　例えば、直交座標系や極座標系等の任意の座標系が用いられてもよい。また、タンパク質を構成する各々の原子や分子、官能基等の三次元座標が、三次構造１３として生成されてもよい。
　また、三次構造１３として、三次元座標以外の情報が生成されてもよい。例えば、タンパク質の折りたたみ位置や、折りたたみの角度といった情報が生成されてもよい。その他、タンパク質が取る三次元構造を示すことが可能な任意の情報が三次構造１３として用いられてよい。

　コンタクトマップ１４は、タンパク質を構成するアミノ酸残基間の結合を示す情報である。すなわち、コンタクトマップ１４は、残基同士の結合の有無を示したマップである。例えば、コンタクトマップ１４として、二次元の正方形のマップが用いられる。
　マップの縦軸及び横軸には、残基番号が割り当てられる。残基番号とは、アミノ酸残基がタンパク質において何番目に結合しているかを表す番号である。
　例えば図３に示すような配列情報１を持つタンパク質においては、配列の左端に位置する「Ｓ」、すなわちセリン残基が、残基番号１番の残基に相当する。また、左端から２番目に位置する「Ｑ」、すなわちグルタミン残基は、残基番号２番の残基に相当する。このように、配列情報１において左側に位置する残基から順に、残基番号が割り振られる。

　ある２つのアミノ酸残基が結合している場合には、当該２つの残基番号に相当する位置のマップ上の点が、白色で表される。結合していない場合には、黒色で表される。
　例えば、残基番号８０番のアミノ酸残基と、残基番号１５０番のアミノ酸残基とが結合している場合には、縦軸上の８０番の位置と横軸上の１５０番の位置とが交差するマップ上の点が、白色で表示される。
　この場合、縦軸上の１５０番の位置及び横軸上の８０番の位置が交差するマップ上の点も、同様に白色で表示される。従って、コンタクトマップ１４は対角線（縦軸と横軸の残基番号が一致するような点の集合）に対して対称なマップとなる。
　なお、結合状態を表現するための色等は限定されない。例えば白及び黒以外の色で結合状態が表現されてもよい。

　コンタクトマップ１４は、残基同士の結合状態を、全ての残基の組み合わせについて示したマップとなる。
　コンタクトマップ１４により、タンパク質がどのように折れ曲がっているか等の、タンパク質の三次元構造を推定することが可能である。
　例えば、コンタクトマップ１４から、８０番の残基と１５０番の残基とが結合しているという情報が得られたとする。しかし、８０番の残基及び１５０番の残基は、配列上は離れた位置に存在しているため、ペプチド結合による結合は、なされていない。
　このことから、８０番の残基と１５０番の残基との間の、いずれかの位置でタンパク質が折れ曲がり、イオン結合等により残基が結合していると考えることができる。このように、コンタクトマップ１４から、タンパク質がどのように折れ曲がっているか等の、三次元構造を推定することが可能となる。
　コンタクトマップ１４は、本技術に係るタンパク質情報の一実施形態に相当する。

　距離マップ１５は、アミノ酸残基間の距離を示すマップである。例えば距離マップ１５として、コンタクトマップ１４と同様に二次元の正方形のマップが用いられる。
　また、コンタクトマップ１４と同様に、マップの縦軸及び横軸には、残基番号が割り当てられる。

　例えば、距離マップ１５では、２つのアミノ酸残基間の距離がモノクロ色の明度で表現される。
　アミノ酸残基間の距離は、距離が近いほど、明度が高いモノクロ色で表現される。例えばアミノ酸残基間の距離が近い状態は、白色に近い色で表現される。一方、例えばアミノ酸残基間の距離が遠い状態は、黒色に近い色で表現される。
　なお、アミノ酸残基間の距離を表現する方法は限定されない。例えば、カラー色の明度、彩度、及び色相等により距離が表現されてもよい。
　距離マップ１５は、コンタクトマップ１４と同様に、対角線に対して対称なマップとなる。

　距離マップ１５はアミノ酸残基間の距離を、全ての残基の組み合わせについて示したマップとなる。
　コンタクトマップ１４と同様に、距離マップ１５により、タンパク質の三次元構造を推定することが可能である。
　距離マップ１５は、本技術に係るタンパク質情報の一実施形態に相当する。

　本実施形態では、タンパク質情報２として、タンパク質の構造、又はタンパク質の機能の少なくとも一方が生成される。
　タンパク質の構造とは、タンパク質を構成する、部分的な要素の配置や関係のことである。例えば、上記したような残基の三次元座標や、タンパク質の折りたたみ位置や角度といった情報が、タンパク質の構造に該当する。またタンパク質の構造として、水素結合やイオン結合等の、各々の結合が位置する座標が生成されてもよい。その他、タンパク質の構造として生成される情報は限定されない。
　図５に示す三次構造１３、コンタクトマップ１４、距離マップ１５は、タンパク質の構造に関する情報に含まれる。

　タンパク質の機能とは、例えば生体内でタンパク質が有する機能である。
　タンパク質の機能には、例えば体を動かす収縮機能、栄養や酸素を運ぶ運搬機能、及び免疫機能等が該当する。その他、タンパク質の機能として生成される情報は限定されない。
　なお、タンパク質の機能が、タンパク質の構造に起因して現れる場合もある。例えば、免疫機能を持つ抗体のタンパク質はＹ字型の形状を有しており、２本の腕の部分に異物を捉えることが知られている。このように、タンパク質の構造の生成に伴って、タンパク質の機能が明らかになる場合もある。

　その他、タンパク質解析システム１００により生成されるタンパク質情報２は限定されず、タンパク質に関する任意の情報が生成されてよい。
　生成部７により生成されたタンパク質情報２は、例えば情報処理装置４内の記憶デバイスに記憶される。また、例えば情報処理装置４の外部の記憶デバイスにデータベースが構築され、タンパク質情報が当該データベースに対して出力されてもよい。その他、生成されたタンパク質情報２の出力方法及び記憶方法等は限定されない。

　図１～図５を用いて、アミノ酸の配列、アミノ酸の配列の反転、及び反転されたアミノ酸の配列に基づくタンパク質情報２の生成等について説明したが、一連の処理は配列情報１がアミノ酸の配列である場合に限定されず、実行することが可能である。
　例えば、配列情報１がＤＮＡの配列である場合には、「ＧＡＡＴＴＣ」のように表現されたＤＮＡの塩基配列が、反転部６により同様の処理で反転される。さらに、反転された文字列に基づいて、生成部７によりタンパク質情報２が生成される。
　また、配列情報１がＲＮＡの配列である場合にも、同様の処理で反転部６による反転、及び生成部７による生成が実行される。

　また、配列情報１がＤＮＡの配列やＲＮＡの配列である場合に、一連の処理に、塩基配列の翻訳に相当する処理が含まれてもよい。
　この場合、例えば、情報処理装置４が図示しない翻訳部を有し、まず翻訳部により塩基配列の翻訳に相当する処理が実行される。例えば配列情報１がＤＮＡの配列である場合には、ＤＮＡの塩基配列上でチミン（Ｔ）だった部分をウラシル（Ｕ）に置き換え、ＲＮＡの塩基配列を生成する処理が実行される。また、遺伝暗号表に基づき、ＲＮＡの３つ分の塩基配列を１つのアミノ酸に翻訳し、アミノ酸の配列を生成する処理が実行されてもよい。
　このようにして生成されたアミノ酸の配列に基づいて、反転部６による反転情報１０の生成や、生成部７によるタンパク質情報２の生成が実行される。
　もちろん、翻訳に相当する処理が含まれずに、直接タンパク質情報２が生成されてもよい。すなわち、アミノ酸の配列の生成を経由せずに、ＤＮＡの配列やＲＮＡの配列から直接タンパク質情報２が生成されてもよい。

　＜第１の実施形態＞
　図１に示すタンパク質解析システム１００の詳細について、第１の実施形態を説明する。
　図６は、第１の実施形態における、情報処理装置４の機能的な構成例を示すブロック図である。
　図６に示すように、情報処理装置４は、取得部５、反転部６、第１の予測部１８、第２の予測部１９及び統合部２０を有する。
　図６に示す各機能ブロックは、プロセッサが本技術に係るアプリケーションプログラム等を実行することで実現される。もちろん機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが用いられてもよい。

　図６に示すように、本実施形態では、第１の予測部１８により、第１のコンタクトマップ２１が予測される。また、第２の予測部１９により、第２のコンタクトマップ２２が予測される。さらに、統合部２０により、第１のコンタクトマップ２１及び第２のコンタクトマップ２２が統合されることで、最終的なタンパク質情報２としてのコンタクトマップ１４が生成される。

　取得部５は、ゲノム配列に関する配列情報１を取得する。本実施形態では、配列情報１として、アミノ酸の配列を表すアルファベットの文字列が取得される。
　反転部６は、配列情報１に基づいて、配列が反転された反転情報１０を生成する。

　第１の予測部１８は、配列情報１に基づいて、第１のタンパク質情報を予測する。
　本実施形態では、第１のタンパク質情報として、第１のコンタクトマップ２１が予測される。

　第１のコンタクトマップ２１を予測するために、任意のアルゴリズムが用いられてもよい。すなわち、配列情報１を入力、第１のコンタクトマップ２１を出力とした、任意の予測処理が実行されてよい。
　予測のためのアルゴリズムは、例えばタンパク質の構造予測における既知の手法を参酌して作成することが可能である。例えば、配列情報１から、タンパク質の一部の構造や機能を推定する手法が確立されている場合に、推定のための手順に相当する処理がアルゴリズムに組み込まれる。具体的には、推定のための数値計算等の処理が、アルゴリズムに組み込まれる。
　例えば、Ｘ線結晶構造解析法、核磁気共鳴法等の、タンパク質の構造予測における既知の手法が参酌され、アルゴリズムが作成されてもよい。

　本実施形態では、機械学習アルゴリズムが用いられて、第１のコンタクトマップ２１が予測される。すなわち、第１の予測部１８は、配列情報１を入力として機械学習を実行することで、第１のコンタクトマップ２１を予測する。

　第２の予測部１９は、反転情報１０に基づいて、第２のタンパク質情報を予測する。
　本実施形態では、第２のタンパク質情報として、第２のコンタクトマップ２２が予測される。
　図６に示すように、本実施形態では、反転部６により生成された反転情報１０が、第２の予測部１９に出力される。第２の予測部１９は、反転情報１０に基づいて、第２のコンタクトマップ２２を予測する。

　第２のコンタクトマップ２２を予測するために、任意のアルゴリズムが用いられてもよい。すなわち、反転情報１０を入力、第２のコンタクトマップ２２を出力とした、任意の予測処理が実行されてよい。

　本実施形態では、機械学習アルゴリズムが用いられて、第２のコンタクトマップ２２が予測される。すなわち、第２の予測部１９は、反転情報１０を入力として機械学習を実行することで、第２のコンタクトマップ２１を予測する。
　なお、第１の予測部１８による第１のコンタクトマップ２１の予測、及び第２の予測部１９による第２のコンタクトマップ２２の予測の各々を実行するために、同じアルゴリズムが用いられてもよいし、異なるアルゴリズムが用いられてもよい。

　統合部２０は、第１のコンタクトマップ２１と、第２のコンタクトマップ２２とを統合することで、統合コンタクトマップ２３を生成する。
　図６に示すように、第１の予測部１８により予測された第１のコンタクトマップ２１が、統合部２０に対して出力される。同様に、第２の予測部１９により予測された第２のコンタクトマップ２２が、統合部２０に対して出力される。統合部２０が第１のコンタクトマップ２１及び第２のコンタクトマップ２２を受け取ると、第１のコンタクトマップ２１及び第２のコンタクトマップ２２の統合が実行され、統合コンタクトマップ２３が生成される。

　統合コンタクトマップ２３を生成するために、任意のアルゴリズムが用いられてよい。すなわち、第１のコンタクトマップ２１及び第２のコンタクトマップ２２を入力、統合コンタクトマップ２３を出力とした、任意の統合処理が実行されてよい。
　例えば、第１のコンタクトマップ２１の一部の情報と、第２のコンタクトマップ２２の一部の情報とが統合されることで、統合コンタクトマップ２３が生成されてもよい。
　例えば、残基番号が１番から１００番までの範囲となる第１のコンタクトマップ２１及び第２のコンタクトマップ２２がそれぞれ予測されたとする。残基番号が１番から５０番までの第１のコンタクトマップ２１の情報と、前記番号が５１番から１００番までの第２のコンタクトマップ２２の情報とが統合され、統合コンタクトマップ２３が生成されてもよい。
　なお、第１のコンタクトマップ２１や第２のコンタクトマップ２２の一部が画像データとして扱われることで、抽出及び統合の処理が実行されてもよい。また第１のコンタクトマップ２１や第２のコンタクトマップ２２の一部が数値データ（例えば座標及び白色／黒色を表す数値が関連付けられたデータ）として扱われることで、処理が実行されてもよい。
　例えば統合部２０のアルゴリズムは、第１の予測部１８や第２の予測部１９のアルゴリズムと同様に、タンパク質の構造予測における既知の手法を参酌して作成することが可能である。
　例えばタンパク質の構造予測における既知の手法を参酌して、統合コンタクトマップ２３が実際のコンタクトマップ１４に極力近くなるように、統合のアルゴリズムを作成することが可能である。

　本実施形態では、機械学習アルゴリズムが用いられて、統合コンタクトマップ２３が予測される。すなわち、統合部２０は、第１のコンタクトマップ２１及び第２のコンタクトマップ２２を入力として機械学習を実行することで、統合コンタクトマップ２３を予測する。

　図６に示す例では、情報処理装置４によりコンタクトマップ１４が生成されるが、もちろん図５に示すような三次構造１３や、距離マップ１５が生成されてもよい。
　また、例えば三次構造１３、コンタクトマップ１４、及び距離マップ１５のうちの複数が、タンパク質情報２として生成されてもよい。この場合、第１の予測部１８や第２の予測部１９により、三次構造１３、コンタクトマップ１４、及び距離マップ１５のうちの複数の情報が予測されてもよい。
　もちろん、第１の予測部１８、第２の予測部１９、及び統合部２０により予測される情報は三次構造１３、コンタクトマップ１４、及び距離マップ１５に限定されず、タンパク質に関する任意の情報が予測されてよい。

　また、配列情報１に基づいて第１のタンパク質情報を予測する第１の予測部１８が複数構成されてもよい。同様に、反転情報１０に基づいて第２のタンパク質情報を予測する第２の予測部１９が複数構成されてもよい。
　そして、複数の第１のタンパク質情報、及び複数の第２のタンパク質情報が統合されて、最終的なタンパク質情報２が生成されてもよい。

　図６を用いた説明では取得部５、反転部６、第１の予測部１８、第２の予測部１９、統合部２０の順に各機能ブロックの動作を説明したが、情報処理装置４による統合コンタクトマップ２３の生成処理に関する処理順はこの順番に限定されない。各機能ブロックによる処理順は限定されず、一連の処理が可能な範囲の、任意の順番で処理が実行されてよい。

　本実施形態では、第１の予測部１８、第２の予測部１９、及び統合部２０により、図１に示す生成部７が実現される。
　また、第１の予測部１８により第１のコンタクトマップ２１が予測され、第２の予測部１９により第２のコンタクトマップ２２が予測され、統合部２０により統合コンタクトマップ２３が予測される一連の動作は、生成部７によるタンパク質情報２の生成に相当する。
　このように、生成部７によるタンパク質情報２の生成には、第１の予測部１８による第１のコンタクトマップ２１の予測や、第２の予測部１９による第２のコンタクトマップ２２の予測や、統合部２０による統合コンタクトマップ２３の予測のような、タンパク質情報２の生成のための部分的な処理が含まれる。
　もちろん、タンパク質情報２の生成のために、予測や統合以外の任意の処理が実行されてよい。

　［機械学習モデル］
　本実施形態では、第１の予測部１８、第２の予測部１９、及び統合部２０の各々が機械学習モデルを含み、機械学習により、予測及び統合が実行される。
　図７は、第１の予測部１８における機械学習モデルの一例を示す模式図である。
　図８は、第１の予測部１８における教師データを用いた機械学習モデルの学習を説明するための模式図である。

　第１の予測部１８は、配列情報１を入力として機械学習を実行することで、第１のコンタクトマップ２１を予測する。
　図７には、機械学習モデルの例として、第１の予測部１８に含まれる機械学習モデル２６ａが示されている。
　図７に示すように、機械学習モデル２６ａには、配列情報１が入力される。例えば、アミノ酸の配列や、ＤＮＡの配列、ＲＮＡの配列のような配列情報１が、機械学習モデル２６ａに対して入力される。
　本実施形態では、アミノ酸の配列を表すアルファベットの文字列が、機械学習モデル２６ａに入力される。
　また、機械学習モデル２６ａにより、第１のコンタクトマップ２１が予測される。

　機械学習モデル２６ａの学習のために、学習用データに教師ラベルが関連付けられた教師データが、学習部３０に入力される。教師データは、入力に対して正解を予測する機械学習モデルを学習させるためのデータである。
　図８に示すように、本実施形態では、学習用データとして、学習用の配列情報２９が学習部３０に対して入力される。
　また、教師ラベルとして、コンタクトマップ１４が学習部３０に入力される。教師ラベルは、学習用の配列情報２９に対応する正解（正解データ）である。
　本実施形態では、学習用の配列情報２９（学習用データ）に、コンタクトマップ１４（教師ラベル）が関連付けられたデータが、本実施形態における教師データに相当する。
　例えば、コンタクトマップ１４が既知であるようなタンパク質が存在する場合に、当該既知のコンタクトマップ１４が、教師ラベルとして用いられる。また、当該タンパク質に関する配列情報１が、学習用データとして用いられる。このように、既知のコンタクトマップ１４と配列情報１とが関連付けられた教師データが複数用意され、学習のために用いられる。

　教師データを格納するために、例えば教師データＤＢ（データベース）が構成される。
　教師データＤＢには、複数の教師データが格納される。すなわち、学習用の配列情報２９にコンタクトマップ１４が関連付けられた、複数のデータが格納される。
　また、図８に示す例では、教師ラベルが、ラベルＤＢ３１に格納されている。ラベルＤＢ３１は、例えば教師データＤＢ内に構築される。

　教師データ（学習用データ及び教師ラベル）を保存するための構成や方法は限定されない。例えば、教師データＤＢやラベルＤＢ３１が情報処理装置４に含まれ、情報処理装置４により機械学習モデル２６ａの学習が実行されてもよい。もちろん、教師データＤＢやラベルＤＢ３１が、情報処理装置４の外部に構成されていてもよい。その他、任意の構成及び方法が採用されてよい。

　図８に示すように、学習用データと教師ラベルとが関連付けられ、教師データとして学習部３０に入力される。
　学習部３０により、教師データが用いられ、機械学習アルゴリズムに基づいて学習が実行される。学習により、正解（教師ラベル）を算出するためのパラメータ（係数）が更新され、学習済パラメータとして生成される。生成された学習済パラメータが組み込まれたプログラムが、機械学習モデル２６ａとして生成される。

　本実施形態では、第１の予測部１８は、第１のコンタクトマップ２１と、正解データとの誤差に基づいて学習された機械学習モデル２６ａを含む。すなわち、機械学習モデル２６ａは、予測された第１のコンタクトマップ２１と、正解データとの誤差に基づいて学習される。このような学習の方法を、誤差逆伝播法という。

　誤差逆伝播法は、ニューラルネットワークの学習のために一般的に良く利用される学習手法である。ニューラルネットワークとは、元々人間の脳神経回路を模倣したモデルであり、入力層、中間層（隠れ層）、出力層の３種類の層からなる層構造を持ったモデルである。多数の中間層を持つニューラルネットワークは特にディープニューラルネットワークと呼ばれ、これを学習するためのディープラーニング技術は、大量データの中に潜んでいる複雑なパターンを学習できるモデルとして知られている。誤差逆伝播法はこのような学習手法の１つであり、例えば、画像や動画の認識に用いられる畳み込みニューラルネットワーク（CNN: Convolutional Neural Network）などの学習に良く用いられる。
　また、このような機械学習を実現するハードウェア構造としては、ニューラルネットワークの概念を組み込まれたニューロチップ／ニューロモーフィック・チップが用いられ得る。

　誤差逆伝播法は、出力と正解データとの誤差に基づいて、誤差が小さくなるように機械学習モデルのパラメータを調整するような学習の方法である。
　もちろん、機械学習モデル２６ａを学習させるためのアルゴリズムは限定されず、任意の機械学習アルゴリズムが用いられてもよい。
　学習部３０により生成された機械学習モデル２６ａは、第１の予測部１８に組み込まれる。そして、第１の予測部１８により、第１のコンタクトマップ２１の予測が実行される。

　第２の予測部１９は、反転情報１０を入力として機械学習を実行することで、第２のコンタクトマップ２２を予測する。
　図９は、第２の予測部１９における機械学習モデルの一例を示す模式図である。
　図９には、機械学習モデルの例として、第２の予測部１９に含まれる機械学習モデル２６ｂが示されている。

　図９に示すように、機械学習モデル２６ｂには、反転情報１０が入力される。本実施形態では、アミノ酸の配列を表すアルファベットの文字列の並び順を逆にした文字列が、反転情報１０として入力される。反転情報１０が入力されると、機械学習モデル２６ｂにより、第２のコンタクトマップ２２が予測される。

　機械学習モデル２６ａと同様に、任意の機械学習アルゴリズムにより、機械学習モデル２６ｂを学習させることが可能である。
　例えば図８と同様に、学習部に対して、学習用の反転情報が、学習用データとして入力される。また、学習部に対して、コンタクトマップ１４が正解データとして入力される。
　例えば、学習用の反転情報は、学習用の配列情報２９を反転させることで生成される。例えば、学習用の配列情報２９が反転部６に入力され、反転部６により、学習用の反転情報が生成されてもよい。
　もちろん、あらかじめ学習用の反転情報が用意され、教師データＤＢ等に格納されていてもよい。
　正解データは、学習用の配列情報２９と関連付けられている教師ラベルを用いることが可能である。

　学習部により、機械学習モデル２６ａと同様に誤差逆伝播法による学習が実行され、機械学習モデル２６ｂが生成される。すなわち、機械学習モデル２６ｂは、予測された第２のコンタクトマップ２２と、正解データとの誤差に基づいて学習される。
　もちろん、機械学習モデル２６ｂに対する学習の方法としても、任意の方法（機械学習アルゴリズム）が採用されてよい。

　学習部により生成された機械学習モデル２６ｂは、第２の予測部１９に組み込まれる。そして、第２の予測部１９により、第２のコンタクトマップ２２の予測が実行される。
　なお、図８に示す学習部３０が情報処理装置４に含まれ、情報処理装置４により機械学習モデル２６ａの学習が実行されてもよい。
　同様に、機械学習モデル２６ｂの学習に用いられる学習部が情報処理装置４に含まれ、情報処理装置４により機械学習モデル２６ｂの学習が実行されてもよい。
　一方で、学習部３０が情報処理装置４の外部に構成されてもよい。すなわち、あらかじめ情報処理装置４の外部で学習部３０による学習が実行され、学習済みの機械学習モデルａのみが、第１の予測部１８に組み込まれてもよい。
　同様に、機械学習モデル２６ｂの学習に用いられる学習部が情報処理装置４の外部に構成されてもよい。すなわち、あらかじめ情報処理装置４の外部で学習部による学習が実行され、学習済みの機械学習モデルｂのみが、第２の予測部１９に組み込まれてもよい。
その他、学習部３０及び機械学習モデルｂを学習するための学習部の具体的な構成は限定されない。

　機械学習モデル２６ａは、本技術に係る第１の機械学習モデルの一実施形態に相当する。
　また、機械学習モデル２６ｂは、本技術に係る第２の機械学習モデルの一実施形態に相当する。
　また、誤差逆伝播法は、本技術に係る、タンパク質情報と、正解データとの誤差に基づく学習の一実施形態に相当する。

　図１０は、統合部２０における機械学習モデルの一例を示す模式図である。
　図１１は、統合部２０における機械学習モデルの学習を説明するための模式図である。
　本実施形態では、統合部２０は、機械学習モデル２６ｃを有する。そして、統合部２０は、第１のコンタクトマップ２１、及び第２のコンタクトマップ２２を入力として機械学習を実行することで、統合コンタクトマップ２３を予測する。
　図１０に示すように、機械学習モデル２６ｃに、第１の予測部１８により予測された第１のコンタクトマップ２１、及び第２の予測部１９により予測された第２のコンタクトマップ２２が入力される。そして、機械学習が実行されることで、統合コンタクトマップ２３が予測される。
　本開示において、２つの情報を入力として機械学習により情報を出力することは、当該２つの情報を統合して情報を生成することに含まれる。

　図１１に示すように、例えば誤差逆伝播法により、機械学習モデル２６ｃを学習させることが可能である。
　具体的には、学習用の第１のコンタクトマップ、及び学習用の第２のコンタクトマップを入力として予測された統合コンタクトマップ２３と、正解データとの差異に基づいて、統合用の機械学習モデル２６ｃを学習させることが可能である。
　なお図１１では、機械学習モデル２６ｃに対する学習を、統合部２０に対する処理として図示がされている。

　まず、正解データとしてのコンタクトマップ１４と関連付けられた学習用の配列情報２９が用意される。すなわち、学習用の配列情報２９と、コンタクトマップ１４（正解データ）とが互いに関連付けられた教師データが用意される。
　学習用の配列情報２９を入力として第１の予測部１８により予測された第１のコンタクトマップ２１が、学習用の第１のコンタクトマップ３５として用いられる。
　また、学習用の配列情報２９に基づいて生成された反転情報を入力として第２の予測部１９により予測された第２のコンタクトマップ２２が、学習用の第２のコンタクトマップ３６として用いられる。
　図１１に示すように、反転部６により学習用の反転情報３４を生成することが可能である。もちろんこれに限定されない。

　学習用の第１のコンタクトマップ３５、及び学習用の第２のコンタクトマップ３６を入力として、統合部２０により、統合コンタクトマップ２３が予測される。予測された統合コンタクトマップ２３と、正解データとの誤差（ＬＯＳＳ）に基づいて、統合用の機械学習モデル２６ｃが学習される。
　なお、正解データは、学習用の配列情報１に対応するコンタクトマップ１４である。

　学習部３０により生成された機械学習モデル２６ｃは、統合部２０に組み込まれる。そして、統合部２０により、統合コンタクトマップ２３の予測が実行される。
　なお、情報処理装置４により機械学習モデル２６ｃの学習が実行されてもよい。あるいは、情報処理装置４の外部にて、機械学習モデル２６ｃの学習が実行されてもよい。その他、機械学習モデル２６ｃの学習のための学習部の具体的な構成や、学習の方法等は限定されない。

　学習用の第１のコンタクトマップ３５は、本技術に係る学習用の第１のタンパク質情報の一実施形態に相当する。
　また、学習用の第２のコンタクトマップ３６は、本技術に係る学習用の第２のタンパク質情報の一実施形態に相当する。
　また、機械学習モデル２６ｃは、本技術に係る統合用の機械学習モデルの一実施形態に相当する。

　［予測部の再学習］
　図１１に示すように、本実施形態では、機械学習モデル２６ａは、学習用の第１のコンタクトマップ３５、及び学習用の第２のコンタクトマップ３６を入力として統合部２０により予測された統合コンタクトマップ２３と、正解データとの誤差（ＬＯＳＳ）に基づいて再学習される。
　同様に、機械学習モデル２６ｂは、学習用の第１のコンタクトマップ３５、及び学習用の第２のコンタクトマップ３６を入力として統合部２０により予測された統合コンタクトマップ２３と、正解データとの誤差（ＬＯＳＳ）に基づいて再学習される。
　すなわち、誤差逆伝播法による、機械学習モデル２６ａ及び機械学習モデル２６ｂの再学習が実行される。

　以上、本実施形態に係る情報処理装置４では、取得部５により、ゲノム配列に関する配列情報１が取得される。また、反転部６により、配列情報１に基づいて、配列が反転された反転情報１０が生成される。また、生成部７により、反転情報１０に基づいて、タンパク質に関するタンパク質情報２が生成される。これにより、タンパク質に関する情報を高い精度で予測することが可能となる。

　タンパク質情報２の予測における、既存の手法の課題を説明する。
　図１２は、タンパク質情報２の誤差について説明するための模式図である。
　図１２Ａ及びＢには、既存の手法により配列情報１から予測されたタンパク質情報２の誤差を示す誤差マップの一例が図示されている。

　図１２Ａ及びＢに例示する誤差マップ３９は、残基の三次元座標における誤差を表したマップである。具体的には、既存の手法で予測された残基の三次元座標と、実際の残基の三次元座標との、ユークリッド距離の差が示されている。
　図１２Ａ及びＢに示す誤差マップ３９において、横軸には、左側から右側にわたって、残基番号が割り振られる。例えば誤差が大きい残基番号の範囲には、斜線模様が図示されている。なお誤差は、所定の閾値等を用いて規定することが可能である。

　残基番号の小さい側（Ｎ末端側）は、誤差マップ３９の左側に相当する。また、残基番号の大きい側（Ｃ末端側）は、誤差マップ３９の右側に相当する。
　従って、例えばタンパク質を構成するアミノ酸残基の残基番号が１番から１００番まで存在するような場合には、残基番号１番が誤差マップ３９の左端に相当し、残基番号１００番は右端に相当する。

　本発明者は、図１２Ａ及びＢに示すように、既存の手法による予測結果には、誤差マップ３９の両端付近に、誤差の大きい部分（誤差大）が偏在することが多いことを新たに見出した。
　図１２Ａに示すように、Ｎ末端側により広い範囲で誤差大が集中する場合がある。また、図１２Ｂに示すように、Ｃ末端側により広い範囲で誤差大が集中する場合もある。

　図１２Ａ及びＢに示すような誤差大の偏在は、予測の時系列に起因して発生すると考えられる。すなわち、既存の手法では、タンパク質情報２の予測は、残基番号の小さい順に処理される。
　従って、予測の開始時においては、処理対象となるアミノ酸残基の情報が少ないので、誤差が大きくなると考えられる。この結果、図１２Ａに例示するような、誤差がアミノ酸残基の先頭付近に多く見られるという現象が発生すると考えられる。
　また、タンパク質情報２の予測が残基番号の小さい順に処理されることにより、残基の末端側にかけて、予測の誤差が蓄積してしまうと考えられる。この結果、図１２Ｂに例示するような、誤差がアミノ酸残基の末尾付近に多く見られるという現象が発生すると考えられる。
　図１２Ａに示すような誤差大の偏在となるか、図１２Ｂに示すような誤差大の偏在となるかは、タンパク質の一次構造（アミノ酸残基の配列）によるものと考えられる。いずれにせよ、既存の手法による予測結果には、誤差マップ３９の両端付近に、誤差の大きい部分が偏在することが多い。

　本実施形態では、配列情報１に基づいて予測された第１のコンタクトマップ２１と、反転情報１０に基づいて予測された第２のコンタクトマップ２２とが、統合部２０により統合され、タンパク質情報２が生成される。
　従って、第１のコンタクトマップ２１、及び第２のコンタクトマップ２２の各々の、予測精度が高い部分を抽出し、統合させることが可能となる。すなわち、第１のコンタクトマップ２１及び第２のコンタクトマップ２２の「良いとこ取り」をしたような、第１のコンタクトマップ２１及び第２のコンタクトマップ２２いずれよりも誤差の少ない、統合コンタクトマップ２３を生成することが可能となる。

　例えば、予測されるタンパク質情報２が三次元座標であるような場合には、配列情報１から予測された三次元座標、及び反転情報１０から予測された三次元座標の、誤差が少ない部分（残基番号）の情報を統合することが可能となる。
　この結果、図１２Ａ及びＢに示すような、アミノ酸残の配列の両端付近に、誤差が偏在してしまうことを抑制することが可能となり、タンパク質に関する情報を高い精度で予測することが可能となる。

　また本実施形態では、第１の予測部１８及び第２の予測部１９による予測において、機械学習アルゴリズムが用いられる。さらに、統合部２０による各々のタンパク質情報２の統合においても、機械学習アルゴリズムが用いられる。
　これにより、各機械学習モデルを十分に学習させることで、非常に精度の高い予測を実行することが可能となる。
　また、本実施形態では、統合部２０の学習に合わせて、第１の予測部１８及び第２の予測部１９の再学習が実行される。これにより、予測精度をさらに向上させることが可能となる。

　タンパク質の三次元構造が解析されることにより、例えば薬の設計や、食品を醸造する酵母の設計等、様々な分野への応用が期待できる。
　一方で、アミノ酸の配列のような一次構造から、タンパク質が有する三次元構造を解析することは困難な課題である。例えば、三次元構造を網羅的に計算するためには膨大な時間を要するため、実質的に計算が不可能である。
　本技術が用いられることで、タンパク質が有する三次元構造を精度よく予測することが可能である。これにより、例えば個人に応じた薬の設計や、ＤＮＡに基づいた顔予測、バイオ燃料の高精度な設計、食品や農作物の直接的なデザイン等が可能となり、様々な分野における技術の発展に広く資することが期待できる。

　＜第２の実施形態＞
　本技術に係る第２の実施形態のタンパク質解析システム１００について説明する。これ以降の説明では、上記の実施形態で説明したタンパク質解析システム１００における構成及び作用と同様な部分については、その説明を省略又は簡略化する。

　図１３は、第２の実施形態における、情報処理装置４の機能的な構成例を示すブロック図である。
　図１３に示すように、情報処理装置４は、取得部５、反転部６、特徴量算出部４２、第１の予測部１８、第２の予測部１９及び統合部２０を有する。
　図１３に示す各機能ブロックは、プロセッサが本技術に係るアプリケーションプログラム等を実行することで実現される。もちろん機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが用いられてもよい。
　取得部５、反転部６、及び統合部２０の構成及び作用については、第１の実施形態と同様であるため、説明を省略する。

　本実施形態では、第１の予測部１８および第２の予測部１９による予測において、タンパク質に関する特徴を示す特徴量が用いられる。また、第１の予測部１８、第２の予測部１９、及び統合部２０において、特徴量を用いた学習が実行される。
　また、第１の実施形態と同様に、タンパク質情報２としてコンタクトマップ１４が予測される。

　［特徴量］
　特徴量４７とは、タンパク質に関する特徴を示す情報である。
　例えば、タンパク質の物理的な性質や、化学的な性質に関する特徴が特徴量４７として用いられる。また、タンパク質が有する機能等も、特徴量４７として用いられる。その他、タンパク質の特徴を示す任意の情報が、特徴量４７として用いられてよい。
　本実施形態においては、特徴量４７は、タンパク質の二次構造、タンパク質に関する注釈情報、タンパク質の触媒接触度、又はタンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも１つを含む。
　特徴量４７の一例として、上記の４つの特徴量４７について、説明する。

　タンパク質の二次構造とは、タンパク質が有する局所的な立体構造である。タンパク質は、アミノ酸の配列に応じて折りたたまれるが、折りたたみの過程で、まず局所的な立体構造が形成される。その後で全体的な折りたたみがなされることで、三次構造１３が形成される。
　このような、三次構造１３が形成される前の段階で、最初に形成される局所的な立体構造のことを、二次構造という。
　すなわち、タンパク質の折りたたみは、折りたたみのなされていない単なる配列である一次構造から始まり、局所的な構造である二次構造が形成され、最後に全体的な折りたたみにより三次構造１３が形成される、といった順序で実現される。
　二次構造の一例としては、例えばαヘリックス、βシートという構造が知られている。
　本実施形態では、上記のような、αヘリックスやβシートといった二次構造が、特徴量４７として用いられる。もちろん特徴量４７として用いられる二次構造は限定されない。例えば二次構造の他の例として、ターンやループ等の局所的な構造が存在することが知られている。これらの二次構造が特徴量４７として採用されてもよい。

　タンパク質に関する注釈情報とは、タンパク質に対して付与（タグ付け）されるメタデータである。メタデータとして、典型的には当該タンパク質に関係するような情報が付与される。注釈情報は、アノテーションと呼称される場合もある。

　例えば注釈情報として、タンパク質が有する構造や機能に関する情報が付与される。
　構造に関する情報としては、例えばタンパク質が有する官能基の名称が付与される。その他、タンパク質の分子量等が、注釈情報として付与されてもよい。
　また、機能に関する情報としては、例えばタンパク質が有する機能の種類が付与される。すなわち、「収縮機能」、「運搬機能」、又は「免疫機能」といった注釈情報がタグ付けされる。
　その他、タンパク質情報２に対して付与される注釈情報は限定されない。

　タンパク質の触媒接触度とは、タンパク質が有するアミノ酸残基が触媒と接触できる面積を、側鎖の大きさによらずに規格化した値のことである。すなわち、触媒接触度が大きいほど、タンパク質中の残基が、広い面積で触媒と接触することになる。
　触媒接触度は、例えば具体的な実数値として算出される。なお、触媒接触度は、触媒露出度等と呼称されることもある。

　タンパク質を構成するアミノ酸残基間の相互ポテンシャルとは、残基間の位置エネルギーのことである。
　タンパク質を構成する、ある２つの残基に注目した場合に、各々の残基には、残基間の距離に依存する力がはたらく。例えば、各々の残基を構成する原子間にはたらく引力や斥力に起因して、残基間に力がはたらく。

　例えば、残基同士が近づくと、各々の残基にはたらく斥力が大きくなり、引力は小さくなる。すなわち、各々の残基に対して斥力側の合力がはたらき、各々の残基は離れようとする。
　また、残基同士が離れると、各々の残基にはたらく引力が大きくなり、斥力は小さくなる。すなわち、各々の残基に対して引力側の合力がはたらき、各々の残基は近づこうとする。

　残基同士の距離がある値になると、各々の残基にはたらく斥力と引力が等しくなり、各々の残基にはたらく合力は０となる。この状態では、各々の残基は動こうとせず、安定する。この状態で、相互ポテンシャルは最低の値をとる。
　すなわち、各々の残基が離れようとしている場合や、近づこうとしている場合には、相互ポテンシャルが当該最低の値よりも高い状態となる。
　このように、相互ポテンシャルは各々の残基が安定しているか否かを示す指標となる。

　本実施形態では、このような相互ポテンシャルが、特徴量４７として算出される。
　例えば特徴量４７として、タンパク質を構成する全ての残基間の相互ポテンシャルの合計が、算出される。
　例えばタンパク質が残基Ａ、残基Ｂ、残基Ｃから構成される場合には、まず残基Ａ及び残基Ｂの間の相互ポテンシャルが算出される。同様に、残基Ａと残基Ｃの相互ポテンシャル、及び残基Ｂと残基Ｃの相互ポテンシャルも算出される。算出された３つの相互ポテンシャルの和が、特徴量４７として用いられる。

　以上のような、二次構造、注釈情報、触媒接触度、又は相互ポテンシャルの少なくとも１つが、特徴量４７に含まれる。
　もちろん、特徴量４７が上記の４つの情報に限定されるわけではなく、タンパク質に関する特徴を示す任意の情報を、特徴量４７として用いることが可能である。

　［特徴量の算出］
　図１４は、特徴量の算出について説明するための模式図である。
　図１４には、データベース（ＤＢ）４６、特徴量算出部４２、及び特徴量４７を表す模式図が示されている。

　図１４に示すように、特徴量算出部４２は、配列情報１に基づいて特徴量４７を算出する。
　なお、図１３においては、配列情報１に基づいて算出された特徴量を、配列情報特徴量４３と記載している。これは、第３の実施形態において説明する、反転情報１０に基づいた特徴量４７（反転情報特徴量）と区別するための記載である。反転情報１０に基づいた特徴量４７の算出については、第３の実施形態において説明する。
　配列情報特徴量４３は、本技術に係る第１の特徴量の一実施形態に相当する。

　特徴量の算出のために、データベース（ＤＢ）４６が用いられる。データベース４６には、配列情報１と特徴量４７とが関連付けられたデータが格納されている。
　図１４に示すように、特徴量算出部４２は、配列情報１と特徴量４７とが関連付けられたデータベース４６にアクセスすることで、特徴量４７を算出する。
　データベース４６として、すでに構築されている既存のデータベースを利用することが可能である。

　特徴量４７の算出方法の一例について、説明する。
　まず、特徴量算出部４２により、配列情報１が取得される。例えば、取得部５により取得された配列情報１が特徴量算出部４２に対して出力され、特徴量算出部４２が配列情報１を受け取ることで、配列情報１の取得が実現される。
　特徴量算出部４２により配列情報１が取得されると、配列情報１が複数に分割される。以降、分割により生成された各々の配列情報１を、部分配列情報と表現する場合がある。

　例えば、配列情報１がアミノ酸の配列であり、残基を表すアルファベットの文字列であるような場合には、文字列が分割されることで部分配列情報が生成される。
　例として、元々の配列情報１が「ＳＱＥＴＲＫＫＣＴ」であるような場合に、文字列の分割により、「ＳＱＥＴ」と、「ＲＫＫＣＴ」の２つの部分配列情報が生成される。
　もちろん文字列の分割の位置や個数は、上記した例に限定されない。
　また、配列情報１がＤＮＡの配列やＲＮＡの配列であるような場合でも、同様に文字列の分割が実行される。

　部分配列情報が生成されると、特徴量算出部４２により、データベース４６において、部分配列情報と一致する配列情報１の検索が実行される。
　データベース４６には、配列情報１と特徴量４７とが関連付けられたデータが格納されている。特徴量算出部４２は、部分配列情報と一致する配列情報１を発見した場合に、当該配列情報１と、当該配列情報１に関連付けられた特徴量４７とを、まとめて抽出する。
　なお部分配列情報と一致する配列情報１ではなく、類似する配列情報１の検索が実行されてもよい。

　以上のような、部分配列情報による配列情報１の検索により、配列情報１及び特徴量４７からなるデータの組が、複数抽出される。
　このようにして得られた複数の特徴量４７が、予測に用いられる。
　なお、特徴量算出部４２により、抽出された複数の特徴量４７に基づいて、１つの特徴量４７が算出され、予測に用いられてもよい。

　上記したような、配列情報１の分割を含む特徴量算出の方法はあくまで一例であり、もちろん算出の方法は限定されない。
　例えば、配列情報１が分割されずに、当該配列情報１と一致する配列情報１の検索が実行されてもよい。その他、特徴量算出部４２による特徴量４７の算出方法として、任意の方法が採用可能である。

　なお、データベース４６には、例えば過去に実行されたタンパク質の構造解析により、知られている特徴量４７が格納される。
　例えば、Ｘ線結晶構造解析法や、核磁気共鳴法等の手法により、配列情報１に基づいた構造の解析に成功したタンパク質が存在する。具体的には、配列情報１に基づいて、実際の三次構造１３、コンタクトマップ１４、又は距離マップ１５が解析されているようなタンパク質が存在する。

　このようなタンパク質においては、例えば解析の過程で、タンパク質が有する特徴量４７も明らかとなっている場合がある。例えば、タンパク質が有する二次構造は、タンパク質が有する三次構造１３に基づいて自然と明らかになる。
　このように、例えば過去の研究により明らかとなっている実際の配列情報１と特徴量４７との組が、データベース４６に格納される。
　もちろん、過去の予測により得られた特徴量４７等が、データベース４６に格納されてもよい。

　図１３に示すように、第１の予測部１８は、配列情報１と、配列情報特徴量４３とに基づいて、第１のコンタクトマップ２１を予測する。
　本実施形態では、取得部５により取得された配列情報１が、第１の予測部１８に対して出力される。また、特徴量算出部４２により算出された配列情報特徴量４３が、第１の予測部１８に対して出力される。第１の予測部１８が配列情報１及び配列情報特徴量４３を受け取ると、配列情報１及び配列情報特徴量４３に基づいて、第１のコンタクトマップ２１の予測が実行される。

　予測方法としては、例えば第１の実施形態と同様に、所定のアルゴリズムによる予測が採用される。具体的には、第１の予測部１８は予測のためのアルゴリズムを含み、配列情報１及び配列情報特徴量４３を入力、コンタクトマップ１４を出力とした、アルゴリズムによる予測処理が実行される。
　例えばアルゴリズムは、タンパク質の構造予測における既知の手法が参酌され、作成される。本実施形態においては、アルゴリズムに対して配列情報特徴量４３が入力されるため、精度の高い予測を実行するために、例えば配列情報特徴量４３を有効に利用することが可能なアルゴリズムが作成される。
　具体的には、配列情報特徴量４３を用いることで、精度の高い予測が可能であるような手法が存在する場合には、当該手法が参酌され、アルゴリズムが作成される。

　その他、第１の予測部１８に含まれる予測のためのアルゴリズムは限定されない。例えば、本実施形態においても、第１の予測部１８に機械学習アルゴリズムが含まれてよい。機械学習によるコンタクトマップ１４の予測については、後述する。
　また、第１の予測部１８による予測方法は、アルゴリズムによる予測に限定されず、任意の予測方法が採用されてよい。

　第２の予測部１９は、反転情報１０と、配列情報特徴量４３とに基づいて、第２のコンタクトマップ２２を予測する。
　本実施形態では、反転部６により反転された反転情報１０が、第２の予測部１９に対して出力される。また、特徴量算出部４２により算出された配列情報特徴量４３が、第２の予測部１９に対して出力される。第２の予測部１９が反転情報１０及び配列情報特徴量４３を受け取ると、反転情報１０及び配列情報特徴量４３に基づいて、第２のコンタクトマップ２２の予測が実行される。
　第２の予測部１９による予測方法としては、例えば第１の予測部１８による予測方法と同じ方法が採用される。もちろん、第２の予測部１９による予測方法として、第１の予測部１８による予測方法とは異なる方法が採用されてもよい。

　統合部２０により、第１のコンタクトマップ２１及び第２のコンタクトマップ２２に基づいた統合処理が実行され、統合コンタクトマップ２３が生成される。

　なお、配列情報特徴量４３を用いた予測が、一方の予測部においてのみ実行されてもよい。
　例えば、第１の予測部１８においては配列情報１及び配列情報特徴量４３に基づいて、予測が実行される。一方で、第２の予測部１９においては反転情報１０のみに基づいて、（配列情報特徴量４３は用いられずに）予測が実行される。予測の方法として、このような方法が採用されてもよい。

　また、情報処理装置４による統合コンタクトマップ２３の生成処理に関する処理順は限定されない。
　例えば、第１の予測部１８による予測と、反転部６による反転情報１０の生成は、どちらが先に実行されてもよい。また、特徴量算出部４２による配列情報特徴量４３の算出と、反転部６による反転情報１０の生成は、どちらが先に実行されてもよい。
　その他、各機能ブロックによる処理順は限定されず、一連の処理が可能な範囲の、任意の順番で処理が実行されてよい。

　［機械学習モデル］
　本実施形態においても、第１の予測部１８、第２の予測部１９、及び統合部２０の各々は機械学習モデルを含み、予測や統合のための機械学習が実行される。
　図１５は、第１の予測部１８における機械学習モデルの一例を示す模式図である。
　図１６は、第１の予測部１８における教師データを用いた機械学習モデルの学習を説明するための模式図である。

　第１の実施形態においては、第１の予測部１８の学習のために配列情報１のみが用いられたが、本実施形態（第２の実施形態）においては、学習のために配列情報１及び配列情報特徴量４３が用いられる。
　また、第１の実施形態においては、第２の予測部１９の学習のために反転情報１０のみが用いられたが、本実施形態においては、学習のために反転情報１０及び配列情報特徴量４３が用いられる。
　以降、上記の差異を中心に説明を行い、第１の実施形態と同様の内容については、説明を省略する。

　図１５に示すように、第１の予測部１８における機械学習モデル２６ａには、配列情報１及び配列情報特徴量４３が入力される。
　入力された配列情報１及び配列情報特徴量４３に基づいて、機械学習モデル２６ａにより、第１のコンタクトマップ２１が予測される。

　図１６に示すように、学習用データに、教師ラベルが関連付けられた教師データが、学習部３０に入力される。
　本実施形態では、学習用の配列情報２９及び学習用の配列情報特徴量５０の組が、学習用データに相当する。
　また、コンタクトマップ１４が教師ラベル（正解データ）に相当する。
　例えば、コンタクトマップ１４が既知であるようなタンパク質が存在する場合に、当該既知のコンタクトマップ１４が、正解データとして用いられる。また、当該タンパク質に関する配列情報１が、学習用の配列情報２９として用いられる。

　さらに、当該タンパク質に関する特徴量４７が、学習用の配列情報特徴量５０として用いられる。例えば、特徴量算出部４２により、学習用の配列情報２９に基づいて特徴量４７が算出され、当該特徴量４７が学習用の配列情報特徴量５０として用いられる。
　もちろん、学習用の配列情報特徴量５０の生成方法は限定されず、任意の方法が採用されてよい。
　このように、既知のコンタクトマップ１４、配列情報１、及び配列情報特徴量４３が関連付けられた教師データが複数用意され、学習のために用いられる。
　学習用の配列情報特徴量５０は、本技術に係る、学習用の第１の特徴量の一実施形態に相当する。

　本実施形態では、第１の予測部１８は、正解データと関連付けられた学習用の配列情報２９、及び学習用の配列情報２９に基づいて算出された学習用の配列情報特徴量５０を入力として予測された第１のコンタクトマップ２１と、正解データとの誤差に基づいて学習された機械学習モデル２６ａを含む。
　すなわち、誤差逆伝搬法により、第１のコンタクトマップ２１と正解データとの誤差に基づいて、第１の予測部１８の学習が実行される。
　もちろん、第１の予測部１８の学習方法は限定されず、任意の方法が採用されてよい。
　学習部３０により生成された機械学習モデル２６ａは、第１の予測部１８に組み込まれる。そして、第１の予測部１８により、第１のコンタクトマップ２１の予測が実行される。

　第２の予測部１９においても、特徴量４７を用いた学習が実行される。
　本実施形態では、第２の予測部１９は、学習用の配列情報２９に基づいて生成された反転情報、及び学習用の配列情報２９に基づいて算出された学習用の配列情報特徴量５０を入力として予測された第２のコンタクトマップ２２と、正解データとの誤差に基づいて学習された機械学習モデル２６ｂを含む。
　具体的には、学習用の反転情報３４と、学習用の配列情報特徴量５０とを入力として、誤差逆伝搬法による機械学習モデル２６ｂの学習が実行される。
　もちろん、第２の予測部１９の学習方法は限定されず、任意の方法が採用されてよい。

　次に、統合部２０の学習について説明する。
　統合部２０においても、第１の実施形態と同様に学習が実行される。具体的には、学習用の第１のコンタクトマップ３５、及び学習用の第２のコンタクトマップ３６が、機械学習モデル２６ｃに入力されることで、学習が実行される。
　なお、学習用の第１のコンタクトマップ３５は、学習用の配列情報２９及び学習用の配列情報特徴量５０に基づいて、第１の予測部１８により予測される。また、学習用の第２のコンタクトマップ３６は、学習用の反転情報３４及び学習用の配列情報特徴量５０に基づいて、第２の予測部１９により予測される。

　［予測部の再学習］
　第１の実施形態と同様に、機械学習モデル２６ａは、学習用の第１のコンタクトマップ３５、及び学習用の第２のコンタクトマップ３６を入力として予測された統合コンタクトマップ２３と、正解データとの誤差に基づいて再学習される。
　また、機械学習モデル２６ｂも、統合コンタクトマップ２３と、正解データとの誤差に基づいて再学習される。
　すなわち、誤差逆伝播法による機械学習モデル２６ａ及び機械学習モデル２６ｂの再学習が実行される。

　以上、本実施形態に係る情報処理装置４では、予測に配列情報特徴量４３が用いられるため、第１の予測部１８及び第２の予測部１９において、精度の高い予測が可能である。また、統合部２０により生成される統合コンタクトマップ２３も、第１の予測部１８及び第２の予測部１９における予測結果を用いたものであるため、精度の高い予測結果となる。
　このように、配列情報特徴量４３が用いられることにより、精度の高い予測が実現される。
　さらに本実施形態では、学習においても配列情報特徴量４３が用いられるため、高い精度の予測を実行可能な機械学習モデルが生成される。

　＜第３の実施形態＞
　本技術に係る第３の実施形態のタンパク質解析システムについて説明する。なお、第１の実施形態及び第２の実施形態で説明したタンパク質解析システム１００における構成及び作用と同様な部分については、その説明を省略又は簡略化する。

　第３の実施形態においては、第１の予測部１８において、配列情報１及び配列情報特徴量４３に基づいて、予測が実行される。
　また、第２の実施形態においては、第２の予測部１９において、反転情報１０及び配列情報特徴量４３に基づいて予測及び学習が実行された。一方で、第３の実施形態においては、第２の予測部１９において、反転情報１０及び反転情報特徴量に基づいて予測及び学習が実行される。この点が、第２の実施形態と第３の実施形態との差異となる。

　［情報処理装置の構成例］
　図１７は、第３の実施形態における、情報処理装置４の機能的な構成例を示すブロック図である。
　図１７に示すように、情報処理装置４は、取得部５、反転部６、特徴量算出部４２、第１の予測部１８、第２の予測部１９及び統合部２０を有する。
　取得部５、反転部６、第１の予測部１８、及び統合部２０の構成及び作用については、第２の実施形態と同様であるため、説明を省略する。
　本実施形態では、他の実施形態と同様に、タンパク質情報２としてコンタクトマップ１４が予測される。

　図１７に示すように、本実施形態では、特徴量算出部４２は、配列情報１に基づいて配列情報特徴量４３を算出し、反転情報１０に基づいて反転情報特徴量５３を算出する。
　配列情報特徴量４３は、第２の実施形態と同様の方法で算出される。
　反転情報特徴量５３についても、第２の実施形態と概ね同様の方法で算出される。具体的には、例えば特徴量算出部４２により反転情報１０が取得され、反転情報１０の分割やデータベースにおける検索等が、第２の実施形態と同様に実行され、反転情報特徴量５３が算出される。
　なお、算出された反転情報特徴量５３は、もちろん配列情報特徴量４３とは異なる情報となりうる。これは、例えば部分配列情報と部分反転情報（反転情報１０を分割した情報）とは異なる情報となるため、データベースにおける抽出結果も異なり、従って、最終的に算出される各々の特徴量４７も異なるためである。
　反転情報特徴量５３は、本技術に係る第２の特徴量の一実施形態に相当する。

　図１７に示すように、第１の予測部１８は、第２の実施形態と同様に、配列情報１と、配列情報特徴量４３とに基づいて、第１のコンタクトマップ２１を予測する。
　一方で、第２の予測部１９は、反転情報１０と、反転情報特徴量５３とに基づいて、第２のコンタクトマップ２２を予測する。
　本実施形態では、反転部６により生成された反転情報１０が、第２の予測部１９に対して出力される。また、特徴量算出部４２により算出された反転情報特徴量５３が、第２の予測部１９に対して出力される。第２の予測部１９が反転情報１０及び反転情報特徴量５３を受け取ると、反転情報１０及び反転情報特徴量５３に基づいて、第２のコンタクトマップ２２の予測が実行される。
　予測方法としては、例えば他の実施形態と同様に、所定のアルゴリズムによる予測が採用される。もちろん、第２の予測部１９による予測方法は、アルゴリズムによる予測に限定されず、任意の予測方法が採用されてよい。

　なお、情報処理装置４による統合コンタクトマップ２３の生成処理に関する処理順は限定されない。
　例えば、第１の予測部１８による予測と、特徴量算出部４２による反転情報特徴量５３の生成は、どちらが先に実行されてもよい。
　その他、各機能ブロックによる処理順は限定されず、一連の処理が可能な範囲の、任意の順番で処理が実行されてよい。

　［機械学習モデル］
　第３の実施形態においても、第２の実施形態と同様に、誤差逆伝搬法による学習が実行される。
　第１の予測部１８については、第２の実施形態と同様に、学習用の配列情報２９及び学習用の配列情報特徴量５０を入力とした学習が実行される。

　一方で、第２の予測部１９は、学習用の配列情報２９に基づいて生成された反転情報１０、及び反転情報１０に基づいて算出された学習用の反転情報特徴量を入力として予測された第２のコンタクトマップ２２と、正解データとの誤差に基づいて学習された機械学習モデル２６ｂを含む。
　すなわち、学習用の反転情報３４と、学習用の反転情報特徴量とを入力として、誤差逆伝搬法による機械学習モデル２６ｂの学習が実行される。
　もちろん、第２の予測部１９の学習方法は限定されず、任意の方法が採用されてよい。

　なお、例えば、特徴量算出部４２により、学習用の反転情報３４に基づいて特徴量４７が算出され、当該特徴量４７が学習用の反転情報特徴量として用いられる。
　もちろん、学習用の反転情報特徴量の生成方法は限定されず、任意の方法が採用されてよい。
　学習用の反転情報特徴量は、本技術に係る、学習用の第２の特徴量の一実施形態に相当する。

　統合部２０においても、第２の実施形態と同様に学習が実行される。
　学習用の第２のコンタクトマップ３６が、学習用の反転情報３４及び学習用の反転情報特徴量に基づいて予測される点のみが、第２の実施形態との差異である。

　［予測部の再学習］
　各々の予測部の再学習についても、第２の実施形態と同様である。
　すなわち、誤差逆伝播法による、統合コンタクトマップ２３と、正解データとの誤差に基づいた機械学習モデル２６ａ及び機械学習モデル２６ｂの再学習が実行される。

　以上、本実施形態に係る情報処理装置４では、予測に配列情報特徴量４３及び反転情報特徴量５３が用いられるため、第１の予測部１８及び第２の予測部１９において、精度の高い予測が可能である。また、統合部２０により生成される統合コンタクトマップ２３も、第１の予測部１８及び第２の予測部１９における予測結果を用いたものであるため、精度の高い予測結果となる。
　このように、配列情報特徴量４３及び反転情報特徴量５３が用いられることにより、精度の高い予測が実現される。
　さらに本実施形態では、学習においても配列情報特徴量４３及び反転情報特徴量５３が用いられるため、高い精度の予測を実行可能な機械学習モデルが生成される。

　＜その他の実施形態＞
　本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

　各々の予測部において、予測のために入力される情報の種類は限定されない。すなわち、予測部に対して配列情報１、反転情報１０、配列情報特徴量４３、反転情報特徴量５３のいずれが入力されるかについては、限定されない。
　２つの予測部に入力される情報の種類の、第２の実施形態や第３の実施形態とは異なる組み合わせとして、以下のような例がある。
　（１）第１の予測部に対して、配列情報１及び配列情報特徴量４３を入力、
　　　　第２の予測部に対して、配列情報１及び反転情報特徴量５３を入力
　（２）第１の予測部に対して、配列情報１及び反転情報特徴量５３を入力
　　　　第２の予測部に対して、反転情報１０及び配列情報特徴量４３を入力、
　（３）第１の予測部に対して、配列情報１及び反転情報特徴量５３を入力、
　　　　第２の予測部に対して、反転情報１０及び反転情報特徴量５３を入力
　（４）第１の予測部に対して、反転情報１０及び配列情報特徴量４３を入力、
　　　　第２の予測部に対して、反転情報１０及び反転情報特徴量５３を入力
　また、もちろん３つ以上の予測部が構成されてもよいし、その場合に、各々の予測部に入力される情報の種類の組み合わせも限定されない。

　図１８は、情報処理装置４を実現可能なコンピュータ５６のハードウェア構成例を示すブロック図である。
　コンピュータ５６は、ＣＰＵ５７、ＲＯＭ５８、ＲＡＭ５９、入出力インタフェース６０、及びこれらを互いに接続するバス６１を備える。入出力インタフェース６０には、表示部６２、入力部６３、記憶部６４、通信部６５、及びドライブ部６６等が接続される。
　表示部６２は、例えば液晶、ＥＬ等を用いた表示デバイスである。入力部６３は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。入力部６３がタッチパネルを含む場合、そのタッチパネルは表示部６２と一体となり得る。
　記憶部６４は、不揮発性の記憶デバイスであり、例えばＨＤＤ、フラッシュメモリ、その他の固体メモリである。ドライブ部６６は、例えば光学記録媒体、磁気記録テープ等、リムーバブル記録媒体６７を駆動することが可能なデバイスである。
　通信部６５は、ＬＡＮ、ＷＡＮ等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部６５は、有線及び無線のどちらを利用して通信するものであってもよい。通信部６５は、コンピュータ５６とは別体で使用される場合が多い。
　上記のようなハードウェア構成を有するコンピュータ５６による情報処理は、記憶部６４またはＲＯＭ５８等に記憶されたソフトウェアと、コンピュータ５６のハードウェア資源との協働により実現される。具体的には、ＲＯＭ５８等に記憶された、ソフトウェアを構成するプログラムをＲＡＭ５９にロードして実行することにより、本技術に係る情報処理方法が実現される。
　プログラムは、例えばリムーバブル記録媒体６７を介してコンピュータ５６にインストールされる。あるいは、グローバルネットワーク等を介してプログラムがコンピュータ５６にインストールされてもよい。その他、コンピュータ５６が読み取り可能な非一過性の任意の記憶媒体が用いられてよい。

　ネットワーク等を介して通信可能に接続された複数のコンピュータが協働することで、本技術に係る情報処理方法が実行され、本技術に係る情報処理装置４が構築されてもよい。
　すなわち本技術に係る情報処理方法は、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。
　なお本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。
　コンピュータシステムによる本技術に係る情報処理方法の実行は、例えばタンパク質情報２の予測、特徴量４７の算出等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
　すなわち本技術に係る情報処理方法は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

　各図面を参照して説明したタンパク質解析システム１００、情報処理装置４、情報処理方法等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。

　本開示において、説明の理解を容易とするために、「略」「ほぼ」「おおよそ」等の文言が適宜使用されている。一方で、これら「略」「ほぼ」「おおよそ」等の文言を使用する場合と使用しない場合とで、明確な差異が規定されるわけではない。
　すなわち、本開示において、「中心」「中央」「均一」「等しい」「同じ」「直交」「平行」「対称」「延在」「軸方向」「円柱形状」「円筒形状」「リング形状」「円環形状」等の、形状、サイズ、位置関係、状態等を規定する概念は、「実質的に中心」「実質的に中央」「実質的に均一」「実質的に等しい」「実質的に同じ」「実質的に直交」「実質的に平行」「実質的に対称」「実質的に延在」「実質的に軸方向」「実質的に円柱形状」「実質的に円筒形状」「実質的にリング形状」「実質的に円環形状」等を含む概念とする。
　例えば「完全に中心」「完全に中央」「完全に均一」「完全に等しい」「完全に同じ」「完全に直交」「完全に平行」「完全に対称」「完全に延在」「完全に軸方向」「完全に円柱形状」「完全に円筒形状」「完全にリング形状」「完全に円環形状」等を基準とした所定の範囲（例えば±１０％の範囲）に含まれる状態も含まれる。
　従って、「略」「ほぼ」「おおよそ」等の文言が付加されていない場合でも、いわゆる「略」「ほぼ」「おおよそ」等を付加して表現され得る概念が含まれ得る。反対に、「略」「ほぼ」「おおよそ」等を付加して表現された状態について、完全な状態が必ず排除されるというわけではない。

　本開示において、「Ａより大きい」「Ａより小さい」といった「より」を使った表現は、Ａと同等である場合を含む概念と、Ａと同等である場合を含まない概念の両方を包括的に含む表現である。例えば「Ａより大きい」は、Ａと同等は含まない場合に限定されず、「Ａ以上」も含む。また「Ａより小さい」は、「Ａ未満」に限定されず、「Ａ以下」も含む。
　本技術を実施する際には、上記で説明した効果が発揮されるように、「Ａより大きい」及び「Ａより小さい」に含まれる概念から、具体的な設定等を適宜採用すればよい。

　以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

　なお、本技術は以下のような構成も採ることができる。
（１）
　ゲノム配列に関する配列情報を取得する取得部と、
　前記配列情報に基づいて、配列が反転された反転情報を生成する反転部と、
　前記反転情報に基づいて、タンパク質に関するタンパク質情報を生成する生成部と
　を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
　前記配列情報は、アミノ酸の配列、ＤＮＡの配列、又はＲＮＡの配列の少なくとも１つに関する情報である
　情報処理装置。
（３）（１）又は（２）に記載の情報処理装置であって、
　前記生成部は、
　前記配列情報に基づいて、第１のタンパク質情報を予測する第１の予測部と、
　前記反転情報に基づいて、第２のタンパク質情報を予測する第２の予測部と、
　前記第１のタンパク質情報と、前記第２のタンパク質情報とを統合することで、前記タンパク質情報を生成する統合部と
　を有する
（４）（１）から（３）のうちいずれか１つに記載の情報処理装置であって、
　前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含む
　情報処理装置。
（５）（４）に記載の情報処理装置であって、
　前記タンパク質情報は、前記タンパク質を構成するアミノ酸残基間の結合を示すコンタクトマップ、前記タンパク質を構成するアミノ酸残基間の距離を示す距離マップ、又は前記タンパク質の三次構造の少なくとも１つを含む
　情報処理装置。
（６）（３）に記載の情報処理装置であって、
　前記統合部は、前記第１のタンパク質情報、及び前記第２のタンパク質情報を入力として機械学習を実行することで、前記タンパク質情報を予測する
　情報処理装置。
（７）（６）に記載の情報処理装置であって、
　前記第１の予測部は、前記配列情報を入力として機械学習を実行することで、前記第１のタンパク質情報を予測し、
　前記第２の予測部は、前記反転情報を入力として機械学習を実行することで、前記第２のタンパク質情報を予測する
　情報処理装置。
（８）（７）に記載の情報処理装置であって、
　前記統合部は、正解データと関連付けられた学習用の前記配列情報を入力として予測された学習用の前記第１のタンパク質情報、及び前記学習用の前記配列情報に基づいて生成された前記反転情報を入力として予測された学習用の前記第２のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて学習された統合用の機械学習モデルを含む
　情報処理装置。
（９）（８）に記載の情報処理装置であって、
　前記第１の予測部は、前記学習用の前記第１のタンパク質情報と、前記正解データとの誤差に基づいて学習された第１の機械学習モデルを含み、
　前記第１の機械学習モデルは、前記学習用の前記第１のタンパク質情報、及び前記学習用の前記第２のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
　情報処理装置。
（１０）（８）又は（９）に記載の情報処理装置であって、
　前記第２の予測部は、前記学習用の前記第２のタンパク質情報と、前記正解データとの誤差に基づいて学習された第２の機械学習モデルを含み、
　前記第２の機械学習モデルは、前記学習用の前記第１のタンパク質情報、及び前記学習用の前記第２のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
　情報処理装置。
（１１）（３）に記載の情報処理装置であって、さらに、
　前記配列情報に基づいて特徴量を算出する特徴量算出部を具備し、
　前記生成部は、前記特徴量に基づいて、前記タンパク質情報を生成する
　情報処理装置。
（１２）（１１）に記載の情報処理装置であって、
　前記特徴量算出部は、前記配列情報に基づいて第１の特徴量を算出し、
　前記第１の予測部は、前記配列情報と、前記第１の特徴量とに基づいて、前記第１のタンパク質情報を予測し、
　前記第２の予測部は、前記反転情報と、前記第１の特徴量とに基づいて、前記第２のタンパク質情報を予測する
　情報処理装置。
（１３）（１１）に記載の情報処理装置であって、
　前記特徴量算出部は、前記配列情報に基づいて第１の特徴量を算出し、前記反転情報に基づいて第２の特徴量を算出し、
　前記第１の予測部は、前記配列情報と、前記第１の特徴量とに基づいて、前記第１のタンパク質情報を予測し、
　前記第２の予測部は、前記反転情報と、前記第２の特徴量とに基づいて、前記第２のタンパク質情報を予測する
　情報処理装置。
（１４）（１２）又は（１３）に記載の情報処理装置であって、
　前記第１の予測部は、正解データと関連付けられた学習用の前記配列情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第１の特徴量を入力として予測された前記第１のタンパク質情報と、前記正解データとの誤差に基づいて学習された第１の機械学習モデルを含む
　情報処理装置。
（１５）（１２）に記載の情報処理装置であって、
　前記第２の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第１の特徴量を入力として予測された前記第２のタンパク質情報と、前記正解データとの誤差に基づいて学習された第２の機械学習モデルを含む
　情報処理装置。
（１６）（１３）に記載の情報処理装置であって、
　前記第２の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記反転情報に基づいて算出された学習用の前記第２の特徴量を入力として予測された前記第２のタンパク質情報と、前記正解データとの誤差に基づいて学習された第２の機械学習モデルを含む
　情報処理装置。
（１７）（１１）から（１６）のうちいずれか１つに記載の情報処理装置であって、
　前記特徴量は、前記タンパク質の二次構造、前記タンパク質に関する注釈情報、前記タンパク質の触媒接触度、又は前記タンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも１つを含む
　情報処理装置。
（１８）（１）から（１７）のうちいずれか１つに記載の情報処理装置であって、
　前記配列情報は、前記タンパク質を構成するアミノ酸残基のＮ末端側からの結合順を示す情報であり、
　前記反転情報は、前記タンパク質を構成するアミノ酸残基のＣ末端側からの結合順を示す情報である
　情報処理装置。
（１９）
　ゲノム配列に関する配列情報を取得し、
　前記配列情報に基づいて、配列が反転された反転情報を生成し、
　前記反転情報に基づいて、タンパク質に関する第１のタンパク質情報を予測する
　ことをコンピュータシステムが実行する情報処理方法。
（２０）
　ゲノム配列に関する配列情報を取得するステップと、
　前記配列情報に基づいて、配列が反転された反転情報を生成するステップと、
　前記反転情報に基づいて、タンパク質に関する第１のタンパク質情報を予測するステップと
　をコンピュータシステムに実行させるプログラム。
（２１）（１１）から（１７）のうちいずれか１つに記載の情報処理装置であって、
　前記特徴量算出部は、前記配列情報と前記特徴量とが関連付けられたデータベースにアクセスすることで、前記特徴量を算出する
　情報処理装置。

　１…配列情報
　２…タンパク質情報
　４…情報処理装置
　５…取得部
　６…反転部
　７…生成部
　１０…反転情報
　１３…三次構造
　１４…コンタクトマップ
　１５…距離マップ
　１８…第１の予測部
　１９…第２の予測部
　２０…統合部
　２１…第１のコンタクトマップ
　２２…第２のコンタクトマップ
　２３…統合コンタクトマップ
　２６ａ…機械学習モデル
　２６ｂ…機械学習モデル
　２６ｃ…機械学習モデル
　２９…学習用の配列情報
　３４…学習用の反転情報
　３５…学習用の第１のコンタクトマップ
　３６…学習用の第２のコンタクトマップ
　４２…特徴量算出部
　４３…配列情報特徴量
　４６…データベース
　４７…特徴量
　５０…学習用の配列情報特徴量
　５３…反転情報特徴量
　１００…タンパク質解析システム

Claims

　ゲノム配列に関する配列情報を取得する取得部と、
　前記配列情報に基づいて、配列が反転された反転情報を生成する反転部と、
　前記反転情報に基づいて、タンパク質に関するタンパク質情報を生成する生成部と
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記配列情報は、アミノ酸の配列、ＤＮＡの配列、又はＲＮＡの配列の少なくとも１つに関する情報である
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記生成部は、
　前記配列情報に基づいて、第１のタンパク質情報を予測する第１の予測部と、
　前記反転情報に基づいて、第２のタンパク質情報を予測する第２の予測部と、
　前記第１のタンパク質情報と、前記第２のタンパク質情報とを統合することで、前記タンパク質情報を生成する統合部と
　を有する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記タンパク質情報は、前記タンパク質の構造、又は前記タンパク質の機能の少なくとも一方を含む
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記タンパク質情報は、前記タンパク質を構成するアミノ酸残基間の結合を示すコンタクトマップ、前記タンパク質を構成するアミノ酸残基間の距離を示す距離マップ、又は前記タンパク質の三次構造の少なくとも１つを含む
　情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記統合部は、前記第１のタンパク質情報、及び前記第２のタンパク質情報を入力として機械学習を実行することで、前記タンパク質情報を予測する
　情報処理装置。
　請求項６に記載の情報処理装置であって、
　前記第１の予測部は、前記配列情報を入力として機械学習を実行することで、前記第１のタンパク質情報を予測し、
　前記第２の予測部は、前記反転情報を入力として機械学習を実行することで、前記第２のタンパク質情報を予測する
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記統合部は、正解データと関連付けられた学習用の前記配列情報を入力として予測された学習用の前記第１のタンパク質情報、及び前記学習用の前記配列情報に基づいて生成された前記反転情報を入力として予測された学習用の前記第２のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて学習された統合用の機械学習モデルを含む
　情報処理装置。
　請求項８に記載の情報処理装置であって、
　前記第１の予測部は、前記学習用の前記第１のタンパク質情報と、前記正解データとの誤差に基づいて学習された第１の機械学習モデルを含み、
　前記第１の機械学習モデルは、前記学習用の前記第１のタンパク質情報、及び前記学習用の前記第２のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
　情報処理装置。
　請求項８に記載の情報処理装置であって、
　前記第２の予測部は、前記学習用の前記第２のタンパク質情報と、前記正解データとの誤差に基づいて学習された第２の機械学習モデルを含み、
　前記第２の機械学習モデルは、前記学習用の前記第１のタンパク質情報、及び前記学習用の前記第２のタンパク質情報を入力として予測された前記タンパク質情報と、前記正解データとの誤差に基づいて再学習される
　情報処理装置。
　請求項３に記載の情報処理装置であって、さらに、
　前記配列情報に基づいて特徴量を算出する特徴量算出部を具備し、
　前記生成部は、前記特徴量に基づいて、前記タンパク質情報を生成する
　情報処理装置。
　請求項１１に記載の情報処理装置であって、
　前記特徴量算出部は、前記配列情報に基づいて第１の特徴量を算出し、
　前記第１の予測部は、前記配列情報と、前記第１の特徴量とに基づいて、前記第１のタンパク質情報を予測し、
　前記第２の予測部は、前記反転情報と、前記第１の特徴量とに基づいて、前記第２のタンパク質情報を予測する
　情報処理装置。
　請求項１１に記載の情報処理装置であって、
　前記特徴量算出部は、前記配列情報に基づいて第１の特徴量を算出し、前記反転情報に基づいて第２の特徴量を算出し、
　前記第１の予測部は、前記配列情報と、前記第１の特徴量とに基づいて、前記第１のタンパク質情報を予測し、
　前記第２の予測部は、前記反転情報と、前記第２の特徴量とに基づいて、前記第２のタンパク質情報を予測する
　情報処理装置。
　請求項１２に記載の情報処理装置であって、
　前記第１の予測部は、正解データと関連付けられた学習用の前記配列情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第１の特徴量を入力として予測された前記第１のタンパク質情報と、前記正解データとの誤差に基づいて学習された第１の機械学習モデルを含む
　情報処理装置。
　請求項１２に記載の情報処理装置であって、
　前記第２の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記学習用の配列情報に基づいて算出された学習用の前記第１の特徴量を入力として予測された前記第２のタンパク質情報と、前記正解データとの誤差に基づいて学習された第２の機械学習モデルを含む
　情報処理装置。
　請求項１３に記載の情報処理装置であって、
　前記第２の予測部は、前記学習用の前記配列情報に基づいて生成された前記反転情報、及び前記反転情報に基づいて算出された学習用の前記第２の特徴量を入力として予測された前記第２のタンパク質情報と、前記正解データとの誤差に基づいて学習された第２の機械学習モデルを含む
　情報処理装置。
　請求項１１に記載の情報処理装置であって、
　前記特徴量は、前記タンパク質の二次構造、前記タンパク質に関する注釈情報、前記タンパク質の触媒接触度、又は前記タンパク質を構成するアミノ酸残基間の相互ポテンシャルの少なくとも１つを含む
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記配列情報は、前記タンパク質を構成するアミノ酸残基のＮ末端側からの結合順を示す情報であり、
　前記反転情報は、前記タンパク質を構成するアミノ酸残基のＣ末端側からの結合順を示す情報である
　情報処理装置。
　ゲノム配列に関する配列情報を取得し、
　前記配列情報に基づいて、配列が反転された反転情報を生成し、
　前記反転情報に基づいて、タンパク質に関する第１のタンパク質情報を予測する
　ことをコンピュータシステムが実行する情報処理方法。
　ゲノム配列に関する配列情報を取得するステップと、
　前記配列情報に基づいて、配列が反転された反転情報を生成するステップと、
　前記反転情報に基づいて、タンパク質に関する第１のタンパク質情報を予測するステップと
　をコンピュータシステムに実行させるプログラム。