WO2024171375A1

WO2024171375A1 - 情報処理プログラム，情報処理方法および情報処理装置

Info

Publication number: WO2024171375A1
Application number: PCT/JP2023/005471
Authority: WO
Inventors: 壮太郎栗林
Original assignee: 富士通株式会社
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2024-08-22

Abstract

ウィルスの蛋白質の立体構造に関する第１特徴量と、立体構造に起因する性質に関する第２特徴量と、を入力データとした機械学習モデル１０３を用いた予測により、入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報に基づく第３特徴量を取得し、第２特徴量と第３特徴量とを入力特徴量として、変異後のウィルスのアミノ酸配列を予測する回帰モデル１１０の訓練を行なうことで、ウィルスの変異予測の精度を向上させる。

Description

情報処理プログラム，情報処理方法および情報処理装置

　本発明は、情報処理プログラム，情報処理方法および情報処理装置に関する。

　ウィルスは変異を繰り返す為、コロナウィルス等のワクチン開発に於いて変異の予測が重要である。

　従来においては、ウィルスの蛋白質をアミノ酸配列として捉え、流行時期と対応付ける時系列解析や、ＬＳＴＭ（Long Short-Term Memory）により変異後のウィルスのアミノ酸配列を予測することが行なわれている。

国際公開第２０２２／０１９３３１号特表２０２２―５２１６８６号公報米国特許出願公開第２０１２／０２６５５１３号明細書特表２０２２－５２７３８１号公報米国特許出願公開第２０１９／０２６６４９３号明細書

　しかしながら、このような従来のウィルスの変異予測手法においては、構造的に離れたアミノ酸どうしの影響や、同一のアミノ酸名のウィルス内における位置での性質の違いを、ウィルスの変異予測に反映させることができない。

　例えば、同一の化学式であっても、異性体等の形状や性質が異なる物が存在する場合がしばしば有るが、従来のウィルスの変異予測手法では、それらへの追従が困難である。従って、ウィルスの変異予測の精度が低下するという課題がある。

　１つの側面では、本発明は、ウィルスの変異予測の精度を向上することを目的とする。

　このため、この情報処理プログラムは、ウィルスの蛋白質の立体構造に関する第１特徴量と、立体構造に起因する性質に関する第２特徴量と、を入力データとした機械学習モデルを用いた予測により、前記入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報に基づく第３特徴量を取得し、前記第２特徴量と前記第３特徴量とを入力特徴量として、変異後の前記ウィルスのアミノ酸配列を予測する回帰モデルの訓練を行なう処理をコンピュータに実行させる。

　一実施形態によれば、ウィルスの変異予測の精度を向上させることができる。

一実施形態に係る情報処理装置の構成を模式的に示す図である。一実施形態に係る情報処理装置において用いられるアミノ酸配列および抗原クラスタ名情報を例示する図である。一実施形態に係る情報処理装置の機能を実現するコンピュータのハードウェア構成例を示すブロック図である。一実施形態に係る情報処理装置において立体構造計算処理部が出力するアミノ酸立体構造情報を例示する図である。一実施形態に係る情報処理装置において化学パラメータ計算処理部が作成する化学パラメータ情報を例示する図である。一実施形態に係る情報処理装置におけるグラフ情報を例示する図である。一実施形態に係る情報処理装置におけるグラフデータ整形処理部の処理を説明するための図である。一実施形態に係る情報処理装置におけるグラフＡＩ入力用情報を説明するための図である。一実施形態に係る情報処理装置における統計情報を例示する図である。一実施形態に係る情報処理装置のグラフＡＩ計算処理部の予測フェーズにおける処理を示す図である。一実施形態に係る情報処理装置のアミノ酸配列計算処理部による処理を説明するための図である。一実施形態に係る情報処理装置における処理を説明するためのフローチャートである。一実施形態に係る情報処理装置のグラフＡＩ計算処理部の処理を説明するためのフローチャートである。

　以下、図面を参照して本情報処理プログラム，情報処理方法および情報処理装置に係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

　（Ａ）構成
　図１は一実施形態に係る情報処理装置1の構成を模式的に示す図である。

　本情報処理装置１は、変異後のウィルスの蛋白質のアミノ酸配列を予測する回帰モデル（機械学習モデル）１１０の訓練（機械学習）を行なう（訓練フェーズ）。

　訓練フェーズにおいては、本情報処理装置１において、過去のとある時点のウィルスのアミノ酸配列と抗原クラスタ名との入力が行なわれ、当該ウィルスの変異後のアミノ酸配列と抗原クラスタ名とが正解データとして用いられる。

　過去のとある時点のウィルスを、単に、過去のウィルスといってよい。また、この過去のウィルスに含まれるアミノ酸を過去のアミノ酸といってよい。抗原クラスタ名を、単にクラスタ名といってよい。さらに、過去のウィルスのアミノ酸配列と抗原クラスタ名とを過去のアミノ酸配列と抗原クラスタ名といってよい。

　また、本情報処理装置１は、訓練した回帰モデル１１０を用いて、変異後のウィルスの蛋白質のアミノ酸配列を予測（推論）する（予測フェーズ）。

　予測フェーズにおいては、本情報処理装置１において、現在の（最新の）ウィルスのアミノ酸配列と抗原クラスタ名との入力が行なわれ、回帰モデル１１０は、当該ウィルスの変異後のアミノ酸配列と抗原クラスタ名とを予測する。予測フェーズにおいて、入力された現在の（最新の）ウィルスのアミノ酸配列と抗原クラスタ名に基づいて回帰モデル１１０が予測する変異後のアミノ酸配列と抗原クラスタ名とを、未来のアミノ酸配列と抗原クラスタ名といってよい。

　図２は一実施形態に係る情報処理装置１において用いられるアミノ酸配列および抗原クラスタ名情報を例示する図である。

　この図２においては、アミノ酸配列および抗原クラスタ名情報をデータテーブルの形式で表している。以下、アミノ酸配列および抗原クラスタ名情報を符号Ｔ１を付して表す場合がある。

　図２に例示するアミノ酸配列および抗原クラスタ名情報Ｔ１は、Ｎｏ．とクラスタ名と年月日とアミノ酸名とを対応付けて示している。

　なお、図２に例示するアミノ酸配列および抗原クラスタ名情報Ｔ１において、便宜上、文字列として示されている各データは、実用上は一意に紐付く整数値等であってよい。データを整数値として表すことで、各種計算に効率よく用いることができ、利便性が高い。

　Ｎｏ．は、ウィルスを特定する情報である。クラスタ名はウィルスの抗原クラスタ名である。年月日はウィルスが出現もしくは発見された日時であってよい。アミノ酸名は、ウィルスに含まれるアミノ酸の種類を表すものであり、２０種類あるアミノ酸のいずれかを表す。図２においては、便宜上、アミノ酸名（アミノ酸の種類）をＤ，Ｎ等の文字を用いて表している。

　ウィルスに複数のアミノ酸が含まれる場合には、アミノ酸配列および抗原クラスタ名情報Ｔ１において、当該ウィルスに対応させて、複数のアミノ酸名を並べて表してよい。アミノ酸名の並び順は、例えば、先頭から末尾にかけてペプチド結合順に並べてよい。

　ウィルスに含まれる複数のアミノ酸を数字を用いて表してよい。ウィルスに含まれるアミノ酸を表す数字をアミノ酸番号といってよい。図２に示す例においては、アミノ酸名にアミノ酸番号0を付すことで、ウィルスに含まれる複数のアミノ酸のうちの0番目のアミノ酸を表している。

　アミノ酸配列および抗原クラスタ名情報Ｔ１は、例えば、ユーザが用意してもよい。また、例えば、図示しない処理部が、既知のウィルスの情報からアミノ酸や抗原クラスタの情報を抽出することでアミノ酸配列および抗原クラスタ名情報Ｔ１を生成してもよい。

　（Ａ－１）ハードウェア構成例
　一実施形態に係る情報処理装置１の機能は、１台のコンピュータにより実現されてもよいし、２台以上のコンピュータにより実現されてもよい。さらに、情報処理装置１の機能のうちの少なくとも一部は、クラウド環境により提供されるＨＷ（Hardware）リソースおよびＮＷ（Network）リソースを用いて実現されてもよい。

　図３は一実施形態に係る情報処理装置１の機能を実現するコンピュータ１０のハードウェア（ＨＷ）構成例を示すブロック図である。情報処理装置１の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図３に例示するＨＷ構成を備えてよい。

　図３に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ、グラフィック処理装置１０ｂ、メモリ１０ｃ、記憶部１０ｄ、ＩＦ（Interface）部１０ｅ、ＩＯ（Input / Output）部１０ｆ、および読取部１０ｇを備えてよい。

　プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例であり、種々の処理を実行する制御部である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｊで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

　プロセッサ１０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ；integrated circuit）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

　グラフィック処理装置１０ｂは、ＩＯ部１０ｆのうちのモニタ等の出力装置に対する画面表示制御を行なう。また、グラフィック処理装置１０ｂは、機械学習モデルを利用した機械学習処理および予測処理を実行するアクセラレータとしての構成を有してよい。グラフィック処理装置１０ｂとしては、種々の演算処理装置、例えば、ＧＰＵ（Graphics Processing Unit）、ＡＰＵ、ＤＳＰ、ＡＳＩＣ又はＦＰＧＡ等の集積回路（ＩＣ）が挙げられる。

　メモリ１０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｃとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、および、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方または双方が挙げられる。

　記憶部１０ｄは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｄとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

　記憶部１０ｄは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｈ（情報処理プログラム）を格納してよい。

　例えば、情報処理装置１のプロセッサ１０ａは、記憶部１０ｄに格納されたプログラム１０ｈをメモリ１０ｃに展開して実行することにより、後述する訓練フェーズにおける機能や予測フェーズにおける機能を実現できる。

　ＩＦ部１０ｅは、本コンピュータ１０と他のコンピュータとの間の接続および通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部１０ｅは、イーサネット（登録商標）等のＬＡＮ（Local Area Network）、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線および有線の一方又は双方の通信方式に対応してよい。

　例えば、コンピュータ１０は、ＩＦ部１０ｅおよびネットワークを介して、図示しない他のコンピュータやデータベースと相互に通信可能に接続されてよい。なお、プログラム１０ｈは、当該通信ＩＦを介して、ネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｄに格納されてもよい。

　ＩＯ部１０ｆは、入力装置、および、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。また、ＩＯ部１０ｆは、入力装置および出力装置が一体となったタッチパネル等を含んでもよい。出力装置は、グラフィック処理装置１０ｂに接続されてよい。

　読取部１０ｇは、記録媒体１０ｉに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｇは、記録媒体１０ｉを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｇとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｉにはプログラム１０ｈが格納されてもよく、読取部１０ｇが記録媒体１０ｉからプログラム１０ｈを読み出して記憶部１０ｄに格納してもよい。

　記録媒体１０ｉとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

　上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。

　（Ａ－２）機能構成例
　図１に示すように、情報処理装置１１は、例示的に、立体構造計算処理部１０１，グラフＡＩ計算処理部１０２，グラフＡＩ１０３，統計的特徴量処理部１０４，化学パラメータ計算処理部１０５，立体構造特徴量処理部１０６，グラフデータ整形処理部１０７，化学的特徴量処理部１０８，アミノ酸配列計算処理部１０９および回帰モデル１１０としての機能を備えてよい。これらの機能は、コンピュータ１０（図３参照）のハードウェアにより実現されてよい。

　立体構造計算処理部１０１は、ウィルスの蛋白質の立体構造を解析する。立体構造計算処理部１０１は、ウィルスのアミノ酸配列が入力されると、アミノ酸の立体構造解析を行なう。立体構造計算処理部１０１は、解析結果として、アミノ酸の立体構造情報を出力する。アミノ酸の立体構造情報には、例えば、原子毎の座標等が含まれてよい。

　立体構造計算処理部１０１としての機能は、既知の蛋白質の構造計算ツールを用いて実現してよい。蛋白質の構造計算ツールとして、例えば、AlphaFold2を用いてよい。

　図４は一実施形態に係る情報処理装置１において立体構造計算処理部１０１が出力するアミノ酸立体構造情報を例示する図である。

　この図４においては、アミノ酸立体構造情報をデータテーブルの形式で表している。以下、アミノ酸立体構造情報を符号Ｔ２を付して表す場合がある。

　図４に例示するアミノ酸立体構造情報Ｔ２は、ウィルスを特定するＮｏ．に対して各アミノ酸の座標値を対応付けて示している。

　各アミノ酸の座標値は、ｘ，ｙ，ｚの各座標値を含む。図４においては、例えば、アミノ酸ｘ，アミノ酸ｙ，アミノ酸ｚのそれぞれにアミノ酸番号0を付すことで、アミノ酸番号0のアミノ酸の座標を表している。

　アミノ酸立体構造情報Ｔ２においても、アミノ酸名の並び順は、例えば、先頭から末尾にかけてペプチド結合順に並べてよい。

　立体構造計算処理部１０１が出力するアミノ酸立体構造情報Ｔ２は、メモリ１０ｃや記憶部１０ｄの所定の記憶領域等に記憶されてよい。

　立体構造特徴量処理部１０６は、立体構造計算処理部１０１が作成したアミノ酸立体構造情報Ｔ２に基づいて立体構造特徴量を生成する。立体構造特徴量は、立体構造の特徴量を表し、ウィルスの蛋白質の立体構造に関する第１特徴量に相当する。

　立体構造特徴量処理部１０６は、既知の特徴量変換手法を用いて立体構造の特徴量を生成してよい。例えば、立体構造特徴量処理部１０６は、ＳＶＲ（Support Vector Regression），ＮＮ（Neural Network），ＰＣＡ（Principal Component Analysis）等の手法を用いて特徴量変換を行なってよい。

　立体構造特徴量処理部１０６は、以下の式（１）に基づいて立体構造特徴量f_cube(t)を算出してよい。

　f_cube(t) = F_cube(a(t), am(t),t )　・・・（１）
　ここで、f_cube(t) =[f_cube,i(t)]_i=1 ^Nで表され、時刻tの立体構造特徴量ベクトル（f_cube,i(t)∈Ｒ，1≦i≦N）である。

　Nは、アミノ酸配列長、すなわち、ベクトルの次元数である。または、Nは、既知の固定ベクトルの生成手法により、配列から何等かの方法で一定の長さに加工した後の次元数である。

　tは、時刻である。tは、アミノ酸配列および抗原クラスタ名情報より抽出したものであって、年単位等に標本化されてよい。

　a(t)は、a(t)=[a_i(t)]_i=1 ^Nで表され、時刻tのアミノ酸配列ベクトル（a_i(t)∈{j∈Z|1≦j≦20}, 1≦i≦N：２０種類有るアミノ酸の名称と対応付く番号）である。

　am(t)は、時刻tのアミノ酸立体構造のエッジ情報（隣接行列等）である。
　F_cubeは、最も単純なものとして恒等写像（特徴量をそのまま出力）が考えられる。

　立体構造特徴量処理部１０６が算出した立体構造特徴量は、メモリ１０ｃや記憶部１０ｄの所定の記憶領域等に記憶されてよい。

　化学パラメータ計算処理部１０５は、立体構造計算処理部１０１が作成したアミノ酸立体構造情報に基づいて、ウィルスに含まれるアミノ酸毎に化学パラメータを生成する。化学パラメータは、例えば、電荷や露出表面積であってよい。化学パラメータ計算処理部１０５は、アミノ酸毎に露出表面積や電荷を算出してよい。

　化学パラメータ計算処理部１０５は、既知の種々な手法を用いることで化学パラメータを生成してよい。例えば、化学パラメータ計算処理部１０５は、既知の分子動力学シミュレータを用いることで露出表面積等の特徴量を算出してよい。

　図５は一実施形態に係る情報処理装置１において化学パラメータ計算処理部１０５が作成する化学パラメータ情報を例示する図である。

　この図５においては、化学パラメータ情報を、複数の化学パラメータを含むデータテーブルの形式で表している。以下、化学パラメータ情報に符号Ｔ３を付して表す場合がある。

　図５に例示する化学パラメータ情報Ｔ３は、ウィルスを特定するＮｏ．に対して複数のアミノ酸の化学パラメータの値を対応付けて示している。

　図５においては、例えば、アミノ酸化学パラメータにアミノ酸番号0を付すことで、アミノ酸番号0のアミノ酸の化学パラメータを表している。

　化学パラメータ情報Ｔ３においても、アミノ酸名の並び順は、例えば、先頭から末尾にかけてペプチド結合順に並べてよい。

　また、化学パラメータ計算処理部１０５は、アミノ酸毎に複数種類の化学パラメータを生成してよい。

　化学パラメータ計算処理部１０５が生成した化学パラメータ情報は、メモリ１０ｃや記憶部１０ｄの所定の記憶領域等に記憶されてよい。

　化学的特徴量処理部１０８は、化学パラメータ計算処理部１０５が生成した化学パラメータに基づいて化学的特徴量を生成する。化学的特徴量は、化学パラメータの特徴量を表し、立体構造に起因する性質（露出表面積等）に関する第２特徴量に相当する。

　化学的特徴量処理部１０８は、既知の特徴量変換手法を用いて化学パラメータの特徴量を生成してよい。例えば、化学的特徴量処理部１０８は、ＳＶＲ，ＮＮ，ＰＣＡ等の手法を用いて特徴量変換を行なってよい。化学パラメータに基づいて化学的特徴量を生成することを特徴量変換といってよい。

　化学的特徴量処理部１０８は、以下の式（２）に基づいて化学的特徴量f_chem(t)を算出してよい。

　f_chem(t) = F_chem (a(t), am(t),t )　・・・（２）
　ここで、f_chem(t) =[f_chem,i(t)]_i=1 ^Nで表され、時刻tの化学的特徴量ベクトル（f_chem,i(t)∈Ｒ，1≦i≦N）である。

　F_chemは、最も単純なものとして恒等写像（特徴量をそのまま出力）が考えられる。
　化学的特徴量処理部１０８が算出した化学的特徴量は、メモリ１０ｃや記憶部１０ｄの所定の記憶領域等に記憶されてよい。

　グラフデータ整形処理部１０７は、立体構造計算処理部１０１が作成したアミノ酸立体構造情報Ｔ２と、化学パラメータ計算処理部１０５が作成した化学パラメータ情報Ｔ３とに基づいてグラフ情報を作成する。グラフ情報をグラフデータといってよい。

　図６は一実施形態に係る情報処理装置１におけるグラフ情報を例示する図である。

　この図６においては、グラフ情報をデータテーブルの形式で表している。以下、グラフ情報を符号Ｔ４を付して表す場合がある。

　図７は一実施形態に係る情報処理装置１におけるグラフデータ整形処理部１０７の処理を説明するための図である。

　グラフデータ整形処理部１０７は、アミノ酸配列および抗原クラスタ名情報Ｔ１とアミノ酸立体構造情報を符号Ｔ２と化学パラメータ情報に符号Ｔ３とを結合（合成）して、グラフ情報Ｔ４を生成する。

　グラフ情報Ｔ４を生成する際に、グラフデータ整形処理部１０７は、アミノ酸配列および抗原クラスタ名情報Ｔ１とアミノ酸立体構造情報を符号Ｔ２と化学パラメータ情報に符号Ｔ３とをウィルスを特定するＮｏ．を基準に結合させてよい。

　グラフＡＩ計算処理部１０２は、グラフデータ整形処理部１０７が生成したグラフ情報Ｔ４に基づいて、グラフＡＩ１０３に入力するためのデータ（グラフＡＩ入力用情報Ｔ５：入力データ）を作成（整形）する。

　グラフＡＩ計算処理部１０２は、作成したグラフ情報Ｔ４に含まれる複数のウィルスに関する情報を、それぞれグラフＡＩ１０３が処理できるフォーマットのデータに変換することで、グラフＡＩ入力用情報Ｔ５を生成する。

　また、グラフＡＩ計算処理部１０２は、訓練フェーズにおいては、グラフＡＩ入力用情報Ｔ５を用いて、グラフＡＩ１０３の訓練（機械学習）を行なう。

　ここで、グラフＡＩ１０３は、グラフベースの関係性学習を行なう機械学習モデルであって、グラフ分類（クラス分類）を実現する。

　グラフは、ノードの集合とそれらノード間のエッジの集合とを含んで構成される。グラフは、ノードとエッジとで特徴付けられる数理モデルであるといえる。

　グラフをウィルスに当てはめると、アミノ酸がノードに相当し、アミノ酸間の結合がエッジに相当する。アミノ酸間の結合は、例えば、ペプチド結合であってよく、また、静電気力による結合等、その他の結合であってもよい。

　グラフＡＩ１０３は、これらのグラフとエッジの情報に基付いてグラフ分類を実施する。この際、アミノ酸立体構造を説明変数として用い、抗原クラスタ名を目的変数として用いてよい。

　グラフ分類において、各ノードに対するパラメータをノード属性として分類の手掛かりに用いてもよい。

　グラフＡＩ１０３にグラフ分類を行なわせるには、グラフＡＩ１０３にエッジを明示的に与える必要がある。そこで、グラフＡＩ計算処理部１０２は、アミノ酸配列を基に隣接しているアミノ酸同士はエッジ有とする。その他、静電気力等で一定の距離の範囲内にあるアミノ酸同士はエッジ有としてよい。

　グラフＡＩ１０３としての機能は、既知の手法を用いて実現することができる。例えば、グラフＡＩ１０３としての機能を、Ｄｅｅｐ　Ｔｅｎｓｏｒ（登録商標）により実現してもよい。

　グラフＡＩ計算処理部１０２は、グラフ情報Ｔ４に基づいて、ウィルスを構成するアミノ酸配列の各エッジについて、当該エッジが結合する２つのアミノ酸について、それぞれの属性を結合単位で並べることでグラフＡＩ入力用情報Ｔ５を作成する。以下、エッジが結合する２つのアミノ酸を、アミノ酸対といってよい。アミノ酸対におけるエッジの始点となるアミノ酸を始ノードといってよく、また、エッジの終点となるアミノ酸を終ノードといってよい。

　図８は一実施形態に係る情報処理装置１におけるグラフＡＩ入力用情報Ｔ５を説明するための図である。

　この図８においては、図６に例示したグラフ情報Ｔ４と、このグラフ情報Ｔ４に基づいてグラフＡＩ計算処理部１０２が作成したグラフＡＩ入力用情報Ｔ５とを示している。

　図８に例示するグラフＡＩ入力用情報Ｔ５においては、エッジを特定するＮｏ．に対して、当該エッジが結合するアミノ酸対の情報が対応付けられている。

　アミノ酸対の情報は、ウィルスを特定するＮｏ．と、クラスタ名と、始点ノードおよび終点ノードそれぞれの、アミノ酸名，アミノ酸配列番号，化学パラメータおよびアミノ酸の座標値（x,y,z）とを含む。また、図８に示す例においては、始ノードの各情報の末尾にｓを付すとともに、終ノードの各情報の末尾にｅを付して表している。

　従って、例えば、アミノ酸名ｓは始ノードを表し、アミノ酸名ｅは終ノードを表す。また、アミノ酸配列番号ｓ，化学パラメータｓ，アミノ酸ｘｓ，アミノ酸名ｙｓおよびアミノ酸ｚｓは、始ノードの属性情報（始ノード属性）を表す。同様に、アミノ酸配列番号ｅ，化学パラメータｅ，アミノ酸ｘｅ，アミノ酸名ｙｅおよびアミノ酸ｚｅは、終ノードの属性情報（終ノード属性）を表す。

　グラフＡＩ計算処理部１０２は、訓練フェーズにおいて、グラフＡＩ入力用情報Ｔ５を　訓練情報として用いて、グラフＡＩ１０３の訓練を行なう。

　図８に例示するグラフＡＩ入力用情報Ｔ５において、クラスタ名は、グラフＡＩ１０３の訓練フェーズにおける目的変数として用いられる。また、アミノ酸名ｓ，アミノ酸名ｅ，始ノード属性および終ノード属性の各情報は、グラフＡＩ１０３の訓練フェーズにおける説明変数として用いられる。

　グラフＡＩ１０３は、入力層と出力層との間に複数の隠れ層を含むディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）であってもよい。

　ＮＮは、例えば、入力データを入力層に入力し、畳み込み層やプーリング層などで構成される隠れ層にて所定の計算を順次実行することで、演算により得られる情報を入力側から出力側に順次伝えるフォーワッド方向の処理（順伝播処理）を実行する。フォーワッド方向の処理の実行後、出力層から出力される出力データ（グラフ分類結果）と正解データ（クラスタ名）から得られる誤差関数の値を小さくするために、フォーワッド方向の処理で使用するパラメータを決定するバックワード方向の処理（逆伝播処理）とを実行する。そして、逆伝播処理の結果に基づいて重み等の変数を更新する更新処理が実行される。例えば、逆伝播処理の計算に使用される重みの更新幅を決定するアルゴリズムとして、勾配降下法が使用されてもよい。

　また、グラフＡＩ計算処理部１０２は、予測フェーズにおいて、グラフＡＩ入力用情報Ｔ５を入力データとして用いて、グラフＡＩ１０３にグラフ分類を行なわせ、クラスタ名の予測（推論）を行なわせる。

　図８に例示するグラフＡＩ入力用情報Ｔ５において、アミノ酸名ｓ，アミノ酸名ｅ，始ノード属性および終ノード属性の各情報が、グラフＡＩ１０３に対して入力される。

　予測フェーズにおいては、前述したアミノ酸配列および抗原クラスタ名情報Ｔ１にクラスタ名は含まれないものとなる。従って、予測フェーズにおいてグラフＡＩ１０３に入力されるグラフＡＩ入力用情報Ｔ５にクラスタ名は含まれない。

　グラフＡＩ計算処理部１０２は、グラフＡＩ１０３に、ウィルスの蛋白質の立体構造に関する特徴量（立体構造特徴量）と、立体構造に起因する性質（化学的特徴量）に関する特徴量とを入力してアミノ酸の予測を行なわせる。

　また、グラフＡＩ計算処理部１０２は、訓練フェーズおよび予測フェーズのそれぞれにおいて、グラフＡＩ入力用情報Ｔ５をグラフＡＩ１０３に入力して、グラフ分類（クラス分類）を行なわせた後に、統計情報の算出を行なわせる。

　統計情報は、例えば、グラフＡＩ１０３がグラフ分類を行なう際に、予測結果を得るための寄与度（寄与度スコア，ノード寄与度）であってよい。統計情報を統計量といってもよい。グラフＡＩ計算処理部１０２は、ウィルスに含まれるアミノ酸毎に統計量を得る。

　すなわち、グラフＡＩ計算処理部１０２は、当該予測に関して、蛋白質に含まれる各アミノ酸の予測に対する寄与度に基づく特徴量（統計的特徴量）を取得する。

　図９は一実施形態に係る情報処理装置１における統計情報を例示する図である。

　この図９においては、複数の統計情報をデータテーブルの形式で表している。以下、統計情報に符号Ｔ６を付して表す場合がある。

　図９に例示する統計情報Ｔ６は、ウィルスを特定するＮｏ．に対して複数のアミノ酸の統計情報の値を対応付けて示している。

　図９においては、例えば、アミノ酸統計量にアミノ酸番号0を付すことで、アミノ酸番号0のアミノ酸の統計情報を表している。

　統計情報Ｔ６においても、アミノ酸名の並び順は、例えば、先頭から末尾にかけてペプチド結合順に並べてよい。

　グラフＡＩ計算処理部１０２が生成した統計情報は、メモリ１０ｃや記憶部１０ｄの所定の記憶領域等に記憶されてよい。

　グラフＡＩ（グラフＡＩ１０３）においては、寄与度は立体構造毎やアミノ酸毎に得られる。そこで、グラフＡＩ計算処理部１０２は、例えば、クラスタ，年，アミノ酸毎等の所定の単位で寄与度の標本平均を求め、統計情報としても良い。

　グラフＡＩ計算処理部１０２がグラフＡＩ１０３に行なわせた予測結果や、グラフＡＩ１０３に算出させた統計情報の各値は、メモリ１０ｃや記憶部１０ｄの所定の記憶領域等に記憶されてよい。

　図１０は一実施形態に係る情報処理装置１のグラフＡＩ計算処理部１０２の予測フェーズにおける処理を説明するための図である。

　グラフＡＩ計算処理部１０２は、予測フェーズにおいて、グラフＡＩ入力用情報Ｔ５をグラフＡＩ１０３に入力して、グラフ分類を行なわせる（符号Ｐ１参照）。また、グラフＡＩ計算処理部１０２は、グラフＡＩ１０３が算出した統計情報（寄与度）を取得する（符号Ｐ２参照）。

　グラフＡＩ計算処理部１０２は、予測フェーズにおいて、グラフＡＩ入力用情報Ｔ５に含まれる値を変化させ、推論結果がどのように変化するかを確認し（符号Ｐ３参照）、推論結果が向上する場合に、グラフＡＩ入力用情報Ｔ５に対して変化を反映させる等の処理を行なってもよい。

　統計的特徴量処理部１０４は、グラフＡＩ計算処理部１０２がグラフＡＩ１０３に算出させた統計情報Ｔ６に基づいて統計的特徴量を生成する。統計的特徴量は、統計情報（寄与度）の特徴量を表す。

　統計的特徴量は、立体構造特徴量と化学的特徴量とを入力データとしたグラフＡＩ１０３（機械学習モデル）を用いた予測により、入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報（寄与度）に基づいて得られる第３特徴量に相当する。

　統計的特徴量処理部１０４は、既知の特徴量変換手法を用いて統計的特徴量を生成してよい。例えば、統計的特徴量処理部１０４は、ＳＶＲ，ＮＮ，ＰＣＡ等の手法を用いて特徴量変換を行なってよい。

　統計的特徴量処理部１０４は、以下の式（３）に基づいて統計的特徴量f_stat(t)を算出してよい。

　f_stat(t) = F_stat (a(t), am(t),t )　・・・（３）
　ここで、f_stat(t) =[f_stat,i(t)]_i=1 ^Nで表され、時刻tの統計的特徴量ベクトル（f_stat,i(t)∈Ｒ，1≦i≦N）である。

　F_statは、最も単純なものとして恒等写像（特徴量をそのまま出力）が考えられる。
　統計的特徴量処理部１０４が算出した統計的特徴量は、メモリ１０ｃや記憶部１０ｄの所定の記憶領域等に記憶されてよい。

　アミノ酸配列計算処理部１０９は、回帰モデル１１０を用いて変異後のウィルスのアミノ酸配列を予測する。

　アミノ酸配列計算処理部１０９は、訓練フェーズにおいて回帰モデル１１０の訓練を行ない、予測フェーズにおいて、回帰モデル１１０に変異後のアミノ酸配列の予測を行なわせる。

　アミノ酸配列計算処理部１０９は、立体構造特徴量処理部１０６が算出した立体構造特徴量f_cube(t)と、化学的特徴量処理部１０８が算出した化学的特徴量f_chem(t)と、統計的特徴量処理部１０４が算出した統計的特徴量f_stat(t)とに基づいて、変異後のアミノ酸配列を予測する。また、この際、アミノ酸配列計算処理部１０９は、アミノ酸配列のエッジ情報am(t)も用いる。

　回帰モデル１１０は、例えば、ＳＶＲ，ＮＮ，ＧＡ（Genetic Algorithms），時系列解析等の手法を用いて回帰を実現してよい。

　回帰モデル１１０は、入力層と出力層との間に複数の隠れ層を含むディープニューラルネットワーク（ＤＮＮ）であってもよい。

　アミノ酸配列計算処理部１０９は、立体構造特徴量，化学的特徴量および統計的特徴量を入力特徴量（説明変数）として、変異後のウィルスのアミノ酸配列を予測する回帰モデル１１０の訓練と、訓練後の回帰モデル１１０を用いた変異予測を行なう。

　回帰モデル１１０においては、以下の式（４）を用いて変異後のアミノ酸配列を求める。
a(t+nΔt)=F_a{f_cube(t),f_chem(t),f_stat(t),am(t),…,f_cube(t-nΔt),f_chem(t-nΔt),f_stat(t-nΔt),am(t-nΔt),t}　・・・（４）
　F_aはＳＶＲやＬＳＴＭ、ＧＡ、時系列解析等であってよい。tは現在時刻である。t-Δtは現在よりΔtだけ過去の時刻を表す。t+Δtは現在よりもΔtだけ未来の時刻を表す。従って、a(t+nΔt)は未来のアミノ酸配列、すなわち、変異後のアミノ酸配列を表す。

　アミノ酸配列計算処理部１０９は、訓練フェーズにおいて、少なくとも、化学的特徴量（第２特徴量）と統計的特徴量（第３特徴量）とを説明変数（入力特徴量）として、回帰モデル１１０の訓練を行なう。

　また、アミノ酸配列計算処理部１０９は、訓練フェーズにおいて、化学的特徴量と統計的特徴量とに加えて、立体構造特徴量（第１特徴量）を説明変数（入力特徴量）としてよい。

　ここで、回帰計算は入出力のデータ長（ベクトル化した時の次元）が固定である事を想定している。しかしながら、ウィルス毎にアミノ酸の配列の長さは異なる。この為、異なる次元を固定的な次元へ変換する必要が有る。

　そこで、アミノ酸配列計算処理部１０９は、回帰モデル１１０に立体構造特徴量と化学的特徴量と統計的特徴量とを入力するに際して、これらの特徴量の次元を、回帰モデル１１０に合わせた固定的な次元へ変換する処理を行なう。

　図１１は一実施形態に係る情報処理装置１のアミノ酸配列計算処理部１０９による処理を説明するための図である。

　図１１において、符号ＡはグラフＡＩ入力用情報Ｔ５から抽出した特徴量の行列（特徴量行列）を表す。

　アミノ酸配列計算処理部１０９は、各時刻における複数のウィルスの特徴量を抽出することで特徴量行列を作成する。

　アミノ酸配列計算処理部１０９は、例えば、時刻ｔにおける複数のウィルス１～ｖ_０について、ウィルスに含まれるアミノ酸配列の先頭から順にｍ個の特徴量をずらしながら順次抽出することで、ｍ×（３×v₀）の特徴量行列を複数生成する。

　各点線の矩形には、ウィルス毎の立体構造特徴量、化学的特徴量および統計的特徴量が含まれている。

　アミノ酸配列計算処理部１０９は、例えば、m-gramやEG-PSSM，GDPC-PSMM，ER-PSSM等の射影方法を用いることで、固定次元への変換を行ない、特徴量行列を作成してよい。例えば、m-gramは、アミノ酸の配列の先頭から順にm個の特徴量をベクトルとして使用（自然言語処理の真似）してよい。

　さらに、アミノ酸配列計算処理部１０９は、作成した各特徴量行列に対して圧縮（次元圧縮）を行ない、特徴量行列よりも低次元な行列（低次元行列）を作成する。これにより、アミノ酸配列計算処理部１０９は、各特徴量行列を回帰に入力可能なデータに整形する。

　アミノ酸配列計算処理部１０９は、例えば、平均や次元圧縮等の手法を適用して、特徴量行列の圧縮を行なってよい。

　図１１においては、アミノ酸配列計算処理部１０９が、ｍ×（３×v₀）の特徴量行列を圧縮してｍ×ｍ′の特徴量行列を生成した例を示す（符号Ｂ参照）。

　アミノ酸配列計算処理部１０９は、生成したｍ×ｍ′の特徴量行列をベクトル化し、回帰モデル１１０に入力して（符号Ｃ参照）、変異後のアミノ酸配列を出力させる。図１１に示す例においては、t+ΔtにおけるN行のアミノ酸配列が出力されている（符号Ｄ参照）。

　なお、訓練フェーズにおいて、回帰モデル１１０から複数の出力が得られて一つのアミノ酸配列に定まらない場合、すなわち、系統樹における刻み幅（Δｔ）中に複数のウィルスがある場合が想定される。このような場合には、系統樹を参照して、親が一つになるように階層の時間刻み幅（Δｔ）を調整してもよい。ここで、刻み幅（Δｔ）を小さくしてもよく、刻むステップ数（ｎ）を調整してもよい。これにより、回帰モデル１１０が一つのアミノ酸配列を予測することができる。

　（Ｂ）動作
　上述の如く構成された一実施形態に係る情報処理装置１における訓練フェーズにおける処理を、図１２に示すフローチャート（ステップＡ１～Ａ８）に従って説明する。

　立体構造計算処理部１０１に、現在以前のウィルスのアミノ酸配列が入力されると、ステップＡ１において、立体構造計算処理部１０１が、アミノ酸の立体構造解析を行なう。立体構造計算処理部１０１はアミノ酸立体構造情報Ｔ２を生成する。

　アミノ酸立体構造情報Ｔ２は、立体構造特徴量処理部１０６に入力される。ステップＡ２において、立体構造特徴量処理部１０６は、アミノ酸立体構造情報Ｔ２に基づいて立体構造特徴量を生成する。

　また、アミノ酸立体構造情報Ｔ２は、化学パラメータ計算処理部１０５にも入力される。ステップＡ３において、化学パラメータ計算処理部１０５は、アミノ酸立体構造情報Ｔ２に基づいて、ウィルスに含まれるアミノ酸毎に化学パラメータを生成し、化学パラメータ情報Ｔ３を生成する。

　化学パラメータ計算処理部１０５によって生成された化学パラメータ情報Ｔ３は、化学的特徴量処理部１０８に入力される。ステップＡ４において、化学的特徴量処理部１０８は、化学パラメータ情報Ｔ３に基づいて化学的特徴量を生成する。

　また、立体構造計算処理部１０１が作成したアミノ酸立体構造情報Ｔ２と、化学パラメータ計算処理部１０５が作成した化学パラメータ情報Ｔ３とは、グラフデータ整形処理部１０７にも入力される。ステップＡ５において、グラフデータ整形処理部１０７は、これらのアミノ酸立体構造情報Ｔ２および化学パラメータ情報Ｔ３に基づいてグラフ情報Ｔ４を生成する。

　グラフデータ整形処理部１０７が生成したグラフ情報Ｔ４は、グラフＡＩ１０３に入力される。グラフＡＩ計算処理部１０２は、グラフ情報Ｔ４に基づいて、ウィルスを構成する各エッジについて、当該エッジが結合する２つのアミノ酸について、それぞれの属性を結合単位で並べることでグラフＡＩ入力用情報Ｔ５を作成する。

　グラフＡＩ計算処理部１０２は、グラフＡＩ入力用情報Ｔ５を訓練情報として用いて、グラフＡＩ１０３の訓練を行なう。グラフＡＩ計算処理部１０２は、グラフＡＩ１０３に統計情報（寄与度）を算出させ、統計情報Ｔ６を生成する。

　グラフＡＩ計算処理部１０２が生成した統計情報Ｔ６は統計的特徴量処理部１０４に入力される。ステップＡ７において、統計的特徴量処理部１０４は、統計情報Ｔ６に基づいて統計的特徴量を生成する。

　立体構造特徴量処理部１０６が生成した立体構造特徴量と、化学的特徴量処理部１０８が生成した化学的特徴量と、統計的特徴量処理部１０４が生成した統計的特徴量とは、それぞれアミノ酸配列計算処理部１０９に入力される。

　ステップＡ８において、アミノ酸配列計算処理部１０９は、立体構造特徴量，化学的特徴量および統計的特徴量に対して固定次元への変換を行なった後、回帰モデル１１０に入力し、アミノ酸配列の予測を行なわせる。

　アミノ酸配列計算処理部１０９は、予測されたアミノ酸配列を、正解データ（変異後のアミノ酸配列）と比較する。アミノ酸配列計算処理部１０９は、この比較の結果、得られる誤差関数の値を小さくするために、フォーワッド方向の処理で使用するパラメータを決定するバックワード方向の処理（逆伝播処理）を実行する。アミノ酸配列計算処理部１０９は、逆伝播処理の結果に基づいて重み等の変数を更新する更新処理を実行する。

　上述の如く構成された一実施形態に係る情報処理装置１における予測フェーズにおいても同様の処理（ステップＡ１～Ａ８）が行なわれる。

　ただし、立体構造計算処理部１０１に、現在のウィルスのアミノ酸配列が入力される。これにより、ステップＡ１において、立体構造計算処理部１０１が、アミノ酸の立体構造解析を行なう。立体構造計算処理部１０１はアミノ酸立体構造情報Ｔ２を生成する。

　アミノ酸立体構造情報Ｔ２は、立体構造特徴量処理部１０６に入力される。ステップＡ２において、立体構造特徴量処理部１０６は、アミノ酸立体構造情報Ｔ２に基づいて立体構造特徴量を生成（特徴量変換）する。

　化学パラメータ計算処理部１０５によって生成された化学パラメータ情報Ｔ３は、化学的特徴量処理部１０８に入力される。ステップＡ４において、化学的特徴量処理部１０８は、化学パラメータ情報Ｔ３に基づいて化学的特徴量を生成（特徴量変換）する。

　グラフＡＩ計算処理部１０２は、グラフＡＩ入力用情報Ｔ５をグラフＡＩ１０３に入力して、統計情報（寄与度）を算出させ、統計情報Ｔ６を生成する。

　グラフＡＩ計算処理部１０２が生成した統計情報Ｔ６は統計的特徴量処理部１０４に入力される。ステップＡ７において、統計的特徴量処理部１０４は、統計情報Ｔ６に基づいて統計的特徴量を生成（特徴量変換）する。

　ステップＡ８において、アミノ酸配列計算処理部１０９は、立体構造特徴量，化学的特徴量および統計的特徴量に対して固定次元への変換を行なった後、回帰モデル１１０に入力し、変異後のアミノ酸配列の予測を行なわせる。

　なお、予測フェーズにおいて回帰モデル１１０が出力したアミノ酸配列を、後続の訓練フェーズにおいて訓練データとして用いてもよい。

　次に、一実施形態に係る情報処理装置１のグラフＡＩ計算処理部１０２の処理を、図１３に示すフローチャート（ステップＢ１～Ｂ３）に従って説明する。

　ステップＢ１において、グラフＡＩ計算処理部１０２は、グラフデータ整形処理部１０７が生成したグラフ情報Ｔ４を整形して、グラフＡＩ入力用情報Ｔ５を作成する。

　訓練フェーズにおいて、グラフＡＩ計算処理部１０２は、作成したグラフＡＩ入力用情報Ｔ５を用いてグラフＡＩ１０３の訓練を行なう（ステップＢ２）。

　この際、グラフＡＩ計算処理部１０２は、グラフＡＩ入力用情報Ｔ５のうちクラスタ名以外の情報を説明変数として用い、クラスタ名を目的変数として用いる。

　予測フェーズにおいて、グラフＡＩ計算処理部１０２は、グラフＡＩ入力用情報Ｔ５をグラフＡＩ１０３に入力してグラフ分類を行なわせ、クラスタ名の予測（推論）を行なわせる（ステップＢ３）。この際、グラフＡＩ計算処理部１０２は、グラフＡＩ入力用情報Ｔ５のうちクラスタ名以外の情報を説明変数として用いる。

　また、グラフＡＩ計算処理部１０２は、グラフＡＩ１０３に統計情報の算出を行なわせる。その後、処理を終了する。

　（Ｃ）効果
　このように、一実施形態に係る情報処理装置１によれば、変異後のウィルスのアミノ酸配列を予測する回帰モデル１１０を訓練する訓練フェーズにおいて、グラフＡＩ計算処理部１０２が、ウィルスの蛋白質の立体構造に関する立体構造特徴量（第１特徴量）と、立体構造に起因する性質に関する化学的特徴量（第２特徴量）とを入力として、グラフＡＩ１０３にグラフ分類（予測）を行なわせる。

　統計的特徴量処理部１０４が、このグラフ分類に伴って算出された統計情報（寄与度）に基づいて統計的特徴量（第３特徴量）を算出する。

　そして、アミノ酸配列計算処理部１０９が、少なくとも、化学的特徴量と統計的特徴量とを入力特徴量として、回帰モデル１１０の訓練を行なう。

　これにより、回帰モデル１１０において、ウィルスの蛋白質の立体構造が回帰モデル１１０に反映される。従って、予測フェーズにおいて、回帰モデル１１０がウィルスの蛋白質の立体構造特有の性質を考慮したウィルスの変異の予測を行なうことができ、予測精度が向上する。

　アミノ酸配列計算処理部１０９が、少なくとも、化学的特徴量と統計的特徴量とに加え、立体構造特徴量も入力特徴量として、回帰モデル１１０の訓練を行なうことで、回帰モデル１１０に、ウィルスの蛋白質の立体構造が回帰モデル１１０により多く反映することができる。これにより、ウィルスの蛋白質の立体構造特有の性質を考慮したウィルスの変異の予測をより高精度に行なうことができる。

　蛋白質は複数のアミノ酸がペプチド結合を成した物であり、アミノ酸配列はこの結合順にアミノ酸名を並べた配列である。ただし、アミノ酸配列では離れたアミノ酸同士も、静電気力等で結合する事が有り、特有の形状や性質を持つ事が有る。すなわち、特有の形状や性質により、アミノ酸配列は同じでも異なる特徴量を取り得る。

　本情報処理装置１においては、蛋白質の立体構造に基づく特徴量を手掛かりとしてウィルスの変異を予測する事で、予測精度を向上させることができる。

　アミノ酸配列計算処理部１０９が、回帰モデル１１０に立体構造特徴量と化学的特徴量と統計的特徴量とを入力するに際して、これらの特徴量の次元を、回帰モデル１１０に合わせた固定的な次元へ変換する処理を行なう。これにより、回帰モデル１１０による立体構造特徴量と化学的特徴量と統計的特徴量を入力とする予測を実現可能とする。

　また、この際、ＳＶＲやＮＮ，ＰＣＡ等の回帰、次元圧縮や、m-gram等の固定次元のベクトルへの変換、固定次元のベクトルへの生成を行なうことで、Faを計算し易くし、また、予測精度を向上させることもできる。

　（Ｄ）その他
　開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

　例えば、上述した実施形態においては、統計情報として寄与度を用いた例を示しているが、これに限定されるものではなく、寄与度以外の情報を統計情報として用いてよい。

　また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。

　１　　情報処理装置
　１０　　コンピュータ
　１０ａ　　プロセッサ
　１０ｂ　　グラフィック処理装置
　１０ｃ　　メモリ
　１０ｄ　　記憶部
　１０ｅ　　ＩＦ部
　１０ｆ　　ＩＯ部
　１０ｇ　　読取部
　１０ｈ　　プログラム
　１０ｉ　　記録媒体
　１０ｊ　　バス
　１０１　　立体構造特徴量処理部
　１０２　　グラフＡＩ計算処理部
　１０３　　グラフＡＩ
　１０４　　統計的特徴量処理部
　１０５　　化学パラメータ計算処理部
　１０６　　立体構造特徴量処理部
　１０７　　グラフデータ整形処理部
　１０８　　化学的特徴量処理部
　１０９　　アミノ酸配列計算処理部
　１１０　　回帰モデル
　Ｔ１　　アミノ酸配列および抗原クラスタ名情報
　Ｔ２　　アミノ酸立体構造情報
　Ｔ３　　化学パラメータ情報
　Ｔ４　　グラフ情報
　Ｔ５　　グラフＡＩ入力用情報
　Ｔ６　　統計情報

Claims

　ウィルスの蛋白質の立体構造に関する第１特徴量と、立体構造に起因する性質に関する第２特徴量と、を入力データとした機械学習モデルを用いた予測により、前記入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報に基づく第３特徴量を取得し、
　前記第２特徴量と前記第３特徴量とを入力特徴量として、変異後の前記ウィルスのアミノ酸配列を予測する回帰モデルの訓練を行なう
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
　前記回帰モデルの訓練を行なう処理においては、
　前記第２特徴量と前記第３特徴量に加え前記第１特徴量を前記入力特徴量とする
ことを特徴とする、請求項１に記載の情報処理プログラム。
　前記蛋白質のアミノ酸の立体構造解析を行なうことで、アミノ酸立体構造情報を生成し、
　前記アミノ酸立体構造情報に対して特徴量変換を行なうことで、前記立体構造特徴量を算出する
処理を前記コンピュータに実行させることを特徴とする請求項１または２に記載の情報処理プログラム。
　前記アミノ酸立体構造情報に基づいて、前記ウィルスに含まれるアミノ酸毎に化学パラメータ情報を算出し、
　前記化学パラメータ情報に対して特徴量変換を行なうことで化学的特徴量を生成する
処理を前記コンピュータに実行させることを特徴とする請求項３に記載の情報処理プログラム。
　少なくとも前記第２特徴量と前記第３特徴量とを前記回帰モデルに入力する前に、前記第２特徴量と前記第３特徴量の次元を、前記回帰モデルに合わせた固定的な次元へ変換する
処理を前記コンピュータに実行させることを特徴とする、請求項１に記載の情報処理プログラム。
　ウィルスの蛋白質の立体構造に関する第１特徴量と、立体構造に起因する性質に関する第２特徴量と、を入力データとした機械学習モデルを用いた予測により、前記入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報に基づく第３特徴量を取得し、
　前記第２特徴量と前記第３特徴量とを入力特徴量として、変異後の前記ウィルスのアミノ酸配列を予測する回帰モデルの訓練を行なう
処理をコンピュータが実行することを特徴とする情報処理方法。
　前記回帰モデルの訓練を行なう処理においては、
　前記第２特徴量と前記第３特徴量に加え前記第１特徴量を前記入力特徴量とする
ことを特徴とする、請求項６に記載の情報処理方法。
　前記蛋白質のアミノ酸の立体構造解析を行なうことで、アミノ酸立体構造情報を生成し、
　前記アミノ酸立体構造情報に対して特徴量変換を行なうことで、前記立体構造特徴量を算出する
処理を前記コンピュータが実行することを特徴とする請求項６または７に記載の情報処理方法。
　前記アミノ酸立体構造情報に基づいて、前記ウィルスに含まれるアミノ酸毎に化学パラメータ情報を算出し、
　前記化学パラメータ情報に対して特徴量変換を行なうことで化学的特徴量を生成する
処理を前記コンピュータが実行することを特徴とする請求項８に記載の情報処理方法。
　少なくとも前記第２特徴量と前記第３特徴量とを前記回帰モデルに入力する前に、前記第２特徴量と前記第３特徴量の次元を、前記回帰モデルに合わせた固定的な次元へ変換する
処理を前記コンピュータが実行することを特徴とする、請求項６に記載の情報処理方法。
　ウィルスの蛋白質の立体構造に関する第１特徴量と、立体構造に起因する性質に関する第２特徴量と、を入力データとした機械学習モデルを用いた予測により、前記入力データに対応する蛋白質に含まれる各アミノ酸の予測に対する統計情報に基づく第３特徴量を取得し、
　前記第２特徴量と前記第３特徴量とを入力特徴量として、変異後の前記ウィルスのアミノ酸配列を予測する回帰モデルの訓練を行なう
処理を実行する制御部を含むことを特徴とする情報処理装置。
　前記制御部が、
　前記回帰モデルの訓練を行なう処理において、
　前記第２特徴量と前記第３特徴量に加え前記第１特徴量を前記入力特徴量とする
ことを特徴とする、請求項１１に記載の情報処理装置。
　前記制御部が、
　前記蛋白質のアミノ酸の立体構造解析を行なうことで、アミノ酸立体構造情報を生成し、
　前記アミノ酸立体構造情報に対して特徴量変換を行なうことで、前記立体構造特徴量を算出する
処理を実行することを特徴とする請求項１１または１２に記載の情報処理装置。
　前記制御部が、
　前記アミノ酸立体構造情報に基づいて、ウィルスに含まれるアミノ酸毎に化学パラメータ情報を算出し、
　前記化学パラメータ情報に対して特徴量変換を行なうことで化学的特徴量を生成する
処理を実行することを特徴とする請求項１３に記載の情報処理装置。
　前記制御部が、
　少なくとも前記第２特徴量と前記第３特徴量とを前記回帰モデルに入力する前に、前記第２特徴量と前記第３特徴量の次元を、前記回帰モデルに合わせた固定的な次元へ変換する
処理を実行することを特徴とする、請求項１１に記載の情報処理装置。