WO2022220236A1

WO2022220236A1 - 情報処理方法、情報処理装置、及びプログラム

Info

Publication number: WO2022220236A1
Application number: PCT/JP2022/017576
Authority: WO
Inventors: 治久井上; 孝之近藤; 健池内
Original assignee: 国立大学法人京都大学
Priority date: 2021-04-13
Filing date: 2022-04-12
Publication date: 2022-10-20
Also published as: CN117136234A; EP4324922A1; JPWO2022220236A1; US20240203524A1; CA3214838A1

Abstract

情報処理方法は、被験者由来のゲノムＤＮＡ試料において、アルツハイマー病関連遺伝子の変異である第１のＳＮＰを検出する工程１と、アルツハイマー病を発症した患者由来のゲノムＤＮＡ試料において検出された前記アルツハイマー病関連遺伝子の変異である第２のＳＮＰに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第１のＳＮＰから、前記被験者がアルツハイマー病を発症するか否かを判定する工程２と、を含む。

Description

情報処理方法、情報処理装置、及びプログラム

　本発明は、情報処理方法、情報処理装置、及びプログラムに関する。
　本願は、２０２１年４月１３日に、米国に仮出願された米国特許第６３／１７４，５００号明細書に基づき優先権を主張し、その内容をここに援用する。

　アルツハイマー病（ＡＤ）は認知症を生じる神経変性疾患では最も患者が多く、２０１０年時点で世界に３０００万人いるとされている。超高齢社会の到来とともにＡＤ患者数は増え続け、根本的治療法がなければ、２０３０年には６０００万人に達し、２０５０年には1億人を超えると推定されている。

　近年の生物学的及び遺伝学的研究の発展に伴い、認知症、中でもＡＤの病態に関する分子生物学的な理解が進んできた。具体的には、ゲノムワイド関連解析（ＧＷＡＳ）により、多様なヒトの形質に関連する遺伝的背景を調査し、ＡＤ関連遺伝子として５０以上の遺伝子座が特定されている（例えば、非特許文献１参照）。しかしながら、現時点ではＡＤに対して限られた対症療法しかない。この背景には、ＡＤは複数の遺伝子（ポリジーン）の複合的な作用によって発症すると考えられており、特にＡＤ患者の９５％を占める家族歴のない孤発性ＡＤについては、病態の遺伝的な原因を探る有効なアプローチがないことが挙げられる。

Sims R et al., "The multiplex model of the genetics of Alzheimer’s disease.", Nature Neuroscience, Vol. 23, pp. 311-322, 2020.

　本発明は、上記事情に鑑みてなされたものであって、被験者におけるＡＤの発症リスクを予測できる情報処理方法、情報処理装置、及びプログラムを提供する。

　発明者らは、上記目的を達成すべく鋭意研究を重ねた結果、孤発性ＡＤ患者から樹立したｉＰＳ細胞からなるｉＰＳコホートを用いて、大脳皮質の神経細胞を作製した。次いで、ＡＤの病態指標の一つであるアミロイドβ（Ａβ）４２／４０比（Ａβ４２／４０比）を表現型として、前記大脳皮質の神経細胞を用いたＧＷＡＳ（ｃｅｌｌ　ＧＷＡＳ）を行い、Ａβ４２／４０比に関連する遺伝子座を探索した。さらに、特定されたＡβ４２／４０比に関連する遺伝子座をポリジーンデータセットとして用いて、被験者のＡＤ発症リスクを予測できることを見出し、本発明を完成するに至った。

　なお、本明細書では、上記手法、すなわち、ｉＰＳ細胞から大脳皮質神経細胞を作製し、複雑なＡＤ病態を細胞種及び病態ごとの表現型（病的形質）に分解し、その背景の遺伝子データからＡＤの実際の病態を再構成する新技術を“Ｃｅｌｌｕｌａｒ　ｄｉｓｓｅｃｔｉｏｎ　ｏｆ　ｐｏｌｙｇｅｎｉｃｉｔｙ（ＣＤｉＰと略記）”テクノロジーと呼称する。

　すなわち、本発明は、以下の態様を含む。
（１）　被験者由来のゲノムＤＮＡ試料において、アルツハイマー病関連遺伝子の変異である第１のＳＮＰを検出する工程１と、
　アルツハイマー病を発症した患者由来のゲノムＤＮＡ試料において検出された前記アルツハイマー病関連遺伝子の変異である第２のＳＮＰに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第１のＳＮＰから、前記被験者がアルツハイマー病を発症するか否かを判定する工程２と、
を含む、情報処理方法。
（２）　前記機械学習モデルは、複数の分類器を含むランダムフォレストであり、
　各分類器は、前記複数のトレーニングデータセットのうち、前記アルツハイマー病を発症した患者の属性情報及び遺伝子情報の中の主成分情報を基に選択された特定のトレーニングデータセットを用いて学習される、（１）に記載の情報処理方法。
（３）　前記複数のトレーニングデータセットには、遺伝子型インピュテーションを用いて前記第２のＳＮＰから推定された前記第２のＳＮＰの帰属遺伝子型に対して、アルツハイマー病の発症に関する情報がラベル付けられたデータセットが含まれる、（１）又は（２）に記載の情報処理方法。
（４）　前記変異が表１－１～表１－７７に記載された１種以上の変異である、（１）～（３）のいずれか一つに記載の情報処理方法。

（５）　前記変異が表２－１～表２－９に記載された１種以上の変異を更に含む、（４）に記載の情報処理方法。

（６）　被験者由来のゲノムＤＮＡ試料において、アルツハイマー病関連遺伝子の変異である第１のＳＮＰを検出する検出部と、
　アルツハイマー病を発症した患者由来のゲノムＤＮＡ試料において検出された前記アルツハイマー病関連遺伝子の変異である第２のＳＮＰに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第１のＳＮＰから、前記被験者がアルツハイマー病を発症するか否かを判定する判定部と、
を備える、情報処理装置。

（７）　コンピュータに、
　被験者由来のゲノムＤＮＡ試料において、アルツハイマー病関連遺伝子の変異である第１のＳＮＰを検出する工程１と、
　アルツハイマー病を発症した患者由来のゲノムＤＮＡ試料において検出された前記アルツハイマー病関連遺伝子の変異である第２のＳＮＰに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第１のＳＮＰから、前記被験者がアルツハイマー病を発症するか否かを判定する工程２と、
を実行させるためのプログラム。

（８）　（１）～（５）のいずれか一つに記載の情報処理方法を用いる、アルツハイマー病の発症リスクの予測方法。

　上記態様の情報処理方法、情報処理装置、及びプログラムによれば、被験者におけるＡＤの発症リスクを予測することができる。発症リスクの予測により、ＡＤの予防又は治療効果の改善に寄与することができる。さらに、ＡＤの新たな治療標的を提供することができる。

第１実施形態に係る情報処理装置１００の構成の一例を示す図である。第１実施形態に係る処理部１２０によるランタイムの一連の処理の流れを示すフローチャートである。第１実施形態に係る予測モデルＭＤＬの一例を示す図である。第１実施形態に係る処理部１２０によるトレーニングの一連の処理の流れを示すフローチャートである。実施例１におけるアポリポプロテインＥ（ＡＰＯＥ）ε４遺伝子型に対応したＡβ４０量を示すグラフである。遺伝子型がＡＰＯＥ３／３である患者のｎ数＝４４、遺伝子型がＡＰＯＥ３／４である患者のｎ数＝４４、遺伝子型がＡＰＯＥ４／４である患者のｎ数＝１４であった。「Ｎ．Ｓ．」は有意差がない（Ｐ＞０．０５）であることを示す。実施例１におけるＡＰＯＥε４遺伝子型に対応したＡβ４２量を示すグラフである。遺伝子型がＡＰＯＥ３／３である患者のｎ数＝４４、遺伝子型がＡＰＯＥ３／４である患者のｎ数＝４４、遺伝子型がＡＰＯＥ４／４である患者のｎ数＝１４であった。「Ｎ．Ｓ．」は有意差がない（Ｐ＞０．０５）であることを示す。実施例１におけるＡＰＯＥε４遺伝子型に対応したＡβ４２／４０比を示すグラフである。遺伝子型がＡＰＯＥ３／３である患者のｎ数＝４４、遺伝子型がＡＰＯＥ３／４である患者のｎ数＝４４、遺伝子型がＡＰＯＥ４／４である患者のｎ数＝１４であった。実施例１におけるＡＰＯＥε４遺伝子型に対応したｉＰＳ細胞由来の神経細胞のタンパク質濃度を示すグラフである。遺伝子型がＡＰＯＥ３／３である患者のｎ数＝４４、遺伝子型がＡＰＯＥ３／４である患者のｎ数＝４４、遺伝子型がＡＰＯＥ４／４である患者のｎ数＝１４であった。「Ｎ．Ｓ．」は有意差がない（Ｐ＞０．０５）であることを示す。実施例１における認知機能障害の発症年齢に対応したＡβ４０量を示す散布図（Ｎ＝１０２）である。実施例１における認知機能障害の発症年齢に対応したＡβ４２量を示す散布図（Ｎ＝１０２）である。実施例１における認知機能障害の発症年齢に対応したＡβ４２／４０比を示す散布図（Ｎ＝１０２）である。実施例１における性別に対応した、ｉＰＳ細胞由来の神経細胞の培養上清中のＡβ４０量を示すプロットである。男性患者のｎ数＝３６、女性患者のｎ数＝６６であった。実施例１における性別に対応した、ｉＰＳ細胞由来の神経細胞の培養上清中のＡβ４２量を示すプロットである。男性患者のｎ数＝３６、女性患者のｎ数＝６６であった。実施例１における性別に対応した、ｉＰＳ細胞由来の神経細胞の培養上清中のＡβ４２／４０比を示すプロットである。男性患者のｎ数＝３６、女性患者のｎ数＝６６であった。実施例１におけるＡＰＯＥε４遺伝子型を考慮しないＡβ４２／４０比に関連する遺伝子座を特定するための多遺伝子性の細胞分析（ＣＤｉＰ）のゲノムワイド関連解析のマンハッタンプロットである。ｘ軸は染色体、ｙ軸は試験された全てのＳＮＰの－ｌｏｇ１０（ｐ値）を示す。上の線は、ボンフェローニ補正された有意な閾値（ｐ＜５×１０^－８）を示す。実施例１におけるＡＰＯＥε４遺伝子型を考慮したＡβ４２／４０比に関連する遺伝子座を特定するためのＣＤｉＰのゲノムワイド関連解析のマンハッタンプロットである。ｘ軸は染色体、ｙ軸は試験された全てのＳＮＰの－ｌｏｇ１０（ｐ値）を示す。上の線は、ボンフェローニ補正された有意な閾値（ｐ＜５×１０^－８）を示す。実施例１におけるＡβ４２／４０比を用いたＣＤｉＰで特定された２４個の遺伝子の経路分析の結果を示すグラフである。横軸はｐ値を示す。実施例１におけるＡＰＯＥε４遺伝子型に対応した、リン酸化タウ（ｐ２３１－タウ）／総タウ比を示すプロットである。遺伝子型がＡＰＯＥ３／３である患者のｎ数＝４４、遺伝子型がＡＰＯＥ３／４である患者のｎ数＝４４、遺伝子型がＡＰＯＥ４／４である患者のｎ数＝１４であった。「Ｎ．Ｓ．」は有意差がない（Ｐ＞０．０５）であることを示す。実施例１における性別に対応した、ｉＰＳ細胞由来の神経細胞の培養上清中のｐ２３１－タウ／総タウ比を示すプロットである。男性患者のｎ数＝３６、女性患者のｎ数＝６６であった。実施例１における認知機能障害の発症年齢に対応したｐ２３１－タウ／総タウ比を示す散布図（Ｎ＝１０２）である。実施例１におけるＡＰＯＥε４遺伝子型を考慮したｐ２３１－タウ／総タウ比に関連する遺伝子座を特定するためのＣＤｉＰのゲノムワイド関連解析のマンハッタンプロットである。ｘ軸は染色体、ｙ軸は試験された全てのＳＮＰの－ｌｏｇ１０（ｐ値）を示す。上の線は、ボンフェローニ補正された有意な閾値（ｐ＜５×１０^－８）を示す。実施例１におけるＡＰＯＥε４遺伝子型を考慮しないｐ２３１－タウ／総タウ比に関連する遺伝子座を特定するためのＣＤｉＰのゲノムワイド関連解析のマンハッタンプロットである。ｘ軸は染色体、ｙ軸は試験された全てのＳＮＰの－ｌｏｇ１０（ｐ値）を示す。上の線は、ボンフェローニ補正された有意な閾値（ｐ＜５×１０^－８）を示す。実施例１における特定された遺伝子のノックダウンによるＡβ４２／４０比の変化を示すグラフである。ｘ軸は、非ｓｉＲＮＡ処理のコントロールと比較したＡβ４２／４０比の変化のレベルを示す。値は、平均値±標準偏差で示している。＊はｐ＜０．０５、＊＊はｐ、０．０１、＊＊＊はｐ＜０．００５、＊＊＊＊はｐ＜０．００１である。実施例１における特定された遺伝子のノックダウンによるＡβ４０量の変化を示すグラフである。ｘ軸は、非ｓｉＲＮＡ処理のコントロールと比較したＡβ４０量の変化のレベルを示す。値は、平均値±標準偏差で示している。＊はｐ＜０．０５、＊＊はｐ、０．０１、＊＊＊はｐ＜０．００５、＊＊＊＊はｐ＜０．００１である。実施例１における特定された遺伝子のノックダウンによるＡβ４２量の変化を示すグラフである。ｘ軸は、非ｓｉＲＮＡ処理のコントロールと比較したＡβ４２量の変化のレベルを示す。値は、平均値±標準偏差で示している。＊はｐ＜０．０５、＊＊はｐ、０．０１、＊＊＊はｐ＜０．００５、＊＊＊＊はｐ＜０．００１である。実施例１における特定された遺伝子のノックダウンによるタンパク質濃度の変化を示すグラフである。ｘ軸は、非ｓｉＲＮＡ処理のコントロールと比較したタンパク質濃度の変化のレベルを示す。値は、平均値±標準偏差で示している。＊はｐ＜０．０５、＊＊はｐ、０．０１、＊＊＊はｐ＜０．００５、＊＊＊＊はｐ＜０．００１である。実施例１におけるアルツハイマー病の脳と認知症ではない対照の脳の間でのｓｉＲＮＡがＡβ４２／４０比を変化させた遺伝子でのニューロン中の発現量を比較したグラフである。実施例１におけるアルツハイマー病の脳と認知症ではない対照の脳の間でのｓｉＲＮＡがＡβ４２量を減少させた遺伝子でのニューロン中の発現量を比較したグラフである。実施例１における個々の細胞型のトランスクリプトームデータを提供する６つのＡＤ脳と６つのコントロール脳の単一細胞ベースのトランスクリプトームデータを利用して特定された、ＡＤ脳でより高い発現を示し、治療標的となり得る遺伝子を示す図である。実施例２におけるＡβ陽性患者及びＡβ陰性患者と、発症年齢との関係を示す箱ひげ図である。Ａβ陽性患者のｎ数＝１５、Ａβ陰性患者のｎ数＝４であった。実施例２におけるＡβ陽性患者及びＡβ陰性患者と、ヒトｉＰＳ細胞から誘導された大脳皮質の神経細胞の培養上清中のＡβ４０量との関係を示すプロットである。Ａβ陽性患者のｎ数＝１５、Ａβ陰性患者のｎ数＝４であった。実施例２におけるＡβ陽性患者及びＡβ陰性患者と、ヒトｉＰＳ細胞から誘導された大脳皮質の神経細胞の培養上清中のＡβ４２量との関係を示すプロットである。Ａβ陽性患者のｎ数＝１５、Ａβ陰性患者のｎ数＝４であった。実施例２におけるＡβ陽性患者及びＡβ陰性患者と、ヒトｉＰＳ細胞から誘導された大脳皮質の神経細胞の培養上清中のＡβ４２／４０比との関係を示すプロットである。Ａβ陽性患者のｎ数＝１５、Ａβ陰性患者のｎ数＝４であった。実施例２における共変量（年齢、性別、及びＡＰＯＥ－ε４対立遺伝子の遺伝子型）（左側のグラフ）、又は、共変量とＣＤｉＰで特定された遺伝子型セット（右側のグラフ）を用いた脳のＡβ沈着の予測結果を示すグラフである。実施例２における共変量（年齢、性別、及びＡＰＯＥ－ε４対立遺伝子の遺伝子型）（左側のグラフ）、又は、共変量とＣＤｉＰで特定された遺伝子型セット（右側のグラフ）を用いた脳脊髄液（ＣＳＦ）中のＡβ（１－４２）量の予測結果を示すグラフである。実施例２における共変量（年齢、性別、及びＡＰＯＥ－ε４対立遺伝子の遺伝子型）（左側のグラフ）、又は、共変量とＣＤｉＰで特定された遺伝子型セット（右側のグラフ）を用いたＣＳＦ中の総タウ（ｔ－タウ）量の予測結果を示すグラフである。実施例２における共変量（年齢、性別、及びＡＰＯＥ－ε４対立遺伝子の遺伝子型）（左側のグラフ）、又は、共変量とＣＤｉＰで特定された遺伝子型セット（右側のグラフ）を用いたＣＳＦ中のリン酸化タウ（ｐ－タウ）量の予測結果を示すグラフである。

　本発明の実施の形態について説明する。以下の実施形態は、本発明を説明するための例示であり、本発明をこの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱しない限り、様々な形態で実施することができる。

＜アルツハイマー病（ＡＤ）関連遺伝子の変異＞
　発明者らは、孤発性ＡＤ患者から樹立したｉＰＳ細胞から誘導された大脳皮質の神経細胞を用いて、ＡＤの病態指標の一つであるＡβ４２／４０比を表現型として、ＧＷＡＳ（ｃｅｌｌ　ＧＷＡＳ）を行い、後述する実施例に示すように、ＡＤ関連遺伝子の変異のうち、Ａβ４２／４０比に関連する変異として、上記表１－１～表１－７７に記載された変異を見出している。また、後述する実施例に示すように、上記表１－１～表１－７７に記載された１種以上の変異を含むＡＤ関連遺伝子の変異と、年齢、性別、及Ａβの脳内蓄積に関わっているとされるＡＰＯＥ４遺伝型を分析した場合と、上記表１－１～表１－７７に記載された１種以上の変異を含むＡＤ関連遺伝子の変異を分析せずに、年齢、性別、及Ａβの脳内蓄積に関わっているとされるＡＰＯＥ４遺伝型のみを分析した場合とを比較すると、上記表１－１～表１－７７に記載された１種以上の変異を含むＡＤ関連遺伝子の変異と、年齢、性別、及Ａβの脳内蓄積に関わっているとされるＡＰＯＥ４遺伝型を分析した場合の方が、予測精度の指標の一つであるＡＵＣスコアがより高い結果が得られている。具体的には、孤発性ＡＤ患者のＳＮＰ情報を用いて、脳内Ａβの蓄積が生じるかどうかの予測を、ＡＵＣ＝０．７６±０．０５０の精度で実施可能であり、孤発性ＡＤ患者のＳＮＰ情報を用いて、脳脊髄液内Ａβの異常検査値が生じるかどうかの予測を、ＡＵＣ＝０．７３±０．０５９の精度で実施可能であった。これら、脳内Ａβの蓄積及び脳脊髄液内Ａβの異常検査値は、臨床的なＡＤの診断とほぼ一致する。よって、本実施形態の情報処理装置及び情報処理方法を用いたＡＤ発症リスクの予測は、ＡＵＣが約０．７（さらに詳細には、約０．７３以上０．７６以下）の精度で行うことができる。家族性ＡＤ（遺伝性ＡＤ）ではなく、孤発性ＡＤでは、ＡＵＣが上記数値範囲となる高精度の予測はこれまでの方法ではありえなかった。これに対して、本実施形態の情報処理装置及び情報処理方法では、上記表１－１～表１－７７に記載された１種以上の変異を含むＳＮＰセットを分析してＡＤのリスクを判定することで、精度が高い、又は予測能力が高いリスクの判定方法を提供することができる。つまり、本実施形態の情報処理装置及び情報処理方法は、ＡＤ発症リスクの予測装置及び予測方法ということができる。また、本実施形態の情報処理装置及び情報処理方法によれば、家族歴のない孤発性ＡＤの疑いのある被験者も含む、被験者におけるＡＤの発症リスクを予測することができる。

　さらに、ＡＤのような複数の遺伝子によって発症する疾患では、共通する特性に基づいて患者をサブタイプに分ける層別化が、当該疾患の予防及び治療において非常に大きな意味を持つ。予防又は治療に有効な手段がサブタイプによって異なり得るからである。後述する実施例に示されるとおり、本実施形態の情報処理装置及び情報処理方法は、ＡＤの層別化にも寄与しうる。これにより、精密医療にも寄与しうる。

　なお、本明細書における「アルツハイマー病（ＡＤ）のリスク」とは、ＡＤの罹りやすさや罹りにくさ等のアルツハイマー病に罹る可能性をいう。「リスクを判定する」とは、例えば、現在又は将来においてＡＤに罹る可能性をいくつかのレベルに分けて出力することや、数値により出力することを含む。ＡＤのリスクの判定には、ＡＤに罹りやすい傾向にあるのか、罹りにくい傾向にあるのかといった、疾患に対する遺伝的要因又は遺伝的感受性についての評価が含まれる。

　なお、ＡＤのリスクを判定するにあたっては、ＡＤのリスクの判定を受ける被験者が、ＡＤのリスクの判定時において、実際にＡＤに罹患しているか（発症しているか）否かは問わない。

　上記表１－１～表１－７７に記載された変異のうち１種以上を用いることができるが、上記表１－１～表１－７７に記載された変異は、ＡＤとの関連性が従来認められていなかったＳＮＰである。すなわち、ＡＤはポリジーンの複合的な作用によって発症すると考えられており、上記表１－１～表１－７７に記載された変異を個別に分析するよりも、上記表１－１～表１－７７に記載された２種以上の変異を一まとまりのＳＮＰセットとして分析することにより、ＡＤのリスクをより高い精度で判定できる。よって、後述する表４に記載された全ての変異（上記表１－１～表１－７７に記載された変異のうち、Ａβ４２／４０比の観点から特にＡＤへの関連性の高い変異）を含むＳＮＰセットを用いることが好ましく、後述する表３－１～３－７７に記載された変異のうち、ｐ値が５×１０^－８未満である変異を含むＳＮＰセットを用いることがより好ましく、表３－１～３－７７に記載された全ての変異を含むＳＮＰセットを用いることがさらに好ましい。

　また、発明者らは、後述する実施例に示すように、ＡＤ関連遺伝子の変異のうち、リン酸化タウ／総タウ比に関連する変異として、上記表２－１～表２－９に記載された変異を見出している。よって、上記表２－１～表２－９に記載された１種以上の変異を更に含むことができるが、ＡＤはポリジーンの複合的な作用によって発症すると考えられていることから、上記Ａβ４２／４０比に関連する変異に加えて、リン酸化タウ／総タウ比に関連する変異のうち、後述する表６に記載の変異（上記表２－１～表２－９に記載された変異のうち、リン酸化タウ／総タウ比の観点から特にＡＤへの関連性の高い変異）を更に含むＳＮＰセットを用いることが好ましく、上記表２－１～表２－９に記載された全ての変異を更に含むＳＮＰセットを用いることがより好ましい。

　本明細書において各表に記載のＳＮＰについて、ｒｓ番号と、各ＳＮＰが存在する染色体番号（性染色体の場合には、ＸかＹで示す）と、各ＳＮＰの染色体上の位置と、を列記している。なお、各ＳＮＰに関する塩基配列や疾患などの情報は、例えば、ｒｓ番号に基づいてＮＣＢＩ　ＳＮＰ　Ｄａｔａｂａｓｅを検索することで得られる。それらの情報は該Ｄａｔａｂａｓｅにより参照可能であり、また、本明細書で援用する。なお、各ＳＮＰの染色体上の位置は、ａｓｓｅｍｂｌｙ　ｇｅｎｏｍｅのバージョンＧＲＣｈ３７に対応するものである。

　なお、各ＳＮＰは、各表に示されているように、ｒｓ番号により特定される塩基配列を参照することによって特定可能であるが、本明細書において記載するｒｓ番号が他のｒｓ番号と併合され、新たなｒｓ番号が付与された場合には、本明細書において該当するｒｓ番号は、併合後のｒｓ番号及び併合される他のｒｓ番号を包含する。また、本明細書において記載するｒｓ番号が複数のｒｓ番号の併合により付与された番号である場合には、本明細書において該当するｒｓ番号は、その他の元となるｒｓ番号を包含する。

　また、ＳＮＰに関する各ｒｓ番号で示される塩基配列は、ＮＣＢＩ　ＳＮＰ　Ｄａｔａｂａｓｅ等のＤａｔａｂａｓｅを参照することで特定の塩基配列として示されるが、人種の相違等によって、該塩基配列において該当するＳＮＰ以外の部分における塩基配列は変更されてもよい。

　本実施形態の情報処理方法、情報処理装置、及びプログラムにおいて、被験者の人種及び性別は限定されない。

　以下、本発明を適用した情報処理方法、情報処理装置、及びプログラムを、図面を参照して説明する。

＜第１実施形態＞
［全体構成］
　図１は、第１実施形態の情報処理装置１００の構成の一例を示す図である。図１に示されるように、情報処理装置１００は、例えば、検出部１１０と、処理部１２０と、記憶部１３０と、を備える。

（検出部）
　検出部１１０では、被験者由来のゲノムＤＮＡ試料おいて、アルツハイマー病（ＡＤ）関連遺伝子の変異であるＳＮＰ（以下、第１のＳＮＰという）を検出する（工程１）。

　被験者由来のゲノムＤＮＡ試料は、被験者の生体から採取された細胞又は組織を用いることができ、有核細胞を含むものであれば特別な限定はないが、例えば、血液、脳脊髄液、リンパ液、毛髪等が挙げられる。このうち、侵襲性の低さから血液を好適に用いることができ、血液由来の有核細胞としては、例えば、末梢血単核細胞等が挙げられる。ＳＮＰの検出には、これらの試料から常法により単離したゲノムＤＮＡを直接使用してもよく、単離したゲノムＤＮＡを増幅して、増幅後のゲノムＤＮＡを使用してもよい。

　ゲノムＤＮＡの抽出方法としては、特別な限定はなく、公知の方法を用いて抽出することができる。例えば、フェノール／クロロホルム法、セチルトリメチルアンモニウムブロミド（ＣＴＡＢ）法等が挙げられる。ＤＮＡの抽出には、市販のキットを用いてもよい。当該キットとしては、例えば、Ｗｉｚａｒｄ　Ｇｅｎｏｍｉｃ　ＤＮＡ　Ｐｕｒｉｆｉｃａｔｉｏｎ　Ｋｉｔ（Ｐｒｏｍｅｇａ製）等が挙げられる。

　検出部１１０は、通常の遺伝子多型解析に用いられる装置で構成されている。このような装置としては、例えば、ＤＮＡマイクロアレイ；従来型のシーケンサーや次世代シーケンサー（ＮＧＳ；Ｎｅｘｔ　Ｇｅｎｅｒａｔｉｏｎ　Ｓｅｑｕｅｎｃｅｒ）；ポリメラーゼ連鎖反応（ＰＣＲ）装置等の核酸増幅装置が挙げられる。

　ＳＮＰは、上記例示された装置による公知のＳＮＰ検出法を用いて検出することができ、例えば、直接配列決定法、ＰＣＲ法、制限酵素断片長多型（ＲＦＬＰ）法、ハイブリダイゼーション法、ＴａｑＭａｎ（登録商標）　ＰＣＲ法（以下、「登録商標」との記載を省略する）、質量分析法等を用いる方法が挙げられる。

　直接配列決定法は、ＳＮＰを含む領域を、ベクターにクローニングするか又はＰＣＲで増幅し、当該領域の塩基配列を決定することにより行う。クローニングの方法としては、適切なプローブを用いてｃＤＮＡライブラリーからスクリーニングすることにより、クローニングすることができる。また、適切なプライマーを用いてＰＣＲ反応により増幅し、適切なベクターに連結することによりクローニングすることができる。さらに、別のベクターにサブクローニングすることもできるが、これらに限定されない。ベクターとしては、例えば、ｐＢｌｕｅ－Ｓｃｒｉｐｔ　ＳＫ（＋）（Ｓｔｒａｔａｇｅｎｅ製）、ｐＧＥＭ－Ｔ（Ｐｒｏｍｅｇａ製）、ｐＡｍｐ（Ｇｉｂｃｏ－ＢＲＬ製）、ｐ－Ｄｉｒｅｃｔ（Ｃｌｏｎｔｅｃｈ製）、ｐＣＲ２．１－ＴＯＰＯ（Ｉｎｖｉｔｒｏｇｅｎｅ製）等の市販のプラスミドベクター、ウイルスベクター、人工染色体ベクターやコスミドベクターを用いることができる。塩基配列の決定としては、公知の方法を用いることができ、例えば、放射性マーカーヌクレオチドを使用する手動式配列決定法や、ダイターミネーターを使用する自動配列決定法が挙げられるが、これらに限定されない。このようにして得られた塩基配列に基づき、試料がＳＮＰを有するか否かを決定する。

　ＰＣＲ法は、ＳＮＰを有する配列にのみハイブリダイズするオリゴヌクレオチドプライマー（以下、「ＳＮＰ検出用プライマー」と称する場合がある）を用いて行う。複数のＳＮＰが存在することから、ＳＮＰ検出用プライマーは、全てのＳＮＰを検出し得るプライマーを単独で用いてもよく、各ＳＮＰを検出し得るプライマーを２種以上組み合わせて用いてもよい。このプライマーを使用して検体のＤＮＡを増幅する。ＳＮＰ検出用プライマーがＰＣＲ産物を生成した場合には、試料はＳＮＰを有することになる。ＰＣＲ産物が生成されなかった場合には、試料にはＳＮＰがないことが示される。

　ＲＦＬＰ法は、まず、試料中のＳＮＰを含む領域をＰＣＲで増幅する。続いてこのＰＣＲ産物を、ＳＮＰを含む領域に適する制限酵素で切断する。制限酵素により消化されたＰＣＲ産物は、ゲル電気泳動で分離し、エチジウムブロマイド染色で可視化する。当該断片長を、分子量マーカー、並びに、対照として、制限酵素処理していない上記ＰＣＲ産物等と比較して、試料におけるＳＮＰの存在を検出することができる。

　ハイブリダイゼーション法は、試料中のＤＮＡが、それに対し相補的なＤＮＡ分子（例えば、オリゴヌクレオチドプローブ）とハイブリダイズする性質に基づき、試料におけるＳＮＰの有無を決定する方法である。コロニーハイブリダイゼーション、プラークハイブリダイゼーション、サザンブロット等の公知のハイブリダイゼーション等のハイブリダイゼーション及び検出のための種々の技術を利用してこのハイブリダイゼーション法を行うことができる。ハイブリダイゼーション法の詳細な手順については、「Ｍｏｌｅｃｕｌａｒ　Ｃｌｏｎｉｎｇ、Ａ　Ｌａｂｏｒａｔｏｒｙ　Ｍａｎｕａｌ　３ｒｄ　ｅｄ．」（Ｃｏｌｄ　Ｓｐｒｉｎｇ　Ｈａｒｂｏｒ　Ｐｒｅｓｓ（２００１）；特にＳｅｃｔｉｏｎ６－７）、「Ｃｕｒｒｅｎｔ　Ｐｒｏｔｏｃｏｌｓ　ｉｎ　Ｍｏｌｅｃｕｌａｒ　Ｂｉｏｌｏｇｙ」（Ｊｏｈｎ　Ｗｉｌｅｙ＆Ｓｏｎｓ（１９８７－１９９７）；特にＳｅｃｔｉｏｎ６．３－６．４)、「ＤＮＡ　Ｃｌｏｎｉｎｇ　１：Ｃｏｒｅ　Ｔｅｃｈｎｉｑｕｅｓ，Ａ　Ｐｒａｃｔｉｃａｌ　Ａｐｐｒｏａｃｈ　２ｎｄ　ｅｄ．」（Ｏｘｆｏｒｄ　Ｕｎｉｖｅｒｓｉｔｙ（１９９５）；ハイブリダイゼーション条件については特にＳｅｃｔｉｏｎ２．１０）等を参照することができる。さらに、ハイブリダイゼーションはＤＮＡチップを利用して検出することもできる。当該方法としては、ＳＮＰに特異的なオリゴヌクレオチドプローブを設計し、それを固相支持体に貼りつけたものを用いる。そして、試料中のＤＮＡを当該ＤＮＡチップと接触させて、ハイブリダイゼーションを検出する。

　ＴａｑＭａｎ　ＰＣＲ法は、ＳＮＰに特異的なＴａｑＭａｎプローブとＴａｑポリメラーゼを用い、ＳＮＰの検出とＳＮＰを含む領域の増幅とを同時並行で行う方法である。ＴａｑＭａｎプローブは、５’末端が蛍光物質、３’末端がクエンチャーで標識されている約２０塩基前後のオリゴヌクレオチドであり、目的のＳＮＰ部位にハイブリダイズするよう設計されている。Ｔａｑポリメラーゼは５’→３’ヌクレアーゼ活性がある。これらのＴａｑＭａｎプローブ及びＴａｑポリメラーゼ存在下で目的のＳＮＰ部位を含む領域を増幅するよう設計されたＰＣＲプライマーを用いて該ＳＮＰ部位を含む領域を増幅すると、増幅と並行して、ＴａｑＭａｎプローブが鋳型ＤＮＡの目的のＳＮＰ部位にハイブリダイズする。フォワードプライマー側からの伸長反応が、鋳型にハイブリダイズした、ＴａｑＭａｎプローブに到達すると、Ｔａｑポリメラーゼの５’→３’ヌクレアーゼ活性により、ＴａｑＭａｎプローブの５’末端に結合していた蛍光物質が切断される。その結果、遊離した蛍光物質はクエンチャーの影響を受けなくなり、蛍光を発生する。蛍光強度の測定により、ＳＮＰ検出が可能となる。

　質量分析法を用いた方法としては、例えば、ＭＡＬＤＩ－ＴＯＦ／ＭＳ法を応用したＳＮＰタイピング方法として、プライマー伸長法と組み合わせた方法もあげられる。この方法はハイスループットな解析が可能であり、１）ＰＣＲ、２）ＰＣＲ産物の精製、３）プライマー伸長反応、４）伸長産物の精製、５）質量分析、６）ジェノタイプ決定、のステップにより解析する。まずＰＣＲによって、目的とするＳＮＰ部位を含む領域をゲノムＤＮＡから増幅する。ＰＣＲプライマーは、ＳＮＰ部位塩基と重複しないように設計する。そして、エキソヌクレアーゼとエビのアルカリホスファターゼを用いて酵素的除去方法により精製するかエタノール沈殿法を用いて精製する。次に、３’末端がＳＮＰ部位に直接隣接するように設計したジェノタイピングプライマーを用いて、プライマー伸長反応を行う。ＰＣＲ産物を高温で変性し、過剰のジェノタイピングプライマーを加えて、アニールさせる。ｄｄＮＴＰとＤＮＡポリメラーゼを反応系に添加し、サーマルサイクル反応させると、ジェノタイピングプライマーよりも１塩基長いオリゴマーが生じる。この伸長反応で生じる１塩基長いオリゴマーは、ジェノタイピングプライマーの上記設計により、アリルに応じて異なる。精製した伸長反応産物について質量分析を行い、マススペクトルから解析する。

　その他の検出方法としては、ハイスループットが可能なＳＮＰタイピング法として、１分子蛍光分析法を応用した方法等が挙げられる。例えば、ＭＦ２０／１０Ｓ（オリンパス製）は、当該方法を採用したシステムである。具体的には、共焦点レーザー光学系と高感度光検出器を用いて、約１フェムトリットル（１０００兆分の１リットル）の超微小領域中で、相補的及び非相補的なプライマーを用いたＰＣＲ法によって増幅した蛍光ラベルプライマーの１分子レベルの並進拡散時間を計測及び解析するものである。

　また、ＤＮＡチップによる方法も、ハイスループットが可能なタイピングの１つである。ＤＮＡチップは、基板上に多種類のＤＮＡプローブを整列して固定したもので、標識したＤＮＡ試料をチップ上でハイブリダイゼーションし、プローブによる蛍光シグナルを検出する。

　ＰＣＲ法以外の遺伝子増幅法を利用したＳＮＰタイピング方法の例として、Ｓｎｉｐｐｅｒ法が挙げられる。当該方法は、環状一本鎖ＤＮＡを鋳型としてＤＮＡポリメラーゼがその上を移動しながら相補鎖ＤＮＡを合成するＤＮＡ増幅方法であるＲＣＡ（ｒｏｌｌｉｎｇ　ｃｉｒｃｌｅ　ａｍｐｌｉｆｉｃａｔｉｏｎ）法を応用したＳＮＰタイピング法である。プローブは８０塩基長以上９０塩基長以下のオリゴＤＮＡで、標的ＳＮＰ部位の５’末端及び３’末端近傍のそれぞれに相補的な１０塩基長２０塩基長以下の配列を両末端に含んでおり、標的ＤＮＡにアニールして環状になるように設計されている。また、プローブの３’末端が標的ＳＮＰ部位に相補的配列となるよう設計されている。プローブの３’末端が標的ＳＮＰ部位と完全に相補的であれば、プローブは環状化されるが、プローブの３’末端がミスマッチであるとプローブは環状化されない。またプローブには、４０塩基長以上５０塩基長以下のバックボーン配列があり、２種類のＲＣＡ増幅プライマーと相補的な配列が含まれる。

　ＰＣＲ法以外の遺伝子増幅法を利用したＳＮＰタイピング方法の他の例としては、例えば、ＵＣＡＮ法やＬＡＭＰ法を利用したタイピング方法が挙げられる。

　ＵＣＡＮ法は、タカラバイオが開発した遺伝子等温増幅法であるＩＣＡＮ法を応用した方法である。ＵＣＡＮ法では、プライマー前駆体としてＤＮＡ－ＲＮＡ－ＤＮＡキメラオリゴヌクレオチド（ＤＲＤ）を用いる。このＤＲＤプライマー前駆体は、ＤＮＡポリメラーゼによる鋳型ＤＮＡの複製が起こらないように、３’末端のＤＮＡが修飾されており、ＳＮＰサイトにＲＮＡ部分が結合するように設計されている。このＤＲＤプライマー前駆体を鋳型とインキュベートすると、ＤＲＤプライマーと鋳型が完全にマッチしている場合のみ、共存するＲＮａｓｅ　Ｈが対合したＤＲＤプライマーのＲＮＡ部分を切断する。これにより、プライマー３’末端は修飾ＤＮＡが外れて新しくなるため、ＤＮＡポリメラーゼによる伸長反応が進み、鋳型ＤＮＡが増幅される。一方、ＤＲＤプライマーと鋳型ＤＮＡがマッチしない場合、ＲＮａｓｅ　ＨはＤＲＤプライマーを切断せず、ＤＮＡ増幅も起こらない。パーフェクトマッチしたＤＲＤプライマー前駆体がＲＮａｓｅ　Ｈによって切断された後の増幅反応は、ＩＣＡＮ反応メカニズムによって進行する。

　ＬＡＭＰ法は、栄研化学によって開発された遺伝子等温増幅法で、標的遺伝子の６箇所の領域（３’末端側からＦ３ｃ、Ｆ２ｃ、Ｆ１ｃ、５’末端側からＢ３、Ｂ２、Ｂ１）を規定し、当該６領域に対する４種類のプライマー（ＦＩＰプライマー、Ｆ３プライマー、ＢＩＰプライマー、Ｂ３プライマー）を用いて増幅する。タイピングを目的とする場合は、Ｆ１－Ｂ１間は標的ＳＮＰ部位（１塩基）のみでよく、ＦＩＰプライマー及びＢＩＰプライマーを、その５’末端にＳＮＰの１塩基がくるように設計する。ＳＮＰがない場合、ＬＡＭＰ法の起点構造であるダンベル構造からＤＮＡの合成反応が起こり、増幅反応が連続的に進行する。ＳＮＰがある場合は、ダンベル構造からのＤＮＡ合成反応が起こらず、増幅反応は進行しない。

　インベーダー（Ｉｎｖａｄｅｒ）法は、核酸増幅法を用いず、２種類の非蛍光標識プローブ（アレルプローブ、インベーダープローブ）と１種類の蛍光標識プローブ（ＦＲＥＴプローブ）及びエンドヌクレアーゼであるＣｌｅａｖａｓｅを用いる方法である。アレルプローブは、鋳型ＤＮＡに対しＳＮＰ部位から３’末端側に相補的な配列があり、プローブの５’末端側にフラップという鋳型ＤＮＡと無関係な配列がある。インベーダープローブは、鋳型ＤＮＡのＳＮＰ部位から５’末端側に相補的な配列があり、ＳＮＰ部位に相当する部分の塩基は任意の塩基がある。ＦＲＥＴプローブは、３’末端側にフラップ配列に相補的な配列がある。一方の５’末端側は蛍光色素及びクエンチャーで標識されているが、ＦＲＥＴプローブは分子内で２本鎖を形成するよう設計されており、通常は消光されている。これらを鋳型ＤＮＡと反応させると、アレルプローブが鋳型ＤＮＡと２本鎖を形成したときに、ＳＮＰ部位にインベーダープローブの３’末端（任意塩基部分）が侵入する。Ｃｌｅａｖａｓｅは、当該塩基が侵入した構造を認識して、アレルプローブのフラップ部分を切断する。次に、この遊離したフラップがＦＲＥＴプローブの相補配列と結合すると、フラップの３’末端がＦＲＥＴプローブの分子内二本鎖部分に侵入する。Ｃｌｅａｖａｓｅは、上記アレルプローブとインベーダープローブの場合と同様に、このＦＲＥＴプローブにフラップの塩基が侵入した構造を認識し、ＦＲＥＴプローブの蛍光色素を切断する。蛍光色素はクエンチャーから離れるため、蛍光が発生する。アレルプローブが鋳型ＤＮＡとマッチしない場合は、Ｃｌｅａｖａｓｅが認識する、上記特異的な構造が形成されないため、フラップは切断されない。

　ＳＮＰの検出にプライマーを用いる場合は、増幅する領域及びタイピング方法に即したプライマーとなるように設計する。例えば、上記領域を完全に増幅できることが好ましく、上記領域の両端付近の配列に基づいて配列を設計できる。プライマーの設計手法は当技術分野で周知であり、本実施形態の方法において使用可能なプライマーは、特異的なアニーリングが可能な条件を満たす、例えば特異的なアニーリングが可能な長さ及び塩基組成（融解温度）を有するように設計される。増幅する領域の長さは、タイピングに支障がない限り制限はないし、検出方法により適宜増減してよい。また、増幅される領域の一部にはＳＮＰ部位が含まれるが、増幅される領域内における当該部位の位置に制限はなく、検出方法（タイピング方法）にしたがって適切な位置に配置してよい。そのためプライマーの設計にあたり、プライマーとＳＮＰ部位との位置関係は、検出方法にあわせて自由に設計でき、検出しようとするＳＮＰを含む領域（例えば、連続した５０塩基長以上５００塩基長以下）にハイブリダイズする限り、タイピング方法の特性を考慮しながら、プライマーを設計できる。プライマーとしての機能を発揮する長さとしては、１０塩基以上１００塩基以下が好ましく、１５塩基以上５０塩基以下がより好ましく、１５塩基以上３０塩基以下がさらに好ましい。また設計の際には、任意の核酸鎖の５０％がその相補鎖とハイブリッドを形成する温度であるプライマーの融解温度（Ｔｍ）を確認することが好ましい。鋳型となるＤＮＡとプライマーとが二本鎖を形成してアニーリングするためには、アニーリングの温度を最適化する必要があるが、その一方で、この温度をより低すぎると非特異的な反応がおこるため、好ましくないからである。Ｔｍの確認には、公知のプライマー設計用ソフトウェアを利用することができる。

　ＳＮＰの検出にプローブを用いる場合は、プローブがＳＮＰ部位を認識するように設計する。プローブ設計において、ＳＮＰ部位は、タイピング方法にあわせて、プローブ内のいずれかの場所で認識されればよく、タイピング方法によっては、プローブの末端で認識されてもよい。ＳＮＰ検出用ポリヌクレオチドをプローブとする場合、ゲノムＤＮＡに相補的な塩基配列の長さは、通常１５塩基以上２００塩基以下であり、１５塩基以上１００塩基以下が好ましく、１５塩基以上５０塩基以下がより好ましいが、タイピング方法によってはこれより長くても短くてもよい。

（処理部）
　処理部１２０では、ＡＤを発症した患者由来のゲノムＤＮＡ試料において検出されたＡＤ病関連遺伝子の変異であるＳＮＰに対して、ＡＤの発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、検出部１１０によって検出されたＳＮＰ（つまり「第１のＳＮＰ」）から、被験者がＡＤを発症するか否かを判定する（工程２）。以下、トレーニングデータセットに含まれるＳＮＰを「第２のＳＮＰ」と称して説明する。

　処理部１２０は、例えば、取得部１２１と、特徴量変換部１２２と、判定部１２３と、出力制御部１２４と、学習部１２５と、を備える。

　処理部１２０の構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサが記憶部１３０に格納されたプログラムを実行することにより実現される。また、処理部１２０の構成要素の一部又は全部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、又はＦＰＧＡ（Field-Programmable Gate Array）等のハードウェア（回路部；circuitry）により実現されてもよく、ソフトウェアとハードウェアの協働によって実現されてもよい。

（記憶部）
　記憶部１３０は、例えば、ＨＤＤ（Hard Disc Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の記憶装置により実現される。記憶部１３０には、ファームウェアやアプリケーションプログラム等の各種プログラムの他に、モデル情報１３１が格納される。モデル情報１３１については後述する。

［ランタイムの処理フロー］
　以下、第１実施形態に係る処理部１２０によるランタイムの一連の処理の流れをフローチャートに即して説明する。ランタイムとは、既に学習された予測モデルＭＤＬを利用する状態である。図２Ａは、第１実施形態に係る処理部１２０によるランタイムの一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてよい。

　まず、取得部１２１は、検出部１１０から、被験者由来のゲノムＤＮＡ試料おける、アルツハイマー病関連遺伝子の変異である第１のＳＮＰの検出データを取得する（ステップＳ１００）。取得された第１のＳＮＰの検出データは、被験者が有するＡＤ関連遺伝子の遺伝子型データ（以下、「第１のＳＮＰセット」又は「被験者の遺伝子型データ」と称する場合がある）ということもできる。

　次に、特徴量変換部１２２は、取得部１２１によって取得された第１のＳＮＰのデータを、モデルに入力可能な特徴量に変換する（ステップＳ１０１）。ここでいう特徴量は、例えば、各ＳＮＰについて、被験者の遺伝子型データがホモ接合型（ＡＡ）、ホモ接合型（ＢＢ）、又はヘテロ接合型（ＡＢ）のいずれであるかを示すパラメータである。遺伝子型は、相同染色体のＳＮＰが共にＧ（グアニン）であることを示す“ＧＧ”や、一方がＧ（グアニン）で、他方がＡ（アデニン）であることを示す“ＡＧ”等ヌクレオチドにより表記されることが一般的であるため、被験者の遺伝子型データを、ＡＤを発症した患者由来のゲノムＤＮＡ試料において検出されたＡＤ関連遺伝子の変異である第２のＳＮＰ（ＡＤ患者が有するＡＤ関連遺伝子の遺伝子型データ（以下、「第２のＳＮＰセット」又は「ＡＤ患者の遺伝子型データ」と称する場合がある））を用いるモデルに入力可能なパラメータに変換する。しかし、モデルが、このようなパラメータへの変換の必要がないものである場合には、上記変換は必要とされない。

　対象者の遺伝子型データの特徴量への変換は、例えば、第２のＳＮＰセットに含まれるＳＮＰ１つ１つに関して、被験者の遺伝子型データに値を付すことにより行うことができる。例えば、各ＳＮＰについて、被験者の遺伝子型データがホモ接合型（ＡＡ）、ホモ接合型（ＢＢ）、又はヘテロ接合型（ＡＢ）のいずれに該当するのかに応じて、そのＳＮＰに値（例えば、０、１又は２）を対応づける。これにより、被験者の遺伝子型データを特徴量に変換することができる。なお、以下では、各ＳＮＰに対応させる値を０、１又は２とした場合を例に説明するが、ＳＮＰに対応させる値は０、１又は２の３つの値に限られるものではない。

　接合型に対応づける値はＳＮＰごとに決めることができる。例えば、あるＳＮＰは、被験者の遺伝子型データがホモ接合型（ＡＡ）である場合に値２を対応付け、ヘテロ接合型（ＡＢ）である場合に値１を対応付け、ホモ接合型（ＢＢ）である場合に値０を対応付けるようにし、他のＳＮＰは、被験者の遺伝子型データがヘテロ接合型（ＡＢ）である場合に値２を対応付け、ホモ接合型（ＡＡ）である場合に値１を対応付け、ホモ接合型（ＢＢ）である場合に値０を対応付けるようにしてもよい。その他、被験者の遺伝子型データがホモ接合型（ＢＢ）である場合に値２を対応付け、ヘテロ接合型（ＡＢ）である場合に値１を対応付け、ホモ接合型（ＡＡ）である場合に値０を対応付けるようにしてもよい。

　上記のように、被験者の遺伝子型データを特徴量に変換することができる。この特徴量への変換において対応付けに使用する値は、任意に決定することができる。例えば、各ＳＮＰについてＡＤへの関連性が高い遺伝子型に対して値２を対応付けるようにし、且つ、各ＳＮＰについてＡＤへの関連性が低い遺伝子型に対して値１又は０を対応付けるようにすることができる。

　次に、判定部１２３は、特徴量変換部１２２によって第１のＳＮＰのデータから変換された特徴量を、モデル情報１３１が示す予測モデルＭＤＬに入力する（ステップＳ１０２）。

　モデル情報１３１は、被験者の遺伝子型データから、ＡＤのリスクを判定するための予測モデルＭＤＬを定義した情報（プログラム又はデータ構造）である。

　予測モデルＭＤＬは、ロジスティック回帰モデル、多層パーセプトロン、コンボリューショナルニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）及びリカレントニューラルネットワーク（Recurrent Neural Network：ＲＮＮ）等のニューラルネットワーク、ガウシアンカーネル等の任意のカーネル関数を用いるサポートベクターマシーン、回帰木としてモデル化したランダムフォレスト、重回帰分析、隠れマルコフモデル等を利用したモデル、統計モデルや確率モデル等の種々の他のモデルによって実現される。また、種々のモデルを組み合わせて総合的な判定を行うモデルを採用することもできる。例えば、予測モデルＭＤＬは、複数の分類器を含むランダムフォレストであってよい。以下、一例として、予測モデルＭＤＬがランダムフォレストであるものとして説明する。

　図２Ｂは、第１実施形態に係る予測モデルＭＤＬの一例を示す図である。予測モデルＭＤＬには、例えば、Ｎ個の分類器ＭＬ－１～ＭＬ－Ｎが含まれる。各分類器ＷＬは、第１のＳＮＰのデータから変換された特徴量が入力されると、被験者がＡＤを発症することの尤もらしさを示すスコアを尤度或いは確率として出力するように予め学習された弱学習器である。各分類器ＷＬは、互いに並列関係にある。このように複数の弱学習器を組み合わせて一つの学習モデルを生成する手法は、アンサンブル学習と呼ばれる。

　例えば、予測モデルＭＤＬは、弱学習器である各分類器ＷＬのスコアを正規化し、その正規化したスコアを出力する。スコアの正規化を、数式（１）に示す。

　式中Ｓは、正規化されたスコアを表し、ｓｉは、ｉ番目の分類器ＷＬのスコアを表している。スコアｓ_ｉ及びＳは、例えば、ＡＤを発症することの確率Ｐ１と、ＡＤを発症しないことの確率Ｐ２とのそれぞれを要素とする２次元のベクトル（＝［Ｐ１，Ｐ２］）である。数式（１）に示すように、予測モデルＭＤＬは、全分類器ＷＬのスコアの和を分類器ＷＬの総計であるＮで除算することで、スコアを正規化してよい。このようにアンサンブル学習を利用することで、後述するトレーニングにおいて利用しなかった未知（未学習）のデータに対するＡＤ発症の予測精度を向上させることができる。

　なお、予測モデルＭＤＬは、図２Ｂに示すように、Ｎ個の分類器ＷＬの組み合わせであるものとしたがこれに限られない。例えば、予測モデルＭＤＬは、一つの分類器ＷＬであってもよい。

　図２Ａのフローチャートの説明に戻る。次に、判定部１２３は、予測モデルＭＤＬによって出力されたスコア（正規化されたスコア）が閾値以上であるのか否かを判定する（ステップＳ１０３）。

　判定部１２３は、スコアが閾値以上である場合、被験者がＡＤを発症する蓋然性が高いと判定し（ステップＳ１０４）、スコアが閾値未満である場合、被験者がＡＤを発症する蓋然性が低いと判定する（ステップＳ１０５）。

　次に、出力制御部１２４は、判定部１２３による判定結果（例えば、アルツハイマー病の発症の蓋然性を示す情報）を出力する（ステップＳ１０６）。例えば、出力制御部１２４は、通信インタフェースを介して外部の端末装置（図示せず）に判定結果を送信してよい通信インタフェースは、例えば、ＮＩＣ（Network Interface Card）などのネットワークカードや無線通信モジュールである。また、情報処理装置１００がディスプレイ（図示せず）を備えている場合、出力制御部１２４は、判定結果をディスプレイに表示させてもよい。

［トレーニングの処理フロー］
　以下、第１実施形態に係る処理部１２０のトレーニングの一連の処理の流れをフローチャートに即して説明する。トレーニングとは、ランタイムに利用される予測モデルＭＤＬを学習させる状態である。図２Ｃは、第１実施形態に係る処理部１２０によるトレーニングの一連の処理の流れを示すフローチャートである。

　まず、学習部１２０は、予測モデルＭＤＬを学習するためのトレーニングデータセットを生成する（ステップＳ２００）。例えば、トレーニングデータセットは、健常者又はＡＤ患者が有するＡＤ関連遺伝子の遺伝子型データに対して、その対象者のＡＤ発症に関する情報（例えば、ＡＤ発症陽性又は陰性）がラベル付けられたデータセットである。第２のＳＮＰセットにおいて、不明のＳＮＰが一部含まれる場合には、遺伝子型インピュテーションを用いて帰属遺伝子型が推定されたものを用いることができる。

　例えば、健常者又はＡＤ患者が有するＡＤ関連遺伝子の遺伝子型データを取得する。健常者が有するＡＤ関連遺伝子の遺伝子型データには、ＡＤを発症していないことを示す情報（例えばスコア０．０）がラベル付けられ、ＡＤ患者が有するＡＤ関連遺伝子の遺伝子型データには、ＡＤを発症することを示す情報（例えばスコア１．０）がラベル付けられる。

　このように、ラベル付けられた複数のＡＤ関連遺伝子の遺伝子型データがトレーニングデータセットとして生成されると、特徴量変換部１２２は、トレーニングデータセットに含まれるＡＤ関連遺伝子の遺伝子型データを特徴量に変換する（ステップＳ２０１）。

　次に、学習部１２５は、特徴量変換部１２２によってトレーニングデータセットのＡＤ関連遺伝子の遺伝子型データから変換された複数の特徴量を、訓練用の特徴量（トレーニングサンプル）と、検証用の特徴量（テストサンプル）とに分け、訓練用の特徴量を、予測モデルＭＤＬに弱学習器として含まれるＮ個の分類器ＷＬの中の第ｉ番目の分類器ＷＬ－ｉに入力する（ステップＳ２０２）。

　学習部１２５は、トレーニングデータセットのＡＤ関連遺伝子の遺伝子型データから変換された複数の特徴量、つまり母集団の特徴量を、訓練用の特徴量（トレーニングサンプル）と、検証用の特徴量（テストサンプル）とに分ける際に、主成分分析を利用してよい。例えば、学習部は、ＡＤ関連遺伝子の提供元である健常者又はＡＤ患者の属性情報及び遺伝子情報のなかで主成分となる情報を基に、母集団の特徴量の中から訓練用の特徴量（トレーニングサンプル）を選び出してよい。健常者又はＡＤ患者の属性情報には、例えば、年齢や性別といった情報が含まれてよい。健常者又はＡＤ患者の遺伝子情報には、例えば、ＡＰＯＥε４遺伝子型であるのかそうでないのかといった情報や、その他情報が含まれてよい。主成分を基に選出された訓練用の特徴量（トレーニングサンプル）は、「特定のトレーニングデータセット」の一例である。

　次に、学習部１２５は、訓練用の特徴量を入力した第ｉ番目の分類器ＷＬ－ｉから出力結果、すなわちスコアｓ_ｉを取得する（ステップＳ２０３）。

　次に、学習部１２５は、第ｉ番目の分類器ＷＬ－ｉから取得したスコアｓ_ｉと、訓練用の特徴量にラベル付けられたスコアとの誤差（損失ともいう）を算出する（ステップＳ２０４）。

　次に、学習部１２５は、誤差が小さくなるように第ｉ番目の分類器ＷＬ－ｉのパラメータを決定する（ステップＳ２０５）。

　次に、学習部１２５は、第ｉ番目の分類器ＷＬ－ｉに対する学習を所定回数Ｅ繰り返したか否かを判定し（ステップＳ２０６）、所定回数Ｅに達していない場合、Ｓ２０２に処理を戻し、前回の処理で学習に用いた訓練用の特徴量と同じ特徴量を、第ｉ番目の分類器ＷＬ－ｉに入力することで、第ｉ番目の分類器ＷＬ－ｉを学習することを繰り返す。この際、学習部１２５は、学習によって更新したパラメータを記憶部１３０に記憶させ、パラメータを初期化した第ｉ番目の分類器ＷＬ－ｉに訓練用の特徴量を入力する。これによって、第ｉ番目の分類器ＷＬ－ｉに対する学習が所定回数Ｅに達するまでに、互いにパラメータが異なるＥ個の分類器ＷＬ－ｉが生成される。

　一方、学習部１２５は、第ｉ番目の分類器ＷＬ－ｉに対する学習を所定回数Ｅに達した場合、検証用の特徴量を、Ｅ個の第ｉ番目の分類器ＷＬ－ｉのそれぞれに入力する（ステップＳ２０７）。

　次に、学習部１２５は、Ｅ個の第ｉ番目の分類器ＷＬ－ｉのうち、最も予測精度の高い分類器ＷＬ－ｉを選択する（ステップＳ２０８）。例えば、学習部１２５は、Ｅ個の第ｉ番目の分類器ＷＬ－ｉのうち、検証用の特徴量を入力したときに得られるスコアｓ_ｉとトレーニングデータのスコアとの誤差が最も小さい分類器ＷＬ－ｉを選択する。

　次に、学習部１２５は、予測モデルＭＤＬに弱学習器として含まれるＮ個の分類器ＷＬの全てについて学習したか否かを判定し（ステップＳ２０９）、まだＮ個の分類器ＷＬの学習が済んでいない場合、Ｓ２０２に処理を戻し、訓練用の特徴量に基づいて、第ｉ＋１番目の分類器ＷＬ－（ｉ＋１）を学習する。

　一方、学習部１２５は、Ｎ個の分類器ＷＬの全てについて学習した場合、本フローチャートの処理を終了する。

　以上説明した第１実施形態によれば、情報処理装置１００が、ＡＤ関連遺伝子の遺伝子型データから変換された特徴量に、ＡＤ発症が陽性又は陰性であることを示す情報がラベル付けられたトレーニングデータセットに基づいて学習された予測モデルＭＤＬに対し、被験者が有するＡＤ関連遺伝子の遺伝子型データから変換された特徴量を入力し、特徴量を入力した予測モデルＭＤＬの出力結果に基づいて、被験者がＡＤを発症することを予測するため、被験者の将来のＡＤの発症有無を精度よく予測することができる。

　一般的に、乳幼児や若年者等のＡＤを発症していない対象者においてＡＤリスクを予測することは困難である。これに対して、本実施形態では、機械学習モデルによって実現される複数の分類器ＷＬを含む予測モデルＭＤＬを用いるため、ＡＤ関連遺伝子の遺伝子型データにおいて特定のＳＮＰがＡＤのリスクと正の相関があることを表す重みづけを、スコアとして計算することが期待できる。この結果、乳幼児や若年者等のＡＤを発症していない対象者におけるＡＤリスクを早期に予測することができる。

　また、上述した第１実施形態によれば、予測モデルＭＤＬに弱学習器として含まれる複数の分類器ＷＬをアンサンブル学習するため、予測精度の高い予測モデルＭＤＬを生成することができる。

＜第１実施形態の変形例＞
　以下、第１実施形態の変形例について説明する。上述した第１実施形態において、トレーニングデータセットは、健常者又はＡＤ患者が有するＡＤ関連遺伝子の遺伝子型データに対して、ＡＤを発症するのか、或いはＡＤを発症しないのかを表したスコアがラベル付けられたデータであるものとして説明したがこれに限られない。例えば、トレーニングデータセットは、健常者又はＡＤ患者が有するＡＤ関連遺伝子の遺伝子型データに対して、上述したスコアに加えて、更に、ＡＤの発症年齢がラベル付けられたデータであってよい。学習部１２５は、このようなトレーニングデータセットを用いて、ＡＤ関連遺伝子の遺伝子型データが入力されると、ＡＤを発症することの確率Ｐ１と、ＡＤを発症しないことの確率Ｐ２と、ＡＤの発症年齢ｔとのそれぞれを要素とする３次元のベクトル（＝［Ｐ１，Ｐ２，ｔ］）を出力するように予測モデルＭＤＬを学習する。判定部１２３は、予測モデルＭＤＬによって出力されたベクトルのｔの要素に基づいて、被験者がＡＤを発症する年齢を予測する。

　また、ラベルは、ＡＤの発症有無を示すスコアや発症年齢に限られず、ＡＤ関連遺伝子の遺伝子型データの提供元である対象者の属性が含まれていてもよい。属性には、例えば、性別、体重、身長、生活習慣、病気の有無、家族の病歴といった種々の情報が含まれてよい。また、ＡＰＯＥε４の遺伝子型等、公知のＡＤ関連遺伝子型の遺伝子情報が含まれてもよい。このようなラベルが対応付けられたＡＤ関連遺伝子の遺伝子型データを用いて予測モデルＭＤＬを学習することで、更に予測精度の高い予測モデルＭＤＬを生成することができる。この結果、ランタイム時に、ＡＤ関連遺伝子の遺伝子型データに加えて被験者の属性を予測モデルＭＤＬに入力することで、更に被験者の将来のＡＤのリスクを精度よく予測することができる。

　上記のようにして得られる判定結果は、ＡＤの専門医がＡＤを診断する際の補助としても用いられる。すなわち、本実施形態の情報処理装置及び情報処理方法は、ＡＤの診断支援装置及び診断支援方法ということもできる。

＜その他実施形態＞
　一実施形態において、本発明は、上記情報処理方法に記載の指示、具体的には、
　被験者由来のゲノムＤＮＡ試料において、アルツハイマー病関連遺伝子の変異である第１のＳＮＰを検出すること；及び、
　アルツハイマー病を発症した患者由来のゲノムＤＮＡ試料において検出された前記アルツハイマー病関連遺伝子の変異である第２のＳＮＰに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第１のＳＮＰから、前記被験者がアルツハイマー病を発症するか否かを判定すること；
を実行するように構成されたプロセッサを提供する。

　以下、実施例及び比較例等を挙げて本発明をさらに詳述するが、本発明はこれらの実施例等に限定されるものではない。

＜方法＞
［孤発性ＡＤ患者の末梢血細胞からのｉＰＳコホートの樹立］
　本試験は、京都大学ｉＰＳ細胞研究応用センターの倫理委員会により承認された（承認番号：ＣｉＲＡ１９－０５及びＣｉＲＡ２０－１４）。ヒト末梢血単核細胞（ＰＢＭＣ）からのｉＰＳ細胞の樹立のために、アルツハイマー病（ＡＤ）患者のＰＢＭＣを、京都大学医学研究科の倫理委員会によって承認された研究プロジェクトに従って収集した（承認番号：Ｒ００９１、Ｇ２５９、及びＧ０７２２）。書面によるインフォームドコンセントを、この試験のすべての参加者から得た。リプログラミング因子のヒトｃＤＮＡは、エピソームベクター（ＳＯＸ２、ＫＬＦ４、ＯＣＴ４、Ｌ－ＭＹＣ、ＬＩＮ２８、ドミナントネガティブｐ５３）を用いてヒトＰＢＭＣに導入した。形質導入の数日後、ＰＢＭＣを採取し、ラミニン５１１－Ｅ８フラグメント（ｉＭａｔｒｉｘ　５１１、ニッピ社製）でコーティングされた皿に再播種した。翌日、培地をＳｔｅｍＦｉｔＡＫ０３に交換した。その後、２日おきに培地を交換した。形質導入の２０日後、ｉＰＳ細胞コロニーをピックアップした。ＰＢＭＣから確立されたｉＰＳ細胞を神経分化のために拡張培養した。

［ヒトｉＰＳ細胞から誘導された大脳皮質の神経細胞］
　直接転換技術を利用して、堅固で迅速な分化誘導法を確立した。テトラサイクリン誘導性プロモーター（ｔｅｔＯ）下のヒトニューロゲニン２（ＮＧＮ２）ｃＤＮＡを、ｐｉｇｇｙＢａｃトランスポゾンシステム及びＬｉｐｏｆｅｃｔａｍｉｎｅ　ＬＴＸ（Ｔｈｅｒｍｏ　Ｆｉｓｈｅｒ　Ｓｃｉｅｎｔｉｆｉｃ社製）によりｉＰＳ細胞に形質転換した。ｔｅｔＯ：：ＮＧＮ２を含むベクターを使用した。Ｇ４１８二硫酸塩（ナカライテスク社製）による抗生物質選択後、コロニーを選択し、ＮＧＮ２の一時的な発現を誘導することによって神経細胞に効率的に分化できるサブクローンを、ＭＡＰ２／ＤＡＰＩ　９６％超の純度で選択した。

［核型分析及び遺伝子型決定］
　核型分析は、本研究所又はＬＳＩメディエンス社が実施した。一塩基多型のジェノタイピングは、ゲノムＤＮＡのＰＣＲ増幅によって実行し、直接シーケンスした（３１００　Ｇｅｎｅｔｉｃ　Ａｎａｌｙｚｅｒ；Ｔｈｅｒｍｏ　Ｆｉｓｈｅｒ社製）。ＡＰＯＥ遺伝子はＰＣＲによって増幅した（フォワードプライマーＴＣＣＡＡＧＧＡＧＣＴＧＣＡＧＧＣＧＧＣＧＣＡ（配列番号１）；リバースプライマーＡＣＡＧＡＡＴＴＣＧＣＣＣＣＧＧＣＣＴＧＧＴＡＣＡＣＴＧ（配列番号２））。ＰＣＲ産物をＨｈａＩで３７℃、２時間消化した後、電気泳動を行ってバンドサイズを分析した。

［免疫細胞化学染色］
　細胞を室温（ＲＴ、２５℃程度）で４ｖ／ｖ％パラホルムアルデヒド（ｐＨ７．４）で固定し、０．２ｖ／ｖ％ＴｒｉｔｏｎＸ－１００を含むＰＢＳＴで透過処理した。非特異的結合を抑制するために、ＢｌｏｃｋｉｎｇＯＮＥ　ｈｉｓｔｏ（ナカライテスク社製）でＲＴ、６０分間ブロッキング処理した。細胞を一次抗体とともに４℃で一晩インキュベートし、次に蛍光タグ付き二次抗体で標識した。ＤＡＰＩ（Ｔｈｅｒｍｏ　Ｆｉｓｈｅｒ社製）を使用して核を標識した。
細胞の画像は、ハイコンテント共焦点顕微鏡ＩＮ　Ｃｅｌｌ　Ａｎａｌｙｚｅｒ　６０００（ＧＥ　Ｈｅａｌｔｈｃａｒｅ社製）で取得した。免疫細胞化学染色には次の一次抗体を使用した：ＮＡＮＯＧ（１：１００希釈；Ａｂｃａｍ社製、ａｂ８０８９２）、ＴＲＡ１－６０（１：４００希釈；ＣＳＴ＃４７４６、Ｄａｎｖｅｒｓ、ＭＡ）、ＭＡＰ２（１：４，０００希釈；Ａｂｃａｍ社製　ａｂ５３９２）、ＳＡＴＢ２（１：４００希釈；Ａｂｃａｍ社製　ＥＰＮＣＩＲ１３０Ａ　ａｂ９２４４６）、Ａｌｅｘａ４８８結合抗体（１：４００希釈；Ｔｈｅｒｍｏ　ｆｉｓｈｅｒ社製　Ａ１１０２９）、Ａｌｅｘａ４８８結合抗体（１：４００希釈；Ｔｈｅｒｍｏ　ｆｉｓｈｅｒ社製　Ａ１１０３９）、Ａｌｅｘａ５９４結合抗体（１：４００希釈；Ｔｈｅｒｍｏ　ｆｉｓｈｅｒ社製　Ａ２１２０７）。

［タンパク質濃度の定量化］
　１０日目に、分化した神経細胞から総タンパク質のＲＩＰＡ可溶性画分を抽出し、３０μＬのＲＩＰＡバッファーを添加して９６ウェルプレートで培養し、１２，０００ｇで３０分間遠心分離して上清を回収した。上清のタンパク質濃度は、Ｐｉｅｒｃｅ　ＢＣＡタンパク質アッセイキット（Ｔｈｅｒｍｏ　ｆｉｓｈｅｒ社製）を使用して、キットのマニュアルに従って測定した。

［同定された遺伝子の経路分析］
　市販のＩｎｇｅｎｕｉｔｙＰａｔｈｗａｙＡｎａｌｙｓｉｓ（ＩＰＡ、ＱＩＡＧＥＮ社製、https：//www.qiagenbioinformatics.com/）ソフトウェアを使用して、２３０個の同定された遺伝子（ｐ＜５×１０^－５）の経路分析を実行し、上位のネットワークを分析した。

［アミロイドβ（Ａβ）のエレクトロケミルミネッセンスアッセイ］
　８日目にすべての培地を１００μＬの新鮮な培地と交換した。馴化培地は、１０日目に更なる分析のために採取した。培地中のＡβ種は、細胞外ヒトＡβについてヒト（６Ｅ１０）Ａβ３－Ｐｌｅｘキット（Ｍｅｓｏ　Ｓｃａｌｅ　Ｄｉｓｃｏｖｅｒｙ社製）によって測定した。Ａβ種の場合、このアッセイでは６Ｅ１０抗体を使用してＡβペプチドを捕捉し、Ｓｅｃｔｏｒ　Ｉｍａｇｅｒ　２４００（Ｍｅｓｏ　Ｓｃａｌｅ　Ｄｉｓｃｏｖｅｒｙ社製）を使用したエレクトロケミルミネッセンスで検出するためにＳＵＬＦＯ－ＴＡＧ標識の異なるＣ末端特異的抗Ａβ抗体を使用した。定量化されたＡβ値（クローンあたりＮ＝２ウェル）は、神経細胞の総タンパク質濃度を使用して調整され、細胞数の変化に起因するノイズを最小限に抑えて条件を比較した。

［タウタンパク質のエレクトロケミルミネッセンスアッセイ］
　ｉＰＳ細胞由来の神経細胞から抽出されたＲＩＰＡライセート中のタウ種は、キットの説明書に従って、Ｐｈｏｓｐｈｏ（Ｔｈｒ２３１）／Ｔｏｔａｌ　Ｔａｕ　Ｋｉｔ（Ｍｅｓｏ　Ｓｃａｌｅ　Ｄｉｓｃｏｖｅｒｙ社製）によって測定した。定量化されたタウ値（クローンあたりＮ＝２ウェル）は、神経細胞の総タンパク質濃度を使用して調整され、変更された細胞数に起因するノイズを最小限に抑えて条件を比較した。

［ＡＤ患者のＳＮＰジェノタイピング及び多遺伝子性の細胞分析のためのゲノムワイド関連解析（ＧＷＡＳ）］
　キットのマニュアル（イルミナ社製）に従って、１０２人のＡＤ患者サンプルすべてについてＩｎｆｉｎｉｕｍ　ＯｍｎｉＥｘｐｒｅｓｓＥｘｏｍｅ－８ｖ１．４ＢｅａｄＣｈｉｐで遺伝子型を決定した。アルゴリズムの問題をデータ形式の問題から分離するために、すべての遺伝子型データを、ＷＧＳデータからのバリアント呼び出しによって生成されるフォワードストランドＧＲＣｈ３７．ｐ１３方向に標準化した。ＧｅｎｏｍｅＳｔｕｄｉｏ（イルミナ社製）と品質管理（ハーディー・ワインベルク平衡：ｐ＞１．０×１０^－６；マイナーアレル頻度≧０．０１；連鎖不平衡ベースのバリアントプルーニングｒ２＜０．８、ウィンドウサイズ：１００ｋｂ、ステップサイズ：５）を使用して遺伝子型を決定した後、遺伝子型は、参照パネルとして１，０００人ゲノムプロジェクトフェーズ３を使用してｍｉｎｉｍａｃ４で帰属された。７，３４９，４８１個のＳＮＰが、代入後の品質閾値を超えた（ｒ２≧０．３、マイナーアレル頻度≧０．０１）。ＳＮＰとｉＰＳ細胞由来の神経細胞のＡβ４２／４０比蓄積率との線形関連をｐｌｉｎｋ１．９で分析し、ＡＰＯＥ－ε４対立遺伝子の発症年齢、性別、遺伝子型を線形回帰モデルの共変量として含めた。ｐ＜５×１０^－５を示唆レベルとして設定し、ｐ＜５×１０^－８を有意水準として関連分析を設定した。サンプルサイズを事前に決定するために統計的手法は使用しなかったが、サンプルサイズは以前の出版物で報告されたものと同様である。

［ＡＤＮＩデータセットの臨床データの予測］
　大脳皮質の神経細胞におけるＡβ４２／４０蓄積率の結果は、ＰＬＩＮＫ１．９を使用したＬＤベースの凝集（ｒ２＞０．２、ウィンドウサイズ＝１Ｍｂ）によって処理された。独立したＳＮＰの中で、ゲノムワイド解析で推奨される閾値レベル（ｐ＜５×１０^－５）を超えるものは４９６個のＳＮＰであり、予測モデルの変数として使用された。選択された１０２のＡＤ患者サンプルのＳＮＰ遺伝子型マトリックスは、元々０、１、又は２で構成されていたが、正規化され、主成分分析（ＰＣＡ）によって分析された。

　アルツハイマー病ニューロイメージングイニシアチブ（ＡＤＮＩ）１／ＧＯ／２データセットからのサンプルの遺伝子型が収集された（Ｉｌｌｕｍｉｎａ社製；Ｏｍｎｉ　２．５ＭＢｅａｄＣｈｉｐ）。品質管理とＩｍｐｕｔａｔｉｏｎは、同じ条件で遺伝子型データに対して実行された。１０，１２１，９６２個のＳＮＰの帰属遺伝子型は、ゲノムワイド解析から得られた４９６個のＳＮＰによってフィルタリングされた。多遺伝子性の細胞分析（ＣＤｉＰ）リストにリストされているがＡＤＮＩデータセットにはリストされていないＳＮＰの遺伝子型は、ＡＤ患者の平均遺伝子型で補完された。次に、ＡＤＮＩサンプルの表現型を遺伝子型から予測しました。サンプルがＡＤとして妥当な状態に属するか（陽性）、そうでないか（陰性）を予測した。サンプルは、ＡＤＮＩデータベースで報告された結果に基づく４つの基準に従って、独立して陽性／陰性に分類された。まず、ＡＶ４５　ＰＥＴデータからの標準化取込値比（ＳＵＶＲ、参照：小脳参照領域）（＞１．１、陽性の閾値）；第二に、ＣＳＦ中のＡβ（１－４２）（＜９７７ｐｇ／ｍＬ、陽性の閾値）；第三に、ＣＳＦ中のｔ－タウ／Ａβ（１－４２）（＞０．２７、陽性の閾値）；第四に、ＣＳＦ中のｐ－タウ／Ａβ（１－４２）（＞０．０２５、陽性の閾値）。報告されたすべての結果は、ベースラインのＡＤＮＩＭＥＲＧＥデータセットから取得された。遺伝子型データと表現型データの両方を含むサンプルが研究に含まれた（ＳＵＶＲ　ＡＶ４５：ｎ＝５１２；ＣＳＦＡβ（１－４２）、ｔ－ｔ－ｔａｕ／Ａβ（１－４２）、ｐ-ｔａｕ／Ａβ（１－４２）：ｎ＝５８１）。ＡＤＮＩサンプルの遺伝子型ベクトルは、院内ＡＤ患者の遺伝子型マトリックスから導出された主成分空間にマッピングされた。１０分割交差検定を実行した。

　ＡＤＮＩサンプルは、トレーニングサンプルとテストサンプルに分割された。ランダムフォレスト分類器（１００個の推定量）がトレーニングサンプルでトレーニングされ、ターゲット変数（ＡＤのような条件が正／負）が遺伝子型マトリックスと共変量（年齢、性別、ＡＰＯＥ－ε４の遺伝子型）の上位３つのＰＣから予測された。予測のパフォーマンスは、テストサンプルの予測から得られた受信者動作特性（ＲＯＣ）曲線の曲線下面積（ＡＵＣ）で評価された。予測パフォーマンスは、ターゲット変数が共変量からのみ予測された場合と比較された。ＡＵＣ改善の有意性は、ウィルコクソン符号順位検定でテストされた（有意な閾値：ｐ＜０．０５）。ターゲット変数は、上述した「アルツハイマー病の発症に関する情報」に相当する。

［標的遺伝子のノックダウン］
　６ウェルプレートにウェルあたり３，０００，０００細胞の初期密度の細胞を５日目に播種した。播種の２４時間後（６日目）、培地を１μＭ　ＡｃｃｅｌｌＳＭＡＲＴｐｏｏｌ　ｓｉＲＮＡ（Ｈｏｒｉｚｏｎ　Ｄｉｓｃｏｖｅｒｙ社製）を含む神経基礎培地と交換した。Ａｃｅｌｌ　ｓｉＲＮＡの効果を最大化するために、ｉＰＳ細胞由来の神経細胞を６日目から９日目まで７２時間培養した。ｓｉＲＮＡを添加してから７２時間後（９日目）、培養培地を新鮮な１μＭ　ＡｃｃｅｌｌＳＭＡＲＴｐｏｏｌ　ｓｉＲＮＡ又は１μＭ　ＪＮＪ－４０４１８６７７（Ｓｉｇｍａ－Ａｌｄｒｉｃｈ社製）を含む神経基礎培地に交換し、１１日目に採取し、Ａβ表現型を分析した。

［ＡＤ発症に関連するレアバリアントの分析］
　全エクソームシーケンスは、日本のＡＤＮＩプロジェクトに参加しているＡＤ患者２５５人と認知的に正常なコントロール１５２人から得られた４０７の血液由来ゲノムＤＮＡサンプルで実行された。エキソンシーケンスは、Ａｇｉｌｅｎｔ社製のＳｕｒｅＳｅｌｅｃｔ　Ｈｕｍａｎ　Ａｌｌ　Ｅｘｏｎキット（Ｖ６）を使用したハイブリダイゼーションによって濃縮され、ペアエンドリードケミストリーを使用してイルミナ社製のＨｉＳｅｑ４０００でシーケンスされた。デフォルト設定でＢＷＡ－ＭＥＭバージョン０．７．１５－ｒ１１４０を使用して、ターゲット領域のショートリードシーケンスをヒトリファレンスゲノム（ｈｇ３８）にマッピングした。その後の分析（読み取り処理、バリアント呼び出し、及びバリアントフィルタリング）は、ＧＡＴＫ４ベストプラクティスの推奨事項に従って実行され、その後、ｓｎｐＥｆｆバージョン４．３ｔを使用してバリアントアノテーションが実行された。全エクソームシーケンシングによって同定されたすべてのバリアントの中で、非同義、ナンセンス、スプライス部位、挿入又は欠失変異体に焦点を当てた。さらに、これを、公開されているデータベースを使用して、公開されているデータベースでＭＡＦ＜０．０５のバリアントに絞り込んだ：ＥｘＡＣリリース０．３（http://exac.broadinstitute.org/）、エクソーム用のｇｎｏｍＡＤリリース２．１．１、及びゲノム用のｒ.３．０（https://gnomad.broadinstitute.org/）、ＨＧＶＤバージョン２．３（http://www.hgvd.genome.med.kyoto-u.ac.jp/）、並びに、ＴｆｏＭＭｏバージョン８．３ＫＪＰＮ（https：//jmorp。 megabank.tohoku.ac.jp）。Ｊ－ＡＤＮＩ（ｎ＝４０７）及びＡＤＮＩ（ｎ＝４７９）エクソームデータを使用して、ＲパッケージｓｅｑＭｅｔａバージョン１．６．７でＢｕｒｄｅｎｔｅｓｔを使用してバリアントの遺伝子ベースの関連解析を実施した。

［データの可用性］
　本試験に使用されたデータは、アルツハイマー病ニューロイメージングイニシアチブ（ＡＤＮＩ）データベース（adni.loni.usc.edu）から取得された。ＡＤＮＩは、プリンシパルインベスティゲーターのMichael W. Weiner、MDが率いる官民パートナーシップとして、２００３年に発足した。ＡＤＮＩの主な目標は、シリアル磁気共鳴画像法（ＭＲＩ）、陽電子放出断層撮影（ＰＥＴ）、その他の生物学的マーカー、並びに、臨床的及び神経心理学的評価を組み合わせて、軽度認知障害（ＭＣＩ）及び早期アルツハイマー病（ＡＤ）の進行を測定できるかどうかをテストすることであった。ＳＮＰアレイデータは、Ｎａｔｉｏｎａｌ　Ｂｉｏｓｃｉｅｎｃｅ　Ｄａｔａｂａｓｅ　Ｃｅｎｔｅｒ（ＮＢＤＣ）（https://humandbs.biosciencedbc.jp/en/、研究ID：hum0314.v1）で入手できる。

［コードの可用性］
　データ管理と分析のすべてのコードは、ＧｉｔＨｕｂ（https://github.com/HaruhisaInoue/iSNPs4ADNIpred）にオンラインでアーカイブされている。他の全てのコードは発明者らのサイトで公開されている。

［統計及び再現性］
　ＡＤＮＩデータセットの臨床データの予測、及びＡＤ発症に関連するレアバリアントの分析を除いて、以下のように統計分析を実施した。全てのデータは平均±Ｓ．Ｄ.として示されている。再現性を確認するために、２～３回の実験的複製を実施した。データの分散は正常であると想定されていたが、これは正式にはテストされていない。３つ以上のグループ間の平均の比較は、一元配置分散分析（ＡＮＯＶＡ）と、それに続くＴｕｋｅｙの複数比較テスト又はＵｎｃｏｒｒｅｃｔｅｄ　ＦｉｓｈｅｒのＬＳＤ（ＧｒａｐｈＰａｄ　Ｐｒｉｓｍ　７．０ソフトウェア(ＧｒａｐｈＰａｄ社製）を使用した事後テスト）によって行われた）。０．０５未満のｐ値は有意であると見なされた。

[実施例１]
　本試験では、ＡＤコホートのｉＰＳ細胞から誘導された大脳皮質の神経細胞から放出されたＡβを病理学的特性として使用して、ゲノムワイド解析を実施した。次いで、ＣＤｉＰを実施して、神経細胞特異的な方法で複雑な病態メカニズムを明らかにした。

１．ｉＰＳ細胞の樹立及びｉＰＳ細胞由来の神経細胞におけるＡβ表現型の分析
　まず、神経細胞のＡＤ病理を分析するために、孤発性ＡＤ（ＳＡＤ）コホート（Ｎ＝１０２）の患者から正常な核型を示すｉＰＳ細胞を樹立した。樹立したｉＰＳ細胞は、３つすべての胚葉を生成するインビトロでの能力と、ヒトＥＳＣと同様のＸ不活性特異的転写産物（ＸＩＳＴ）を示した。

　ヒトＮＧＮ２遺伝子の強制発現により、すべてのｉＰＳ細胞クローンを大脳皮質の神経細胞に直接分化させた。この分化プロトコルでは、外因性ＮＧＮ２は８日目以降十分に抑制され、Ａβ表現型は８日目から１４日目まで一定であった。複雑なＡＤの病理は、ＧＷＡＳ特性の候補となる可能性のある、様々な種類の分子又はＡβやタウ等の生物学的イベントで構成されている。ＡβはＡＤの長期的な病理学的カスケードの開始におけるトリガーイベントであり、認知症を引き起こすため、大脳皮質の神経細胞の病理学的特性にＡβを選択した。Ａβ４０とＡβ４２をそれぞれ保護的及び毒性のＡβとして定量化し、ＳＡＤ大脳皮質の神経細胞の培養上清中のＡβ４２／４０比を定量化した。

　Ａβ産生経路で中心的な役割を果たすＡＰＰ及びＰＳＥＮ１遺伝子は、神経発達、及びヒトｉＰＳ細胞からの神経分化傾向に影響を与えることが知られている。したがって、異なる患者のｉＰＳ細胞間でＡβを評価する場合、神経細胞への分化の均一な純度を維持し、ウェルあたりの神経細胞数の変動を正規化することが重要である。本試験で使用された直接分化法は、均一で高純度の大脳皮質の神経細胞が得られるが、０日目から５日目までの直接転換のストレスのために患者間の神経細胞密度の変動を引き起こし、また、この変動性はＡβの量に影響を与えた。ウェルあたりの神経細胞数の変動を正規化するために、ウェル全体の神経細胞から抽出された総タンパク質濃度を使用した。タンパク質濃度の変化は、異なる独立した神経細胞又は患者のウェルあたりの神経細胞数を直線的に反映するためである。

　ゲノム情報との相関を確かめるために、ＡＤの最も強い遺伝的リスクであるＡＰＯＥ遺伝子型とＡβ種の相関を分析したＡＰＯＥε４遺伝子型は、他のモダリティによって証明されるように、Ａβ４２／４０比（図３Ｃ）と適度に相関し、Ａβの量（図３Ａ及び図３Ｂ）又はタンパク質濃度（図３Ｄ）とは相関しなかった。

　遺伝子組み換え技術を使用した以前の報告では、ＡＰＯＥ４対立遺伝子が同一の遺伝的背景を持つｉＰＳ細胞由来の神経細胞のＡβ表現型に影響を与えることも示されている。しかし、ＡＰＯＥ３／３対４／４の異なるＳＡＤ集団におけるＡβ表現型の変化（本試験では１．０９倍の変化）は、ゲノム補正による変化（以前のレポートでは約１．２倍又は２倍の変化）よりも小さかった。（図３Ｃ）。

　また、大脳皮質の神経細胞における定量化されたＡβ表現型と、発症年齢や性別等の臨床状態との相関関係を分析した。Ａβ種の量と比率は、発症年齢（図４Ａ、図４Ｂ、及び図４Ｃ）、性別（図４Ｄ、図４Ｅ、及び図４Ｆ）とは相関しなかった。

　これらの結果から、ＳＡＤのＡβ表現型がＳＡＤの多様なポリジーンアーキテクチャの影響を受けたことが示された。したがって、ＡＤの病理学的特性についてＳＡＤの大脳皮質の神経細胞のＡβを使用してゲノムワイド解析を実施した。

２．ゲノムワイド解析
　Ａβの多遺伝子性を理解するために、病理学的特徴として大脳皮質の神経細胞のＡβ４２／４０比を用いてゲノムワイド解析を実施した。統計分析はＡＰＯＥステータスに合わせて調整し、多重検定の誤検出率を適用した。全体的な結果としては、偶然に予想されたものからの大きな偏差を示さず（λ＝０．９６５９）、集団の構造化による検定統計量のバイアス又はインフレの証拠がなかったことを意味した。ＡＰＯＥ遺伝子型の影響を推定するために、最初はＡＰＯＥ遺伝子型を調整せずにＣＤｉＰを実施した（図５Ａ）。その結果、ｒｓ４２９３５８のｐ値（Ｔ／Ｃ、ＡＰＯＥε４の遺伝子座）は０．７９４であり、統計的に有意ではなかった。ＡＰＯＥε４は臨床ＡＤのリスクが高いが、ＣＤｉＰは、ｉＰＳ細胞由来の神経細胞の単一細胞型培養におけるＡβ４２／４０比が、ＡＰＯＥε４だけでなく他の複雑な遺伝子セットによって主に影響を受けることを示した。
　従って、ＡＰＯＥ遺伝子型を調整してＣＤｉＰを実施し（図５Ｂ）、２４のＳＮＰの遺伝子型及び関連する遺伝子座（「ｐ値＜５×１０^－８」又は「ｐ値＜５×１０^－５である、１０を超えるＳＮＰを含む遺伝子座」）であって、変更されたＡβ４２／４０比に関連しているものを特定した。（図５Ｃ及び表３－１～表３－７７）。表３－１～表３－７７中、「ｃｈｒ」は染色体を、「ＢＥＴＡ」は偏回帰係数を、「ＳＥ」は標準誤差を意味する。以降の表においても同様の意味で使用される。

　ゲノムワイド関連解析において最も高いＳＮＰとして、２Ｂを含むＤＥＮＮドメイン（ＤＥＮＮＤ２Ｂ）のイントロンＳＮＰである、染色体１１のｒｓ３４０３３７４７が特定された（ｐ値＝１．９１×１０^－９）（表４）。なお、表４中、「Ａｌｌｅｌｅ」の内、左側は基本アレル／右側はマイナーアレル（変異型アレル）を、「Ｇｅｎｅ　ＩＤ」はＮＣＢＩが定義する遺伝子一つ一つにあてがわれたＩＤを意味する。以降の表においても同様の意味で使用される。

　ＣＵＬ１、ＱＲＦＰ、ＣＴＮＮＡ３、ＤＡＢ１、及びＤＣＣを含む５つの遺伝子座及び関連遺伝子が、Ａβ産生に関連していることが知られていた。さらに、ＭＡＧＩ１、ＴＭＴＣ１、ＴＲＰＭ１、ＫＣＮＭＡ１、ＤＡＢ１、ＣＰＸＭ２、ＲＯＢＯ２、及びＡＮＯ３を含む８つの遺伝子座及び関連遺伝子が、臨床ＧＷＡＳのＡＤ関連遺伝子座、又は臨床バイオマーカーとして報告されている。１２の遺伝子座及び関連遺伝子は、Ａβ又はＡＤ関連遺伝子として新規であった（表５－１～表５－２）。表５－１～表５－２中、「ＥＯＡＤ」は早発性アルツハイマー病を、「ＬＯＡＤ」は遅発性アルツハイマー病を、「ＣＮＶ」はコピー数多型を、「ＯＲ」はオッズ比を意味する。また、項目「Ｂｒａｉｎ」における「ｙｅｓ」は脳内での高発現を意味し、「ｌｏｗ」は脳内での発現が低いことを意味し、「ｎｄ」はＧＴＥｘポータル（https://gtexportal.org/home/）にデータがないことを意味する。また、項目「Ｂｒａｉｎ　ｃｅｌｌ－ｔｙｐｅ」では、Ｂｒａｉｎ　ＲＮＡ－Ｓｅｑポータル（https://www.brainrnaseq.org/）で遺伝子の高発現を示した上位３つの細胞型を記載している。以降の表においても同様の意味で使用される。

　さらに、同定された遺伝子のほとんどは脳で発現され（ＧＴＥｘポータル、https：//gtexportal.org/home/）、１９個の遺伝子は神経細胞で高度に発現される（脳ＲＮＡ－Ｓｅｑポータル、https：//www.brainrnaseq.org/）（表５－１～表５－２）。偏りのない経路分析により、「カルシウムシグナル伝達経路」が最上位の標準経路として特定された（ｐ値＝２．５１×１０^－５）（図５Ｃ）。これらのネットワークは、Ａβ代謝を変化させることが知られている。これらの結果から、上述のポリジーンアーキテクチャの分析によって特定されたＳＮＰ及び関連遺伝子が、ＡＤ病理の細胞型特異的特性として大脳皮質の神経細胞のＡβ４２／４０比及びアルツハイマー病に寄与することが証明された。

　さらに、Ｎ末端から２３１番目のスレオニンがリン酸化されたタウであるｐ２３１－タウはＡＤの診断又は進行の追跡のための高感度マーカーであることから、ｐ２３１－タウ／総タウ比（ｐ２３１－タウ比）を定量化して、ＣＤｉＰにｐ２３１－タウ比を適用した。ＡＰＯＥε４遺伝子型、性別、及びＡＤの発症年齢は、ｐ２３１－タウ比と相関しなかった（図６Ａ、図６Ｂ、及び図６Ｃ）。ＡＰＯＥ遺伝子型の調整の有無にかかわらず、形質としてｐ２３１－タウ比を使用してＣＤｉＰを実施し（図６Ｄ、及び図６Ｅ）、ＳＮＰ及び関連する遺伝子座を特定した（ｐ値＜５×１０^－５）（表６及び表７－１～表７－９）。最も低いｐ値を示したＳＮＰは、炎症関連分子であるＴＮＦＡＩＰ８遺伝子座のｒｓ６８８８８１１６（ｐ＝１．２４×１０－６）であった（表６）。表６中、「ｉｎｓＡＴＣＴ」は、ＡＴＣＴＣＡＧ（Ａ）_１２ＴＴＣＴＣＴＡＴＣＴ（配列番号３）が挿入されていることを意味する。

３．治療標的遺伝子の同定
　Ａβ表現型とＣＤｉＰで同定された２４遺伝子との直接的な相互作用を証明するために、同定された遺伝子をノックダウンした場合のＡβ種を定量化した（図７Ａ、図７Ｂ、図７Ｃ、及び図７Ｄ）。Ａβ産生の重要な成分であるアミロイド前駆体タンパク質（ＡＰＰ）又はβ部位ＡＰＰ切断酵素１（ＢＡＣＥ１）の発現を抑制すると、予想通りＡβの量が減少した（図７Ｂ、及び図７Ｃ）。ＣＤｉＰで同定された２４個の遺伝子のうち８個をノックダウンすると、Ａβ４２／４０比が大幅に変化した（図７Ａ）。特に、Ａβ４２／４０比の低下が最も大きい上位３つの標的遺伝子であるＣＴＮＮＡ３、ＡＮＯ３、及びＣＳＭＤ１に焦点を当てた。Ａβ量に関しては、ＣＤｉＰで同定された２４個の遺伝子のうち２３個のノックダウンにより、Ａβ４２又はＡβ４０の量が変化した（図７Ｂ、及び図７Ｃ）。神経細胞の密度の変化はＡβ４２の量に影響を与える必要があるため、焦点を当てる遺伝子を選択する前に、ｓｉＲＮＡ処理後のタンパク質濃度を定量化した（図７Ｄ）。その結果、以前に報告されたように、ＱＲＦＰＲ、ＩＮＦＬＲ１、ＺＮＲＦ２、ＲＯＢＯ２、ＤＣＣ、及びＡＰＰのノックダウンにより総タンパク質濃度が低下することが確かめられた。従って、Ａβ４２量に影響を及ぼす候補遺伝子から、ＺＮＲＦ２、ＩＮＦＬＲ１、ＤＣＣ、及びＡＰＰを除外した。その後、Ａβ４２量の減少が最も大きい上位３つの標的遺伝子であるＺＦＰＭ２、ＴＭＴＣ１、及びＫＣＮＭＡ１に焦点を当てた。

　ノックアウト療法の潜在的なターゲットを絞り込むには、ＡＤ患者の脳の神経細胞で発現が上昇している遺伝子を選択する必要がある。ＡＤ患者の神経細胞における着目した遺伝子の発現状態を調べるために、６つのＡＤ患者の脳と６つのコントロールの脳の大脳皮質の単一細胞ベースのトランスクリプトームデータを利用した。これは、ニューロン、アストロサイト、オリゴデンドロサイト前駆細胞、オリゴデンドロサイト、ミクログリア、及び内皮細胞を含む個々の細胞型のトランスクリプトームデータを提供している。特にニューロンにおける、Ａβ４２／４０比に対するＣＴＮＮＡ３、ＡＮＯ３、及びＣＳＭＤ１、Ａβ４２に対するＺＦＰＭ２、ＴＭＴＣ１、及びＫＣＮＭＡ１等の焦点を絞った遺伝子の平均発現をプロットした（図７Ｅ及び図７Ｆ）。その結果、ＣＴＮＮＡ３、ＡＮＯ３、及びＫＣＮＭＡ１の発現が、ＡＤ患者の脳でより高いことが明らかとなった。

　以上の結果から、Ａβ４２／４０比に対するＣＴＮＮＡ３、及びＡＮＯ３、並びに、Ａβ４２量に対するＫＣＮＭＡ１は、ＡＤの潜在的な治療標的となる可能性があると結論付けた（図７Ｇ）。

　ＣＴＮＮＡ３がコードするタンパク質は細胞間接着の役割を果たし、ＣＴＮＮＡ３の変異は、カリウムやカルシウム等の電解質の取り扱いの誤りによって引き起こされる家族性不整脈源性右室異形成を引き起こす。
　ＫＣＮＭＡ１がコードするタンパク質は、平滑筋緊張とニューロンの興奮性を調節する電圧及びカルシウム感受性カリウムチャネル（ＫＣａ１．１）で構成されている。ＫＣａ１．１はクロモリンの標的として知られており、興味深いことにＡＤの第ＩＩＩ相試験でテストされる。
　ＡＮＯ３がコードするタンパク質は、小胞体依存性カルシウムシグナル伝達において機能することが報告されており、ＡＮＯ３変異は、ニューロンの異常な興奮性を介して家族性ジストニア２４型を引き起こす。
　これらの結果から、同定された治療標的は、カルシウムの取り扱い及び興奮性、Ａβ調節の重要な経路に関与している可能性がある。

　要約すると、ＡＤの複雑な細胞型を大脳皮質の神経細胞で分析し、神経細胞特異的なＡβ及びタウの表現型をＡＤの病理学的特性として設定することにより、ゲノムワイドな分析を実施した。その結果、ＣＤｉＰにより、ＡＤの疾患病態メカニズムの背後にあるポリジーンアーキテクチャに部分的に寄与する遺伝子型セットが明らかにされた。

　なお、上記で同定された２４遺伝子のうち、１１遺伝子はこれまでＡＤのとの関係性が未報告の新規ＡＤ関連遺伝子である。これらの遺伝子がこれまで見いだせなかったのは、ｃｌｉｎｉｃａｌ　ＧＷＡＳだけでは多様な交絡因子がノイズとなったためと考えられる。

［実施例２］
（ｃｅｌｌ　ＧＷＡＳから得たポリジーンデータセットによるＡＤ発症予測）
　次に、この研究でｉＰＳ細胞樹立のためにＰＢＭＣを提供した患者の脳におけるＡβ沈着のＰＥＴイメージングからなるｉｎｖｉｔｒｏデータセットとリアルワールドデータとの類似性を評価した。大脳皮質の神経細胞における定量化されたＡβ表現型と、ピッツバーグ化合物－Ｂ（ＰｉＢ）－ＰＥＴイメージングによって測定された脳のＡβ沈着との相関関係を分析した。しかし、発症年齢もＡβ表現型も脳のＡβ沈着と相関していなかった（図８Ａ、図８Ｂ、図８Ｃ、及び図８Ｄ）。
　これらの結果から、遺伝情報のない単純な定量化された疾患表現型は、リアルワールドデータを反映できないことを確認した。
　従って、これらの遺伝子型セットを使用して、独立したＡＤコホートからリアルワールドビッグデータを予測できるかどうかを調べた。

　アルツハイマー病ニューロイメージングイニシアチブ（ＡＤＮＩ）のデータベースを利用した。これには、ゲノム全体の遺伝子型、脳Ａβ沈着（ＡＶ４５－ＰＥＴ）、脳脊髄液（ＣＳＦ）中のＡβ４２量、ＣＳＦ中の総タウ（ｔ－タウ）量、ＣＳＦ中のリン酸化タウ（ｐ－タウ）量が含まれる。まず、年齢、性別、及びＡＰＯＥ－ε４対立遺伝子の遺伝子型からなる共変量のみ、又は共変量と遺伝子型セットを使用して、脳のＡβ沈着の陽性の予測を試みた。年齢、性別、及びＡＰＯＥ－ε４対立遺伝子の遺伝子型からなる共変量のみ、又は共変量と特定された遺伝子型セットを使用して、脳のＡβ沈着の陽性を予測する機械学習モデルを確立した。訓練されたモデルを使用して、脳のＡβ沈着の予測を試みて、２つの異なるモデル間の曲線下面積（ＡＵＣ）を比較した。共変量と遺伝子型セットによるＡＵＣ（ＡＵＣ＝０．７６）は、共変量のみによるＡＵＣ（ＡＵＣ＝０．６６）よりも統計的に高かった（図９Ａ）。同様に、共変量と遺伝子型のセットは、共変量のみと比較して、ＣＳＦ中のＡβ４２量の減少を有意に高い精度で予測できた（図９Ｂ）。ただし、ＣＳＦ中のｔ－タウ量又はＣＳＦ中のｐ－タウ量を予測する場合、共変量と共変量及び遺伝子型セットのＡＵＣの間に有意差はなかった（図９Ｃ及び図９Ｄ）。
　以上の結果から、ＣＤｉＰによって特定された遺伝子型セットを使用して、ＡＤの実際の臨床データを予測することができた。また、孤発性ＡＤ患者のＳＮＰ情報を用いて、脳内Ａβの蓄積が生じるかどうかの予測を、ＡＵＣ＝０．７６±０．０５０の精度で実施可能であった（図９Ａ）。孤発性ＡＤ患者のＳＮＰ情報を用いて、脳脊髄液内Ａβの異常検査値が生じるかどうかの予測を、ＡＵＣ＝０．７３±０．０５９の精度で実施可能であった(図９Ｂ)。これら、脳内Ａβの蓄積及び脳脊髄液内Ａβの異常検査値は、臨床的なＡＤの診断とほぼ一致するため、本実施形態の情報処理方法を用いた予測も概ねＡＵＣが０．７３以上０．７６以下の精度と外挿してみなすことができる。

［実施例３］
（ｃｅｌｌ　ＧＷＡＳによるレアバリアントの発見）
　システムの実際の臨床データへの更なる適用性を確認するために、同定された遺伝子セットがＳＡＤを形成したかどうかを調べた。今回の試験でレアバリアントとして同定された遺伝子の関連性を調べた。これらは、低頻度であるが、ＡＤの発症におけるマイナーな要因であることが知られている。

　日本のアルツハイマー病ニューロイメージングイニシアチブ（Ｊ－ＡＤＮＩ）からのゲノムワイドなエクソームデータを使用して、同定された遺伝子座のレアバリアントを調べた。健康なドナー（Ｎ＝１５２）とＳＡＤの患者（Ｎ＝２５５）からのエクソームデータを調査することによって、Ａβ４２／４０比に関連する、２４の遺伝子座のレアバリアントを調査した。ＫＣＮＭＡ１のレアバリアントは、ＡＤとの関係を示した（ｐ＝０．０３２、オッズ比＝１．４５）（表８）。表８中において、「ｐ」は総和検定からのｐ値を、「ｓｅ」は遺伝子型の影響に関連するおおよその標準誤差を、「ｃｍａｆＴｏｔａｌ」は遺伝子の累積マイナーアレル頻度を、「ｃｍａｆＵｓｅｄ」は分析に使用されたＳＮＰの累積マイナーアレル頻度を、「ｎｓｎｐｓＴｏｔａｌ」は遺伝子内のＳＮＰｓ数を、「ｎｓｎｐｓＵｓｅｄ」は分析で使用されたＳＮＰｓ数を、「ｎｍｉｓｓ」は欠落しているＳＮＰｓ数を意味する。単一のＳＮＰを持つ遺伝子の場合、「ｎｍｉｓｓ」は、そのＳＮＰの結果が報告されなかった試験のため、分析に寄与しない個人の数である。複数のＳＮＰを持つ遺伝子の場合、遺伝子全体で合計される。以降の表においても同様の意味で使用される。

　異なるコホート及び異なる民族におけるレアバリアントの再現性を確認するために、メタ分析を実施して２４の遺伝子座のレアバリアントを調査し、Ｊ－ＡＤＮＩとＵＳ－ＡＤＮＩのメタ分析によってＫＣＮＭＡ１遺伝子座のレアバリアントを再度特定した（ｐ＝０．０１０、オッズ比＝１．４９）（表９）。

　これらの結果から、同定された遺伝子セットが、ＳＡＤの発症の素因を解明するために適用可能であることが示された。また、ｃｅｌｌ　ＧＷＡＳで得られたＡＤの遺伝的背景の理解により、臨床上は均質なＡＤ患者群の中から遺伝情報に基づいて特定の集団を抽出でき、ＡＤのより詳細な区分（すなわち、層別化）にもつながることが示された。

［考察］
　今回の試験では、リスクＳＮＰ、ＳＮＰが位置する遺伝子、及び大脳皮質の神経細胞でのＡβ産生に影響を与える分子経路が特定された。実際に、ＣＤｉＰによって同定された２４の遺伝子のうち５つ、すなわちＴＭＴＣ１、ＣＴＮＮＡ３、ＫＣＮＭＡ１、ＣＰＸＭ２、及びＡＮＯ３は、疾患の発症又は脳のＡβ沈着を伴う臨床データに基づく臨床ゲノムワイド研究の報告された結果と一致していた。（上記表５－１～表５－２参照）。この利点は、Ａβ産生のリソースとして機能する主要な細胞型である大脳皮質の神経細胞の均一な集団を使用したという事実に起因する可能性がある。

　今回の試験で新たに同定された遺伝子（表４）は、ＡＤの病因において極めて重要な役割を果たすだけでなく、潜在的なバイオマーカー及び治療標的の候補を表す可能性がある。今回提示したシステムを拡張するために、ＡＤ病理学における他の種類の神経表現型をＣＤｉＰに適用して、シナプス喪失、神経細胞死、薬物反応、環境ストレスに対する脆弱性等、各形質に固有の遺伝的背景を特定できる。さらに、グリア細胞や細胞型特異的病理等の可変細胞型の新しい組み合わせにより、臨床ＧＷＡＳで隠されていた分子病理の新しい遺伝的構造が明らかになる。

　最近の研究では、ＡＤは多様な細胞型の病状の総和であるという概念が強調されている。今回の試験と同様のアイデアに基づいて、剖検ＡＤ脳からの単一核トランスクリプトームは、さまざまな細胞型の遺伝子発現に関する情報を提供した。しかし、剖検された脳サンプルに基づくそのようなアプローチは、何十年も変化し続けていたＡＤ病理学の末期のスナップショットを撮ることができる。対照的に、ＣＤｉＰは、細胞型特異性を備えた分離ＡＤ病理を調査でき、ゲノムワイド研究のノイズとなる可能性のある交絡因子なしでベースライン状態をモデル化することもできる。ＣＤｉＰの制限は、ＣＤｉＰが単一細胞型からなる２Ｄ単層培養に基づいていることである。さまざまな細胞型間の細胞相互作用を理解するために、ＣＤｉＰとＡＤ患者の剖検脳からの単一核トランスクリプトームの組み合わせは、今回の試験で提示されたＡＤの多遺伝子性を調査するための最も重要なツールの２つである可能性がある（図８Ｂ及び図８Ｃ）。

　さらに、ニューロンを用いたＣＤｉＰは、Ａβ表現型に関連するレアバリアントと潜在的な治療標的を特定した。一方、タウ表現型に関連するＳＮＰは、より中程度の統計的に有意な相関を示した。Ａβとタウのこの違いから、Ａβの病理が主にニューロンの多遺伝子性に基づいているのに対し、タウの病理はニューロン以外の複数のタイプの細胞のみで構成されている可能性があることが示された。

　実際に、以前の報告では、炎症状態とミクログリア及びアストロサイトとの脳ネットワークがタウの病理を加速することが示されていた。さらに、ＡＰＯＥがＡβ病理とは独立してタウ病理を調節することを示唆する臨床的証拠がある。ニューロンを用いたＣＤｉＰは、Ａβとタウの病理との間の不連続性の１つの側面を示唆している可能性がある。
　将来的には、これらの細胞型特異的分析アプローチによって得られた遺伝的背景の統合された包括的な理解が、ＡＤの複雑な病因のより良い理解につながることが期待される。

　今回の試験では、ＣＤｉＰによって、ＡＤのリアルワールドデータを予測し、レアバリアントが関連したＡＤを層別化し、ＣＴＮＮＡ３、ＡＮＯ３、及びＫＣＮＭＡ１を潜在的な治療標的として特定した。ＣＤｉＰは、病理学的表現型を隠れた遺伝子型と関連付けるためのスクリーニングツールとして役立つ。一方、さまざまな細胞型で構成され、数十年にわたって完成する実際のＡＤ病理に適応するために、マウスモデルや患者標本等の様々なモダリティを使用して証拠を蓄積することも重要である。ＣＤｉＰは、疾患標的細胞における多遺伝子性及び形質の合計からなる、複雑な病理を理解するための手がかりを提供し、精密医療への道を切り開く。

　本実施形態の情報処理方法、情報処理装置、及びプログラムによれば、被験者におけるＡＤの発症リスクを予測することができる。

　１００…情報処理装置、１１０…検出部、１２０…処理部、１２１…取得部、１２２…特徴量変換部、１２３…判定部、１２４…出力制御部、１２５…学習部、１３０…記憶部、１３１…モデル情報。

Claims

　被験者由来のゲノムＤＮＡ試料において、アルツハイマー病関連遺伝子の変異である第１のＳＮＰを検出する工程１と、
　アルツハイマー病を発症した患者由来のゲノムＤＮＡ試料において検出された前記アルツハイマー病関連遺伝子の変異である第２のＳＮＰに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第１のＳＮＰから、前記被験者がアルツハイマー病を発症するか否かを判定する工程２と、
を含む、情報処理方法。
　前記機械学習モデルは、複数の分類器を含むランダムフォレストであり、
　各分類器は、前記複数のトレーニングデータセットのうち、前記アルツハイマー病を発症した患者の属性情報及び遺伝子情報の中の主成分情報を基に選択された特定のトレーニングデータセットを用いて学習される、請求項１に記載の情報処理方法。
　前記複数のトレーニングデータセットには、遺伝子型インピュテーションを用いて前記第２のＳＮＰから推定された前記第２のＳＮＰの帰属遺伝子型に対して、アルツハイマー病の発症に関する情報がラベル付けられたデータセットが含まれる、請求項１又は２に記載の情報処理方法。
　前記変異が表１－１～表１－７７に記載された１種以上の変異である、請求項１又は２に記載の情報処理方法。
　前記変異が表２－１～表２－９に記載された１種以上の変異を更に含む、請求項４に記載の情報処理方法。
　被験者由来のゲノムＤＮＡ試料において、アルツハイマー病関連遺伝子の変異である第１のＳＮＰを検出する検出部と、
　アルツハイマー病を発症した患者由来のゲノムＤＮＡ試料において検出された前記アルツハイマー病関連遺伝子の変異である第２のＳＮＰに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第１のＳＮＰから、前記被験者がアルツハイマー病を発症するか否かを判定する判定部と、
を備える、情報処理装置。
　コンピュータに、
　被験者由来のゲノムＤＮＡ試料において、アルツハイマー病関連遺伝子の変異である第１のＳＮＰを検出する工程１と、
　アルツハイマー病を発症した患者由来のゲノムＤＮＡ試料において検出された前記アルツハイマー病関連遺伝子の変異である第２のＳＮＰに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第１のＳＮＰから、前記被験者がアルツハイマー病を発症するか否かを判定する工程２と、
を実行させるためのプログラム。
　請求項１に記載の情報処理方法を用いる、アルツハイマー病の発症リスクの予測方法。