JPWO2016104688A1 - 特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム - Google Patents
特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム Download PDFInfo
- Publication number
- JPWO2016104688A1 JPWO2016104688A1 JP2016566499A JP2016566499A JPWO2016104688A1 JP WO2016104688 A1 JPWO2016104688 A1 JP WO2016104688A1 JP 2016566499 A JP2016566499 A JP 2016566499A JP 2016566499 A JP2016566499 A JP 2016566499A JP WO2016104688 A1 JPWO2016104688 A1 JP WO2016104688A1
- Authority
- JP
- Japan
- Prior art keywords
- locus
- individual
- allele
- group
- lead
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12P—FERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
- C12P19/00—Preparation of compounds containing saccharide radicals
- C12P19/26—Preparation of nitrogen-containing carbohydrates
- C12P19/28—N-glycosides
- C12P19/30—Nucleotides
- C12P19/34—Polynucleotides, e.g. nucleic acids, oligoribonucleotides
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6881—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- Organic Chemistry (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Immunology (AREA)
- Plant Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、選択された遺伝子座群又は個別の遺伝子座(以下、特定遺伝子座群又は個別の遺伝子座ともいう)のアリル由来のDNAのリード情報が混在したデータのリードの塩基配列に対してマッピングを行うことにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報(以下、特定遺伝子座群又は個別遺伝子座の対応リード情報ともいう)に対して、下記のステップ(1)〜(6)の全部又は一部が実行されることを特徴とする、遺伝子のリード情報の最適化方法(以下、本発明の最適化方法ともいう)を提供する。本発明の最適化方法は、コンピュータにおいて実行される方法である。
「期待マッピング数」は、リード毎に各アリルに対して定義され、後述する「合計期待マッピング数」は、アリル毎に定義され、さらに、「合計期待マッピング数の和」は、当該遺伝子座群又は個別の遺伝子座について定義されるマッピング数である。本発明においては、「マッピング」と「アライメント」は同意義である。
観測データ(以下、Rnとも表現される)は、上記の通りに「特定遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータにおける、DNAリード(以下、リードnとも表現される)の塩基配列」である。DNA混在データは、検体のDNAシークエンスによるDNAのリードを、これとは別に、ヒトMHCであるHLAアリル等の特定遺伝子座群又は個別の遺伝子座のアリルの参照配列をリファレンス配列としてマッピングを行って得られたリード個別の情報の総和として提供されるデータである。当該リファレンス配列は、例えば特定遺伝子座群がHLA遺伝子座群である場合は、IMGT/HLAデータベース等から得られるが、当該遺伝子座群について、過去に別の検体でシークエンシング等により決定されたゲノム配列を使用することも可能である。なお、新規の特定遺伝子座の遺伝型、例えば、新規のHLA型が明らかになった場合には、当該新規遺伝型がデータベース等に逐次繰り入れられていることが好適である。本発明によって明らかになった新規の遺伝型も同様の繰り入れを行うことが好適である。本発明による新規の遺伝型の決定については後述する。
目的パラメータは、上記の観測データRnを基に推定がなされるパラメータである。本発明は、1つの目的パラメータ(以下、θとも表現される)を伴っている。
潜在変数は、上記観測データRnが、どの特定遺伝子座群又は個別の遺伝子座のアリルから生成されたか、特定遺伝子座群又は個別の遺伝子座のアリルのどの場所から生成されたかを記述するため繰り入れられる非観測変数である。本発明においては、上記の2種の潜在変数(Tn,Sn)の当該2種、又は、Tnを単独で繰り入れてパラメータθを算出推定することで、的確にこれらの目的変数の推定を行い、さらにヒトMHCであるHLA等の特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の推定を行うことができる。これらの潜在変数を、上記観測データRnからの目的パラメータθの推測工程に、観測データRnが依存するように繰り入れて、パラメータθを算出推定することで、各遺伝子座の遺伝型の推定を的確に行うことができる。
上記指標を用いた本発明の推定方法は、例えば、「選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータにおけるリード全体の塩基配列を観測データRとして、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を求めるステップ、並びに、目的パラメータである当該遺伝子座群又は個別の遺伝子座のアリル頻度θ(θはT次元ベクトル、Tは当該遺伝子座群又は個別の遺伝子座のアリルの種類数)の推定値を求めるステップ、を含む被験者由来のDNAのリード情報の当該遺伝子座群又は個別の遺伝子座のアリルへのマッピングを、コンピュータにより最適化する最適化方法において、
上記目的パラメータθ、及び、観測データRを媒介する潜在変数である、(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関するθに依存する変数Tn、及び、(b)リードnの開始位置に関するTnに依存するSnについて、
リードnの塩基配列を観測データRnとして、観測データRnからの目的パラメータθの推測工程において観測データRnが依存するように、少なくとも(i)変数Tn及びSn、あるいは、(ii) 変数Tn、を繰り入れて当該推定値を算出することを特徴とする、最適化方法。 」
として表現され得る。
上記の指標を用いた本発明の最適化方法のパラメータと変数同士の依存関係を反映させた完全尤度(事後同時分布)は、条件付き確率の積として分解される。具体的には、下記式(1)により表される。各記号は、特に断らない限り、前記した通りである。
p(Tn=t|θ)は、θが所与のもと、リードnが特定遺伝子座群又は個別の遺伝子座のアリルtから発生する確率である。この確率は、p(Tn=t|θ)=θtとして計算され得る((1)(a))。
によってリード配列の確率を計算することができる。ベースクオリティスコア置換確率関数,「subst ( , , )」 は、Phredベースクオリティスコアにしたがって決定することも可能であり、DNA−Seqデータからリードの参照DNA配列に対する最も良いアラインメントから見積もることもできる。なお、Phredベースクオリティスコアは、高性能シークエンサからFASTQフォーマットとして出力される塩基配列情報と共に提供される塩基読み取り精度の目安となるスコア、すなわち、シークエンサが出力するエラー率を示すスコアである(Phred quality score)。具体的には、当該スコアQは、
Q=−10log10Y(Yは、エラー率)、で表される。
ペアエンドデータの場合、上記の指標を用いた本発明の最適化方法のパラメータと変数同士の依存関係を反映させた完全尤度(事後同時分布)は、条件付き確率の積として分解される。具体的には、下記式(3)により表される。各記号は、特に断らない限り、前記した通りである。
特に、推定手段として変分ベイズ法等のベイズ推定法を行う際、ハイパーパラメータα0(0<α0)が繰り入れられ計算されることが好適であり、特に0<α0≦0.1、もしくは対数尤度の下限を最大化する値であることが好適である。適切な値のハイパーパラメータα0の繰り入れを行うことにより、はずれ値に強いロバスト性に優れたベイズ推定を行うことが可能となる。
を仮定する。パラメータθの複雑さ(θt>0となる個数)をコントロールするハイパーパラメータα0を、測定データの対数周辺尤度を最大化するように選択する。
本発明の最適化方法で得られた特定遺伝子座群又は個別遺伝子座の対応リード情報を、そのまま特定遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の判定指標として用いることが可能である。特に、高機能シークエンサの使用の段階で、特定遺伝子座群のある遺伝子座又は個別の遺伝子座に対応した遺伝子増幅用プライマーを用いたPCR法等の遺伝子増幅操作により、当該遺伝子座のアリルに対応したリードに絞り込んでいる場合は、その傾向が認められる。その場合には、当該遺伝子座の対応リード情報におけるリードの割合から当該遺伝子座のアリル毎のリードの個別深度が算出され、当該個別深度の大きな当該遺伝子座のアリルから順に2個以内を、被験者の当該遺伝子座の遺伝型として決定を行うことができる(本発明の判定方法)。しかしながら、このような場合であっても、結果に対する再検討を行い、偽陽性の可能性を出来る限り除くことが好適である。
「特定遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの総塩基数 / 当該遺伝子座群又は個別の遺伝子座のアリルのリファレンス配列の塩基数 」で算出される。
(i) 特定遺伝子座群の各遺伝子座又は個別の遺伝子座について遺伝型決定の対象が1個のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上の場合には、当該1個のアリルはホモ接合と決定がなされ、若しくは、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定がなされ、
(ii) 特定遺伝子座群の各遺伝子座又は個別の遺伝子座について遺伝型決定の対象が2個のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であるとの決定がなされ、若しくは、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であるとの決定がなされる。
本発明のコンピュータシステムは、上述した本発明の方法を行う手段となるシステムであり、特に断らない限りは同一の用語は概念として重複する。「アルゴリズム」とは、コンピュータ分野の一般的な概念と同じく、問題を解くための手順を定式化した形で表現したものを意味する。
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルのデータとして記録されており、
(B) 当該演算処理部では、前記記録部の情報に基づいて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化処理が実行され、
(C) 上記処理(B)において数値化された期待マッピング数が当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数が算出され、
(D) 上記処理(C)において算出された合計期待マッピング数が、それぞれ全ての当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が算出される処理が実行され、
(E) 上記処理(C)において算出されたリードの割合が、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当てられ、当該割り当て頻度を前提にして、再び上記処理(B)により改めて算出された個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数が算出される処理が実行され、
(F) 上記処理(E)により算出された新たな期待マッピング数に対して、再び上記処理(C)又は(D)が実行されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が新たに算出される処理が実行され、
(G) 上記処理(E)と(F)が、処理(E)において算出されるリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回の処理(E)において算出される当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、処理(F)において算出されるリードの割合の値と、前回の処理(F)で算出される当該割合の値との差が当該遺伝子座群又は個別の遺伝子座の全てのアリルについて認められなくなるまで、繰り返し実行され、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値(アリル頻度)が、最適化されたデータとして認定が行われる;
が実行されることを特徴とするコンピュータシステムである。
(α) 当該記録部には、本発明の最適化方法により得られた、被験者の当該遺伝子座群又は個別の遺伝子座のアリル頻度、及び、全リード深度、が少なくとも記録されており;
(β) 当該演算処理部では、前記記録部の当該遺伝子座群又は個別の遺伝子座のアリル頻度を基とする、当該遺伝子座群又は個別の遺伝子座のアリル毎の個別深度への算出処理、及び、個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する算出された当該個別深度の割り振り処理が実行され、
(γ) 棄却閾値として設定されている、全リード深度の平均の5〜50%、好ましくは10〜30%のいずれかの頻度数に対して、当該数値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルは当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の要素から除外される処理が実行され、
(δ):
(δ)−1 (γ)の除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上である場合には、当該アリルはホモ接合と決定がなされる処理が実行され、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定がなされる処理が実行され、
(δ)−2 (γ)の除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であるとの決定がなされる処理が実行され、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であるとの決定がなされる処理が実行される、
ことを特徴とするコンピュータシステムを提供する。
本発明のプログラムは、本発明のコンピュータシステムに本発明の方法を実行させるためのアルゴリズムを備えたコンピュータプログラムであり、特に断らない限りは同一の用語は概念として重複する。
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルのデータとして記録されている記録部から、当該リード情報を読み出す、第1の機能、
(B) 上記第1の機能により読み出したリード情報に基づいて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化処理を実行する、第2の機能、
(C) 上記第2の機能により数値化した期待マッピング数が、当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数を算出する、第3の機能、
(D) 上記第3の機能により算出した合計期待マッピング数を、それぞれ全ての当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除して、当該遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合を算出する、第4の機能、
(E) 上記第4の機能により算出したリードの割合を、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当て、当該割り当て頻度を前提にして、再び第2の機能で改めて算出した、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数を算出する、第5の機能、
(F) 上記第5の機能により算出した新たな期待マッピング数に対して、再び上記第3の機能又は第4の機能を実行して、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合を新たに算出する、第6の機能、
(G) 上記第5の機能と第6の機能を、第5の機能の実行により算出するリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回の第5の機能の実行により算出する当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、上記第6の機能の実行により算出するリードの割合の値と、前回の第6の機能の実行により算出する当該割合の値との差が全ての当該遺伝子座群又は個別の遺伝子座のアリルについて認められなくなるまで、繰り返し実行し、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値を、最適化されたデータとして認定する、第7の機能;
を実現させるアルゴリズムが含まれることを特徴とする、コンピュータプログラムである。
(a) 遺伝子シークエンサにより得られた被験者のリードの配列情報に対して、ヒト遺伝子の塩基配列に対するマッピングの後、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードを抽出する機能。
(b) 機能(a)により抽出された当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングの後、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応及びマッピング状態、すなわちリード配列のリファレンス配列におけるマッピング位置、リード配列とリファレンス配列の差異、及びマッピングスコアが特定されたリード情報を得る機能。
(α) 前記のコンピュータプログラムの実行により得られた、当該遺伝子座群又は個別の遺伝子座のアリルのリードの割合、及び、全リード深度、を少なくとも読み出す、機能α。
(β) 前記機能αの実行により読み出した当該遺伝子座群又は個別の遺伝子座のアリルのリードの割合から、当該遺伝子座群又は個別の遺伝子座のアリル毎の個別深度への算出処理を実行し、個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して算出された当該個別深度を割り振る処理を実行する、機能β。
(γ) 棄却閾値として全リード深度の5〜50%、好ましくは10〜30%のいずれかの頻度数を設定し、前記機能Bの実行により特定された当該数値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルを、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の要素から除外する処理を実行する、機能γ。
(δ) 下記(δ)−1及び(δ)−2に示す機能δ。
(δ)−1 前記機能γの除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上である場合には、このアリルをホモ接合と決定し、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定する処理を実行し、
(δ)−2 前記機能γの除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であると決定し、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であると決定する処理を実行する。
ここでは、先の出願において開示されたEMアルゴリズムと変分ベイズ法の内容についてさらに詳細に説明を行う。用いられる記号は、特に断らない限り前述した通りである。
EMアルゴリズムは、潜在変数が存在する確率モデルにおいてパラメータの最尤推定値を求めるための手法である。本発明の推定方法においては、例えば、下記の内容で行うことができる。
(c) 直前のステップ(d)(ただし、初回はステップ(a)又はステップ(b)である)により算出されたθtの最尤推定値の更新値に基づいて、新たにZnts=1又はZnt=1の事後確率の更新値を算出するステップ、
(d) ステップ(c)において算出されたZnts=1又はZnt=1の事後確率の更新値に基づいて、θtの最尤推定値の更新値を新たに算出するステップ、
(e) (i)ステップ(c)において算出されたZnts=1又はZnt=1、及び、ステップ(d)において算出されたθtに基づいて対数尤度を計算して、対数尤度の収束性を評価するステップ、
(ii)ステップ(c)で算出されたZnts=1又はZnt=1の事後確率の更新値の収束性を評価するステップ、あるいは、
(iii)ステップ(d)で算出されたθtの最尤推定値の更新値の収束性を評価するステップであって、
収束が認められれば、それぞれのステップにおけるθtを最終推定値として決定し、収束が認められなければ、ステップ(c)、(d)、及び、(e)の繰り返しを決定する。
変分ベイズ法は、ベイズ推定法においてパラメータの事後確率分布を推定することによって、よりノイズに強い安定した推定を行うための方法である。
を用いる。本発明において、ヒトMHCであるHLA等の特定遺伝子座群又は個別の遺伝子座のアリル頻度の相対的差異について予備知識はないという仮定に基づいて、全ての特定遺伝子座群又は個別の遺伝子座のアリルについて単一のハイパーパラメータα0が用いられることが好適である。当該単一ハイパーパラメータα0は、目的パラメータの複雑さ、すなわち θt > 0 となる個数を制御する。α0 ≧1の時、α0−1は、特定遺伝子座のアリルに割り当てられるリードの事前カウントとして解釈され得、α0<1の時、当該事前分布は、特定遺伝子座群又は個別の遺伝子座のアリルのいくつかがゼロの傾向を与える。具体的には、0<α0≦0.1、もしくは対数周辺尤度の下限を最大化するα0を設定することが好適である。アリル頻度の事前情報が既知の場合は、αtをそれぞれのtについてアリル頻度の事前情報の高いものから順に大きい値が与えられるようにαt > 0を重み付けして設定することも可能である。ハイパーパラメータα0が所与のもと、対数周辺尤度の下限は、変分ベイズ推定アルゴリズムによって繰り返しにより最大化される。
(c) 直前のステップ(d)(ただし、初回はステップ(a)又はステップ(b)である)により算出されたθtに基づいて、新たにZnts又はZntの事後分布を算出するステップ、
(d) ステップ(c)において算出された Znts又はZntの事後分布を基にして、θtの事後分布を新たに算出して更新するステップ、
(e) ステップ(d)において得られたθtの事後分布の期待値の収束性を評価するステップであって、当該期待値における収束が認められれば、当該収束期待値をθtの推定値として決定し、収束が認められなければ、ステップ(c)、(d)、及び、(e)の繰り返しを決定する。
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されており、
(B) 当該演算処理部では読み出された前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかが実行され、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度に関する変数θの初期値の算出処理、
(B)−2:上記変数θ及び、観測データである被験者のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数Tn、
(b)リードnの開始位置に関する、Tnに依存するSn、
が要約された、指標変数Znts(Zntsは、(Tn,Sn)=(t,s)の場合1であり、それ以外は0である。)=1、又は、潜在変数Tnが要約された、Znt(Zntは、Tn=tの場合1であり、それ以外は0である。)=1、の事後確率の初期値の算出処理、
(C) 当該演算処理部において、上記処理(B)−1で算出された変数θに基づき、当該指標変数Znts又はZnt=1の事後確率の算出処理がなされ、
(D) 当該演算処理部において、上記処理(B)−2、又は、処理(C)で算出された当該指標変数Znts又はZnt=1の事後確率に基づいて変数θの最尤推定値の第1の更新値が算出され、
(E) 当該演算処理部において、上記処理(D)で算出された変数θの最尤推定値の第1の更新値に基づいて上記処理(C)と処理(D)が再度実行され、さらに、変数θの第2の更新値が算出されるループ処理が、新たな更新値と前回の更新値との間における差異が実質的に認められなくなるまで繰り返し実行されて、収束した変数θが最適化されたθとして、上記記録部に記録がなされる;
処理が実行されることを特徴とするコンピュータシステムである。
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されている記録部から当該データを読み出す、第1の機能、
(B) 上記第1の機能によって読み出した前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかを実行する、第2の機能、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度に関する変数θの初期値の算出処理、
(B)−2:上記変数θ及び、観測データである被験者のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数Tn、
(b)リードnの開始位置に関する、Tnに依存するSn、
が要約された、指標変数Znts(Zntsは、(Tn,Sn)=(t,s)の場合1であり、それ以外は0である。)=1、又は、潜在変数Tnが要約された、Znt(Zntは、Tn=tの場合1であり、それ以外は0である。)=1、の事後確率の初期値の算出処理、
(C) 上記第2の機能の(B)−1で算出した変数θに基づき、当該指標変数Znts又はZntの算出処理を行う、第3の機能、
(D) 上記第2の機能の(B)−2、又は、第3の機能により算出した当該指標変数Znts=1又はZnt=1基づいて変数θの最尤推定値の第1の更新値を算出する、第4の機能、
(E) 上記第4の機能で算出した変数θの最尤推定値の第1の更新値に基づいて上記第3の機能と第4の機能を再度実行し、さらに、変数θの第2の更新値を算出するループ処理を、新たな更新値と前回の更新値との間における差異が実質的に認められなくなるまで繰り返し実行し、収束した変数θが最適化されたθとして、上記記録部に記録を行う、第5の機能;
を実現させるアルゴリズムが含まれることを特徴とするコンピュータプログラムである。
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されており、
(B) 当該演算処理部では読み出された前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかが実行され、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度についての予備知識の分布を示すハイパーパラメータαtの初期値に基づくθtの事後分布の更新値の算出処理、
(B)−2:上記θの分布、及び、観測データである被験者由来のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数Tn、
(b)リードnの開始位置に関する、Tnに依存するSn、
が要約された、指標変数Znts(Zntsは、(Tn,Sn)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tnが要約された、Znt(Zntは、Tn=tの場合1であり、それ以外は0である。)の事後分布の初期分布の算出処理、
(C) 当該演算処理部において、上記処理(B)−1で算出された変数θの分布に基づき、当該指標変数Znts又はZntの事後分布の算出処理がなされ、
(D) 当該演算処理部において、上記処理(B)−2、又は、処理(C)で算出された当該指標変数Znts又はZntの事後分布の更新値に基づいて変数θの第1更新事後分布の更新値が算出され、
(E) 当該演算処理部において、上記処理(D)で算出された変数θの第1の更新事後分布に基づいて上記処理(C)と処理(D)が再度実行され、さらに、変数θの第2の更新事後分布が算出されるループ処理が、新たに更新された事後分布の期待値と前回に更新された事後分布の期待値との間における差異が実質的に認められなくなるまで繰り返し実行されて、収束したθの期待値が最適化されたθのデータとして、上記記録部に記録がなされる;
が実行されることを特徴とするコンピュータシステムである。
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されている記録部から当該データを読み出す、第1の機能、
(B) 上記第1の機能によって読み出した前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかを実行する、第2の機能、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度についての予備知識の分布を示すハイパーパラメータαtの初期値に基づくθtの事後分布の更新値の算出処理、
(B)−2:上記θの分布、及び、観測データである被験者由来のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座のアリル選択に関する、θに依存する変数Tn、
(b)リードnの開始位置に関する、Tnに依存するSn、
が要約された、指標変数Znts(Zntsは、(Tn,Sn)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tnが要約された、Znt(Zntは、Tn=tの場合1であり、それ以外は0である。)、の事後分布の初期分布の算出処理、
(C) 上記第2の機能の(B)−1で算出した変数θの分布に基づき、当該指標変数Znts又はZntの事後分布の算出処理を行う、第3の機能、
(D) 上記第2の機能の(B)−2、又は、第3の機能で算出した当該指標変数Znts又はZntの事後分布の更新値に基づいて変数θの第1更新事後分布の更新値を算出する、第4の機能、
(E) 上記第4の機能で算出した変数θの第1の更新事後分布に基づいて上記第3の機能と第4の機能を再度実行し、さらに、変数θの第2の更新事後分布を算出するループ処理を、新たに更新された事後分布の期待値と前回に更新された事後分布の期待値との間における差異が実質的に認められなくなるまで繰り返し実行して、収束したθの期待値を最適化されたθのデータとして、上記記録部に記録を行う第5の機能;
を実現させるアルゴリズムが含まれることを特徴とするコンピュータプログラムである。
ここでは、特定遺伝子座群をヒトMHCであるHLA遺伝子座群として用いた例を開示するが、ここに開示したアルゴリズムは、他の遺伝子座、例えば、シトクロムP450遺伝子座群、免疫グロブリンをコードする遺伝子座群、T細胞受容体をコードする遺伝子座群、嗅覚受容体をコードする遺伝子座群を対象にしてもよい。上記したように、本発明の方法は最適化方法と判定方法の総称として用いる。
図2−1は、上記のように「HLA対応リード情報」の潜在変数Zntを用いた最適化工程の一態様を示すフローシートである。このフローシートは、直接的にはHLAアリル上の期待されるリードカウントについて、ベイズ推定を行うために、変分ベイズ法による予測を行う態様であるが、下記のハイパーパラメータα0の繰り入れを行わない、最尤推定を行うためにEMアルゴリズムによる予測を行うことも可能である。
(i)上記ステップS4−14により算出した合計期待マッピング数の割合の分布を、頻度分布として個々のHLAアリルに対して割り当て、当該割り当て頻度分布を前提にして、再び上記S4−13で改めて個々のリードにおける個々のHLAアリル毎の期待マッピング数を算出する機能、
(ii)上記(i)により算出した新たなリード毎の個々のHLAアリル毎の期待マッピング数に対して、再び上記ステップS4−13又はS4−14を実行して、HLAアリルにマッピングされているリード総量に対して各HLAアリルに割り当てられたリードの割合の分布を新たに算出する機能、
(iii)上記(i)と(ii)における算出処理を、今回の(i)の実行により算出するリード毎の個々のHLAアリルに対する期待マッピング数と、前回の(i)の実行により算出する当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、今回の(ii)の実行により算出する合計期待マッピング数の割合の分布の期待値と、前回の(ii)の実行により算出する当該割合の分布の期待値との差が全てのHLAアリルについて認められなくなるまで、繰り返し実行し、収束したリード毎の個々のHLAアリルに対する期待マッピング数、又は、収束したHLAアリル毎のリードの割合の分布の期待値を、「収束値」として最適化されたデータとして認定する機能;
が、このステップS4−15の記述に含まれる。
図2−2は、上記のように「HLA対応リード情報」の潜在変数Zntsを用いた最適化工程の一態様を示すフローシートである。このフローシートは、HLAアリル上の期待されるリードカウントについて、最尤推定を行うためにEMアルゴリズムによる予測を行うためのものである。
図2−3は、上記のように「HLA対応リード情報」の潜在変数Zntsを用いた最適化工程の一態様を示すフローシートである。このフローシートは、HLAアリル上の期待されるリードカウント、及びHLAアリル頻度について、変分ベイズ法による予測を行うためのものである。
本実施例において用いたコンピュータシステムとコンピュータプログラム(以下、「本発明のシステム」と総称する)の実行に際して用いられたソースは、以下に示す通りである。
図1のボックスB1−1の「リード情報」を提供する次世代シークエンサは、HiSeq2000(Illumina社)を用いた。リード情報は、FASTAQフォーマットで提供され、引き続くリード情報も同様にFASTAQフォーマットである。
ステップS4の最適化プロセスは、図2−1の変分ベイズ法を用いたフローシートのアルゴリズムをペアエンドデータに適用することにより実行され、棄却深度は全リード深度の20%と設定がなされて、図3のフローシートのアルゴリズムにより棄却プロセスが実行された。
(1)シミュレーション試験のあらまし
本発明のシステムの予測性能を、予測精度の観点で評価した。予測精度は、真のHLA型の中の真の陽性予測の分数として定義される。このシミュレーション実験において、6つのHLA遺伝子座(HLA−A、−B、−C、−DQA1、−DQB1、−DRB1)に関する2つのHLAアリル(ヘテロ接合又はホモ接合いずれか)が各個体で評価された。予測性能は、各方法について、2ケタ、4ケタ、6ケタ及び8ケタ解像度で別々に評価された。
シミュレーションデータ分析を用いて、本発明のシステムがHLA型を予測する性能を、他のシステムと比べて評価した。比較システムとして(a)PHLAT(Bai et al., BMC genomics, 15:325 (2014))、及び、(b)HLAminer(Warren et al., Genome medicine, 4(12):102 (2013))を用いた。これらの比較システムは、HLAクラスI遺伝子座(HLA−A、−B、−C)、及び、クラスII遺伝子座(HLA−DQA1、−DQB1及び−DRB1)を、全ヒトゲノム配列データから4ケタ解像度で分類することができることが知られている。
本発明のシステムを、国際HapMapプロジェクトで使用されたCEUトリオ試料(NA12878(子供)、NA12891(父親)、及び、NA12892(母親))の、PCR法による増幅がなされていない全ゲノムシークエンスデータに適用した。100bpのペアエンドデータを、HiSeq2000を用いて導出し、その平均挿入長は300bpであり、当該範囲における深度は各試料について45×であった(データ全てはIllumina社により提供された)。表2は、上記CEUトリオにおいて予測されたHLA型を示している。
本発明のシステムを、1KJPN集団(東北メディカル・メガバンク計画のコホート調査に参加した健常な日本人1,070人)に適用し、HLA−A、HLA−B、及び、HLA−C遺伝子座のHLAアリルを推定した。本例は、IMGT/HLAデータベースに登録されたゲノムHLAアリル配列に対する配列リードのマッピングに基づいている。これにより、2140アリルの中から2063アリルについてのHLA−Aアリルを、フル解像度(HLA命名規則における8桁)で、分類が可能であることを確認した。
B1−2・・・ヒトゲノム参照配列の存在を示すボックス
S1・・・1回目のマッピングを行うステップ
B2・・・1回目のマッピングの結果の存在を示すステップ
S2−1・・・1回目のマッピングの結果からリードの抽出を行うステップ
S2−2・・・非マッピングリードの抽出を行うステップ
B3・・・S2により抽出されたリード情報の存在を示すボックス
B4・・・HLAアリルの参照配列の存在を示すボックス
S3・・・2回目のマッピングを行うステップ
B5・・・HLA対応リード情報の存在を示すボックス
B6・・・HLA型の決定がなされた電子情報の存在を示すボックス
S4−11・・・最適化を行うための読み出し機能を記述するステップ
S4−12・・・最適化処理を行うためのパラメータの初期化を行うステップ
S4−13・・・最適化を行うためのEステップの機能を記述するステップ
S4−14・・・最適化を行うためのMステップの機能を記述するステップ
S4−15・・・最適化を行うためのループ・収束機能を記述するステップ
S4−21・・・最適化を行うための読み出し機能を記述するステップ
S4−22・・・最適化処理を行うためのパラメータの初期化を行うステップ
S4−23・・・最適化を行うためのEステップの機能を記述するステップ
S4−24・・・最適化を行うためのMステップの機能を記述するステップ
S4−25・・・最適化を行うためのループ・収束機能を記述するステップ
S4−31・・・最適化を行うための読み出し機能を記述するステップ
S4−32・・・最適化処理を行うためのパラメータの初期化を行うステップ
S4−33・・・最適化を行うためのEステップの機能を記述するステップ
S4−34・・・最適化を行うためのMステップの機能を記述するステップ
S4−35・・・最適化を行うためのループ・収束機能を記述するステップ
S5−1・・・個別深度を算出する処理を行うステップ
S5−2・・・個別深度の大きな2つを選択する処理を行うステップ
S5−3・・・棄却深度と最大の個別深度の大小によって選択処理を行うステップ
D5−1・・・HLA型が決定されない結論を示すボックス
S5−4・・・棄却深度と2番目の個別深度の大小によって選択処理を行うステップ
S5−5・・・2番目の個別深度が棄却深度よりも小さい場合に行われるステップ
D5−2・・・最大の個別深度のHLAアリルのホモ接合との結論を示すボックス
D5−3・・・最大の個別深度のHLAアリルのヘテロ接合であり、もう一方のアリルは決定しないとの結論を示すボックス
S5−6・・・2番目の個別深度が棄却深度よりも小さくない場合に行われるステップ
D5−4・・・最大の個別深度のHLAアリルのホモ接合との結論を示すボックス
D5−5・・・最大と2番目の個別深度のHLAアリルのヘテロ接合との結論を示すボックス
Claims (35)
- ゲノム中に類似の塩基配列を持つ座位が複数存在する、若しくは遺伝的多型が多数知られている、選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータのリードの塩基配列に対してマッピングを行うことにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報に対して、下記のステップ(1)〜(6)の全部又は一部が実行されることを特徴とする、遺伝子のリード情報の最適化方法。
(1) 個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化が行われるステップ;
(2) ステップ(1)において数値化された期待マッピング数が当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数が算出されるステップ;
(3) ステップ(2)において算出された合計期待マッピング数が、それぞれ個々の当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が算出されるステップ;
(4) ステップ(3)において得られたリードの割合が、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当てられ、当該割り当て頻度を前提にして、再びステップ(1)により改めて得られた個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数が算出されるステップ;
(5) ステップ(4)において得られた新たな期待マッピング数に対して、再びステップ(2)又は(3)が実行され、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が新たに算出されるステップ;
(6) ステップ(4)と(5)が、ステップ(4)において算出されるリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回のステップ(4)で算出される当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、ステップ(5)において算出されるリードの割合の値と、前回のステップ(5)で算出される当該割合の値との間における差が全ての当該遺伝子座群又は個別の遺伝子座のアリルについて認められなくなるまで、繰り返し実行され、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、あるいは、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値が、最適化されたデータとして認定されるステップ。 - 選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータにおけるリード全体の塩基配列を観測データRとして、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を求めるステップ、並びに、目的パラメータである当該遺伝子座群又は個別の遺伝子座のアリル頻度θ(θはT次元ベクトル、Tは当該遺伝子座群又は個別の遺伝子座のアリルの種類数)の推定値を求めるステップ、を含む被験者由来のDNAのリード情報の当該遺伝子座群又は個別の遺伝子座のアリルへのマッピングを、コンピュータにより最適化する最適化方法において、
上記目的パラメータθ及び、観測データRを媒介する潜在変数である、(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関するθに依存する変数Tn、及び、(b)リードnの開始位置に関するTnに依存するSnについて、
リードnの塩基配列を観測データRnとして、観測データRnからの目的パラメータθの推測工程において観測データRnが依存するように、少なくとも(i)変数Tn及びSn、あるいは、(ii) 変数Tn、を繰り入れて当該推定値を算出することを特徴とする、最適化方法。 - 最尤推定法、又は、ベイズ推定法に基づくステップの実行により、個々のリードにおける個々の選択された遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、目的パラメータである当該遺伝子座群又は個別の遺伝子座のアリル頻度θの推定値を算出することを特徴とする、請求項1又は2に記載の最適化方法。
- 潜在変数Tn及びSnが要約された、指標変数Znts(Zntsは、(Tn,Sn)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tnが要約された、Znt(Zntは、Tn=tの場合1であり、それ以外は0である。)、を潜在変数として用いることを特徴とする、請求項2又は3に記載の最適化方法。
- 下記(1)〜(5)のステップを行うことを特徴とする、請求項4に記載の最適化方法。
(1)所与されたθtの初期値に基づいて、Znts=1又はZnt=1の事後確率の第1の更新値を算出し、さらに、当該Znts=1又はZnt=1の事後確率の第1の更新値に基づいてθtの最尤推定値の第1の更新値を算出するステップ、あるいは、(2)所与されたZnts=1又はZnt=1の事後確率の初期値に基づいて、θtの最尤推定値の第1の更新値を算出するステップ、
(3) 直前のステップ(4)(ただし、初回はステップ(1)又はステップ(2)である)により算出されたθtの最尤推定値の更新値に基づいて、新たにZnts=1又はZnt=1の事後確率の更新値を算出するステップ、
(4) ステップ(3)において算出されたZnts=1又はZnt=1の事後確率の更新値に基づいて、θtの最尤推定値の更新値を新たに算出するステップ、
(5) (i)ステップ(3)において算出されたZnts=1又はZnt=1、及び、ステップ(4)において算出されたθtに基づいて対数尤度を計算して、対数尤度の収束性を評価するステップ、
(ii)ステップ(3)で算出されたZnts=1又はZnt=1の事後確率の更新値の収束性を評価するステップ、あるいは、
(iii)ステップ(4)で算出されたθtの最尤推定値の更新値の収束性を評価するステップであって、
収束が認められれば、それぞれのステップにおけるθtを最終推定値として決定し、収束が認められなければ、ステップ(3)、(4)、及び、(5)の繰り返しを決定する。 - 下記(1)〜(5)のステップを行うことを特徴とする、請求項4に記載の最適化方法。
(1) 所与された選択された遺伝子座群又は個別の遺伝子座のアリルtのアリル頻度についての予備知識の分布を示すハイパーパラメータαtの初期値に基づくθtの事後分布の更新値に基づいてZnts又はZntの事後分布を算出し、さらに、当該Znts又はZntの事後分布に基づいてθtの第1の更新事後分布の更新値を算出するステップ、あるいは、(2)所与されたZnts又はZntの初期分布に基づいてθtの第1の事後分布の更新値を算出するステップ、
(3) 直前のステップ(4)(ただし、初回はステップ(1)又はステップ(2)である)により算出されたθtに基づいて、新たにZnts又はZntの事後分布を算出するステップ、
(4) ステップ(3)において算出された Znts又はZntの事後分布を基にして、θtの事後分布を新たに算出して更新するステップ、
(5) ステップ(4)において得られたθtの事後分布の期待値の収束性を評価するステップであって、当該期待値における収束が認められれば、当該収束期待値をθtの推定値として決定し、収束が認められなければ、ステップ(3)、(4)、及び、(5)の繰り返しを決定する。 - 選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータは、被験者のリード情報をデータベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングをすることにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報であって、当該マッピングは、下記のステップ(a)及び(b)により実行されることを特徴とする、請求項1〜6のいずれか1項に記載の最適化方法。
(a) 被験者のリードの塩基配列情報において、ヒト遺伝子の塩基配列に対するマッピングが行われ、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードが抽出されるステップ;
(b) ステップ(a)により抽出された当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングが行われ、マッピングされたリードが当該遺伝子座群又は個別の遺伝子座のアリル毎に抽出され、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報が得られるステップ。 - ステップ(a)及び(b)において実行されるマッピングは、一つのリードが複数の選択された遺伝子座群又は個別の遺伝子座のアリルに対してマッピングされることを許容することを特徴とする、請求項7に記載の最適化方法。
- ステップ(a)の選択された遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードに加えて、ヒト遺伝子に対してマッピングがなされなかったリードが併せて抽出され、これが(b)ステップの再マッピングの対象とされることを特徴とする、請求項7又は8に記載の最適化方法。
- 選択された遺伝子座群又は個別の遺伝子座は、MHCの遺伝子座群又は個別の遺伝子座であることを特徴とする、請求項1〜9のいずれか1項に記載の最適化方法。
- MHCはHLAであることを特徴とする、請求項10に記載の最適化方法。
- 請求項1〜11のいずれか1項に記載の最適化方法により得られた選択された遺伝子座群又は個別の遺伝子座のアリル頻度から当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの個別深度が算出され、 当該遺伝子座群の各遺伝子座又は個別の遺伝子座について当該個別深度の大きなアリルから順に2個以内について選択され、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の要素として決定がなされることを特徴とする、選択された遺伝子座群又は個別の遺伝子座の遺伝型の決定方法。
- 請求項1〜12のいずれか1項に記載の最適化方法により得られた選択された遺伝子座群又は個別の遺伝子座のアリル頻度から当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの個別深度が算出され、当該遺伝子座群の各遺伝子座又は個別の遺伝子座について当該個別深度の大きなアリルから順に2個以内について選択され、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の要素として決定がなされる遺伝型の判定方法において、全リード深度の5〜50%のいずれかの頻度数が棄却閾値として設定され、当該閾値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルは遺伝型決定の要素から除外されることを特徴とする、選択された遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型の決定方法。
- 選択された遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の要素からの除外が行われた後、下記(i)又は(ii)の決定がなされることを特徴とする、請求項13に記載の遺伝型の決定方法。
(i) 当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個の当該遺伝子座のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上の場合には、当該アリルはホモ接合と決定がなされ、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定がなされる。
(ii) 当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個の当該遺伝子座のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であるとの決定がなされ、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であるとの決定がなされる。 - 選択された遺伝子座群又は個別の遺伝子座は、MHCの遺伝子座群又は個別の遺伝子座であることを特徴とする、請求項12〜14のいずれか1項に記載の遺伝型の決定方法。
- MHCはHLAであることを特徴とする、請求項15に記載の遺伝型の決定方法。
- 最適化対象とされた遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータのリードの塩基配列に対してマッピングを行うことにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報、を最適化するコンピュータシステムであって、記録部と演算処理部を備え、下記の処理(A)〜(G)の全て又は一部;
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルのデータとして記録されており、
(B) 当該演算処理部では、前記記録部の情報に基づいて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化処理が実行され、
(C) 上記処理(B)において数値化された期待マッピング数が当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数が算出され、
(D) 上記処理(C)において算出された合計期待マッピング数が、それぞれ個々の当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が算出される処理が実行され、
(E) 上記処理(C)において算出されたリードの割合が、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当てられ、当該割り当て頻度を前提にして、再び上記処理(B)により改めて算出された個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数が算出される処理が実行され、
(F) 上記処理(E)により算出された新たな期待マッピング数に対して、再び上記処理(C)又は(D)が実行されて、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合が新たに算出される処理が実行され、
(G) 上記処理(E)と(F)の処理が、処理(E)において算出されるリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回の処理(E)において算出される当該期待マッピング数との間における差が全てのリードについて認められなくなるか、又は、処理(F)において算出されるリードの割合の値と、前回の処理(F)で算出される当該割合の値との差が全ての当該遺伝子座群又は個別の遺伝子座のアリルについて認められなくなるまで、繰り返し実行され、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値が、最適化されたデータとして認定が行われる;
が実行されることを特徴とするコンピュータシステム。 - 選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータについて、個々のリードにおける個々のアリルに対する期待マッピング数を最適化するコンピュータシステムであって、記録部と演算処理部を具え、下記の処理(A)〜(E)の全部又は一部;
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されており、
(B) 当該演算処理部では読み出された前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかが実行され、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度に関する変数θの初期値の算出処理、
(B)−2:上記変数θ及び、観測データである被験者のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数Tn、
(b)リードnの開始位置に関する、Tnに依存するSn、
が要約された、指標変数Znts(Zntsは、(Tn,Sn)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tnが要約された、Znt(Zntは、Tn=tの場合1であり、それ以外は0である。)=1の事後確率の初期値の算出処理、
(C) 当該演算処理部において、上記処理(B)−1で算出された変数θに基づき、当該指標変数Znts又はZnt=1の事後確率の算出処理がなされ、
(D) 当該演算処理部において、上記処理(B)−2、又は、処理(C)で算出された当該指標変数Znts又はZnt=1の事後確率に基づいて変数θの最尤推定値の第1の更新値が算出され、
(E) 当該演算処理部において、上記処理(D)で算出された変数θの最尤推定値の第1の更新値に基づいて上記処理(C)と処理(D)が再度実行され、さらに、変数θの第2の更新値が算出されるループ処理が、新たな更新値と前回の更新値との間における差異が実質的に認められなくなるまで繰り返し実行されて、収束した変数θが最適化されたθとして、上記記録部に記録がなされる;
処理が実行されることを特徴とするコンピュータシステム。 - 選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータについて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を最適化するコンピュータシステムであって、記録部と演算処理部を具え、下記処理(A)〜(E)の全部又は一部;
(A) 当該記録部には、被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されており、
(B) 当該演算処理部では読み出された前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかが実行され、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度についての予備知識の分布を示すハイパーパラメータαtの初期値に基づくθtの事後分布の更新値の算出処理、
(B)−2:上記θの分布、及び、観測データである被験者由来のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数Tn、
(b)リードnの開始位置に関する、Tnに依存するSn、
が要約された、指標変数Znts(Zntsは、(Tn,Sn)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tnが要約された、Znt(Zntは、Tn=tの場合1であり、それ以外は0である。)の分布の初期分布の算出処理、
(C) 当該演算処理部において、上記処理(B)−1で算出された変数θの分布に基づき、当該指標変数Znts又はZntの事後分布の算出処理がなされ、
(D) 当該演算処理部において、上記処理(B)−2、又は、処理(C)で算出された当該指標変数Znts又はZntの事後分布の更新値に基づいて変数θの第1更新事後分布の更新値が算出され、
(E) 当該演算処理部において、上記処理(D)で算出された変数θの第1の更新事後分布に基づいて上記処理(C)と処理(D)が再度実行され、さらに、変数θの第2の更新事後分布が算出されるループ処理が、新たに更新された事後分布の期待値と前回に更新された事後分布の期待値との間における差異が実質的に認められなくなるまで繰り返し実行されて、収束したθの期待値が最適化された当該遺伝子座群又は個別の遺伝子座のアリル頻度のデータとして、上記記録部に記録がなされる;
が実行されることを特徴とするコンピュータシステム。 - 選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータは、被験者のリード情報をデータベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングをすることにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報であって、当該マッピングは、下記の処理(a)及び(b)により実行されることを特徴とする、請求項17〜19のいずれか1項に記載のコンピュータシステム。
(a) 被験者のリードの塩基配列情報において、ヒト遺伝子の塩基配列に対するマッピングが行われ、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードが抽出される処理;
(b) 処理(a)により抽出された当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングが行われ、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応及びマッピング状態が特定されたリード情報が得られる処理。 - 処理(a)及び(b)において実行されるマッピングは、一つのリードが複数の選択された遺伝子座群又は個別の遺伝子座のアリルに対してマッピングされることを許容することを特徴とする、請求項20に記載のコンピュータシステム。
- 処理(a)の選択された遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードに加えて、ヒト遺伝子に対してマッピングがなされなかったリードが併せて抽出処理され、これが(b)処理の再マッピングの対象とされることを特徴とする、請求項20又は21に記載のコンピュータシステム。
- 選択された被験者の遺伝子座群又は個別の遺伝子座の遺伝型遺伝型の判定を行うコンピュータシステムであって、記録部と演算処理部を備え、下記(α)〜(δ)の処理の全部又は一部;
(α) 当該記録部には、請求項1〜11のいずれかに記載の最適化方法により得られた、被験者の当該遺伝子座群又は個別の遺伝子座のアリル頻度、及び、全リード深度、が少なくとも記録されており;
(β) 当該演算処理部では、前記記録部の当該遺伝子座群又は個別の遺伝子座のアリル頻度を基とする、当該遺伝子座群又は個別の遺伝子座のアリル毎の個別深度への算出処理、及び、個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する算出された当該個別深度の割り振り処理が実行され;
(γ) 棄却閾値として設定されている、全リード深度の平均の5〜50%のいずれかの頻度数に対して、当該数値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルは当該遺伝子座群又は個別の遺伝子座の遺伝型決定の要素から除外される処理が実行され;
(δ):
(δ)−1 (γ)の除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個の当該遺伝子座のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上である場合には、当該アリルはホモ接合と決定がなされる処理が実行され、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定がなされる処理が実行され;
(δ)−2 (γ)の除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個の当該遺伝子座のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であるとの決定がなされる処理が実行され、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であるとの決定がなされる処理が実行される;
が実行されることを特徴とするコンピュータシステム。 - 選択された遺伝子座群又は個別の遺伝子座は、MHCの遺伝子座群又は個別の遺伝子座であることを特徴とする、請求項17〜23のいずれか1項に記載のコンピュータシステム。
- MHCはHLAであることを特徴とする、請求項24に記載のコンピュータシステム。
- 選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータのリードの塩基配列に対してマッピングを行うことにより得られる、群のアリルに対する各リードのマッピング対応が特定されたリード情報、を最適化するコンピュータプログラムであって、コンピュータに下記の第1の機能〜第7の機能の全て又は一部;
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルのデータとして記録されている記録部から、当該リード情報を読み出す、第1の機能、
(B) 上記第1の機能により読み出したリード情報に基づいて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数の数値化処理を実行する、第2の機能、
(C) 上記第2の機能により数値化した期待マッピング数が、当該遺伝子座群又は個別の遺伝子座のアリル毎に合算されて合計期待マッピング数を算出する、第3の機能、
(D) 上記第3の機能により算出した合計期待マッピング数を、それぞれ全ての当該遺伝子座群又は個別の遺伝子座のアリルにおける合計期待マッピング数の和で除して、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合を算出する、第4の機能、
(E) 上記第4の機能により算出したリードの割合を、頻度として個々の当該遺伝子座群又は個別の遺伝子座のアリルに対して割り当て、当該割り当て頻度を前提にして、再び第2の機能で改めて算出した、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリル毎の期待マッピング数を算出する、第5の機能、
(F) 上記第5の機能により算出した新たな期待マッピング数に対して、再び上記第3の機能又は第4の機能を実行して、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされているリード総量に対して当該遺伝子座群又は個別の遺伝子座の各アリルに割り当てられたリードの割合を新たに算出する、第6の機能、
(G) 上記第5の機能と第6の機能を、第5の機能の実行により算出するリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数と、前回の第5の機能の実行により算出する当該期待マッピング数との間における差が全てのリードについて認められなくなるか、あるいは、上記第6の機能の実行により算出するリードの割合の値と、前回の第6の機能の実行により算出する当該割合の値との差が当該遺伝子座群又は個別の遺伝子座の全てのアリルについて認められなくなるまで、繰り返し実行し、収束したリード毎の個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数、又は、収束した当該遺伝子座群又は個別の遺伝子座のアリル毎のリードの割合の値を、最適化されたデータとして認定する、第7の機能;
を実現させるアルゴリズムが含まれることを特徴とする、コンピュータプログラム。 - 選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータについて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を最適化するコンピュータプログラムであって、コンピュータに下記の第1の機能〜第5の機能の全て又は一部;
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されている記録部から当該データを読み出す、第1の機能、
(B) 上記第1の機能によって読み出した前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかを実行する、第2の機能、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度に関する変数θの初期値の算出処理、
(B)−2:上記変数θ及び、観測データである被験者のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数Tn、
(b)リードnの開始位置に関する、Tnに依存するSn、
が要約された、指標変数Znts(Zntsは、(Tn,Sn)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tnが要約された、Znt(Zntは、Tn=tの場合1であり、それ以外は0である。)=1の事後確率の初期値の算出処理、
(C) 上記第2の機能の(B)−1で算出した変数θに基づき、当該指標変数Znts又はZnt=1の事後確率の算出処理を行う、第3の機能、
(D) 上記第2の機能の(B)−2、又は、第3の機能により算出した当該指標変数Znts又はZnt=1の事後確率に基づいて変数θの最尤推定値の第1の更新値を算出する、第4の機能、
(E) 上記第4の機能で算出した変数θの最尤推定値の第1の更新値に基づいて上記第3の機能と第4の機能を再度実行し、さらに、変数θの第2の更新値を算出するループ処理を、新たな更新値と前回の更新値との間における差異が実質的に認められなくなるまで繰り返し実行し、収束した変数θが最適化されたθとして、上記記録部に記録を行う、第5の機能;
を実現させるアルゴリズムが含まれることを特徴とするコンピュータプログラム。 - 選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータについて、個々のリードにおける個々の当該遺伝子座群又は個別の遺伝子座のアリルに対する期待マッピング数を最適化するコンピュータプログラムであって、コンピュータに下記の第1の機能〜第5の機能の全て又は一部;
(A) 被験者由来のDNAのリード情報が、リードの配列及びリードのマッピング先である当該遺伝子座群又は個別の遺伝子座のアリルの観測データとして記録されている記録部から当該データを読み出す、第1の機能、
(B) 上記第1の機能によって読み出した前記観測データに基づき、下記の初期化処理(B)−1及び(B)−2のいずれかを実行する、第2の機能、
(B)−1:当該遺伝子座群又は個別の遺伝子座のアリル頻度についての予備知識の分布を示すハイパーパラメータαtの初期値に基づくθtの事後分布の更新値の算出処理、
(B)−2:上記θの分布、及び、観測データである被験者由来のDNAのリード情報が混在したデータにおけるリードの塩基配列を媒介する2種の潜在変数としての下記(a)及び(b):
(a)リードnの当該遺伝子座群又は個別の遺伝子座のアリル選択に関する、θに依存する変数Tn、
(b)リードnの開始位置に関する、Tnに依存するSn、
が要約された、指標変数Znts(Zntsは、(Tn,Sn)=(t,s)の場合1であり、それ以外は0である。)、又は、潜在変数Tnが要約された、Znt(Zntは、Tn=tの場合1であり、それ以外は0である。)の事後分布の初期分布の算出処理、
(C) 上記第2の機能の(B)−1で算出した変数θの分布に基づき、当該指標変数Znts又はZntの事後分布の算出処理を行う、第3の機能、
(D) 上記第2の機能の(B)−2、又は、第3の機能で算出した当該指標変数Znts又はZntの事後分布の更新値に基づいて変数θの第1更新事後分布の更新値を算出する、第4の機能、
(E) 上記第4の機能で算出した変数θの第1の更新事後分布に基づいて上記第3の機能と第4の機能を再度実行し、さらに、変数θの第2の更新事後分布を算出するループ処理を、新たに更新された事後分布の期待値と前回に更新された事後分布の期待値との間における差異が実質的に認められなくなるまで繰り返し実行して、収束したθの期待値を最適化された当該遺伝子座群又は個別の遺伝子座のアリル頻度のデータとして、上記記録部に記録を行う第5の機能;
を実現させるアルゴリズムが含まれることを特徴とするコンピュータプログラム。 - 上記コンピュータプログラムにおいて、選択された遺伝子座群又は個別の遺伝子座のアリル由来のDNAのリード情報が混在したデータは、被験者のリード情報をデータベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列に対してマッピングをすることにより得られる、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報であって、当該マッピングは、下記(a)及び(b)に従って行う機能をコンピュータにおいて実現するアルゴリズムが含まれることを特徴とする、請求項26〜28のいずれか1項に記載のコンピュータプログラム。
(a) 被験者のリードの配列情報に対して、ヒト遺伝子の塩基配列に対するマッピングの後、当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードを抽出する機能;
(b) 機能(a)により抽出された当該遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードの配列情報に対して、データベースに登録されている当該遺伝子座群又は個別の遺伝子座のアリルの塩基配列とのマッピングの後、マッピングされたリードを当該遺伝子座群又は個別の遺伝子座のアリル毎に抽出を行い、当該遺伝子座群又は個別の遺伝子座のアリルに対する各リードのマッピング対応が特定されたリード情報を得る機能。 - 上記機能(a)及び(b)におけるマッピングは、一つのリードが複数の選択された遺伝子座群又は個別の遺伝子座のアリルに対してマッピングされることを許容するマッピングであることを特徴とする、請求項29に記載のコンピュータプログラム。
- 機能(a)における選択された遺伝子座群又は個別の遺伝子座のアリルにマッピングされたリードに加えて、ヒト遺伝子に対してマッピングがなされなかったリードを併せて抽出処理し、これを機能(b)の再マッピングの対象に含めることを特徴とする、請求項29又は30に記載のコンピュータプログラム。
- 被験者の選択された遺伝子座群又は個別の遺伝子座の遺伝型の判定を行うコンピュータプログラムであって、下記(α)〜(δ)の機能をコンピュータに実現させるためのアルゴリズムが含まれることを特徴とする、コンピュータプログラム。
(α) 請求項26〜31のいずれか1項に記載のコンピュータプログラムの実行により得られた、当該遺伝子座群又は個別の遺伝子座のアリル頻度、及び、全リード深度、を少なくとも読み出す、機能α;
(β) 前記機能αの実行により読み出した当該遺伝子座群又は個別の遺伝子座のアリル頻度から、当該遺伝子座群又は個別の遺伝子座のアリル毎の個別深度への算出処理を実行し、個々のアリルに対して算出された当該個別深度を割り振る処理を実行する、機能β;
(γ) 棄却閾値として全リード深度の5〜50%のいずれかの頻度数を設定し、前記機能βの実行により特定された当該数値以下の個別深度の当該遺伝子座群又は個別の遺伝子座のアリルを、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の要素から除外する処理を実行する、機能γ;
(δ) 下記(δ)−1及び(δ)−2に示す機能δ:
(δ)−1 前記機能γの除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が1個のアリルについては、当該1個のアリルの個別深度が前記棄却閾値の2倍以上である場合には、このアリルをホモ接合と決定し、又は、前記棄却閾値の2倍より小さい場合はヘテロ接合であると決定する処理を実行し;
(δ)−2 前記機能γの除外処理の実行の後、当該遺伝子座群の各遺伝子座又は個別の遺伝子座の遺伝型決定の対象が2個の当該遺伝子座群又は個別の遺伝子座のアリルについては、個別深度が大きな方が小さい方の2倍未満である場合には、両アリルはヘテロ接合であると決定し、又は、個別深度が大きな方が小さい方の2倍以上である場合には、大きな方のアリルはホモ接合であると決定する処理を実行する。 - 選択された遺伝子座群又は個別の遺伝子座は、MHCの遺伝子座群又は個別の遺伝子座であることを特徴とする、請求項26〜32のいずれか1項に記載のコンピュータプログラム。
- MHCはHLAであることを特徴とする、請求項33に記載のコンピュータプログラム。
- 請求項26〜34のいずれか1項に記載のコンピュータプログラムが記録されていることを特徴とする、コンピュータにおいて読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014265704 | 2014-12-26 | ||
JP2014265704 | 2014-12-26 | ||
PCT/JP2015/086194 WO2016104688A1 (ja) | 2014-12-26 | 2015-12-25 | 特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016104688A1 true JPWO2016104688A1 (ja) | 2017-08-17 |
JP6374532B2 JP6374532B2 (ja) | 2018-08-15 |
Family
ID=56150700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016566499A Expired - Fee Related JP6374532B2 (ja) | 2014-12-26 | 2015-12-25 | 特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20170351805A1 (ja) |
EP (1) | EP3239875B1 (ja) |
JP (1) | JP6374532B2 (ja) |
WO (1) | WO2016104688A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106519034B (zh) | 2016-12-22 | 2020-09-18 | 鲁南制药集团股份有限公司 | 抗pd-1抗体及其用途 |
JP7009518B2 (ja) * | 2017-06-20 | 2022-01-25 | イルミナ インコーポレイテッド | 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム |
CN109947745B (zh) * | 2019-03-28 | 2021-08-20 | 浪潮商用机器有限公司 | 一种数据库优化方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014502845A (ja) * | 2010-12-22 | 2014-02-06 | ナテラ, インコーポレイテッド | 非侵襲性出生前親子鑑定法 |
JP2014507133A (ja) * | 2010-12-30 | 2014-03-27 | ファウンデーション メディシン インコーポレイテッド | 腫瘍試料の多重遺伝子分析の最適化 |
JP2014533858A (ja) * | 2011-11-18 | 2014-12-15 | ザ・リージェンツ・オブ・ザ・ユニバーシティー・オブ・カリフォルニアThe Regents Of The University Of California | Bambam:高スループット配列決定データの並列比較分析 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1429259A4 (en) * | 2001-08-21 | 2005-08-31 | Inst Med Molecular Design Inc | METHOD FOR READING INFORMATION OF BIOLOGICAL SEQUENCE AND STORAGE METHOD |
-
2015
- 2015-12-25 WO PCT/JP2015/086194 patent/WO2016104688A1/ja active Application Filing
- 2015-12-25 US US15/539,731 patent/US20170351805A1/en not_active Abandoned
- 2015-12-25 JP JP2016566499A patent/JP6374532B2/ja not_active Expired - Fee Related
- 2015-12-25 EP EP15873256.0A patent/EP3239875B1/en not_active Not-in-force
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014502845A (ja) * | 2010-12-22 | 2014-02-06 | ナテラ, インコーポレイテッド | 非侵襲性出生前親子鑑定法 |
JP2014507133A (ja) * | 2010-12-30 | 2014-03-27 | ファウンデーション メディシン インコーポレイテッド | 腫瘍試料の多重遺伝子分析の最適化 |
JP2014533858A (ja) * | 2011-11-18 | 2014-12-15 | ザ・リージェンツ・オブ・ザ・ユニバーシティー・オブ・カリフォルニアThe Regents Of The University Of California | Bambam:高スループット配列決定データの並列比較分析 |
Non-Patent Citations (1)
Title |
---|
NARIAI, NAOKI ET AL.: "TIGAR: transcript isoform abundance estimation method with gapped alignment of RNA-Seq data by varia", BIOINFORMATICS, vol. 29, no. 18, JPN7016000804, 2013, pages 2292 - 2299, XP055396200, ISSN: 0003763950, DOI: 10.1093/bioinformatics/btt381 * |
Also Published As
Publication number | Publication date |
---|---|
EP3239875B1 (en) | 2019-10-02 |
EP3239875A1 (en) | 2017-11-01 |
US20170351805A1 (en) | 2017-12-07 |
EP3239875A4 (en) | 2018-07-11 |
WO2016104688A1 (ja) | 2016-06-30 |
JP6374532B2 (ja) | 2018-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sethna et al. | OLGA: fast computation of generation probabilities of B-and T-cell receptor amino acid sequences and motifs | |
Boegel et al. | HLA typing from RNA-Seq sequence reads | |
Nariai et al. | HLA-VBSeq: accurate HLA typing at full resolution from whole-genome sequencing data | |
US20190384777A1 (en) | Database and data processing system for use with a network-based personal genetics services platform | |
Henn et al. | Cryptic distant relatives are common in both isolated and cosmopolitan genetic samples | |
AU2015342771B2 (en) | Predicting health outcomes | |
KR20200011445A (ko) | 심층 컨볼루션 신경망의 앙상블을 트레이닝하기 위한 반감독 학습 | |
KR20200050992A (ko) | 인간 집단의 관련성을 예측하기 위한 시스템 및 방법 | |
Lee et al. | AltHapAlignR: improved accuracy of RNA-seq analyses through the use of alternative haplotypes | |
JP2006519440A (ja) | 疾患の増大リスクの統計学的同定法 | |
JP2014506784A5 (ja) | ||
JP7041614B6 (ja) | 生体データにおけるパターン認識のマルチレベルアーキテクチャ | |
Chen et al. | Using Mendelian inheritance to improve high-throughput SNP discovery | |
Mugal et al. | Polymorphism data assist estimation of the nonsynonymous over synonymous fixation rate ratio ω for closely related species | |
Skare et al. | Identification of distant family relationships | |
JP6374532B2 (ja) | 特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム | |
CN113272912A (zh) | 使用似然比范式的用于表型驱动临床基因组的方法和装置 | |
Heredia et al. | Selection limits to adaptive walks on correlated landscapes | |
KR102085169B1 (ko) | 개인 유전체 맵 기반 맞춤의학 분석 시스템 및 이를 이용한 분석 방법 | |
Choi et al. | Joint inference of population assignment and demographic history | |
Johnson et al. | Impact of HLA type, age and chronic viral infection on peripheral T-cell receptor sharing between unrelated individuals | |
Bolli et al. | Software as a service for the genomic prediction of complex diseases | |
Clark et al. | Bayesian logistic regression using a perfect phylogeny | |
Markus et al. | Integration of SNP genotyping confidence scores in IBD inference | |
Ansbacher‐Feldman et al. | GRAMM: A new method for analysis of HLA in families |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A5211 Effective date: 20170329 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180710 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6374532 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |