JPWO2021070739A1 - 分析装置、分析方法及びプログラム - Google Patents

分析装置、分析方法及びプログラム Download PDF

Info

Publication number
JPWO2021070739A1
JPWO2021070739A1 JP2021520435A JP2021520435A JPWO2021070739A1 JP WO2021070739 A1 JPWO2021070739 A1 JP WO2021070739A1 JP 2021520435 A JP2021520435 A JP 2021520435A JP 2021520435 A JP2021520435 A JP 2021520435A JP WO2021070739 A1 JPWO2021070739 A1 JP WO2021070739A1
Authority
JP
Japan
Prior art keywords
mutation
base sequence
score
information
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021520435A
Other languages
English (en)
Other versions
JP7352904B2 (ja
Inventor
和明 横山
英悟 清水
幹也 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liquid Mine Inc
Original Assignee
Liquid Mine Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liquid Mine Inc filed Critical Liquid Mine Inc
Publication of JPWO2021070739A1 publication Critical patent/JPWO2021070739A1/ja
Priority to JP2022194453A priority Critical patent/JP2023031319A/ja
Application granted granted Critical
Publication of JP7352904B2 publication Critical patent/JP7352904B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Organic Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Immunology (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medicinal Chemistry (AREA)
  • Sustainable Development (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

シーケンスアライメントにより分析の対象となる検体の遺伝情報から抽出された、塩基配列の変異箇所及び変異の内容を含む変異状態を表す変異塩基配列情報を受け入れ、当該受け入れた変異塩基配列情報が表す変異状態ごとに、予め定められた複数の条件のそれぞれを満足するか否かにより設定したスコアを合成し、当該スコアに基づいて、変異状態ごとの病的である可能性の程度を表すランクを推定して出力する分析装置である。複数の変異状態それぞれが、複数の前記条件のいずれの条件を満足したかを表す記録情報をさらに生成し、ランク情報に関連付けて記録情報を出力してもよい。

Description

本発明は、分析装置、分析方法及びプログラムに関する。
体細胞の遺伝情報に含まれる塩基配列の突然変異により、疾病が生じる場合があることは広く知られている。近年では、種々の体細胞変異に関して、どのような疾病に関係するかといった情報が収集されてデータベースに記録されており、広く利用されている(非特許文献1)。
また、近年、網羅的な塩基配列解析技術(例えば次世代シークエンサー)の進歩により、一回の変異の分析で検出される変異は、検体あたり数百から数百万と、膨大な量となっており、当該変異一つ一つにつき、人為的にその結果の解釈を行うのは効率的でなく、現実的でもない。そこで分析結果の人間による解釈を補助する装置が要望されている。
inet:COSMIC v90、[online]、2019年9月5日、[令和1年9月30日検索]、インターネット<URL: https://cancer.sanger.ac.uk/cosmic>
しかしながら、上記従来のデータベースを利用した塩基配列の変異を分析するだけでは、その検体において上記データベースに記録された変異が生じているか否かを判断できるものの、そのような変異が生じている、という理由だけで登録された症例におけるがんなどの病気の形成や進行に直接影響する変異(例えばがんに対するドライバー変異)であると断定できない。変異の分析結果の解釈には、この他に考慮すべき事項が多岐に亘るためである。ところが、従来は、そのような多岐に亘る項目を組み合わせて、病的である可能性がどの程度であるかを分析することは行われていなかった。
本発明は上記実情に鑑みて為されたもので、病気の発生や進行に影響する変異である可能性の程度を提示できる分析装置、分析方法及びプログラムを提供することを、その目的の一つとする。
上記従来例の問題点を解決するための本発明の第1の態様の分析装置は、シーケンスアライメントにより分析の対象となる検体の遺伝情報から抽出された、塩基配列の変異箇所及び変異の内容を含む変異状態を表す変異塩基配列情報を受け入れる受入部と、前記受入部が受け入れた前記変異塩基配列情報が表す変異状態が予め定められた条件を満足するか否かにより決定したスコアを出力するフィルタ処理部と、前記フィルタ処理部が出力したスコアに基づいて、前記変異状態が病的である可能性の程度を表すランク情報を作成し、作成した前記ランク情報を出力する出力部と、を含むものである。
前記フィルタ処理部は、複数の前記変異状態それぞれが、複数の前記条件のいずれの条件を満足したかを表す記録情報をさらに生成し、前記出力部は、前記ランク情報に関連付けて前記記録情報を出力してもよい。
前記分析装置は、前記受入部が受け入れた前記変異塩基配列情報を保持する保持部をさらに備え、前記フィルタ処理部は、前記受入部が今回受け入れた前記変異塩基配列情報と、共通の個体の遺伝情報から抽出された、過去に前記受入部が受け入れた前記変異塩基配列情報と、に基づいて得られる、前記変異塩基配列情報の時系列変化に基づく前記条件を満足するか否かにより前記スコアを決定してもよい。
前記フィルタ処理部は、他の遺伝子と融合した融合遺伝子においてドライバー変異候補となる候補遺伝子の塩基配列と類似する塩基配列の遺伝子が他の遺伝子と融合した融合遺伝子が前記変異状態に対応する塩基配列に含まれているか否かにより前記スコアを決定してもよい。
前記フィルタ処理部は、特定の組み合わせの前記候補遺伝子が融合した融合遺伝子においてドライバー変異候補となる2つの当該候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が、前記変異状態に対応する塩基配列に含まれているか否かにより前記スコアを決定してもよい。
前記フィルタ処理部は、異なる生物種のゲノムの間において保存された塩基配列である保存配列の位置が前記変異状態の前記変異箇所に含まれるか否かにより前記スコアを決定してもよい。
前記フィルタ処理部は、前記変異状態が染色体の転座であるか否かにより前記スコアを決定してもよい。前記フィルタ処理部は、前記変異状態が複数の遺伝子に及ぶ変異であるか否かにより前記スコアを決定してもよい。
前記フィルタ処理部は、前記変異状態が予め登録された登録遺伝子の欠失であるか否かにより前記スコアを決定してもよい。
本発明の第2の実施態様の分析方法は、コンピュータが、シーケンスアライメントにより分析の対象となる検体の遺伝情報から抽出された、塩基配列の変異箇所及び変異の内容を含む変異状態を表す変異塩基配列情報を受け入れる工程と、受け入れた変異塩基配列情報が表す変異状態が予め定められた条件を満足するか否かによりスコアを決定する工程と、決定したスコアに基づいて、前記変異状態が病的である可能性の程度を表すランク情報を作成する工程と、を実行する。
本発明の第3の態様のプログラムは、コンピュータに、シーケンスアライメントにより分析の対象となる検体の遺伝情報から抽出された、塩基配列の変異箇所及び変異の内容を含む変異状態を表す変異塩基配列情報を受け入れる受入ステップと、当該受け入れた変異塩基配列情報が表す変異状態が予め定められた条件を満足するか否かにより決定したスコアを出力するフィルタステップと、前記フィルタステップにおいて出力したスコアに基づいて、前記変異状態が病的である可能性の程度を表すランク情報を作成し、作成した前記ランク情報を出力する出力ステップと、を実行させる。
本発明によると、病気の発生や進行に影響する変異である可能性の程度を提示できる。
本発明の実施の形態に係る分析装置の構成例を示すブロック図である。 本発明の実施の形態に係る分析装置の例を表す機能ブロック図である。 本発明の実施の形態に係る分析装置に入力される変異塩基配列情報の例を表す説明図である。 本発明の実施の形態に係る分析装置が出力する出力情報の一例を表す説明図である。 本発明の実施の形態に係る分析装置の動作例を表す流れ図である。 本発明の実施の形態に係る分析装置が出力する出力情報のもう一つの例を表す説明図である。 第2の実施形態の制御部の構成を示す図である。 分析装置が病原性の疑いがあるか否かを判定する処理手順を示すフローチャートである。
<第1の実施形態>
本発明の第1の実施形態について図面を参照しながら説明する。本発明の実施の形態に係る分析装置1は、図1に例示するように、制御部11、記憶部12、操作部13、表示部14、入出力部15、及び通信部16を含む一般的なコンピュータ装置を用いて実現される。
ここで制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態では、この制御部11は、分析の対象となる個体と、個体から得た検体とを識別する検体識別情報とともに、当該検体の遺伝情報からシーケンスアライメントにより抽出された、塩基配列の変異箇所及び変異の内容を含む変異状態を表す変異塩基配列情報を受け入れる。変異状態は、一塩基の変異であってもよく、複数の遺伝子に及ぶ染色体の転座等の構造変異であってもよい。具体的に変異箇所及び変異の内容とは、変異のあった位置(遺伝子と、その遺伝子上の一方側から何番目の塩基であるかを示す情報等)と、あるべき塩基がどの塩基に変異しているのかを表す情報を含むものである。
そして制御部11は、当該受け入れた変異塩基配列情報が表す変異状態ごとに、予め定められた複数の条件のそれぞれを満足するか否かにより、受け入れた変異塩基配列情報に含まれる変異状態ごとにスコアを設定し、さらに当該変異状態ごとに、設定したスコアを合成した合成スコア情報を生成する。
制御部11は、この変異状態ごとに得た合成スコア情報に基づいて、変異状態ごとの病的である可能性の程度を表すランクを推定し、当該推定したランクの情報を出力する。この制御部11の動作については後に詳しく述べる。
記憶部12は、メモリデバイスやディスクデバイス等であり、制御部11によって実行されるプログラムを保持する。この記憶部12は、また、制御部11のワークメモリとしても動作する。
操作部13は、キーボードやマウス等であり、ユーザからの操作を受け入れて、当該操作を表す情報を制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従って情報を表示する。
入出力部15は、例えばUSB(Universal Serial Bus)インタフェース等であり、他の機器で生成された情報を受け入れて制御部11に出力する等の処理を行う。通信部16は、ネットワークインタフェースであり、制御部11から入力される指示に従って、ネットワークを介して接続された他のコンピュータ装置との間で通信してデータの送受を行う。
次に、制御部11の具体的な動作の内容について説明する。本実施の形態では、この制御部11は、記憶部12に格納されたプログラムを実行することで、図2に例示する構成を機能的に実現する。すなわち制御部11は、データ受入部21と、設定受入部22と、フィルタ処理部23と、ランク推定部24と、出力部25とを含む構成を実現する。
ここでデータ受入部21は、分析の対象となる検体の遺伝情報からシーケンスアライメントにより抽出された、塩基配列の変異状態を表す変異塩基配列情報を受け入れる。この情報は具体的には図3に例示するように、変異状態ごとに、当該変異状態の塩基配列が見出された染色体の番号(Chr)と、開始位置(Start)と、終了位置(End)と、本来あるべき塩基配列(Ref)と、抽出された変異している塩基配列(Alt)と、変異している塩基配列の割合(アレル頻度:AF)とを関連付けたものである。ここでの例ではさらに、これらの情報に、深度(depth)や変異状態のカウント数(AltCount)など、品質に関係する指標等を関連付けたものとしている。なお、塩基配列の長さは「1」(この場合、塩基配列の情報はA,T,C,Gのいずれかの塩基を表す情報となる)であってもよい。
またこの変異塩基配列情報には、個体の症例等に関する情報(病名や治療歴、腫瘍割合などの情報)が含まれてもよい。
本実施の形態の一例では、このデータ受入部21は、同じ個体から、分析の対象とする変異塩基配列情報を抽出したタイミングとは異なるタイミング(複数あってもよい)で抽出された変異塩基配列情報(時系列情報)を受け入れてもよい。この場合は、データ受入部21は、分析の対象とする時点の変異塩基配列情報の指定の入力を受けておく。
設定受入部22は、分析の設定を受け入れる。この設定は、例えば、どのフィルタを用いるかという設定、又はパラメータ情報の設定である。この設定の具体例は、次のフィルタ処理部23の構成とともに説明する。
本実施の形態では、このフィルタ処理部23の動作により、変異の分析結果の解釈に影響する種々の情報に基づく、病的である可能性に関する評価が行われる。ここで、解釈に影響する情報には、(1)分析の際に得られる当該変異の付帯情報、及び(2)文献やデータベースに収載された変異に関連する情報、が含まれる。このうち(1)分析の際に得られる当該変異の付帯情報には、(a)検出精度や信頼性の情報(変異が検出エラーでない確率)、(b)変異のアレル頻度(同一変異を持つ細胞集団の全体に占める割合に関連する指標)、(c)時系列情報、すなわち同一症例の他の時点での検体において繰り返して当該変異が検出されているか否か、などがある。
また、(2)文献やデータベースに収載された変異に関連する情報には、当該変異が疾患のドライバー変異として記載されているか否か(あるいはどの程度の頻度で記述がされているか)を表す情報が含まれる。SNP(single nucleotide polymorphism)データベースにも登録がある場合、変異アレルはどの程度の対立アレル頻度で、当該人種においてSNPとして報告されているかという情報が文献やデータベースに収載されていてもよい。さらには、機能予測として、当該変異がコード化されたたんぱく質の立体構造や機能に影響を与えるか、例えばがんの病態形成に関わるとして実験などにより示されているか予測されているか否かを表す情報などが文献やデータベースに収載されていてもよい。
フィルタ処理部23は、データ受入部21が受け入れた変異状態(時系列情報を受け入れたときには、そのうち分析の対象として指定された変異塩基配列情報に含まれる変異状態、以下、分析の対象とする変異状態と呼ぶ)ごとに、予め定められた複数の条件を満足するか否かを判断する。具体的に本実施の形態では、図2に例示したように、フィルタ処理部23は、基本フィルタ231と、時系列フィルタ232と、データベースフィルタ233と、機能予測フィルタ234と、クオリティフィルタ235とを含んで構成される。
ここで基本フィルタ231は、分析の対象とする変異状態が、良性であると判断できる場合に、良性変異であることを表すスコア(例えば「4」)を設定して、ランク推定部24にその結果を出力する。また、基本フィルタ231は、分析の対象とする変異状態が、良性であると判断できなければ、良性変異でないことを表すスコア(例えば「3」)を設定し、次のフィルタとして設定されたフィルタに処理を受け渡す(処理をパスする)。
ここで良性と判断できる場合とは、がん化等を引き起こす既知の変異の塩基配列と変異状態に対応する変異した塩基配列との重複部分が比較的短い重複部分である場合、変異状態が表す変異の位置する領域がイントロン領域である場合、SNPデータベースなどのように異常がない変異を蓄積したデータベースに変異状態が登録されている場合、又はGDI(Gene Damage Index)に基づいて変異状態が良性と判断できる場合等が相当する。
ここでGDIは、各遺伝子について健常人にどれだけダメージが蓄積されているかを表す指標であり、人によって大きいダメージを受けていても(多様性があっても)、変異によって病的になると考えられない遺伝子である可能性を示す。
基本フィルタ231は、設定受入部22から、がん化等を引き起こす既知の変異の塩基配列と変異状態に対応する変異した塩基配列との重複部分の長さの閾値、SNPであるか否かを判断するデータベースを特定する情報、データベースごとのパラメータ(良性か否かを判断する基準となる良性判断閾値、又はデータベースにSNPである確率などとして登録された値と比較される)の少なくともいずれかの設定を受け入れる。基本フィルタ231は、受け入れた設定に基づいて、分析の対象とする変異状態が良性であるか否かを判断する。
具体的に基本フィルタ231は、がん化等を引き起こす既知の変異の塩基配列と変異状態に対応する変異した塩基配列との重複部分が予め定めた長さの閾値より短い重複部分である場合は良性変異であることを表すスコアを設定する。また基本フィルタ231は、重複部分が予め定めた長さの閾値より短い重複部分である場合は良性変異でなくても、変異状態が表す変異の位置する領域がイントロン領域であれば、良性変異であることを表すスコアを設定する。
さらに基本フィルタ231は、上記2つの条件を満足しなくても、指定されたSNPデータベースを検索した結果に基づいて、良性変異であることを表すスコアを設定してもよい。基本フィルタ231は、例えば、検索によって変異状態が表す変異がSNPデータベースに登録され、かつ、そのSNPである確率として登録された値が、当該SNPデータベースについて予め定められた良性判断閾値を超えている場合、良性変異であることを表すスコアを設定する。
また基本フィルタ231は、ここまでの条件を満足しない場合であっても、当該変異状態が存在する遺伝子のGDIを参照して、予め定められたGDI閾値より大きい場合に、良性変異であることを表すスコアを設定する。
これにより本実施の形態では、例えばがんのドライバー変異となり得ない(あるいはその可能性が十分低い)遺伝子を予めふるいわけすることが可能となる。
またこの基本フィルタ231では、設定受入部22から予め定めた、良性と判断するための複数の条件のうち、どの条件を利用するか(あるいはすべての条件を利用せず、基本フィルタ231としての動作をせずに、すべての変異状態についてスコアを「3」に設定して処理をパスするか否か)の設定を受け入れてもよい。
この例では基本フィルタ231は、利用すると設定された条件に限って、当該条件を満足するか否かを判断することとなる。
時系列フィルタ232は、基本フィルタ231が処理をパスした(スコア「3」が設定された)場合に、分析の対象とする変異状態に対応する、時系列情報に含まれる変異状態の情報を参照して、異なるタイミングで抽出した時系列情報においても同じ変異があったか否かを判断する。
時系列フィルタ232は、分析の対象とする変異状態と、時系列情報に含まれる対応する変異状態とを用い、同じ変異が存在する場合に、問題とするべき変異があるものとしてスコア(例えば現在のスコアから第1所定量として「1」を引く)を設定してクオリティフィルタ235に処理をパスする。第1所定量は、例えば、変異状態にかかるスコアから1回の演算において減算又は加算される最小値である。ここでの例では基本フィルタ231が処理をパスしているので、当初のスコアは「3」であり、ここで時系列フィルタ232が問題とするべき変異があるものとしたときには、このスコア「3」から第1所定量として「1」を引いてスコアを「2」と設定することとなる。
一方、時系列フィルタ232は、分析の対象とする変異状態と、時系列情報に含まれる対応する変異状態とを用い、同じ変異が存在しないときには、スコアをそのままに設定(ここでは当初のスコアが「3」であるので、そのまま「3」に設定)して、データベースフィルタ233へ処理をパスする。
なお、時系列フィルタ232は、設定受入部22から深度や、その他のシーケンスクオリティ、変異アレル頻度等に関する閾値の設定を受けていてもよい。例えば時系列情報に含まれる対応する変異状態に係る深度がここで設定された閾値(例えば「20」)を超えない場合には、時系列フィルタ232は、同じ変異状態があったか否かを判断することなく、スコアをそのままに設定(ここでは当初のスコアが「3」であるので、そのまま「3」に設定)して、データベースフィルタ233へ処理をパスする。
さらに本実施の形態の例では、この時系列フィルタ232は、データ受入部21が時系列情報を受け入れていない場合(変異塩基配列情報としては、分析の対象とする変異塩基配列情報だけを受け入れている場合)には、同じ変異状態があるか否かを判断することなく、スコアをそのままに設定(ここでは当初のスコアが「3」であるので、そのまま「3」に設定)して、データベースフィルタ233へ処理をパスしてもよい。
また設定受入部22から時系列フィルタ232を利用しない設定が入力されている場合、時系列フィルタ232は、同じ変異状態があるか否かを判断することなく、スコアをそのままに設定(ここでは当初のスコアが「3」であるので、そのまま「3」に設定)して、データベースフィルタ233へ処理をパスする。
データベースフィルタ233は、分析の対象とする変異状態が、予め定めた、問題とするべき変異に関する情報を蓄積したデータベース(例えばCOSMIC Cancer Databaseなど)に登録されているか否かを、当該データベースのサーバへ変異状態に関する情報を送信して調べ、登録されている場合に、問題とするべき変異があるものとしてスコア(例えば現在のスコアから第1所定量として「1」を引く)を設定して、クオリティフィルタ235に処理をパスする。ここでの例では、分析の対象とする変異状態について、基本フィルタ231が処理をパスし、さらに時系列フィルタ232においてスコアをそのままとした状態で処理がパスされたときに、このデータベースフィルタ233が判断をすることとなるので、データベースフィルタ233は、その際のスコア「3」から第1所定量として「1」を引いて、スコアを「2」に設定した上で、クオリティフィルタ235に処理をパスすることとなる。
またこのデータベースフィルタ233は、分析の対象とする変異状態が、上記問題とするべき変異に関する情報を蓄積したデータベースに登録されていなかった場合に、スコアをそのままに設定して機能予測フィルタ234に処理をパスする。ここでの例では、このときのスコアは「3」のままとなる。
なお、このデータベースフィルタ233は、上記問題とするべき変異に関する情報を蓄積したデータベースとして、どのようなデータベースを利用するかの設定を、設定受入部22から受け入れておく。
この設定では、複数のデータベースを用いるべき旨の指示がされてもよく、この場合、データベースフィルタ233は、分析の対象とする変異状態が、上記問題とするべき変異に関する情報を蓄積したデータベースのいずれかに登録されていた場合に、問題とするべき変異があるものとしてスコアを設定する。
機能予測フィルタ234は、変異の病原性を評価したデータベースを参照して、分析の対象とする変異状態に係る変異が、病原性のあるものとしてデータベースに登録されている場合に、病原性の変異があるものとしてスコア(例えば現在のスコアから第1所定量として「1」を引く)を設定して、クオリティフィルタ235に処理をパスする。
ここで変異の病原性を評価したデータベースとしては、SIFTや、PolyPhen2など広く知られたものがある。また、これらのデータベースのうちには、病原性の有無について多段階で評価しているものがあるが、このような場合は、この機能予測フィルタ234は、例えば病原性の疑いがあるとの判断段階にある場合に、病原性の変異があるものとしてスコア(例えば現在のスコアから第1所定量として「1」を引く)を設定して、クオリティフィルタ235に処理をパスするものとする。
ここでの例では、分析の対象とする変異状態について、基本フィルタ231が処理をパスし、時系列フィルタ232においてスコアをそのままとした状態で処理がパスされ、さらにデータベースフィルタ233においてもスコアがそのままの状態で処理がパスされたときに、この機能予測フィルタ234が判断をすることとなるので、機能予測フィルタ234は、その際のスコア「3」から第1所定量として「1」を引いて、スコアを「2」に設定した上で、クオリティフィルタ235に処理をパスすることとなる。
またこの機能予測フィルタ234は、変異の病原性を評価したデータベースを参照して、分析の対象とする変異状態に係る変異が、病原性のあるものとしてデータベースに登録されていなければ(または登録されていても不明であるとか、良性ないし良性と推定される場合として登録されている場合)、スコアをそのままに設定してクオリティフィルタ235に処理をパスする。ここでの例では、このときのスコアは「3」のままとなる。
なお、この機能予測フィルタ234においても、どのようなデータベースを利用するかの設定を、設定受入部22から受け入れておくものとする。
クオリティフィルタ235は、分析の対象とする変異状態をシーケンスしたときの深度や、その他の、分析の対象とする変異状態のシーケンス処理の品質を評価する。この品質の指標については、深度のほか、変異状態のカウント数など、広く知られた指標があり、クオリティフィルタ235は、これらを組み合わせて(あるいはその組み合わせを、設定受入部22から受け入れ、当該受け入れた指標の組み合わせに従って)品質の評価を行う。なお、クオリティフィルタ235は、複数の指標を組み合わせる場合は、すべての指標により、品質が十分高いとの条件を満足する場合に、品質が十分であると判断することとする。
クオリティフィルタ235は、この評価により、分析の対象とする変異状態のシーケンス処理の品質が十分である(十分高い)と判断したときに、判断が適性であるとしてスコア(例えば現在のスコアから第1所定量として「1」を引く)を設定して、ランク推定部24に当該スコアを出力する。またこのクオリティフィルタ235は、分析の対象とする変異状態のシーケンス処理の品質が十分である(十分高い)と判断できないときには、スコアをそのままに設定してランク推定部24に当該スコアを出力する。
本実施の形態において特徴的なことの一つは、このように、フィルタ処理部23が、複数の条件に対応するフィルタを、予め定められた順序で適用しつつ、変異状態ごとに、各条件を満足するか否かの判断結果に基づくスコアを設定することである。
ランク推定部24は、フィルタ処理部23が出力する、変異状態ごとのスコアに従い、変異状態ごとの病的である可能性の程度を表すランク値を得て、当該ランク値を対応する変異状態を特定する情報に関連付けて出力する。この病的である可能性の程度を表すランク値は、各変異状態に対応してフィルタ処理部23が出力したスコアの値そのものであってもよい。
出力部25は、ランク推定部24が出力する、変異塩基配列情報に含まれる変異状態のそれぞれを特定する情報と、それぞれに関連付けられたランク値とを集約して出力する。出力される情報(出力情報)における、変異状態のそれぞれを特定する情報は、例えば図4に例示するように、データ受入部21が受け入れた、変異塩基配列情報に含まれる変異状態の塩基配列が見出された染色体の番号(Chr)と、開始位置(Start)と、終了位置(End)と、本来あるべき塩基配列(Ref)と、抽出された変異している塩基配列(Alt)とであってもよい。この場合、出力情報は、図4に例示するように、これらの変異状態のそれぞれを特定する情報と、ランク値(Rank)とを関連付けた行が配列されたものとなる。
[動作]
本実施の形態は以上の構成を備えており、基本的に次のように動作する。本実施の分析装置1は、例えば入出力部15に接続された記憶デバイスから、図3に例示したような、分析の対象となる検体(被験者A)の遺伝情報からシーケンスアライメントにより抽出された、塩基配列の変異状態を表す変異塩基配列情報を読み出して受け入れる。
本実施の形態のここでの例では、同じ個体である被験者Aから、分析の対象とする変異塩基配列情報を抽出した日時(例えば病気治療後の日時)より前の日時(例えば病気治療前の日時)で抽出された変異塩基配列情報を時系列情報として受け入れるものとする。
この分析装置1のユーザは、病気治療後の日時に抽出された変異塩基配列情報を分析の対象として設定する操作を行い、分析装置1は、この操作を受け入れて、分析の対象とする変異塩基配列情報と、時系列情報とを識別する。
またユーザは、分析の設定を行う。本実施の形態のここでの例では、病的である可能性の程度であるランクを決定するための条件を判断する処理として、
(1)良性変異を登録したデータベースに登録があるか等を調べて条件を判断する基本フィルタ、
(2)時系列情報を参照した条件の判断を行う時系列フィルタ、
(3)問題のある変異(病原性のある変異)であることを登録したデータベースを参照して条件を判断するフィルタ(データベースフィルタ)、
(4)変異の病原性を評価したデータベースを参照して条件を判断する機能予測フィルタ、
(5)シーケンスの品質を評価して条件を判断するクオリティフィルタ
を用いるものとする。
そこで、ここでは、(1)基本フィルタについては、良性と判断するための公知の条件のうち、どのような条件を用いるかを設定受入部22が設定する。具体的には、本実施形態においては、がん化等を引き起こす既知の変異の塩基配列と変異状態に対応する変異した塩基配列との重複部分の長さの閾値(これより短い場合良性と判断する)αと、良性変異を登録したデータベースとしてどのデータベースを利用するかを設定受入部22が設定するものとする。
また、(2)時系列フィルタについては、例えば過去または今回の変異状態に係る深度や変異アレル頻度等に関する閾値(ここでは深度及び変異アレル頻度の閾値とする)β,γを設定する。そして、(3)データベースフィルタ及び(4)機能予測フィルタについては、それぞれにおいてどのデータベースを利用するかを設定受入部22が設定する。この設定はそれぞれのフィルタに対応して予め定められた選択肢から、それぞれのフィルタで使用するデータベースを選択することで行う。
(5)クオリティフィルタについては、広く知られた指標のうち、どの指標を使用するかを、予め定められた選択肢のうちから選択するとともに、それぞれの指標における閾値を設定受入部22が設定する。以下の説明の例では、深度と、変異状態のカウント数とを用いるものとし、深度については「20」、変異状態のカウントは「10」と設定されたものとする。
分析装置1は、処理開始の指示をユーザから受けると、図5に例示するように、分析の対象とする変異塩基配列情報に含まれる、各変異状態を順次選択する(S11)。分析装置1は、選択した変異状態について、基本フィルタの表す条件により、病原性の疑いがあるか否かを判断する(S12)。具体的には、ここでの例では、がん化等を引き起こす既知の変異の塩基配列と変異状態に対応する変異した塩基配列との重複部分の長さの閾値αと、良性変異を登録したデータベースとしてどのデータベースを利用するかが設定されているので、分析装置1は、このステップS12では、選択した変異状態のがん化等を引き起こす変異と変異状態に対応する変異した塩基配列との重複の長さがαを超えるか否かを判断するとともに、良性変異を登録したデータベースに登録されているか否かを判断する。
そして分析装置1は、選択した変異状態のがん化等を引き起こす変異と変異状態に対応する変異した塩基配列との重複の長さがαを超え、かつ、良性変異を登録したデータベースに登録されていなければ、病原性の疑いがあるとして(S12:Yes)、この選択した変異状態に係るスコアを仮に「3」とし、ステップS13に移行する。
すなわちステップS12で病原性の疑いがあるとされると、分析装置1は、時系列フィルタの表す条件により、病原性の疑いがあるか否かを判断する(S13)。具体的に分析装置1は、ステップS11で選択した変異状態と、当該選択された変異状態に対応して、時系列情報に同じ変異状態があり(当該対応する情報があり)、かつ、選択された変異状態または当該時系列情報に記録された、対応する情報に係る深度の情報が、予め定められた閾値βを超え、かつ、選択された変異状態のアレル頻度の値と、対応する時系列情報に係るアレル頻度の値とのうち少なくともいずれか一つが設定された閾値γを上回る場合に、病原性の疑いがあると判断する(S13:Yes)。分析装置1は、この時点で選択された変異状態に係るスコアとして仮に設定されたスコアから「1」を差し引いて、選択された変異状態に係るスコアを仮に「2」に設定し、ステップS14に移行する。
分析装置1は、ステップS13において病原性の疑いがあると判断されると、クオリティフィルタの表す条件により、ステップS11で選択した変異状態のシーケンス処理の品質を評価する(S14)。
具体的にこのステップS14において分析装置1は、選択された変異状態に関連付けて、分析の対象とする変異塩基配列情報に記録されている、品質に関連する情報(ここでの例では深度と変異状態のカウント)を読み出して、それぞれが、設定された閾値と比較して、品質が十分であるか否かを調べる(ここでの例ではいずれも閾値を超える場合に品質が十分高いものと判断される)。
分析装置1は、品質が十分であると判断すると(S14:Yes)、この時点で選択された変異状態に係るスコアとして仮に設定されたスコアから「1」を差し引いて、選択された変異状態に係るスコアを設定して、選択された変異状態に対応するランク値を、当該設定したスコアとして、選択された変異状態を特定する情報に関連付けて記録する(S15)。
具体的な例として、分析装置1が、ステップS13で病原性の疑いがあると判断し、選択された変異状態に係るスコアを「2」と設定した状態でステップS14を実行して、十分な品質であると判断すると、スコアは「1」(ランク値は「1」)となる。
また分析装置1が後に述べる動作により、変異状態に係るスコアを「3」と設定した状態でステップS14を実行して、十分な品質であると判断すると、スコアは「2」(ランク値は「2」)となる。
一方、分析装置1は、品質が十分でないと判断する場合(ここでの例では、品質に関連する深度と変異状態のカウントのいずれかが、設定された閾値を超えない場合)、この時点で選択された変異状態に係るスコアとして仮に設定されたスコアをそのままとして、ステップS15に移行し、選択された変異状態を特定する情報に、当該スコアをランク値として関連付けて記録する。
具体的な例として、分析装置1が、ステップS13で病原性の疑いがあると判断し、選択された変異状態に係るスコアを「2」と設定した状態でステップS14を実行して、十分な品質でないと判断すると、スコアは「2」(ランク値は「2」)となる。
また分析装置1が後に述べる動作により、変異状態に係るスコアを「3」と設定した状態でステップS14を実行して、十分な品質でないと判断すると、スコアは「3」(ランク値は「3」)となる。
また分析装置1は、ステップS13において、選択された変異状態または時系列情報において対応する情報に係る深度の情報が、予め定められた閾値βを下回る場合、あるいは、選択された変異状態のアレル頻度の値と、対応する時系列情報に係るアレル頻度の値とがともに、設定された閾値γを下回る場合に、病原性の疑いがないとして(S13:No)、この時点で選択された変異状態に係るスコアとして仮に設定されたスコアをそのまま(ここでの例では「3」)として、ステップS16に移行する。
分析装置1は、ステップS13において病原性の疑いがないと判断されると、データベースフィルタの表す条件により、ステップS11で選択した変異状態に病原性の疑いがあるか否かを判断する(S16)。
すなわち分析装置1は、利用するデータベースとして設定されたデータベースに、通信部16を介してアクセスし、ステップS11で選択した変異状態が当該データベースに登録されているか否かを問い合わせる。ここで当該問い合わせの結果、選択した変異状態が当該データベースに登録されている旨の応答があった場合(S16:Yes)は、この時点での、選択した変異状態に係るスコア「3」から「1」を差し引いて、選択された変異状態に係るスコアを「2」に設定し、ステップS14に移行して処理を続ける。
一方、分析装置1は、ステップS16において、問い合わせの結果、選択した変異状態が当該データベースに登録されていない旨の応答があった場合(S16:No)、病原性の疑いがないと判断して、この時点での、選択した変異状態に係るスコア「3」をそのままとしてステップS17に移行する。
分析装置1は、ステップS16において、病原性の疑いがないと判断したときには、機能予測フィルタの表す条件により、ステップS11で選択した変異状態に病原性の疑いがあるか否かを判断する(S17)。
すなわち分析装置1は、機能予測フィルタに関して利用するデータベースとして設定されたデータベースに、通信部16を介してアクセスし、ステップS11で選択した変異状態が当該データベースにおいてどのような病原性の程度として登録されているかを問い合わせる。ここで当該問い合わせの結果、選択した変異状態に係る病原性の評価が予め定めた基準に比べて高いものであるときには(S17:Yes)、分析装置1は、この時点での、選択した変異状態に係るスコア「3」から「1」を差し引いて、選択された変異状態に係るスコアを「2」に設定し、ステップS14に移行して処理を続ける。
また分析装置1は、ステップS17において、問い合わせの結果、選択した変異状態が当該データベースに登録されていない旨の応答があった場合、あるいは、選択した変異状態に係る病原性の評価が予め定めた基準に比べて高いものでなかったときには(S17:No)、病原性の疑いがないと判断して、この時点での、選択した変異状態に係るスコア「3」をそのままとしてステップS14に移行する。
また分析装置1は、ステップS12において、選択した変異状態においてがん化等を引き起こす変異と変異状態に対応する変異した塩基配列との重複の長さがαを超えない場合、または良性変異を登録したデータベースに登録されている場合に、病原性の疑いがない(良性変異である)と判断する(S12:No)。分析装置1は、選択した変異状態に係るスコアを「4」として、ステップS15に移行する。この場合、分析装置1は、選択された変異状態を特定する情報に当該スコア「4」をランク値として関連付けて記録する。
分析装置1は、分析の対象とする変異塩基配列情報に、未だ選択されていない変異状態があれば、ステップS11に戻って当該未選択のものから一つを選択して処理を続ける。一方、未選択のものがなければ(分析の対象とする変異塩基配列情報に含まれるすべての変異状態についてランク値が関連付けられたならば)、各変異状態を特定する情報とそのランク値とを関連付けた、出力情報を出力する。この出力情報は、例えば図4に例示したものとなる。
ユーザは、この出力情報を参照し、例えばランク値が「1」または「2」となる変異に着目して病的であるか否かを判断することができる。またここでの例では、ランク値が「3」である場合は、シーケンスエラーの可能性があることから、ユーザは、ランク値が「3」の変異が多い場合は再検査の必要性などを判断できる。
なお、ここで例示した分析装置1の動作の流れは一例であり、その順序はユーザが任意に定め得る。例えばステップS17とS16とは逆順であってもよい。また、いずれかのフィルタに係るステップの処理は省略されてもよい。
[判断に関する記録]
また本実施の形態の例において、分析装置1の制御部11は、フィルタ処理部23の動作において、基本フィルタ231と、時系列フィルタ232と、データベースフィルタ233と、機能予測フィルタ234と、クオリティフィルタ235とのうち、変異状態ごとに実行したフィルタの動作(複数の条件の判断)において、どの条件がどのように判断されたか(いずれの条件を満足したかなど)を表す記録情報をさらに生成して、変異状態ごとのランク値とともに、併せて出力情報に含めて出力してもよい。
例えば制御部11は、基本フィルタ231として機能する際に、例えばSNPデータベース(異常がない変異を蓄積したデータベースの例)に登録されていると判断すると、スコアを「4」と設定するとともに、SNPデータベースに記録があった旨の記録情報を出力する。そして出力部25として機能するときに、出力情報において、スコアの値に基づくランク値とともに変異状態を特定する情報に関連付けて当該記録情報を出力する。
この場合は、当該変異状態については他のフィルタとしての機能は実行されないため、当該実行されない他のフィルタでの記録情報は含まれないこととなる。
また、制御部11は、基本フィルタ231として機能したときに、良性であると判断できず、スコアを「3」に設定して処理をパスするときには、基本フィルタ231としては記録情報を生成しなくてもよい。あるいは、スコアを設定するとともに、SNPデータベースに記録がなかったことなど、良性と判断できなかった理由となる記録情報を出力してもよい。このときには出力部25として機能するときに、出力情報において、スコアの値に基づくランク値とともに変異状態を特定する情報に関連付けてこの記録情報を出力する。
そして上述の例では、このときには、制御部11は、時系列フィルタ232としての機能も実行することとなるので、分析の対象とする変異状態のアレル頻度と設定された閾値とを比較してどのような結果であったかなどの記録情報を生成して出力する。
このような例によると、例えば(図4に対応する)図6に例示するように、染色体の番号(Chr)と、開始位置(Start)と、終了位置(End)と、本来あるべき塩基配列(Ref)と、抽出された変異している塩基配列(Alt)とを含む、変異状態を特定する情報に関連付けて、ランク値(Rank)と、判断の理由となる記録情報(図6の例では、判断の理由ごとにカラムを分けて記録した例としている;R)を出力する。
ユーザは、ランク値のみならず、この判断の理由となる記録情報を併せて参照することで、例えば病原性ありと評価されたときに(ランク値が「1」であるときに)、その判断の理由が、主に時系列フィルタの判断に基づくものであるか、データベースフィルタ等の判断に基づくものであるかを区別して扱うことができる。このことは、変異の性質の理解に役立つ。
[回帰性の分析]
また、第1の実施形態の分析装置1は、変異塩基配列情報の分析処理を行うごとに(検体,個体によらずに)、当該変異塩基配列情報に含まれる変異状態ごとの出現頻度を累算して記録してもよい。またこの分析装置1は、当該記録した変異状態ごとの出現頻度をユーザに提示してもよい。例えば、分析の対象とした変異塩基配列情報に含まれる変異状態ごとに、上記記録した、当該変異状態の出現頻度の累算値を出力してもよい。
この累算値の情報を参照すると、ユーザは、病的である可能性の程度を表すランク値が高くない変異状態において、検体,個体によらずに数多く出現する変異状態であるか否かが判断でき、検体,個体によらずに数多く出現する変異状態であれば、次世代シークエンサーの読み取り誤りが多く発生しやすい部位であるなどといった判断が可能となる。
またユーザは、この累算値の情報を参照して、病的である可能性のある変異状態において、検体,個体によらずに数多く出現する変異状態であるか否かが判断でき、検体,個体によらずに数多く出現する変異状態であれば、当該変異状態の登録がデータベースに登録されていない場合でも、いままで知られていなかった病的な変異である可能性を知ることができる。
また、分析装置1は、変異塩基配列情報に含まれる症例の情報(例えば病名)ごとに、検体,個体によらない変異状態ごとの出現頻度の累算値をさらに得て記録してもよい。また、変異状態ごとの出現頻度の累算値として、さらに変異状態のランク値ごとの出現頻度の累算値を得て記録してもよい。
さらに、変異塩基配列情報に、シーケンスを行った次世代シークエンサーのメーカー及び機種名の情報を含めておき、当該シークエンサーのメーカーや機種名の情報ごとに上記出現頻度の集計を行ってもよい。この場合、シークエンサーのメーカーや機種ごとのシーケンスエラーの癖を知ることができる。
このように第1の実施形態によると、病気の発生や進行に影響する変異である可能性、すなわち病的である可能性の程度を提示でき、各変異が、病気の発生や進行に直接影響する変異(例えばがんに対するドライバー変異)である可能性がどの程度であるかといった判断に資することができる。
<第2の実施形態>
第1の実施形態では、検体の一塩基多型が病的である可能性の程度を提示する場合の例について説明した。これに対し、第2の実施形態では、検体の二塩基以上の変異が病的である可能性の程度を提示する場合の例について説明する。
図7は、第2の実施形態の制御部11の構成を示す図である。制御部11は、記憶部12に格納されたプログラムを実行することにより、図7に例示する構成を機能的に実現する。図7に示す制御部は、図2の構成と比較すると、データベースフィルタ233及び機能予測フィルタ234を備えず、候補配列取得部301、保存位置取得部302、融合遺伝子フィルタ303、保存位置フィルタ304及び構造フィルタ305を備える点において異なる。図2と同様の機能ブロックについては同じ符号を付して説明を省略する。
特定の組み合わせの2つの遺伝子が染色体の転座や逆位等に起因して融合することにより、がん細胞の増殖を引き起こすことが知られている。例えば、BCR遺伝子とABL遺伝子とが染色体の転座により融合したBCR−ABL融合遺伝子は、白血病細胞を増殖させることが知られている。記憶部12には、特定の組み合わせの2つの候補遺伝子が融合した融合遺伝子においてドライバー変異を引き起こすことが知られている複数の組み合わせの候補遺伝子がコード化された塩基配列が融合遺伝子ごとにそれぞれ記憶されている。例えば、BCR遺伝子とABL遺伝子とがコード化された塩基配列が記憶部12に記憶されている。
候補配列取得部301は、特定の組み合わせの候補遺伝子が融合した融合遺伝子(以下、第1融合遺伝子)においてドライバー変異候補となる2つの候補遺伝子の塩基配列を第1融合遺伝子ごとに取得する。第2の実施形態の例では、候補配列取得部301は、記憶部12に記憶されている複数の第1融合遺伝子に含まれる2つの候補遺伝子のそれぞれの塩基配列を第1融合遺伝子ごとに記憶部12から取得する。
また、外部サーバ(不図示)が複数の第1融合遺伝子の候補遺伝子がコード化された塩基配列を記憶していてもよい。候補配列取得部301は、通信部16を介して、外部サーバから第1融合遺伝子の2つの候補遺伝子がコード化された塩基配列を第1融合遺伝子ごとに取得してもよい。
特定の候補遺伝子と他の遺伝子とが融合した融合遺伝子ががん細胞の増殖を引き起こすことがある。例えば、ALK遺伝子が他の遺伝子と融合した融合遺伝子は、がん細胞の増殖を引き起こすことが知られている。記憶部12には、他の遺伝子と融合した融合遺伝子(以下、第2融合遺伝子ともいう)においてドライバー変異候補となる複数の候補遺伝子の塩基配列が記憶されている。
候補配列取得部301は、他の遺伝子と融合した第2融合遺伝子においてドライバー変異候補となる候補遺伝子の塩基配列を取得する。例えば、候補配列取得部301は、複数の第2融合遺伝子の候補遺伝子の塩基配列を記憶部12から取得する。候補配列取得部301は、通信部16を介して、複数の第2融合遺伝子の候補遺伝子の塩基配列を外部サーバから取得してもよい。
保存位置取得部302は、異なる生物種のゲノムの間において保存された塩基配列である保存配列の位置を示す保存配列位置情報を取得する。例えば、保存位置取得部302は、保存配列位置情報を記憶部12から取得する。保存位置取得部302は、通信部16を介して、保存配列位置情報を外部サーバから取得してもよい。
基本フィルタ231は、一塩基多型に特有の処理を実行しない点を除いて、図2と同様である。基本フィルタ231は、分析の対象とする変異状態が、良性であると判断できる場合に、良性変異であることを表すスコア(例えば「4」)を設定して、ランク推定部24にその結果を出力する。また、基本フィルタ231は、分析の対象とする変異状態が、良性であると判断できなければ、良性変異でないことを表すスコア(例えば「3」)を設定し、次のフィルタとして設定されたフィルタに処理をパスする。
基本フィルタ231は、設定受入部22からがん化等を引き起こす既知の変異の塩基配列と変異状態に対応する変異した塩基配列との重複部分の長さの閾値を特定する情報と、データベースごとのパラメータ(良性か否かを判断する基準となる良性判断閾値などとして登録された値と比較される)の設定を受け入れて、当該設定に基づいて分析の対象とする変異状態が、良性であるか否かを判断する。
具体的に基本フィルタ231は、がん化等を引き起こす既知の変異の塩基配列と変異状態に対応する変異した塩基配列との重複部分が予め定めた長さの閾値より短い重複部分である場合は良性変異であることを表すスコアを設定する。また基本フィルタ231は、そうでなくても、変異状態が表す、変異の位置する領域がイントロン領域であれば、良性変異であることを表すスコアを設定する。
さらに基本フィルタ231は、上記2つの条件を満足しなくても、指定されたデータベースを検索し、検索によって変異状態が表す変異がデータベースに登録され、かつ、その変異である確率として登録された値が、当該データベースについて予め定められた良性判断閾値を超えている場合、良性変異であることを表すスコアを設定する。
時系列フィルタ232は、分析の対象とする変異状態に対応するスコアから減算する値が第1の実施形態と異なることや、時系列フィルタ232による演算後のスコアの出力先が第1の実施形態と異なることを除いて、第1の実施形態と同様である。時系列フィルタ232は、分析の対象とする変異状態に対応する、時系列情報に含まれる変異状態の情報を参照して、異なるタイミングで抽出した時系列情報においても同じ変異があったか否かを判断する。
時系列フィルタ232は、分析の対象とする変異状態と、時系列情報に含まれる対応する変異状態とを用い、同じ変異が存在する場合に、病的である可能性があるものとして分析の対象とする変異状態に対応するスコア(例えばスコアから第2所定量として「2」を引く)を決定してクオリティフィルタ235に処理をパスする。ここでの例では基本フィルタ231が処理をパスしているので、当初のスコアは「3」であり、ここで時系列フィルタ232が病的である可能性があるものとしたときには、このスコア「3」から第2所定量として「2」を引いてスコアを「1」と設定することとなる。第2所定量は、第1所定量より大きい値である。
一方、時系列フィルタ232は、分析の対象とする変異状態と、時系列情報に含まれる対応する変異状態とを用い、同じ変異が存在しないときには、スコアをそのままに設定(ここでは当初のスコアが「3」であるので、そのまま「3」に設定)して、データベースフィルタ233へ処理をパスする。
なお、時系列フィルタ232は、設定受入部22から深度や、その他のシーケンスクオリティ、変異アレル頻度等に関する閾値の設定を受けていてもよい。例えば時系列情報に含まれる対応する変異状態に係る深度がここで設定された閾値(例えば「20」)を超えない場合には、時系列フィルタ232は、同じ変異状態があったか否かを判断することなく、スコアをそのままに設定(ここでは当初のスコアが「3」であるので、そのまま「3」に設定)して、データベースフィルタ233へ処理をパスする。
さらに、この時系列フィルタ232は、第1の実施形態と同様に、データ受入部21が時系列情報を受け入れていない場合(変異塩基配列情報としては、分析の対象とする変異塩基配列情報だけを受け入れている場合)には、同じ変異状態があるか否かを判断することなく、スコアをそのままに設定(ここでは当初のスコアが「3」であるので、そのまま「3」に設定)して、データベースフィルタ233へ処理をパスしてもよい。
また設定受入部22から時系列フィルタ232を利用しない設定が入力されている場合、時系列フィルタ232は、同じ変異状態があるか否かを判断することなく、スコアをそのままに設定(ここでは当初のスコアが「3」であるので、そのまま「3」に設定)して、融合遺伝子フィルタ303へ処理をパスする。
[融合遺伝子に類似する塩基配列を含むか否かの判定]
以下、変異塩基配列情報に含まれるいずれかの変異状態に対応する変異している塩基配列を変異塩基配列ともいう。融合遺伝子フィルタ303は、候補配列取得部301が取得した第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれているか否かを判定する。より詳しくは、融合遺伝子フィルタ303は、候補配列取得部301が取得した複数の第1融合遺伝子について、第1融合遺伝子の2つの候補遺伝子がコード化された2つの塩基配列と、変異塩基配列に含まれる少なくとも一部の塩基配列との類似度が2つとも閾値以上であるか否かを第1融合遺伝子ごとに判定する。類似度は、例えば2つの塩基配列のアライメントが一致する割合により表される。2つの塩基配列のアライメントが一致する割合が閾値以上である場合に、2つの塩基配列が類似すると判定される。
一例としては、融合遺伝子フィルタ303は、候補配列取得部301が取得したBCR遺伝子とABL遺伝子とが融合したBCR−ABL第1融合遺伝子においてBCR遺伝子がコード化された塩基配列と、変異塩基配列における対応する塩基配列との類似度を求める。次に、融合遺伝子フィルタ303は、BCR−ABL第1融合遺伝子においてABL遺伝子がコード化された塩基配列と、変異塩基配列における対応する塩基配列との類似度を求める。
融合遺伝子フィルタ303は、求めた2つの類似度が2つとも閾値以上であるか否かを判定する。閾値は、例えば、第1融合遺伝子がコード化されたタンパク質の活性と、変異塩基配列が示すタンパク質の活性とが同様であることが想定される値である。
融合遺伝子フィルタ303は、求めた2つの類似度が2つとも閾値以上である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定する。
一方、融合遺伝子フィルタ303は、求めた2つの類似度のうち、少なくとも一方の類似度が閾値未満である場合に、候補配列取得部301が取得した別の第1融合遺伝子について同様の判定を繰り返す。融合遺伝子フィルタ303は、候補配列取得部301が取得した全ての第1融合遺伝子について、求めた2つの類似度の少なくとも一方が閾値未満である場合に、どの第1融合遺伝子についても、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていないと判定する。
また、融合遺伝子フィルタ303は、候補配列取得部301が取得した第1融合遺伝子の2つの候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子の2つの遺伝子の塩基配列との間の類似度がそれぞれ65%以上100%以下である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。好ましくは、融合遺伝子フィルタ303は、第1融合遺伝子の2つの候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子の2つの遺伝子の塩基配列との間の類似度がそれぞれ80%以上100%以下である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
また、融合遺伝子フィルタ303は、複数の第1融合遺伝子の候補遺伝子の組み合わせを記憶している外部サーバへ、分析対象の変異状態に対応する変異塩基配列を送信してもよい。融合遺伝子フィルタ303は、外部サーバのデータベースに登録されている第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子の融合遺伝子が変異塩基配列に含まれているか否かを調べる。融合遺伝子フィルタ303は、外部サーバのデータベースに登録されている複数の第1融合遺伝子のうち、いずれかの第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子の融合遺伝子が変異塩基配列に含まれていることを示す通知を外部サーバから受信した場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
融合遺伝子フィルタ303は、候補配列取得部301が取得した第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれているか否かを判定する。より詳しくは、融合遺伝子フィルタ303は、候補配列取得部301が取得した複数の第2融合遺伝子について、第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれる融合遺伝子の一方の遺伝子の塩基配列との類似度を第2融合遺伝子ごとに求める。融合遺伝子フィルタ303は、求めた類似度が閾値以上であるか否かを判定する。閾値は、第2融合遺伝子がコード化されたタンパク質の活性と、変異塩基配列が示すタンパク質の活性とが同様であることが想定される値である。
融合遺伝子フィルタ303は、求めた類似度が閾値以上である場合に、候補配列取得部301が取得した第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子を変異塩基配列が含むと判定する。融合遺伝子フィルタ303は、求めた類似度が閾値未満である場合に、候補配列取得部301が取得した別の第2融合遺伝子の候補遺伝子について同様の判定を繰り返す。融合遺伝子フィルタ303は、候補配列取得部301が取得した全ての第2融合遺伝子について、求めた類似度が閾値未満である場合に、どの第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子も変異塩基配列が含んでいないと判定する。
また、融合遺伝子フィルタ303は、候補配列取得部301が取得した第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子における一方の遺伝子の塩基配列との間の類似度が65%以上100%以下である場合に、第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。好ましくは、融合遺伝子フィルタ303は、第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子における一方の遺伝子の塩基配列との間の類似度が80%以上100%以下である場合に、第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
また、融合遺伝子フィルタ303は、複数の第2融合遺伝子を記憶している外部サーバへ、変異塩基配列を送信してもよい。融合遺伝子フィルタ303は、外部サーバのデータベースに登録されている複数の第2融合遺伝子の候補遺伝子のいずれかと類似する遺伝子の融合遺伝子を変異塩基配列が含んでいるか否かを調べる。融合遺伝子フィルタ303は、登録されている複数の第2融合遺伝子の候補遺伝子のいずれかと類似する遺伝子の融合遺伝子を変異塩基配列が含んでいることを示す通知を外部サーバから受信した場合に、第2融合遺伝子の候補遺伝子と類似する遺伝子を変異塩基配列が含んでいると判定してもよい。
融合遺伝子フィルタ303は、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれているか否かの判定結果によりスコアを決定する。例えば、融合遺伝子フィルタ303は、候補配列取得部301が取得した複数の第1融合遺伝子のいずれかについて、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定した場合に、病的である可能性があるものと、分析の対象とする変異状態に対応するスコアを決定して(例えばスコアから第2所定量として「2」を引く)クオリティフィルタ235に処理をパスする。
このようにして、融合遺伝子フィルタ303は、ドライバー変異である可能性が比較的高いことが知られている第1融合遺伝子の2つの候補遺伝子の塩基配列を参照して、変異状態が病的である可能性の程度をスコアにより精度よく推定することができる。
融合遺伝子フィルタ303は、第2融合遺伝子の候補遺伝子の塩基配列と類似する塩基配列の遺伝子が他の遺伝子と融合した融合遺伝子を変異塩基配列が含むか否かの判定結果によりスコアを決定する。例えば、融合遺伝子フィルタ303は、候補配列取得部301が取得した複数の第2融合遺伝子のいずれかの候補遺伝子と類似する遺伝子を変異塩基配列が含むと判定した場合に、病的な可能性があるものと分析の対象とする変異状態に対応するスコアを決定して(例えばスコアから第1所定量として「1」を引く)保存位置フィルタ304に処理をパスする。
融合遺伝子フィルタ303は、候補配列取得部301が取得した第1融合遺伝子の2つの候補遺伝子とそれぞれ類似する候補遺伝子の融合遺伝子が変異塩基配列に含まれていないと判定した場合や、第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子を変異塩基配列が含んでいないと判定した場合に、スコアをそのままに設定(ここでは当初のスコアが「3」であるので、そのまま「3」に設定)して、保存位置フィルタ304へ処理をパスする。
融合遺伝子の2つの候補遺伝子の組み合わせの一方が記憶部12に登録されていない場合であっても、特定の候補遺伝子を含む第2融合遺伝子についてはドライバー変異となる可能性があることが知られている。融合遺伝子フィルタ303は、第2融合遺伝子の候補遺伝子の塩基配列を参照することにより、変異状態が病的である可能性の程度をスコアにより精度よく提示することができる。
[保存配列の位置が変異箇所に含まれるか否かの判定]
異なる生物種のゲノムの間において保存された保存配列は、細胞の生理活性に重要な役割を果たしていることが多い。このため、保存配列の位置に変異が生じている場合、変異状態が病的である可能性が比較的高くなる。保存位置フィルタ304は、異なる生物種のゲノムの間において保存された塩基配列である保存配列の位置が、変異状態の変異箇所に含まれるか否かによりスコアを決定する。より詳しくは、保存位置フィルタ304は、保存位置取得部302が取得した保存配列位置情報が示す保存配列の位置が、変異箇所に含まれるか否かを判定する。
保存位置フィルタ304は、変異箇所に保存配列の位置が含まれると判定した場合に、病的である可能性があるものと分析の対象とする変異状態に対応するスコアを決定して(例えばスコアから第1所定量として「1」を引く)、構造フィルタ305に処理をパスする。一方、保存位置フィルタ304は、変異箇所に保存配列の位置が含まれていないと判定した場合に、スコアをそのままに設定して、構造フィルタ305へ処理をパスする。このようにして、保存位置フィルタ304は、保存配列の位置を示す情報を利用して、この変異箇所に対応する変異状態が病的である可能性の程度をスコアにより精度よく提示することができる。
[構造変異の有無の判定]
染色体の転座や重要な遺伝子の欠失、複数の遺伝子に及ぶ変異等の構造変異が生じている場合、これらの構造変異が病的である可能性は比較的高いことが知られている。構造フィルタは、変異塩基配列情報が表す変異状態が染色体の転座等の構造変異であるか否かを判定する。
構造フィルタ305は、変異塩基配列情報が表す変異状態が染色体の転座であるか否かを判定し、この判定結果によりスコアを決定する。構造フィルタ305は、変異塩基配列情報が示す変異状態に含まれる変異の内容や変異箇所を参照して、染色体の転座が生じているか否かを判定する。また、構造フィルタ305は、変異状態に対応する変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定することにより、変異状態が染色体の転座であるか否かを判定してもよい。
構造フィルタ305は、変異塩基配列情報が表す変異状態が複数の遺伝子に及ぶ変異であるか否かを判定し、この判定結果によりスコアを決定する。構造フィルタ305は、変異塩基配列情報が示すいずれかの変異状態に含まれる変異の内容や変異箇所を参照して、複数の遺伝子に及ぶ変異が生じているか否かを判定する。構造フィルタ305は、変異状態に対応する変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定することにより、変異状態が複数の遺伝子に及ぶ変異であるか否かを判定してもよい。
記憶部12には、細胞のがん化等に関与する複数の登録遺伝子を示す情報が予め登録されている。登録遺伝子を示す情報は、例えば、登録遺伝子を識別するための識別情報や登録遺伝子の染色体上の位置を示す情報である。構造フィルタ305は、変異塩基配列情報が表す変異状態が登録遺伝子の欠失であるか否かを判定し、この判定結果によりスコアを決定してもよい。構造フィルタ305は、変異塩基配列情報が示すいずれかの変異状態に含まれる変異の内容や変異箇所を参照して、記憶部12に登録されている複数の登録遺伝子のいずれかが欠失したか否かを判定する。
記憶部12には、細胞のがん化等に関与する遺伝子の発現を制御するエンハンサーの染色体上の位置情報が予め登録されている。構造フィルタ305は、転座、逆位、欠失等が生じていると判定した場合において、変異塩基配列情報が表す変異状態が記憶部12に登録されているがん遺伝子が、記憶部12に登録されているエンハンサーの近傍に位置する脱制御異常であるか否かを判定し、この判定結果によりスコアを決定してもよい。
記憶部12には、遺伝子領域のゲノムにおける向き(5’→3’, 3’→5’)の情報が予め登録されている。構造フィルタ305は、転座や欠失等により、変異塩基配列情報が表す変異状態が第1融合遺伝子や第2融合遺伝子等の融合遺伝子を形成すると判定した場合において融合遺伝子を形成する2つの遺伝子を第一候補遺伝子及び第二候補遺伝子とすると、第一候補遺伝子と第二候補遺伝子の向きがそれぞれ同一の方向であるか(例: 第一候補遺伝子5’→3’で第二候補遺伝子も 5’→3’方向、もしくは、第一候補遺伝子3’→5’で第二候補遺伝子 3’→5’の組み合わせであるか)を判定し、機能的な融合遺伝子が形成されるかの有無を判定し、この判定結果によりスコアを決定してもよい。
記憶部12には、遺伝子領域のアミノ酸翻訳(コドン)やRNAのスプライシングに関わる配列情報が予め登録されている。構造フィルタ305は、転座や欠失等により、変異塩基配列情報が表す変異状態が融合遺伝子を形成すると判定した場合において、上記項目の情報を元に機能的な融合遺伝子が形成されるかの有無を判定し、この判定結果によりスコアを決定してもよい。
また、構造フィルタ305は、変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定する。構造フィルタ305は、特定した塩基配列のゲノム上の位置と、記憶部12に登録されている複数の登録遺伝子の位置とを比較することにより、いずれかの登録遺伝子の欠失が生じたか否かを判定してもよい。
構造フィルタ305は、転座が生じていると判定した場合に、病的である可能性があるものとして分析の対象とする変異状態に対応するスコアを決定する。例えば、構造フィルタ305は、変異状態に対応するスコアから第1所定量として「1」を引く。一方、転座が生じていないと判定した場合に、分析の対象とする変異状態に対応するスコアをそのままとする。
構造フィルタ305は、複数の遺伝子に及ぶ変異が生じていると判定した場合に、病的である可能性があるものとして分析の対象とする変異状態に対応するスコア(例えば変異状態に対応するスコアから第1所定量として「1」を引く)を決定する。一方、構造フィルタ305は、複数の遺伝子に及ぶ構造変異が生じていないと判定した場合に、変異状態に対応するスコアをそのままとする。
構造フィルタ305は、記憶部12に登録されている複数の登録遺伝子のいずれかが欠失していると判定した場合に、分析の対象とする変異状態に対応するスコアから第1所定量をさらに引いてクオリティフィルタ235に処理をパスする。一方、構造フィルタ305は、記憶部12に登録されている複数の遺伝子がいずれも欠失していないと判定した場合に、分析の対象とする変異状態に対応するスコアをそのままとし、クオリティフィルタ235に処理をパスする。このようにして、構造フィルタ305は、染色体の転座や複数の遺伝子に及ぶ変異、細胞のがん化等に関与する遺伝子の欠失等の構造変異が生じているか否かを判定することにより、変異状態が病的である可能性の程度をスコアにより精度よく提示することができる。
[変異の状態のスコア評価の処理手順]
図8は、変異塩基配列情報に含まれる複数の変異状態が病的である可能性の程度を分析装置1が提示する処理手順を示すフローチャートである。この処理手順は、例えば、変異状態が病的である可能性の程度を提示する処理を開始させるユーザの指示を操作受付部(不図示)が受け付けたときに開始する。
まず、基本フィルタ231は、分析の対象とする変異塩基配列情報に含まれる、各変異状態を順次選択し(S21)、選択した変異状態について、図5のS12と同様にして、基本フィルタの表す条件により、病原性の可能性があるか否かを判定する(S22)。
そして基本フィルタ231は、選択した変異状態が病原性の可能性があると判定した場合(S22のYes)、この選択した変異状態に対応するスコアを良性変異でないことを示すスコアとして仮設定し、ステップS23に移行する。
時系列フィルタ232は、図5のS13と同様にして、時系列フィルタの表す条件により病原性の可能性があるか否かを判定し(S23)、判定結果によりスコアを設定する。時系列フィルタ232は、変異状態に病原性の可能性があると判定した場合に(S23のYes)、クオリティフィルタ235の表す条件により、クオリティが十分であるか否かを判定し(S24)、判定結果によりスコアを決定する。クオリティフィルタ235は、決定されたスコアを選択された変異状態に対応するランク値とし、選択された変異状態を特定する情報にこのランク値を関連付けて記録する(S25)。
ランク推定部24は、変異塩基配列情報に含まれる全ての変異状態を特定する情報にランク値を関連付けて記録するまで、S22以降の処理を繰り返す。出力部25は、変異塩基配列情報に含まれる変異状態のそれぞれを特定する情報と、それぞれに関連付けられたランク値とを集積して出力し(S26)、処理を終了する。
融合遺伝子フィルタ303は、ステップS23において、病原性の可能性がないと時系列フィルタ232が判定した場合(S23のNo)、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する遺伝子を融合させた融合遺伝子を、選択された変異状態に対応する変異塩基配列が含むか否かを判定する(S27)。融合遺伝子フィルタ303は、この判定結果によりスコアを決定する。
融合遺伝子フィルタ303は、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する遺伝子を融合させた融合遺伝子を変異塩基配列が含まないと判定した場合に(S27のNo)、第2融合遺伝子の候補遺伝子に類似する遺伝子の融合遺伝子を変異塩基配列が含むか否かを判定する(S28)。融合遺伝子フィルタ303は、この判定結果によりスコアを決定する。保存位置フィルタ304は、選択された変異状態に対応する変異箇所に保存配列の位置が含まれるか否かを判定し(S29)、この判定結果によりスコアを決定する。
構造フィルタ305は、選択された変異状態が各種の構造変異を含むか否かを判定する(S30)。例えば、構造フィルタ305は、選択された変異状態が染色体の転座であるか否かを判定し、判定結果によりスコアを決定する。構造フィルタ305は、選択された変異状態が複数の遺伝子に及ぶ変異であるか否かを判定し、判定結果によりスコアを決定する。構造フィルタ305は、選択された変異状態が記憶部12に登録された複数の登録遺伝子のいずれかを欠失する変異であるか否かを判定し、判定結果によりスコアを決定する。構造フィルタ305は、S30においてそれぞれの判定を実行した後、S24の処理に移る。
融合遺伝子フィルタ303は、S27の判定において第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する遺伝子を融合させた融合遺伝子を変異塩基配列が含むと判定した場合に(S27のYes)、S24の判定に移る。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
1 分析装置
11 制御部
12 記憶部
13 操作部
14 表示部
15 入出力部
16 通信部
21 データ受入部
22 設定受入部
23 フィルタ処理部
24 ランク推定部
25 出力部
231 基本フィルタ
232 時系列フィルタ
233 データベースフィルタ
234 機能予測フィルタ
235 クオリティフィルタ
301 候補配列取得部
302 保存位置取得部
303 融合遺伝子フィルタ
304 保存位置フィルタ
305 構造フィルタ

Claims (11)

  1. シーケンスアライメントにより分析の対象となる検体の遺伝情報から抽出された、塩基配列の変異箇所及び変異の内容を含む変異状態を表す変異塩基配列情報を受け入れる受入部と、
    前記受入部が受け入れた前記変異塩基配列情報が表す変異状態が予め定められた条件を満足するか否かにより決定したスコアを出力するフィルタ処理部と、
    前記フィルタ処理部が出力したスコアに基づいて、前記変異状態が病的である可能性の程度を表すランク情報を作成し、作成した前記ランク情報を出力する出力部と、
    を含む分析装置。
  2. 前記フィルタ処理部は、複数の前記変異状態それぞれが、複数の前記条件のいずれの条件を満足したかを表す記録情報をさらに生成し、
    前記出力部は、前記ランク情報に関連付けて前記記録情報を出力する、
    請求項1に記載の分析装置。
  3. 前記受入部が受け入れた前記変異塩基配列情報を保持する保持部をさらに備え、
    前記フィルタ処理部は、前記受入部が今回受け入れた前記変異塩基配列情報と、共通の個体の遺伝情報から抽出された、過去に前記受入部が受け入れた前記変異塩基配列情報と、に基づいて得られる、前記変異塩基配列情報の時系列変化に基づく前記条件を満足するか否かにより前記スコアを決定する、
    請求項1又は2に記載の分析装置。
  4. 前記フィルタ処理部は、他の遺伝子と融合した融合遺伝子においてドライバー変異候補となる候補遺伝子の塩基配列と類似する塩基配列の遺伝子が他の遺伝子と融合した融合遺伝子が前記変異状態に対応する塩基配列に含まれているか否かにより前記スコアを決定する、
    請求項1から3のいずれか一項に記載の分析装置。
  5. 前記フィルタ処理部は、特定の組み合わせの前記候補遺伝子が融合した融合遺伝子においてドライバー変異候補となる2つの当該候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が、前記変異状態に対応する塩基配列に含まれているか否かにより前記スコアを決定する、
    請求項4に記載の分析装置。
  6. 前記フィルタ処理部は、異なる生物種のゲノムの間において保存された塩基配列である保存配列の位置が前記変異状態の前記変異箇所に含まれるか否かにより前記スコアを決定する、
    請求項1から5のいずれか一項に記載の分析装置。
  7. 前記フィルタ処理部は、前記変異状態が染色体の転座であるか否かにより前記スコアを決定する、
    請求項1から6のいずれか一項に記載の分析装置。
  8. 前記フィルタ処理部は、前記変異状態が複数の遺伝子に及ぶ変異であるか否かにより前記スコアを決定する、
    請求項1から7のいずれか一項に記載の分析装置。
  9. 前記フィルタ処理部は、前記変異状態が予め登録された登録遺伝子の欠失であるか否かにより前記スコアを決定する、
    請求項1から8のいずれか一項に記載の分析装置。
  10. コンピュータが、
    シーケンスアライメントにより分析の対象となる検体の遺伝情報から抽出された、塩基配列の変異箇所及び変異の内容を含む変異状態を表す変異塩基配列情報を受け入れる工程と、
    受け入れた変異塩基配列情報が表す変異状態が予め定められた条件を満足するか否かによりスコアを決定する工程と、
    決定したスコアに基づいて、前記変異状態が病的である可能性の程度を表すランク情報を作成する工程と、
    を実行する分析方法。
  11. コンピュータに、
    シーケンスアライメントにより分析の対象となる検体の遺伝情報から抽出された、塩基配列の変異箇所及び変異の内容を含む変異状態を表す変異塩基配列情報を受け入れる受入ステップと、
    当該受け入れた変異塩基配列情報が表す変異状態が予め定められた条件を満足するか否かにより決定したスコアを出力するフィルタステップと、
    前記フィルタステップにおいて出力したスコアに基づいて、前記変異状態が病的である可能性の程度を表すランク情報を作成し、作成した前記ランク情報を出力する出力ステップと、
    を実行させるプログラム。
JP2021520435A 2019-10-08 2020-10-02 分析装置、分析方法及びプログラム Active JP7352904B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022194453A JP2023031319A (ja) 2019-10-08 2022-12-05 分析装置、分析方法及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019185444 2019-10-08
JP2019185444 2019-10-08
PCT/JP2020/037499 WO2021070739A1 (ja) 2019-10-08 2020-10-02 分析装置、分析方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022194453A Division JP2023031319A (ja) 2019-10-08 2022-12-05 分析装置、分析方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2021070739A1 true JPWO2021070739A1 (ja) 2021-11-25
JP7352904B2 JP7352904B2 (ja) 2023-09-29

Family

ID=75438219

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021520435A Active JP7352904B2 (ja) 2019-10-08 2020-10-02 分析装置、分析方法及びプログラム
JP2022194453A Pending JP2023031319A (ja) 2019-10-08 2022-12-05 分析装置、分析方法及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022194453A Pending JP2023031319A (ja) 2019-10-08 2022-12-05 分析装置、分析方法及びプログラム

Country Status (4)

Country Link
US (1) US20220223229A1 (ja)
EP (1) EP4043542A4 (ja)
JP (2) JP7352904B2 (ja)
WO (1) WO2021070739A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023102988A (ja) * 2022-01-13 2023-07-26 国立大学法人 東京大学 情報処理システム、情報処理装置、情報処理方法、及びプログラム
JP2023102987A (ja) * 2022-01-13 2023-07-26 国立大学法人 東京大学 情報処理装置、情報処理方法、及びプログラム
WO2023181370A1 (ja) * 2022-03-25 2023-09-28 国立大学法人 東京大学 情報処理装置、情報処理方法、及び情報処理プログラム

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10502539A (ja) * 1994-07-15 1998-03-10 フアーマシア・バイオテツク・アー・ベー 腫瘍新生の診断または予後判定のための腫瘍性組織の配列に基づく突然変異分析
JPH11506609A (ja) * 1995-06-07 1999-06-15 トラスティーズ オブ ダートマス カレッジ 生体液中の遺伝子配列の検出
WO2014175427A1 (ja) * 2013-04-26 2014-10-30 日本ソフトウェアマネジメント株式会社 Dnaの状態を評価する方法、装置及びプログラム
WO2014199944A1 (ja) * 2013-06-12 2014-12-18 公立大学法人横浜市立大学 重度の知的障害及び運動発達遅滞を伴う難治性てんかんの検出方法
JP2015501974A (ja) * 2011-11-07 2015-01-19 インジェヌイティ システムズ インコーポレイテッド 原因ゲノム変異の同定の方法およびシステム。
WO2015025866A1 (ja) * 2013-08-20 2015-02-26 独立行政法人国立がん研究センター 肺がんで見出された新規融合遺伝子
JP2015513529A (ja) * 2012-02-11 2015-05-14 ジェネンテック, インコーポレイテッド Rスポンジン転位およびその使用方法
WO2015083779A1 (ja) * 2013-12-06 2015-06-11 公立大学法人横浜市立大学 コフィン-サイリス症候群の検出方法
JP2017504846A (ja) * 2013-10-22 2017-02-09 アテナ ダイアグナスティクス,インコーポレイテッド ヒト臨床遺伝学のための病原性スコアリングシステム
JP2018513508A (ja) * 2015-03-16 2018-05-24 パーソナル ジノーム ダイアグノスティクス, インコーポレイテッド 核酸を分析するためのシステムおよび方法
JP2018527661A (ja) * 2015-07-29 2018-09-20 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 有意性が未知のバリアントに優先順位をつけるシステム及び方法
JP2018537980A (ja) * 2015-12-08 2018-12-27 ベーリンガー インゲルハイム インターナショナル ゲゼルシャフト ミット ベシュレンクテル ハフツング 癌治療のための非小細胞肺癌(nsclc)および甲状腺癌患者を選択するためのバイオマーカーとしてret融合遺伝子を使用する方法
JP2019511070A (ja) * 2016-02-09 2019-04-18 トマ・バイオサイエンシズ,インコーポレーテッド 核酸を解析するシステムおよび方法
WO2019079166A1 (en) * 2017-10-16 2019-04-25 Illumina, Inc. TECHNIQUES BASED ON DEEP LEARNING LEARNING OF NEURONAL NETWORKS WITH DEEP CONVOLUTION

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107710185A (zh) * 2015-06-22 2018-02-16 康希尔公司 预测基因序列变异的致病性的方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10502539A (ja) * 1994-07-15 1998-03-10 フアーマシア・バイオテツク・アー・ベー 腫瘍新生の診断または予後判定のための腫瘍性組織の配列に基づく突然変異分析
JPH11506609A (ja) * 1995-06-07 1999-06-15 トラスティーズ オブ ダートマス カレッジ 生体液中の遺伝子配列の検出
JP2015501974A (ja) * 2011-11-07 2015-01-19 インジェヌイティ システムズ インコーポレイテッド 原因ゲノム変異の同定の方法およびシステム。
JP2015513529A (ja) * 2012-02-11 2015-05-14 ジェネンテック, インコーポレイテッド Rスポンジン転位およびその使用方法
WO2014175427A1 (ja) * 2013-04-26 2014-10-30 日本ソフトウェアマネジメント株式会社 Dnaの状態を評価する方法、装置及びプログラム
WO2014199944A1 (ja) * 2013-06-12 2014-12-18 公立大学法人横浜市立大学 重度の知的障害及び運動発達遅滞を伴う難治性てんかんの検出方法
WO2015025866A1 (ja) * 2013-08-20 2015-02-26 独立行政法人国立がん研究センター 肺がんで見出された新規融合遺伝子
JP2017504846A (ja) * 2013-10-22 2017-02-09 アテナ ダイアグナスティクス,インコーポレイテッド ヒト臨床遺伝学のための病原性スコアリングシステム
WO2015083779A1 (ja) * 2013-12-06 2015-06-11 公立大学法人横浜市立大学 コフィン-サイリス症候群の検出方法
JP2018513508A (ja) * 2015-03-16 2018-05-24 パーソナル ジノーム ダイアグノスティクス, インコーポレイテッド 核酸を分析するためのシステムおよび方法
JP2018527661A (ja) * 2015-07-29 2018-09-20 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 有意性が未知のバリアントに優先順位をつけるシステム及び方法
JP2018537980A (ja) * 2015-12-08 2018-12-27 ベーリンガー インゲルハイム インターナショナル ゲゼルシャフト ミット ベシュレンクテル ハフツング 癌治療のための非小細胞肺癌(nsclc)および甲状腺癌患者を選択するためのバイオマーカーとしてret融合遺伝子を使用する方法
JP2019511070A (ja) * 2016-02-09 2019-04-18 トマ・バイオサイエンシズ,インコーポレーテッド 核酸を解析するシステムおよび方法
WO2019079166A1 (en) * 2017-10-16 2019-04-25 Illumina, Inc. TECHNIQUES BASED ON DEEP LEARNING LEARNING OF NEURONAL NETWORKS WITH DEEP CONVOLUTION

Also Published As

Publication number Publication date
JP7352904B2 (ja) 2023-09-29
US20220223229A1 (en) 2022-07-14
WO2021070739A1 (ja) 2021-04-15
JP2023031319A (ja) 2023-03-08
EP4043542A4 (en) 2022-11-23
EP4043542A1 (en) 2022-08-17

Similar Documents

Publication Publication Date Title
WO2021070739A1 (ja) 分析装置、分析方法及びプログラム
CN104937598A (zh) 靶向的测序读取值的准确且快速的定位
Yang et al. Tcrklass: a new k-string–based algorithm for human and mouse tcr repertoire characterization
Raimondi et al. Multilevel biological characterization of exomic variants at the protein level significantly improves the identification of their deleterious effects
Berry et al. The integration of ‘omic’disciplines and systems biology in cattle breeding
Kivikoski et al. Automated improvement of stickleback reference genome assemblies with Lep‐Anchor software
Wang et al. Graph-based pan-genomes: increased opportunities in plant genomics
US20180060484A1 (en) Extending assembly contigs by analyzing local assembly sub-graph topology and connections
Zheng et al. Cistrome Data Browser and Toolkit: analyzing human and mouse genomic data using compendia of ChIP-seq and chromatin accessibility data
CN112489727B (zh) 一种快速获取罕见病致病位点的方法和系统
KR101770962B1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
JP2007011996A (ja) 発現情報の解析方法及びそのシステム
JPWO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
CN110476215A (zh) 用于多序列文件的签名-散列
JP2005284964A (ja) 遺伝子発現解析システムにおけるデータ処理及び表示方法、及び、遺伝子発現解析システム
WO2023181370A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Magi et al. AUDACITY: A comprehensive approach for the detection and classification of Runs of Homozygosity in medical and population genomics
WO2023136297A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及びプログラム
WO2023136296A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN110570902A (zh) 一种拷贝数变异分析方法、系统及计算机可读存储介质
WO2024024118A1 (ja) 抗体を選択するためのシステムおよびその作動方法
Kim et al. A novel genetic variant database for Korean native cattle (Hanwoo): HanwooGDB
CN115662507B (zh) 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统
KR102405866B1 (ko) 2촌 이상 관계의 신원확인을 위한 고속 검색 장치 및 방법
Liu et al. Methods for structural variant detection with long-read sequencing data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210413

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220414

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221205

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20221207

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221226

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230104

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230303

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230728

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230907

R150 Certificate of patent or registration of utility model

Ref document number: 7352904

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150