WO2016114009A1 - 融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム - Google Patents

融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム Download PDF

Info

Publication number
WO2016114009A1
WO2016114009A1 PCT/JP2015/082934 JP2015082934W WO2016114009A1 WO 2016114009 A1 WO2016114009 A1 WO 2016114009A1 JP 2015082934 W JP2015082934 W JP 2015082934W WO 2016114009 A1 WO2016114009 A1 WO 2016114009A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
candidate
sequences
lead
fusion gene
Prior art date
Application number
PCT/JP2015/082934
Other languages
English (en)
French (fr)
Inventor
一哉 土原
慎吾 松本
幸代 三牧
Original Assignee
国立研究開発法人国立がん研究センター
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人国立がん研究センター filed Critical 国立研究開発法人国立がん研究センター
Priority to JP2016569243A priority Critical patent/JP6691871B2/ja
Publication of WO2016114009A1 publication Critical patent/WO2016114009A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/34Measuring or testing with condition measuring or sensing means, e.g. colony counters
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing

Definitions

  • the candidate lead sequence extraction unit may extract a candidate lead sequence in which the corresponding fragment of the lead sequence mapped to two locations and the virtual complementary sequence are mapped on the same chromosome. Good.
  • the fusion gene determination information generation unit 106 is a gene in which, for a group satisfying the condition (1), two fragments obtained by dividing the lead sequence are known as genes constituting the fusion gene. It is determined whether it corresponds to. Specifically, if a receptor tyrosine kinase gene such as RET, ROS1, or ALK is included, it is determined that the condition is satisfied. These kinase genes are effective in determining fusion genes and are effective in selecting therapeutic agents.
  • the fusion gene determination information generation unit 106 sets a high rank for a group having a large number of candidate read sequences constituting the group. For example, the higher the number of candidate read sequences, the higher the rank. Also, if there is more than a certain number of other division points for one division point of the candidate lead sequence constituting the group, the non-specificity of mapping is suspected, so the rank should be set low. Also good. For example, within a group, there are a candidate lead sequence having a set of dividing points (b1, b2) shown in FIG. 3 and a candidate lead sequence having a set of dividing points (b3, b4), and b1 and b3 are close to each other. However, when b2 and b4 are separated, the rank of the group may be set low.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Evolutionary Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Hematology (AREA)
  • Theoretical Computer Science (AREA)
  • Urology & Nephrology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Sustainable Development (AREA)
  • Food Science & Technology (AREA)
  • Pathology (AREA)
  • Cell Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

シーケンサから出力されるリード配列を取得するリード配列取得部と、取得したすべてのリード配列について相補配列を作成し、仮想相補配列として出力する仮想相補配列生成部と、リード配列と仮想相補配列をマッピング装置に供給し、マッピング装置による参照配列上へのマッピング結果を取得するマッピング情報取得部と、マッピング結果において、リード配列および対応する仮想相補配列が、それぞれ参照配列の2か所に分割されてマッピングされているものを候補リード配列として抽出し、抽出された候補リード配列の分割点をブレークポイント候補とする、候補リード配列抽出部と、ブレークポイント候補が所定の塩基数以内の近傍にある候補リード配列を1つのグループにまとめるグループ作成部と、グループを構成する候補リード配列の特徴や数に基づいて、各々のグループに含まれる候補リード配列が融合遺伝子由来のものであるか否かを判断するための情報を生成する、融合遺伝子判断情報生成部と、を備える。

Description

融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム
 本発明は、融合遺伝子解析装置、融合遺伝子解析方法、及びプログラムに関する。
 近年、がん治療において融合遺伝子が注目されている。例えば、特許文献1には、シーケンシング機から得られた患者のゲノムデータを、ネットワーク上に分散したデータソースなどを利用して解析し、癌などに関わる突然変異の位置や、突然変異の結果として生じる疾病についての情報を提供するシステムが開示されている。
特開2014-146318号公報
 しかしながら、特許文献1に記載された方法では、シーケンシング機から得られるゲノムデータを特に絞り込むことなく解析しているため、解析に長い時間がかかるという問題点があった。また、シーケンシングやアラインメントの段階での解析エラーを排除する処理もないため、解析の精度も十分とはいえなかった。また、特許文献1には、融合遺伝子の検出と抽出については十分に記載されていない。
 そこで本発明の目的は、融合遺伝子解析の精度向上と時間短縮を実現することである。
本発明に係る融合遺伝子解析システムは、シーケンサから出力されるリード配列を取得するリード配列取得部と、取得したすべてのリード配列について相補配列を作成し、仮想相補配列として出力する仮想相補配列生成部と、前記リード配列と前記仮想相補配列をマッピング装置に供給し、前記マッピング装置による参照配列上へのマッピング結果を取得するマッピング情報取得部と、前記マッピング結果において、前記リード配列および対応する仮想相補配列が、それぞれ前記参照配列の2か所に分割されてマッピングされているものを候補リード配列として抽出し、抽出された候補リード配列の分割点をブレークポイント候補とする、候補リード配列抽出部と、前記ブレークポイント候補が所定の塩基数以内の近傍にある候補リード配列を1つのグループにまとめるグループ作成部と、前記グループを構成する候補リード配列の特徴や数に基づいて、各々のグループに含まれる候補リード配列が融合遺伝子由来のものであるか否かを判断するための情報を生成する、融合遺伝子判断情報生成部と、を備えたものである。
 また、候補リード配列抽出部は、2か所にマッピングされた前記リード配列と前記仮想相補配列の対応する断片が、同じ染色体上にマッピングされているものを候補リード配列として抽出するようにしてもよい。
 また、前記候補リード配列抽出部は、
 2か所にマッピングされた前記リード配列と前記仮想相補配列の各断片が、所定の塩基数以上の長さを有するものを候補リード配列として抽出するようにしてもよい。
 また、前記融合遺伝子判断情報生成部は、各々のグループに含まれる候補リード配列が融合遺伝子由来のものである可能性の高さに応じて各グループをランク付けするようにしてもよい。
 また、前記融合遺伝子判断情報生成部は、前記グループを構成する候補リード配列の数が多いグループのランクを高く設定するようにしてもよい。
 また、前記融合遺伝子判断情報生成部は、前記グループを構成する候補リード配列の一方の分割点に対して、もう一方の分割点が一定数以上存在する場合には、グループのランクを低く設定するようにしてもよい。
 本発明に係る融合遺伝子解析方法は、シーケンサから出力されるリード配列を取得する工程と、取得したすべてのリード配列について相補配列を作成し、仮想相補配列として出力する工程と、前記リード配列と前記仮想相補配列をマッピング装置に供給し、前記マッピング装置による参照配列上へのマッピング結果を取得する工程と、前記マッピング結果において、前記リード配列および対応する仮想相補配列が、それぞれ前記参照配列の2か所に分割されてマッピングされているものを候補リード配列として抽出し、抽出された候補リード配列の分割点をブレークポイント候補とする工程と、前記ブレークポイント候補が所定の塩基数以内の近傍にある候補リード配列を1つのグループにまとめる工程と、前記グループを構成する候補リード配列の特徴や数に基づいて、各々のグループに含まれる候補リード配列が融合遺伝子由来のものであるか否かを判断するための情報を生成する工程と、を含むものである。
 本発明に係るプログラムは、コンピュータを、シーケンサから出力されるリード配列を取得するリード配列取得部と、取得したすべてのリード配列について相補配列を作成し、仮想相補配列として出力する仮想相補配列生成部と、前記リード配列と前記仮想相補配列をマッピング装置に供給し、前記マッピング装置による参照配列上へのマッピング結果を取得するマッピング情報取得部と、前記マッピング結果において、前記リード配列および対応する仮想相補配列が、それぞれ前記参照配列の2か所に分割されてマッピングされているものを候補リード配列として抽出し、抽出された候補リード配列の分割点をブレークポイント候補とする、候補リード配列抽出部と、前記ブレークポイント候補が所定の塩基数以内の近傍にある候補リード配列を1つのグループにまとめるグループ作成部と、前記グループを構成する候補リード配列の特徴や数に基づいて、各々のグループに含まれる候補リード配列が融合遺伝子由来のものであるか否かを判断するための情報を生成する、融合遺伝子判断情報生成部と、して機能させるものである。
本発明によれば、融合遺伝子解析の精度向上と時間短縮を実現することができる。
本発明の実施の形態による、融合遺伝子解析システムの概要を示す図。 本発明の実施の形態による、融合遺伝子解析装置の構成を示すブロック図。 本発明の実施の形態による、マッピング結果を説明する図。 本発明の実施の形態による、融合遺伝子解析システムの動作のフローチャート。 本発明の実施の形態による、融合遺伝子解析システムによる、解析の結果を示す図。
 次に、本発明を実施するための形態について、図面を参照して詳細に説明する。
 図1は、本発明の実施の形態による融合遺伝子解析システム10の構成を示すブロック図である。図に示すように、融合遺伝子解析システム10は、融合遺伝子解析装置100と、DNAシーケンサ200、遺伝子マッピング装置300を備えている。融合遺伝子解析装置100と、DNAシーケンサ200、および遺伝子マッピング装置300は、通信回線50を介して接続されている。
 図2は、融合遺伝子解析装置100の構成を示すブロック図である。図に示すように、融合遺伝子解析装置100は、リード配列取得部101、仮想相補配列生成部102、マッピング情報取得部103、候補リード配列抽出部104、グループ作成部105、融合遺伝子判断情報生成部106、表示装置107、入力装置108を備えている。
 融合遺伝子解析装置100は、CPU、ROMやRAM等のメモリ、各種の情報を格納する外部記憶装置、入力インタフェース、出力インタフェース、通信インタフェース及びこれらを結ぶバスを備える専用又は汎用のコンピュータを適用することができる。なお、融合遺伝子解析装置100は、単一のコンピュータにより構成されるものであっても、通信回線を介して互いに接続された複数のコンピュータにより構成されるものであってもよい。
 リード配列取得部101、仮想相補配列生成部102、マッピング情報取得部103、候補リード配列抽出部104、グループ作成部105、融合遺伝子判断情報生成部106は、CPUがROM等に格納された所定のプログラムを実行することにより実現される機能のモジュールに相当する。
 表示装置107は、ディスプレイ等の表示装置であり、融合遺伝子解析装置100のCPUから出力される画像信号を受けて、各種画像を表示するものである。
 入力装置108は、マウスやキーボード等を含む各種デバイスであり、ユーザが融合遺伝子解析装置100に対して各種情報の入力を行う際に使用される。
 リード配列取得部101は、DNAシーケンサ200から出力されるリード配列を取得する。DNAシーケンサ200は、シングルエンドリード方式のものでも、ペアエンドリード方式のものでもよい。また、塩基配列の解析に用いるサンプルとしてはゲノムDNAを用いる。さらに、特定領域の塩基配列のみを増幅したターゲットキャプチャーサンプルを用いることにより、解析の効率を高めることができる。
 仮想相補配列生成部102は、取得したすべてのリード配列について相補配列を作成し、仮想相補配列として出力する。具体的には、仮想相補配列生成部102は、各塩基A(アデニン)、T(チミン)、G(グアニン)、C(シトシン)の配列で構成されるリード配列を入力とし、各塩基を相補的な塩基(A→T、T→A、G→C、C→G)に変換し、逆順に並べ替えたものを、仮想相補配列として出力する。
 これにより、シングルエンドリード方式のDNAシーケンサ200を用いた場合でも、ペアエンドリード方式のように、リード配列と相補配列の組を用いてマッピングを行うことができる。さらに、本実施形態では、取得したすべてのリード配列について仮想相補配列を作成しているため、一般のペアエンドリード方式のように、限られた範囲のみの相補配列が得られるだけではなく、リード配列全体の相補配列を得ることができる。
 マッピング情報取得部103は、リード配列と仮想相補配列を遺伝子マッピング装置300に供給し、遺伝子マッピング装置300による参照配列上へのマッピングの結果を取得する。マッピング装置300は、例えばBWA(Burrows-Wheeler Alignment)-SW(smith-waterman)アルゴリズムにより、リード配列と仮想相補配列を参照配列上へマッピングする。
 候補リード配列抽出部104は、マッピング結果において、リード配列および対応する仮想相補配列が、それぞれ参照配列の2か所に分割されてマッピングされているものを候補リード配列として抽出し、抽出された候補リード配列の分割点をブレークポイント候補とする。
 融合遺伝子は、染色体間で塩基配列の位置が入れ替わる染色体転座や、染色体内の塩基配列の一部が消える間質性欠失、同一染色体内で塩基配列の位置が入れ替わる染色体逆位などによって、もともとは離れていた遺伝子同士が融合することにより形成される。
 リード配列に融合遺伝子が含まれている場合、マッピング結果においては、融合遺伝子由来のリード配列は融合箇所(ブレークポイント)を境界として2つに分割され、それぞれの断片が参照配列上の異なる位置にマッピングされる。また、仮想相補配列についても同じブレークポイントを境界として分割され、それぞれの断片が参照配列上で、対応するリード配列と同じ位置にマッピングされる。図3は、マッピング結果の例を示す図である。
 図3に示すように、リード配列(r1)と仮想相補配列(r1’)がそれぞれ2か所に分割され、それぞれの対応する配列が同じ領域にマッピングされている場合、候補リード配列抽出部104は、そのリード配列を候補リード配列として抽出する。さらに、その候補リード配列の2か所の分割点(b1、b2)をブレークポイント候補とする。
 なお、候補リード配列抽出部104が候補リード配列を抽出する際、さらに以下の条件(A)~(D)を満たすもののみを抽出するようにしてもよい。
(A)候補リード配列抽出部104は、分割されたリード配列と仮想相補配列がそれぞれ2か所(リード配列と仮想相補配列で合計4か所)のみにマッピングされ、かつ、2か所の断片を合わせることで完全なリード配列または仮想相補配列になる場合にのみ、候補リード配列とするようにしてもよい。
(B)候補リード配列抽出部104は、それぞれ2か所にマッピングされたリード配列と仮想相補配列の対応する断片が、同じ染色体上にマッピングされているものを候補リード配列として抽出するようにしてもよい。
(C)候補リード配列抽出部104は、それぞれ2か所にマッピングされたリード配列と仮想相補配列の各断片が、所定の塩基数以上の長さ(例えば10塩基以上)を有するものを候補リード配列として抽出するようにしてもよい。これにより、1塩基のみの変異などによって分割されているものを除外することができる。
(D)候補リード配列抽出部104は、融合遺伝子が同一染色体内で塩基配列の位置が入れ替わる染色体逆位の場合、2か所のブレークポイント候補が100万塩基以上離れているものを候補リード配列として抽出するようにしてもよい。
 グループ作成部105は、ブレークポイント候補が所定の塩基数以内の近傍にある候補リード配列を1つのグループにまとめる。
 図3において、候補リード配列r2~r4は、候補リード配列r1とほぼ同じ位置にブレークポイント候補を有している。このような場合、グループ作成部105は、候補リード配列r1~r4を同じブレークポイント候補を有するものとして1つのグループにまとめる。具体的には、例えば、候補リード配列の分割点が40塩基の誤差の範囲で同じであれば同じグループとするようにしてもよい。
 融合遺伝子判断情報生成部106は、グループを構成する候補リード配列の特徴や数に基づいて、各々のグループに含まれる候補リード配列が融合遺伝子由来のものであるか否かを判断するための情報(ランク付け)を生成する。
 まず、融合遺伝子判断情報生成部106は、各々のグループに含まれる候補リード配列が融合遺伝子由来のものである可能性の高さに応じて各グループをランク付けする。具体的には、各グループについて、以下の4つの絞り込み条件に当てはまるか否かの判定を行う。
(1)On gene判定
 融合遺伝子判断情報生成部106は、各グループのリード配列の分割された2つの断片について、遺伝子領域との重複があるかどうかを判定する。両方の断片が遺伝子領域と重複している場合には、条件を満たす(融合遺伝子である可能性が高い)と判定する。
(2)既知のターゲット遺伝子判定
 融合遺伝子判断情報生成部106は、(1)の条件を満たすグループについて、リード配列の分割された2つの断片が、融合遺伝子を構成する遺伝子として知られている遺伝子に該当するか否かを判定する。具体的には、RET,ROS1,ALKなどの受容体型チロシンキナーゼ遺伝子が含まれている場合には、条件を満たすと判定する。これらのキナーゼ遺伝子は、融合遺伝子判定に有効であると共に、治療薬の選択にも役立つという効果がある。
(3)In frame判定
 融合遺伝子判断情報生成部106は、(2)の条件を満たすグループについて、リード配列の断片のエクソン領域にフレームシフトが起こっていないかどうかを判定する。フレームシフトが起こっていない場合には、条件を満たすと判定する。エクソン領域にフレームシフトが起こっている場合、タンパク質が合成されないため癌治療のターゲットとしてはあまり適当ではないと考えられる。
(4)Coiled-Coil構造判定
 融合遺伝子判断情報生成部106は、(3)の条件を満たすグループについて、リード配列の断片の上流の遺伝子が、Coiled-Coil構造を持つか否かを判定し、Coiled-Coil構造を有する場合には、条件を満たすと判定する。例えば、RET,ROS1,ALKなどの受容体型チロシンキナーゼ遺伝子と融合する遺伝子断片の多くは、タンパク質間の相互作用をひきおこすCoiled-Coil構造を有しており、細胞外から増殖のシグナルを伝えるリガンドに非依存的にキナーゼを活性化することが知られている。
 融合遺伝子判断情報生成部106は、上記の(1)~(4)の判定条件について、多くの判定条件を満たしているグループほど高いランクを付与する。なお、上記のすべての条件について判定を行わず、一部の条件(例えば、(1)と(2))のみを用いてランク付けを行ってもよい。
 次に、融合遺伝子判断情報生成部106は、グループを構成する候補リード配列の数が多いグループのランクを高く設定する。例えば、候補リード配列の数が多いものほど、高いランクに設定する。また、グループを構成する候補リード配列の一方の分割点に対して、もう一方の分割点が一定数以上存在する場合は、マッピングの非特異性が疑われるため、ランクを低く設定するようにしてもよい。例えば、グループ内に、図3に示す分割点(b1、b2)の組を有する候補リード配列と、(b3、b4)という分割点の組を有する候補リード配列があり、b1とb3は近接しているが、b2とb4は離れている場合には、そのグループのランクを低く設定するようにしてもよい。
 融合遺伝子判断情報生成部106は、絞り込み条件によるランク付けと、グループを構成する候補リード配列数によるランク付けに基づいて、すべてのグループのランク付けを行う。例えば、絞り込み条件によるランク付けと、候補リード配列数によるランク付けをそれぞれポイントにし、総合ポイントが高いものほど上位のランクにするようにしてもよい。融合遺伝子判断情報生成部106は、候補リード配列をランクの高いものから順に並べたリストを、表示装置107に表示する。
 次に、融合遺伝子解析システム10の動作について説明する。
 図4は、融合遺伝子解析システム10の動作のフローチャートである。
 まず、リード配列取得部101が、DNAシーケンサ200からリード配列を取得する(ステップS1)。
 次に、仮想相補配列生成部102が、取得したすべてのリード配列について相補配列を作成し、仮想相補配列として出力する(ステップS2)。
 次に、マッピング情報取得部103が、リード配列と仮想相補配列を遺伝子マッピング装置300に入力する(ステップS3)。
 次に、遺伝子マッピング装置300が、入力されたリード配列と仮想相補配列のマッピングを行う(ステップS4)。
 次に、マッピング情報取得部103が、遺伝子マッピング装置300によるマッピングの結果を取得する(ステップS5)。
 次に、候補リード配列抽出部104が、遺伝子マッピング装置300によるマッピング結果から、候補リード配列を抽出する(ステップS6)。
 さらに、候補リード配列抽出部104は、抽出した候補リード配列のブレークポイント候補を設定する(ステップS7)。
 次に、グループ作成部105は、ブレークポイント候補が所定の塩基数以内の近傍にある候補リード配列を1つのグループにまとめる(ステップS8)。
 次に、融合遺伝子判断情報生成部106は、融合遺伝子の絞り込み条件を用いて、各グループに含まれる候補リード配列が融合遺伝子由来のものである可能性のランク付けを行う(ステップS9)。
 次に、融合遺伝子判断情報生成部106は、グループを構成する候補リード配列の数に基づいて、各グループのランク付けを行う(ステップS10)
 さらに、融合遺伝子判断情報生成部106は、絞り込み条件によるランク付けと、グループを構成する候補リード配列数によるランク付けに基づいて、すべてのグループのランク付けを行い、結果を表示装置107に表示する(ステップS11)。
 以上のように、本実施形態によれば、シーケンサから出力されるすべてのリード配列に対して仮想相補配列を作成し、リード配列と仮想相補配列のマッピング結果に基づいて候補リード配列を抽出するようにしたので、マッピングをリード配列と仮想相補配列の2重で行うためマッピングの精度が向上し、融合遺伝子解析の精度も向上させることができる。
 また、ブレークポイント候補が近い候補リード配列を1つのグループにまとめ、グループを構成する候補リード配列の特徴や数に基づいて、候補リード配列をさらに絞り込むようにしたので、最終的に解析すべき候補リード配列の数を高い精度で限定することが可能となり、融合遺伝子解析の効率を向上させ、時間短縮を図ることができる。
(実施例)
 図5は、融合遺伝子解析システム10による、解析の結果を示す図である。
 図5の例では、DNAシーケンサ200として、MiSeq(イルミナ株式会社製)とIon Torrent(サーモフィッシャーサイエンティフィック株式会社製)を用い、3種類の細胞株AD09-232T(ALK-EML4融合遺伝子陽性)、HCC78(ROS1-SCL34A2融合遺伝子陽性)、LC2/ad(CCDC6-RET融合遺伝子陽性)のサンプルを解析した結果を示している。なお、MiSeqはペアエンドリード方式のシーケンサ、Ion Torrentはシングルエンドリード方式のシーケンサである。
 入力データの「総リード数」は、DNAシーケンサ200から出力されるリード配列の数を示している。また、「リード配列/仮想相補配列」は、リード配列と仮想相補配列生成部102によって作成された仮想相補配列を合わせた数であり、総リード数の2倍に相当する。「マッピング結果」は、遺伝子マッピング装置300によるマッピング後の延べリード数(リード配列と仮想相補配列の合計)を示している。ここでは、BWA-SW方式によりマッピングを行っている。
 「マップ箇所数別分類」には、各々のリードについて、リード配列と対応する仮想相補配列が、合わせて何か所にマップされているかによって分類した結果を示している。上述のように、リード配列と対応する仮想相補配列がそれぞれ2か所、すなわち合計で「4か所」にマッピングされているものが、候補リード配列として抽出される対象となる。さらに、候補リード配列抽出部104によって、上述の所定の条件で絞り込みが行われ、最終的に抽出された候補リード配列の数が「候補リード配列数」として示されている。
 さらに、グループ作成部105によってまとめられたグループの数が「グループ数」として示されている。さらに、融合遺伝子判断情報生成部106によってOn gene判定の条件を満たすと判定された候補リード配列の数が「On gene候補数」として示されている。さらに、On gene候補のうち、融合遺伝子判断情報生成部106によって、既知のターゲット遺伝子判定の条件を満たすと判定された候補リード配列の数が「RET/ROS1/ALK候補数」として示されている。「RET/ROS1/ALK候補数」を見ると、各サンプルについて、融合遺伝子の候補となるリード配列が639,924,271まで絞り込まれている。
 以上のように、各サンプルについて、融合遺伝子の候補リード数をシーケンサから出力される総リード数から大幅に減少させることができる。
 10 融合遺伝子解析システム、50 通信回線、100 融合遺伝子解析装置、101 リード配列取得部、102 仮想相補配列生成部、103 マッピング情報取得部、104 候補リード配列抽出部、105 グループ作成部、106 融合遺伝子判断情報生成部、107 表示装置、108 入力装置、200 DNAシーケンサ、300 遺伝子マッピング装置

Claims (8)

  1.  シーケンサから出力されるリード配列を取得するリード配列取得部と、
     取得したすべてのリード配列について相補配列を作成し、仮想相補配列として出力する仮想相補配列生成部と、
     前記リード配列と前記仮想相補配列をマッピング装置に供給し、前記マッピング装置による参照配列上へのマッピング結果を取得するマッピング情報取得部と、
     前記マッピング結果において、前記リード配列および対応する仮想相補配列が、それぞれ前記参照配列の2か所に分割されてマッピングされているものを候補リード配列として抽出し、抽出された候補リード配列の分割点をブレークポイント候補とする、候補リード配列抽出部と、
     前記ブレークポイント候補が所定の塩基数以内の近傍にある候補リード配列を1つのグループにまとめるグループ作成部と、
     前記グループを構成する候補リード配列の特徴や数に基づいて、各々のグループに含まれる候補リード配列が融合遺伝子由来のものであるか否かを判断するための情報を生成する、融合遺伝子判断情報生成部と、を備えた融合遺伝子解析装置。
  2.  前記候補リード配列抽出部は、
     2か所にマッピングされた前記リード配列と前記仮想相補配列の対応する断片が、同じ染色体上にマッピングされているものを候補リード配列として抽出する、請求項1に記載の融合遺伝子解析装置。
  3.  前記候補リード配列抽出部は、
     2か所にマッピングされた前記リード配列と前記仮想相補配列の各断片が、所定の塩基数以上の長さを有するものを候補リード配列として抽出する、請求項1に記載の融合遺伝子解析装置。
  4.  前記融合遺伝子判断情報生成部は、
     各々のグループに含まれる候補リード配列が融合遺伝子由来のものである可能性の高さに応じて各グループをランク付けする、請求項1に記載の融合遺伝子解析装置。
  5.  前記融合遺伝子判断情報生成部は、
     前記グループを構成する候補リード配列の数が多いグループのランクを高く設定する、請求項4に記載の融合遺伝子解析装置。
  6.  前記融合遺伝子判断情報生成部は、
     前記グループを構成する候補リード配列の一方の分割点に対して、もう一方の分割点が一定数以上存在する場合には、グループのランクを低く設定する、請求項4に記載の融合遺伝子解析装置。
  7.  シーケンサから出力されるリード配列を取得する工程と、
     取得したすべてのリード配列について相補配列を作成し、仮想相補配列として出力する工程と、
     前記リード配列と前記仮想相補配列をマッピング装置に供給し、前記マッピング装置による参照配列上へのマッピング結果を取得する工程と、
     前記マッピング結果において、前記リード配列および対応する仮想相補配列が、それぞれ前記参照配列の2か所に分割されてマッピングされているものを候補リード配列として抽出し、抽出された候補リード配列の分割点をブレークポイント候補とする工程と、
     前記ブレークポイント候補が所定の塩基数以内の近傍にある候補リード配列を1つのグループにまとめる工程と、
     前記グループを構成する候補リード配列の特徴や数に基づいて、各々のグループに含まれる候補リード配列が融合遺伝子由来のものであるか否かを判断するための情報を生成する工程と、を含む融合遺伝子解析方法。
  8.  コンピュータを、
     シーケンサから出力されるリード配列を取得するリード配列取得部と、
     取得したすべてのリード配列について相補配列を作成し、仮想相補配列として出力する仮想相補配列生成部と、
     前記リード配列と前記仮想相補配列をマッピング装置に供給し、前記マッピング装置による参照配列上へのマッピング結果を取得するマッピング情報取得部と、
     前記マッピング結果において、前記リード配列および対応する仮想相補配列が、それぞれ前記参照配列の2か所に分割されてマッピングされているものを候補リード配列として抽出し、抽出された候補リード配列の分割点をブレークポイント候補とする、候補リード配列抽出部と、
     前記ブレークポイント候補が所定の塩基数以内の近傍にある候補リード配列を1つのグループにまとめるグループ作成部と、
     前記グループを構成する候補リード配列の特徴や数に基づいて、各々のグループに含まれる候補リード配列が融合遺伝子由来のものであるか否かを判断するための情報を生成する、融合遺伝子判断情報生成部と、して機能させるプログラム。
PCT/JP2015/082934 2015-01-16 2015-11-24 融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム WO2016114009A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016569243A JP6691871B2 (ja) 2015-01-16 2015-11-24 融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-007103 2015-01-16
JP2015007103 2015-01-16

Publications (1)

Publication Number Publication Date
WO2016114009A1 true WO2016114009A1 (ja) 2016-07-21

Family

ID=56405566

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/082934 WO2016114009A1 (ja) 2015-01-16 2015-11-24 融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP6691871B2 (ja)
WO (1) WO2016114009A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815491A (zh) * 2016-12-29 2017-06-09 安诺优达基因科技(北京)有限公司 一种用于检测ffpe样本基因融合的装置
CN106845150A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测循环肿瘤dna样本基因融合的装置
WO2020001663A3 (zh) * 2018-06-27 2020-02-13 苏州金唯智生物科技有限公司 基因测序结果类型的检测方法、装置、设备及存储介质
JP2020534011A (ja) * 2017-09-20 2020-11-26 ライフ テクノロジーズ コーポレイション 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014502513A (ja) * 2011-01-14 2014-02-03 キージーン・エン・フェー ペアエンドランダムシーケンスに基づく遺伝子型解析
WO2014078739A1 (en) * 2012-11-15 2014-05-22 The General Hospital Corporation Methods and systems for diagnosing prenatal abnormalities
JP2014533858A (ja) * 2011-11-18 2014-12-15 ザ・リージェンツ・オブ・ザ・ユニバーシティー・オブ・カリフォルニアThe Regents Of The University Of California Bambam:高スループット配列決定データの並列比較分析
WO2015083004A1 (en) * 2013-12-02 2015-06-11 Population Genetics Technologies Ltd. Method for evaluating minority variants in a sample

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014502513A (ja) * 2011-01-14 2014-02-03 キージーン・エン・フェー ペアエンドランダムシーケンスに基づく遺伝子型解析
JP2014533858A (ja) * 2011-11-18 2014-12-15 ザ・リージェンツ・オブ・ザ・ユニバーシティー・オブ・カリフォルニアThe Regents Of The University Of California Bambam:高スループット配列決定データの並列比較分析
WO2014078739A1 (en) * 2012-11-15 2014-05-22 The General Hospital Corporation Methods and systems for diagnosing prenatal abnormalities
WO2015083004A1 (en) * 2013-12-02 2015-06-11 Population Genetics Technologies Ltd. Method for evaluating minority variants in a sample

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815491A (zh) * 2016-12-29 2017-06-09 安诺优达基因科技(北京)有限公司 一种用于检测ffpe样本基因融合的装置
CN106845150A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测循环肿瘤dna样本基因融合的装置
CN106815491B (zh) * 2016-12-29 2021-11-16 浙江安诺优达生物科技有限公司 一种用于检测ffpe样本基因融合的装置
CN106845150B (zh) * 2016-12-29 2021-11-16 浙江安诺优达生物科技有限公司 一种用于检测循环肿瘤dna样本基因融合的装置
JP2020534011A (ja) * 2017-09-20 2020-11-26 ライフ テクノロジーズ コーポレイション 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
JP7171709B2 (ja) 2017-09-20 2022-11-15 ライフ テクノロジーズ コーポレイション 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
JP7373047B2 (ja) 2017-09-20 2023-11-01 ライフ テクノロジーズ コーポレイション 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
WO2020001663A3 (zh) * 2018-06-27 2020-02-13 苏州金唯智生物科技有限公司 基因测序结果类型的检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP6691871B2 (ja) 2020-05-13
JPWO2016114009A1 (ja) 2017-11-02

Similar Documents

Publication Publication Date Title
Van Dam et al. Gene co-expression analysis for functional classification and gene–disease predictions
US10262105B2 (en) Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
Wang et al. Accurate de novo prediction of protein contact map by ultra-deep learning model
US10600217B2 (en) Methods for the graphical representation of genomic sequence data
Schrinner et al. Haplotype threading: accurate polyploid phasing from long reads
CN107615283B (zh) 用于二倍体基因组组装和单倍型序列重建的方法、软件和系统
JP7166434B2 (ja) 生殖細胞系列および体細胞変異の呼び出しのためにニューラルネットワークを使用するシステムおよび方法
Ali et al. Alignment-free protein interaction network comparison
WO2016114009A1 (ja) 融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム
TWI740262B (zh) 一種基因變異識別方法、裝置和儲存介質
US20180060484A1 (en) Extending assembly contigs by analyzing local assembly sub-graph topology and connections
Niu et al. Predicting DNA binding proteins using support vector machine with hybrid fractal features
CN111180013A (zh) 检测血液病融合基因的装置
CN108256291A (zh) 一种生成具有较高可信度基因突变检测结果的方法
JP2005176730A (ja) cDNA配列をゲノム配列にマッピングする方法
CN114446393B (zh) 用于预测肝癌特征类型的方法、电子设备和计算机存储介质
WO2021023142A1 (zh) 基因比对技术
Yang et al. InDel marker detection by integration of multiple softwares using machine learning techniques
Shi et al. CTPredictor: A comprehensive and robust framework for predicting cell types by integrating multi-scale features from single-cell Hi-C data
Beaumeunier et al. The Role of Machine Learning in Finding Chimeric RNAs
WO2016143062A1 (ja) 配列データ解析装置、dna解析システムおよび配列データ解析方法
Wei et al. invMap: a sensitive mapping tool for long noisy reads with inversion structural variants
Guo et al. Du D (2021) Testing Gene-Gene Interactions Based on a Neighborhood Perspective in Genome-wide Association Studies
KR20220037376A (ko) 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치
KR20220102170A (ko) 암 세포 사멸을 위한 승객 유전자 모듈을 결정하는 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15877961

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016569243

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15877961

Country of ref document: EP

Kind code of ref document: A1