WO2020008968A1

WO2020008968A1 - 情報処理システム、変異検出システム、記憶媒体および情報処理方法

Info

Publication number: WO2020008968A1
Application number: PCT/JP2019/025290
Authority: WO
Inventors: 萩原　久; 喜典三品; 英房山本; 侑子菅
Original assignee: 日本電気株式会社
Priority date: 2018-07-03
Filing date: 2019-06-26
Publication date: 2020-01-09
Also published as: EP3819906A4; EP3819906A1; JPWO2020008968A1; JP7129015B2; US20210158896A1

Abstract

被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得部と、該機能性予測結果取得部で取得した結果から人工変異の導入を判定する判定部と、を備える、ことを特徴とする情報処理システムが提供される。

Description

情報処理システム、変異検出システム、記憶媒体および情報処理方法

　本発明は、情報処理システム、変異検出システム、記憶媒体および情報処理方法に関する。

　特許文献１には、試料中の大豆事象ＭＯＮ８７７０５に対応するＤＮＡ（DeoxyriboNucleic　Acid）の存在を検出する方法が記載されている。また、特許文献２には、ゲノムＤＮＡの任意部位を標的とするガイドＲＮＡ（RiboNucleic　Acid）１およびその発現カセットからなる群より選択される少なくとも１種等を細胞または非ヒト生物に導入するステップを含むゲノム編集方法が記載されている。さらに、特許文献３には、二本鎖ＤＮＡの標的化された部位を改変する方法が記載されている。

特表２０１２－５０３９８９号公報特開２０１８－０１１５２５号公報特許第６２０６８９３号公報

　特許文献１に記載の方法では、不特定の人工変異部位を検出することができない。また特許文献２および３には、人工変異部位を検出する方法について記載されていない。

　本発明の目的は、上述した課題を鑑み、核酸配列における不特定の人工変異部位の検出を可能にする情報処理システム、変異検出システム、記憶媒体および情報処理方法を提供することにある。

　本発明の一観点によれば、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得部と、該機能性予測結果取得部で取得した結果から人工変異の導入を判定する判定部と、を備える、ことを特徴とする情報処理システムが提供される。

　本発明の他の観点によれば、細胞またはウイルスからゲノムを抽出し、精製するゲノム精製部と、該ゲノム精製部で得られたゲノムの配列を決定するゲノム配列決定部と、上記情報処理システムと、を備えることを特徴とする、変異検出システムが提供される。

　本発明のさらに他の観点によれば、コンピュータに、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子の配列について、機能性を予測した結果を取得し、該機能性を予測した結果から人工変異の導入を判定する、ことを実行させる、ことを特徴とする情報処理プログラムを記憶した記憶媒体が提供される。

　本発明のまたさらに他の観点によれば、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得ステップと、該機能性予測結果取得ステップで取得した結果から人工変異の導入を判定するステップと、を有する、ことを特徴とする情報処理方法が提供される。

　本発明によれば、核酸配列における不特定の人工変異部位の検出を可能にする情報処理システム、変異検出システム、記憶媒体および情報処理方法を提供することができる。

第１実施形態に係る情報処理システムのハードウェア構成例を示すブロック図である。第１実施形態に係る情報処理システムの機能ブロック図である。第１実施形態に係る情報処理システムにより行われる処理の概略を示すフローチャートである。比較解析を説明するための模式図である。検査対象遺伝子を含む領域を一部または全部含む固有配列部分の選抜を説明するための模式図である。変異導入部分を特定するためのアラインメントを説明するための模式図である。参照ゲノムと異なる配列を有し、ＰＡＭ配列およびターゲット配列を含む変異導入部位の被検ゲノムの配列からの抽出を説明するための模式図である。第２実施形態に係る変異検出システムのハードウェア構成例を示すブロック図である。第２実施形態に係る変異検出システムの機能ブロック図である。第３実施形態に係る情報処理システムの機能ブロック図である。

　以下、図面を参照して、本発明の例示的な実施形態を説明する。図面において同様の要素または対応する要素には同一の符号を付し、その説明を省略または簡略化することがある。

　［第１実施形態］
　図１は、本実施形態に係る情報処理システム１０のハードウェア構成例を示すブロック図である。情報処理システム１０は、例えば、人工変異部位検出装置であり得る。また、情報処理システム１０は、比較情報処理システムとしてもよい。情報処理システム１０は、コンピュータの機能を有する。例えば、情報処理システム１０は、デスクトップＰＣ（Personal　Computer）、ラップトップＰＣ、タブレットＰＣ、スマートフォン等と一体に構成されていてもよい。情報処理システム１０は核酸配列における不特定の人工変異部位を検出する機能を備える。情報処理システム１０は、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果から人工変異の導入を判定することで、人工変異部位を検出できる。

　情報処理システム１０は、例えば、違法薬物の生産のために編集された植物のゲノムにおける人工変異部位の検出、筋肉増強を目的として人為的に変異が導入された組織中のゲノムにおける人工変異部位の検出、ヒトの組織における個体識別領域の改変を目的とした人工変異部位の検出、生物兵器等の製造を目的として脳などの組織に導入された人工変異部位の検出等に適用され得る。

　情報処理システム１０は、演算および記憶を行うコンピュータとしての機能を実現するため、ＣＰＵ（Central　Processing　Unit）１０１、ＲＡＭ（Random　Access　Memory）１０２、ＲＯＭ（Read　Only　Memory）１０３およびＨＤＤ（Hard　Disk　Drive）１０４を備える。また、情報処理システム１０は、通信Ｉ／Ｆ（インターフェース）１０５、表示装置１０６および入力装置１０７を備える。ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３、ＨＤＤ１０４、通信Ｉ／Ｆ１０５、表示装置１０６および入力装置１０７は、バス１１０を介して相互に接続される。なお、表示装置１０６および入力装置１０７は、これらの装置を駆動するための不図示の駆動装置を介してバス１１０に接続されてもよい。

　図１では、情報処理システム１０を構成する各部が一体の装置として図示されているが、これらの機能の一部は外付け装置により構成されていてもよい。例えば、表示装置１０６および入力装置１０７は、ＣＰＵ１０１等を含むコンピュータの機能を構成する部分とは別の外付け装置であってもよい。

　ＣＰＵ１０１は、ＲＯＭ１０３、ＨＤＤ１０４等に記憶されたプログラムに従って所定の動作を行うとともに、情報処理システム１０の各部を制御する機能をも有する。ＲＡＭ１０２は、揮発性記憶媒体から構成され、ＣＰＵ１０１の動作に必要な一時的なメモリ領域を提供する。ＲＯＭ１０３は、不揮発性記憶媒体から構成され、情報処理システム１０の動作に用いられるプログラム等の必要な情報を記憶する。ＨＤＤ１０４は、不揮発性記憶媒体から構成され、ゲノム配列等の記憶を行う記憶装置である。

　通信Ｉ／Ｆ１０５は、Ｗｉ－Ｆｉ（登録商標）、４Ｇ等の規格に基づく通信インターフェースであり、他の装置との通信を行うためのモジュールである。表示装置１０６は、液晶ディスプレイ、ＯＬＥＤ（Organic　Light　Emitting　Diode）ディスプレイ等であって、動画、静止画、文字等の表示に用いられる。入力装置１０７は、ボタン、タッチパネル、キーボード、ポインティングデバイス等であって、利用者が情報処理システム１０を操作するために用いられる。表示装置１０６および入力装置１０７は、タッチパネルとして一体に形成されていてもよい。

　なお、図１に示されているハードウェア構成は例示であり、これら以外の装置が追加されていてもよく、一部の装置が設けられていなくてもよい。また、一部の装置が同様の機能を有する別の装置に置換されていてもよい。さらに、一部の機能がネットワークを介して他の装置により提供されてもよく、本実施形態を構成する機能が複数の装置に分散されて実現されるものであってもよい。例えば、ＨＤＤ１０４は、フラッシュメモリ等の半導体素子を用いたＳＳＤ（Solid　State　Drive）に置換されていてもよく、クラウドストレージに置換されていてもよい。

　図２は、本実施形態に係る情報処理システム１０の機能ブロック図である。情報処理システム１０は、機能性予測結果取得部１２１、変異導入部分特定部１２２、変異導入部位抽出部１２３、判定部１２４、表示部１２５および記憶部１２６を有する。

　ＣＰＵ１０１は、ＲＯＭ１０３等に記憶されたプログラムをＲＡＭ１０２にロードして実行することにより、機能性予測結果取得部１２１、変異導入部分特定部１２２、変異導入部位抽出部１２３および判定部１２４の機能を実現する。これらの各部で行われる処理については後述する。表示部１２５は、機能性予測結果取得部１２１、変異導入部分特定部１２２、変異導入部位抽出部１２３および判定部１２４で取得あるいは抽出された情報を表示する。ＣＰＵ１０１は、表示装置１０６を制御することにより表示部１２５の機能を実現する。記憶部１２６は、機能性予測結果取得部１２１、変異導入部分特定部１２２、変異導入部位抽出部１２３および判定部１２４で取得あるいは抽出されたデータ等を記憶する。ＣＰＵ１０１は、ＨＤＤ１０４を制御することにより記憶部１２６の機能を実現する。

　図３は、本実施形態に係る情報処理システム１０により行われる処理の概略を示すフローチャートである。図３のフローチャートに沿って情報処理システム１０により行われる処理の概略を説明する。なお、以下の説明において、配列という語がゲノムあるいは遺伝子に係る語として用いられるときは、それぞれゲノムあるいは遺伝子の塩基配列を指す場合がある。

　図３のステップＳ１０１において、機能性予測結果取得部１２１は、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する。被検ゲノムは、人為的に変異が導入されたことの有無を検査する対象となるゲノムであり、参照ゲノムは、人為的に変異が導入される前の被検ゲノムと相同的な配列を有するゲノムである。また、検査対象遺伝子は、検出対象とする人工変異の導入により獲得されることが想定される形質に寄与する遺伝子である。

　被検ゲノムを有する個体としては、ゲノムを有する個体であれば特に制限がなく、例えば、ヒト、ヒト以外の動物、植物、酵母、カビ、真性細菌およびウイルス等が挙げられる。

　参照ゲノムは、被検ゲノムを有する個体の親株のゲノムであることが好ましい。親株としては、被検ゲノムを有する個体の一世代前の個体もしくは被検ゲノムを有する個体のクローンが挙げられる。これら一世代前の個体のゲノムもしくは被検ゲノムを有する個体のクローンのゲノムは、被検ゲノムと同一の配列を有する。つまり、人工変異部位以外の配列が本来同じであるため、人工変異部位の検出の負荷が小さくて済み、また誤検出の可能性も低くすることができる。

　被検ゲノムを有する個体が複数の組織を有する高等な生物である場合は、同一個体の、被検ゲノムを有する組織とは異なる組織のゲノム配列も本来同一の配列を有する。そのため、先に述べたのと同じ理由で、参照ゲノムは、被検ゲノムを有する個体の組織であって、前記被検ゲノムを有する組織とは異なる組織が有するゲノムであることが好ましい。

　また、例えば、被検ゲノムを有する組織と同じ組織の一部が、ゲノム編集を受けるよりも前に採取され、保管されていたと推定される場合は、この編集を受ける前の、被検ゲノムを有する組織と同じ組織から参照ゲノムを得ることもできる。この場合、被検ゲノムと参照ゲノムは、互いに同一個体の同一組織に由来するため、本来同一の配列を有する。よって、先に述べたのと同じ理由で、参照ゲノムは、被検ゲノムを有する組織と同じ組織から得られたゲノムであって、被検ゲノムよりも先に得られたゲノムであることが好ましい。

　被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子は、例えば、次のようにして定めることができる。

　機能性予測結果取得部１２１は、まず、被検ゲノムの配列と、参照ゲノムの配列とを比較解析することで、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する部分を特定する。なお、比較解析による被検ゲノムの配列中の、参照ゲノムと異なる配列を有する部分の特定は、情報処理システム１０とは別の情報処理システムが行っても良い。

　比較解析に供する被検ゲノムの配列および参照ゲノムの配列としては、全ゲノムの配列でも良いし、変異が導入される可能性のある部位が特定の領域に限られる場合は、その特定の領域のゲノムの配列でも良い。導入された変異をもらさずに全て検出できることから、全ゲノムの配列を取得し、全ゲノムの配列を比較解析に供することが好ましい。ただし、変異の導入部位が特定の領域に限られることの確かさが高いときは、特定の領域に限ってゲノムの配列を取得しても良い。例えば、特定の形質を獲得するのに関わる遺伝子が、特定の候補に限られることが明らかであるような場合は、その候補となる遺伝子に対応する領域のゲノム配列のみを取得しても良い。

　被検ゲノムの配列および参照ゲノムの配列は、細胞、または個体がウイルスの場合はウイルス本体からゲノムを抽出し、抽出したゲノムの塩基配列を解析することで決定することができる。細胞は、例えば、個体が酵母やカビ等であれば、個体をそのままゲノム抽出に供する細胞として用いることができる。また、例えば、個体がヒト、ヒト以外の動物および植物であれば、組織の一部を採取してゲノム抽出に供する細胞として用いることができる。このとき、例えば個体がヒトやヒト以外の動物であれば、無痛で採取できる口腔内細胞や唾液を、ゲノム抽出に供する組織として用いることができる。

　細胞、またはウイルス本体からのゲノムの抽出は、ゲノムを有する個体に合わせた適切な処理を施すことにより行うことができる。またゲノムを有する個体に合わせて適切な市販のキット等を用いて行っても良い。例えば、ヒトの口腔内細胞等から抽出する場合であれば、NucleoSpin（登録商標） DNA Forensic（タカラバイオ社製）等を用いることができる。

　抽出により得られたゲノムの塩基配列は、例えば、NextSeq シリーズ、HiSeq X シリーズ（イルミナ社製）やPacBio（登録商標） RS II/Sequel（登録商標）システム（パックバイオ社製）等の市販のＤＮＡシーケンサーを用いることにより決定することができる。

　参照ゲノムの配列としては、ＮＨＧＲＩ（National　Human　Genome　Research　Institute）、ＮＣＢＩ（National　Center　for　Biotechnology　Information）、ＤＤＢＪ（DNA　Data　Bank　of　Japan）センターおよび東北メディカル・メガバンク機構等の公的機関により公開されているデータベースにある配列を用いてもよい。データベースから配列を取得する場合は、参照ゲノムの配列と相同性が高い配列を選択して用いる。参照ゲノムの配列と相同性が高い配列としては、例えば、同じ種に属する個体のゲノム配列が挙げられる。

　比較解析は、例えば、ＢＬＡＳＴＺ等の比較解析プログラムにより行うことができる。図４は比較解析を説明するための模式図である。比較解析では、被検ゲノムの配列４０１と、参照ゲノムの配列４０２を比較し、参照ゲノム中の部分配列４０３と対応する部位であり、参照ゲノム中の部分配列４０３と異なる配列を有する被検ゲノム中の変異部位４０４を特定する。比較解析により特定した、変異部位４０４は、具体的には、参照ゲノムと比較したときに１つ以上の塩基が欠失、挿入または置換された部分である。

　変異部位は、人工変異部位、自然変異（突然変異）部位および種の多様性に起因する部位を含む。これらのうち、参照ゲノムを、親株のゲノムあるいは同一個体の組織が有するゲノムとすることで、固有配列部分に種の多様性に起因する部位が含まれないようにすることができる。そのため、人工変異部位の検出の負荷が小さくなり、また誤検出の可能性も低くすることができる。

　続いて、機能性予測結果取得部１２１は、変異部位と、変異部位に隣接する参照ゲノムと同一の配列の一部とを含む配列を固有配列部分とし、固有配列部分のうち、検査対象遺伝子を含む領域を一部または全部含む固有配列部分を選抜する。なお、検査対象遺伝子を含む領域を一部または全部含む固有配列部分の選抜は、情報処理システム１０とは別の情報処理システムが行っても良い。固有配列部分が含む、参照ゲノムと同一の配列の長さは、任意に定めることができる。選抜された固有配列部分中の、検査対象遺伝子に対応する配列部分が、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子である。

　検査対象遺伝子を含む領域を一部または全部含む固有配列部分の選抜は、具体的には、例えば、次のようにして行うことができる。

　図５は、検査対象遺伝子を含む領域を一部または全部含む固有配列部分の選抜を説明するための模式図である。まず、機能性予測結果取得部１２１は、全ての固有配列部分５０１の配列を母集団５０２として第１の検査用対照配列５０３および第２の検査用対照配列５０４の相同性検索を行う。

　第１の検査用対照配列５０３は、検査対象遺伝子の一部の配列または全配列を含む配列である。検査対象遺伝子の配列は、例えば、ＮＨＧＲＩ、ＮＣＢＩ、ＤＤＢＪセンターおよび東北メディカル・メガバンク機構等の公的機関により公開されているデータベースより取得することができる。人工変異部位の検出の感度を高めるため、第１の検査用対照配列５０３は長いほど好ましく、検査対象遺伝子の全配列を含むことが最も好ましい。

　また、第２の検査用対照配列５０４は、検査対象遺伝子の配列に隣接する配列である。第２の検査用対照配列５０４として用いる検査対象遺伝子の配列に隣接する配列は、検査対象遺伝子の配列の上流の配列でも良いし下流の配列でも良い。また、第２の検査用対照配列５０４は複数用意してもよい。例えば、図５に示すように、検査対象遺伝子の配列の上流に隣接する配列である第２の検査用対照配列５０４と、検査対象遺伝子の配列の下流に隣接する配列である第２の検査用対照配列５０４とを用意して用いても良い。第２の検査用対照配列の長さは任意に定めることができるが、固有配列部分５０１が含む、参照ゲノムと同一の配列の長さよりも短いことが好ましい。第２の検査用対照配列を、固有配列部分５０１が含む、参照ゲノムと同一の配列の長さよりも短くすることで、相同性検索による検索漏れを抑制することができる。

　続いて、機能性予測結果取得部１２１は、相同性検索により検索された固有配列部分５０１の配列と、第１の検査用対照配列５０３との相同性、および／または第２の検査用対照配列５０４との相同性が、規定値よりも高い固有配列部分５０１を選抜する。選抜された固有配列部分５０１は、検査対象遺伝子領域を一部または全部含む部分である。判断基準となる相同性の規定値は、検査対象遺伝子等に応じて任意に定めることができる。

　人工変異が検査対象遺伝子に導入されている場合であって、導入された変異が検査対象遺伝子の配列を大きく変更するものでない場合は、その変異が導入された検査対象遺伝子を含む固有配列部分は、第１の検査用対照配列と高い相同性を有し、選抜される。

　人工変異が検査対象遺伝子に導入されている場合であって、導入された変異が検査対象遺伝子の配列を大きく変更するものである場合は、その変異が導入された検査対象遺伝子を含む固有配列部分は、第１の検査用対照配列との相同性が低くなる。しかし固有配列部分は、参照ゲノムと異なる配列に隣接する参照ゲノムと同一の配列を一部含む。すなわち、固有配列部分は、変異が導入された検査対象遺伝子に隣接する、変異が導入されていない配列を含み、この配列は、第２の検査用対照配列に対応する部分である。そのため、導入された変異が検査対象遺伝子の配列を大きく変更するものである場合、例えば検査対象遺伝子を全て欠失させるような変異であっても、第２の検査用対照配列と高い相同性を有する固有配列部分として選抜することができる。

　ただし、機能性予測結果取得部１２１は、固有配列部分中の変異部位が、第１の検査用対照配列に対応する部分に含まれず、第２の検査用対照配列に対応する部分に含まれる場合は、その固有配列部分を選抜しない。そのような固有配列部分は、検出の対象とする人工変異ではないと考えられるためである。

　被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子の機能性の予測は、対象とする検査対象遺伝子に合わせて予め定めた基準に沿って行うことができる。ここで機能性とは、人工変異の導入により想定される形質の獲得を意味する。

　すなわち、例えば、検査対象遺伝子が導入された変異により本来有する機能を失うことで、想定された形質が獲得される場合は、検査対象遺伝子が本来有する機能を失う変異であるか否かを判断する基準を予め定める。検査対象遺伝子の特に上流側（５’末端側）における３の倍数でない塩基数の挿入または欠失は、遺伝子発現の翻訳過程でフレームシフトを起こすことから、検査対象遺伝子が本来有する機能を失う変異である可能性が高い。また、検査対象遺伝子の特に上流側（５’末端側）に、塩基置換または挿入により終止コドンが導入される変異も、遺伝子発現の転写過程で未成熟な伝令ＲＮＡを生成する原因となることから、検査対象遺伝子が本来有する機能を失う変異である可能性が高い。さらに、検査対象遺伝子の大半または全てを欠失させる変異も、検査対象遺伝子が本来有する機能を失う変異となり得る。

　また、例えば、被検ゲノム中には本来存在しない検査対象遺伝子が変異として導入され、検査対象遺伝子が有する機能により、想定された形質が獲得される場合は、検査対象遺伝子が導入されたか否かを判断する基準として定めることができる。

　さらに、例えば、導入された変異により検査対象遺伝子が本来有する機能とは異なる機能を獲得することで、想定された形質が獲得される場合は、検査対象遺伝子が本来有する機能とは異なる機能を獲得するか否かを判断する基準を予め定める。

　機能性を予測するために用いる基準を定めるにあたっては、例えばPubMed等の論文検索エンジンを利用し、対象とする形質に関するキーワードを元に学術論文を取得し、参照しても良い。また、例えばJpred等のプログラムを利用し、検査対象遺伝子の塩基配列から読み取ったアミノ酸配列を元に翻訳されるペプチド（タンパク質）の構造を予測したり、またＰＤＢ（Protein　Data　Bank）等のデータベースにあるタンパク質の立体構造を参照したりしても良い。

　ステップＳ１０１において機能性予測結果取得部１２１は、上記のように一定の基準に沿って機能性を予測した結果を取得する。

　ステップＳ１０２において、変異導入部分特定部１２２は、検査対象遺伝子を含む配列について、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集に利用可能な、ＰＡＭ配列およびターゲット配列を含む変異導入部分を特定した結果を取得する。

　ここで、検査対象遺伝子を含む配列は、上記における選抜された固有配列部分に対応する。また、ＰＡＭ配列およびターゲット配列は、それぞれＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集に利用されるプロトスペーサー隣接モチーフ（Protospacer　Adjacent　Motif）およびＰＡＭ配列に隣接する標的配列である。

　図６は、変異導入部分を特定するためのアラインメントを説明するための模式図である。例えば、変異導入部分特定部１２２は、変異導入部分の特定を、次のようにして行うことができる。まず、上記の選抜された固有配列部分５０１に対してＰＡＭ配列６０１をアラインメントする。続いて、ＰＡＭ配列６０１の位置を特定し、さらにＰＡＭ配列６０１の上流に隣接する特定の塩基数の配列を、ターゲット配列６０２として特定する。アラインメントはペアワイズアラインメント等により行うことができる。なお、変異導入部分の特定は、情報処理システム１０とは異なる情報処理システムが行っても良い。

　ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集に利用されるＣａｓ９ヌクレアーゼが由来する菌種と、そのＣａｓ９ヌクレアーゼの各亜型により認識されるＰＡＭ配列の組み合わせとしては、例えば、５’－ＮＧＧ（Streptococcus　pyogenes、ＩＩ型）、５’－ＣＣＮ（Sulfolobus　solfataricus、Ｉ－Ａ１型）、５’－ＴＣＮ（Sulfolobus　solfataricus、Ｉ－Ａ２型）、５’－ＴＴＣ（Haloquadratum　walsbyi、Ｉ－Ｂ型）、５’－ＡＷＧ（Escherichia　coli、Ｉ－Ｅ型）、５’－ＣＣ（Escherichia　coli、Ｉ－Ｆ型）、５’－ＣＣ（Pseudomonas　aeruginosa、Ｉ－Ｆ型）、５’－ＮＮＡＧＡＡ（Streptococcus　thermophilus、ＩＩ－Ａ型）、５’－ＮＧＧ（Streptococcus　agalactiae、ＩＩ－Ａ型）が挙げられる。

　ターゲット配列として特定する配列の塩基数は、位置を特定したＰＡＭ配列に対応したＣａｓ９ヌクレアーゼの各亜型に応じて定める。例えば、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集に利用されるＣａｓ９ヌクレアーゼがStreptococcus　pyogenes、ＩＩ型由来のものである場合は１９または２０塩基である。

　ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集では、ＰＡＭ配列に隣接するターゲット配列に対応する部分に変異が導入される。そのため、固有配列部分における被検ゲノムの配列と参照ゲノムの配列とで異なっている塩基が、ターゲット配列中に存在する場合は、ＣＲＩＳＰＲ－Ｃａｓ９システムを利用して人工的に導入された変異であると考えることができる。

　ステップＳ１０３において、変異導入部位抽出部１２３は、変異導入部分特定部１２２が取得した結果において、被検ゲノムの配列中の参照ゲノムと異なる配列がターゲット配列中に存在したときに、参照ゲノムと異なる配列を有し、ＰＡＭ配列およびターゲット配列を含む変異導入部位を被検ゲノムの配列から抽出する。

　変異導入部位抽出部１２３は、参照ゲノムと異なる配列を有し、ＰＡＭ配列およびターゲット配列を含む変異導入部位の被検ゲノムの配列からの抽出を、例えば、次のようにして選抜された固有配列部分の情報を取得することで行うことができる。

　図７は、参照ゲノムと異なる配列を有し、ＰＡＭ配列およびターゲット配列を含む変異導入部位の被検ゲノムの配列からの抽出を説明するための模式図である。変異導入部位抽出部１２３は、まず、全ての上記固有配列部分５０１の配列を母集団５０２として、被検ゲノムの配列中の参照ゲノムと異なる配列が存在することが特定されたＰＡＭ配列６０１とターゲット配列６０２の組み合わせについて相同性検索を行う。続いて、変異導入部位抽出部１２３は、相同性が規定値よりも高い固有配列を選抜する。規定値は任意に定めることができる。なお、ＰＡＭ配列６０１とターゲット配列６０２の組み合わせについての相同性検索および相同性が規定値よりも高い固有配列の選抜は情報処理システム１０とは異なる情報処理システムが行ってもよい。

　ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集では、目的とした部位と異なる部位に、非特異的に編集がなされることがあることが知られている。そのため、被検ゲノムの配列に、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いて人工変異が導入された場合、検査対象遺伝子以外の配列にも同時に変異が導入されている可能性がある。被検ゲノム中の非特異的に変異が導入された部位は、参照ゲノムと異なる配列を有するため、先に述べた比較解析により機能性予測結果取得部１２１は固有配列部分として特定する。

　また、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集では、ＰＡＭ配列およびターゲット配列が含まれるため、非特異的に変異が導入された部位は、上記のように相同性検索を行うことで高い相同性を有する固有配列部分として特定され、選抜することができる。つまり、変異導入部位抽出部１２３によって抽出された結果が、規定値で定められる一定の値よりも高い相同性を有する固有配列部分を含んでいたときには、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集が行われたと考えることができる。

　ステップＳ１０４において、判定部１２４は、人工変異の導入を判定する。判定部１２４は人工変異が導入されたことを判定することで、人工変異部位を検出することができる。判定部１２４は、例えば、変異導入部位抽出部１２３によって抽出された結果が、規定値で定められる一定の値よりも高い相同性を有する固有配列部分を１つ以上含むことをもって、人工変異が導入されたと判定することができる。

　本実施形態では、情報処理システム１０が、機能性予測結果取得部１２１、変異導入部分特定部１２２および変異導入部位抽出部１２３を全て含む例を示したが、これに限らない。

　例えば、情報処理システム１０は、変異導入部位抽出部１２３を有さず、機能性予測結果取得部１２１および変異導入部分特定部１２２のみを有してもよい。このとき判定部１２４は、例えば、変異導入部分特定部１２２で取得した結果が、変異がターゲット配列中に存在することを特定したことを含んでいたときに、人工変異が導入されたと判定することができる。

　また、例えば、情報処理システム１０は、変異導入部分特定部１２２および変異導入部位抽出部１２３を有さず、機能性予測結果取得部１２１のみを有してもよい。このとき判定部１２４は、例えば、機能性予測結果取得部１２１で取得した結果が、変異が導入された検査対象遺伝子が機能性を有すると予測されたことを含んでいたときに、人工変異が導入されたと判定することができる。また、検出対象とする人工変異が導入されるのに用いられる方法は、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集に限定されない。

　判定部１２４で判定された結果の確度を高める観点から、情報処理システム１０は、変異導入部分特定部１２２を有することが好ましく、さらに変異導入部位抽出部１２３を有することがより好ましい。

　［第２実施形態］
　上述した情報処理システム１０は、ゲノム精製部およびゲノム配列決定部とともに変異検出システムを構成することができる。

　図８は、第２実施形態に係る変異検出システムのハードウェア構成例を示すブロック図である。変異検出システム８０は、ゲノム精製装置８０１と、ＤＮＡシーケンサー８０２と、情報処理システム１０を備える。情報処理システム１０の構成は、先ほど述べたのと同様である。なお、図８に示されているハードウェア構成は例示であり、これら以外の装置が追加されていてもよく、一部の装置が設けられていなくてもよい。また、一部の装置が同様の機能を有する別の装置に置換されていてもよい。さらに、一部の機能がネットワークを介して他の装置により提供されてもよく、本実施形態を構成する機能が複数の装置に分散されて実現されるものであってもよい。

　図９は、第２実施形態に係る変異検出システム８０の機能ブロック図である。ゲノム精製装置８０１はゲノム精製部８９１の機能を実現し、ＤＮＡシーケンサー８０２はゲノム配列決定部８９２の機能を実現する。

　ゲノム精製部８９１は、被検ゲノムを有する細胞あるいは個体からゲノムを精製する。さらに、被検ゲノムを有する個体の親株の細胞あるいは個体、または被検ゲノムを有する個体の組織の細胞からゲノムを精製しても良い。細胞、またはウイルス本体からのゲノムの抽出は、ゲノムを有する個体に合わせた適切な処理を施すことにより行うことができる。

　ゲノム配列決定部８９２では、ゲノム精製部８９１で精製されたゲノムの塩基配列を決定する。決定する塩基配列はゲノムの全塩基配列でも良いし、ゲノムの特定の領域の塩基配列でも良いが、ゲノムの全塩基配列を決定することが好ましい。ゲノムの塩基配列は、例えば次世代シーケンシングにより決定することができる。

　情報処理システム１０は、ゲノム配列決定部８９２で決定したゲノムの塩基配列を用い、人工変異部位を検出する。情報処理システム１０における人工変異部位の検出の詳細は、上で述べたのと同様である。

　［第３実施形態］
　図１０は、第３実施形態に係る情報処理システム３０の機能ブロック図である。情報処理システム３０は、機能性予測結果取得部３２１および判定部３２４を備える。機能性予測結果取得部３２１は、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する。判定部３２４は、人工変異の導入を判定する。

　本実施形態によれば、核酸配列における不特定の人工変異部位を検出することができる情報処理システムを提供することができる。

　なお、上述の実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

　上述の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得部と、
　該機能性予測結果取得部が取得した結果から人工変異の導入を判定する判定部と、
　を備える、ことを特徴とする情報処理システム。

　（付記２）
　前記検査対象遺伝子を含む配列について、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集に利用可能な、ＰＡＭ配列およびターゲット配列を含む変異導入部分を特定した結果を取得する変異導入部分特定部をさらに備える、付記１に記載の情報処理システム。

　（付記３）
　前記変異導入部分特定部が取得した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記ＰＡＭ配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する変異導入部位抽出部をさらに備える、付記２に記載の情報処理システム。

　（付記４）
　前記参照ゲノムが、前記被検ゲノムを有する個体の親株のゲノムである、付記１～３のいずれか１項に記載の情報処理システム。

　（付記５）
　前記参照ゲノムが、前記被検ゲノムを有する個体の組織であって、前記被検ゲノムを有する組織とは異なる組織が有するゲノムである、付記１～３のいずれか１項に記載の情報処理システム。

　（付記６）
　前記参照ゲノムが、前記被検ゲノムを有する組織と同じ組織から得られたゲノムであって、前記被検ゲノムよりも先に得られたゲノムである、付記１～３のいずれか１項に記載の情報処理システム。

　（付記７）
　細胞またはウイルスからゲノムを抽出し、精製するゲノム精製部と、
　該ゲノム精製部で得られたゲノムの配列を決定するゲノム配列決定部と、
　付記１～６のいずれか１項に記載の情報処理システムと、
　を備えることを特徴とする、変異検出システム。

　（付記８）
　コンピュータに、
　被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子の配列について、機能性を予測した結果を取得し、
　該機能性を予測した結果から人工変異の導入を判定する、
　ことを実行させる、ことを特徴とする情報処理プログラムが記憶された記憶媒体。

　（付記９）
　さらに、コンピュータに、
　前記検査対象遺伝子を含む配列について、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集に利用可能な、ＰＡＭ配列およびターゲット配列を含む変異導入部分を特定した結果を取得する、
　ことを実行させる、情報処理プログラムが記憶された付記８に記載の記憶媒体。

　（付記１０）
　さらに、コンピュータに、
　前記変異導入部分を特定した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記ＰＡＭ配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する、
　ことを実行させる、情報処理プログラムが記憶された付記９に記載の記憶媒体。

　（付記１１）
　被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得ステップと、
　該機能性予測結果取得ステップで取得した結果から人工変異の導入を判定するステップと、
　を有する、ことを特徴とする情報処理方法。

　（付記１２）
　前記検査対象遺伝子を含む配列について、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集に利用可能な、ＰＡＭ配列およびターゲット配列を含む変異導入部分を特定した結果を取得する変異導入部分特定ステップをさらに有する、付記１１に記載の情報処理方法。

　（付記１３）
　前記変異導入部分特定ステップが取得した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記ＰＡＭ配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する変異導入部位抽出ステップをさらに有する、付記１２に記載の情報処理方法。

　この出願は、２０１８年７月３日に出願された日本出願特願２０１８－１２６４５５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０、３０　　　　情報処理システム
８０　　　　　　　変異検出システム
１０１　　　　　　ＣＰＵ
１０２　　　　　　ＲＡＭ
１０３　　　　　　ＲＯＭ
１０４　　　　　　ＨＤＤ
１０５　　　　　　通信Ｉ／Ｆ
１０６　　　　　　表示装置
１０７　　　　　　入力装置
１１０　　　　　　バス
１２１、３２１　　機能性予測結果取得部
１２２　　　　　　変異導入部分特定部
１２３　　　　　　変異導入部位抽出部
１２４、３２４　　判定部
１２５　　　　　　表示部
１２６　　　　　　記憶部
８０１　　　　　　ゲノム精製装置
８０２　　　　　　ＤＮＡシーケンサー
８９１　　　　　　ゲノム精製部
８９２　　　　　　ゲノム配列決定部

Claims

　被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得部と、
　該機能性予測結果取得部が取得した結果から人工変異の導入を判定する判定部と、
　を備える、ことを特徴とする情報処理システム。
　前記検査対象遺伝子を含む配列について、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集に利用可能な、ＰＡＭ配列およびターゲット配列を含む変異導入部分を特定した結果を取得する変異導入部分特定部をさらに備える、請求項１に記載の情報処理システム。
　前記変異導入部分特定部が取得した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記ＰＡＭ配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する変異導入部位抽出部をさらに備える、請求項２に記載の情報処理システム。
　前記参照ゲノムが、前記被検ゲノムを有する個体の親株のゲノムである、請求項１～３のいずれか１項に記載の情報処理システム。
　前記参照ゲノムが、前記被検ゲノムを有する個体の組織であって、前記被検ゲノムを有する組織とは異なる組織が有するゲノムである、請求項１～３のいずれか１項に記載の情報処理システム。
　前記参照ゲノムが、前記被検ゲノムを有する組織と同じ組織から得られたゲノムであって、前記被検ゲノムよりも先に得られたゲノムである、請求項１～３のいずれか１項に記載の情報処理システム。
　細胞またはウイルスからゲノムを抽出し、精製するゲノム精製部と、
　該ゲノム精製部で得られたゲノムの配列を決定するゲノム配列決定部と、
　請求項１～６のいずれか１項に記載の情報処理システムと、
　を備えることを特徴とする、変異検出システム。
　コンピュータに、
　被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子の配列について、機能性を予測した結果を取得し、
　該機能性を予測した結果から人工変異の導入を判定する、
　ことを実行させる、ことを特徴とする情報処理プログラムが記憶された記憶媒体。
　さらに、コンピュータに、
　前記検査対象遺伝子を含む配列について、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集に利用可能な、ＰＡＭ配列およびターゲット配列を含む変異導入部分を特定した結果を取得する、
　ことを実行させる、情報処理プログラムが記憶された請求項８に記載の記憶媒体。
　さらに、コンピュータに、
　前記変異導入部分を特定した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記ＰＡＭ配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する、
　ことを実行させる、情報処理プログラムが記憶された請求項９に記載の記憶媒体。
　被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得ステップと、
　該機能性予測結果取得ステップで取得した結果から人工変異の導入を判定するステップと、
　を有する、ことを特徴とする情報処理方法。
　前記検査対象遺伝子を含む配列について、ＣＲＩＳＰＲ－Ｃａｓ９システムを用いた編集に利用可能な、ＰＡＭ配列およびターゲット配列を含む変異導入部分を特定した結果を取得する変異導入部分特定ステップをさらに有する、請求項１１に記載の情報処理方法。
　前記変異導入部分特定ステップが取得した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記ＰＡＭ配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する変異導入部位抽出ステップをさらに有する、請求項１２に記載の情報処理方法。