WO2023204008A1

WO2023204008A1 - 微生物判別用のデータベースを構築する方法および装置

Info

Publication number: WO2023204008A1
Application number: PCT/JP2023/013810
Authority: WO
Inventors: 華奈江寺本; 是嗣緒方; 勇地関口; 大典三浦
Original assignee: 株式会社島津製作所; 国立研究開発法人産業技術総合研究所
Priority date: 2022-04-21
Filing date: 2023-04-03
Publication date: 2023-10-26

Abstract

ゲノムデータベースから、微生物のゲノムデータを取得するステップ（ＳＴ０２）と、取得したゲノムデータが基準を満たすか判定するステップ（ＳＴ０６）と、基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測するステップ（ＳＴ１６）と、予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む、質量電荷比データベースを構築するステップ（ＳＴ２０Ａ，２０Ｃ）とを備える、微生物判別用のデータベースを構築する方法。

Description

微生物判別用のデータベースを構築する方法および装置

　本発明は、微生物判別用のデータベースを構築する方法および装置に関する。

　非特許文献１には、質量分析法を用いた微生物の判別について、２つのアプローチがあり得ることが開示されている。

　１つ目のアプローチは、未知の微生物について測定したマススペクトルを、既知の微生物毎に測定されたマススペクトルのデータベースと比較することで、未知の微生物を判別するフィンガープリント法である。しかし、この方法には、微生物のマススペクトルのパターンが、培地条件および測定の再現法により強く影響を受けやすい等の問題があった。

　このようなフィンガープリント法の問題に対して、２つ目のアプローチとして、ゲノムデータベースを用いたバイオインフォマティクスに基づく方法が着目されている。この方法では、未知の微生物について測定したマススペクトルを、ゲノムデータベースから予測されたタンパク質の質量電荷比のデータベースと比較することで、未知の微生物を判別する。この方法において、予測された質量電荷比は、培地条件および測定の再現法の影響を受けないので、上記のフィンガープリント法の問題を解決することができる。

田村廣人ら、「リボソームタンパク質をバイオマーカーとしたＭＡＬＤＩ－ＴＯＦ　ＭＳによる細菌識別－Ｓ１０－ＧＥＲＭＳ法による細菌の迅速識別－」、島津評論別刷、第７０巻、第３・４号、２０１３年

　この２つ目の方法において、予測された質量電荷比のデータベースの品質には、さらなる向上が望まれている。例えばゲノムデータベースに含まれる品質の低いゲノムデータが、予測された質量電荷比のデータベースの品質に影響している可能性が考えられる。

　本開示は、かかる課題を解決するためになされたものであり、その目的は、質量分析法を用いた微生物の判別に用いられる、ゲノムデータベースを基に構築される質量電荷比のデータベースの品質を向上することである。

　本開示の第１の局面に係る微生物判別用のデータベースを構築する方法は、ゲノムデータベースから、微生物のゲノムデータを取得するステップと、取得したゲノムデータが基準を満たすか判定するステップと、基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測するステップと、予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む、質量電荷比データベースを構築するステップとを備える。

　本開示の第２の局面に係る微生物判別用のデータベースを構築する装置は、ゲノムデータベースから取得した微生物のゲノムデータを用いて微生物判別用のデータベースを構築する。当該装置は、プロセッサと、記憶部とを備える。プロセッサは、取得したゲノムデータが基準を満たすか判定する。また、プロセッサは、基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測する。また、プロセッサは、予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む質量電荷比データベースを構築する。また、プロセッサは、記憶部に、質量電荷比データベースを記憶する。

　本開示による微生物判別用のデータベースを構築する方法によれば、ゲノムデータベース上の基準を満たすゲノムデータのみに基づいて、質量電荷比データベースを構築できる。すなわち、質量分析法を用いた微生物の判別に用いられる、ゲノムデータベースを基に構築される質量電荷比のデータベースの品質を向上できる。

本発明の実施形態に従う微生物判別システムの構成を示す概略図である。装置で行なう処理の概要を示すフローチャートである。質量電荷比データベースの構築に関する、装置の機能ブロック図である。サンプルの判別に関する、装置の機能ブロック図である。質量電荷比データベースを構築する処理を示すフローチャートである。ゲノムデータの判定のサブルーチンを示すフローチャートである。新たなゲノムデータを追加する処理を示すフローチャートである。サンプルの判別に関する処理を示すフローチャートである。サンプルの判別に関する処理の他の例を示すフローチャートである。ゲノム中の遺伝子部位での塩基配列総数とゲノムあたりの推定遺伝子数との関係を示す図である。

　以下に、本発明の実施の形態について図面を参照して詳細に説明する。なお、以下では図中の同一または相当部分には同一の符号を付して、その説明は原則的に繰返さないものとする。

　［１．微生物判別システムの構成］
　図１は、本発明の実施の形態に係る微生物判別システム１０００の構成を示す概略図である。

　図１を参照して、微生物判別システム１０００は、公開ゲノムデータベース７０、公開分類データベース８０、ネットワーク９０および装置１００を含む。なお、本明細書において、「データベース」は、「ＤＢ」とも記載する。

　公開ゲノムＤＢ７０は、生物のゲノムデータを含むデータベースである。ゲノムとは、ある生物のもつ核酸（デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ））上の遺伝情報であり、核酸の塩基配列を含む。本明細書においては、ゲノムデータは主にＤＮＡ配列のデータを指す。

　公開ゲノムＤＢ７０は、典型的には、一般に公開された生物のゲノムデータを多数含むＤＢであり、例えばＮＣＢＩ（National　Center　for　Biotechnology　Information）、ＤＤＢＪ（DNA　Data　Bank　of　Japan）、ＥＭＢＬ（European　Molecular　Biology　Laboratory）のゲノムＤＢである。しかし公開ゲノムＤＢ７０の例はこれに限定されず、例えば、一般に公開されていないゲノムＤＢを含んでもよい。

　公開分類ＤＢ８０は、生物の分類に関するデータ（以下、分類データ）を含むデータベースである。生物の分類とは、一般的には、科、属、種等の階級により示される生物同士の類縁関係に基づいた分類である。微生物の分類においては、伝統的に表現型とゲノムの両方に基づく、形態観察、表現形質、化学分類指標、タンパク質分析およびＤＮＡ分析という複数の指標に基づいて分類がなされているが、ゲノム情報のみでの分類体系もあり、複数の分類体系が存在する。

　公開分類ＤＢ８０は、典型的には、一般に公開された生物の分類データを含むＤＢであり、例えばＧＴＤＢ（Genome　Taxonomy　Database）、ＲＤＰ（Ribosomal　Database　Project）、Ｓｉｌｖａ等のＤＢである。しかし公開分類ＤＢ８０の例はこれに限定されず、例えば、一般に公開されていないＤＢを含んでもよい。

　ネットワーク９０は、装置１００が公開ゲノムＤＢ７０および公開分類ＤＢ８０と通信するためのネットワークである。ネットワーク９０は、例えば、地球上の多数の政府、企業、公共、私用のネットワークを相互接続したインターネットである。

　装置１００は、質量分析法を用いて微生物を判別するための質量電荷比（ｍ／ｚ）ＤＢを構築する装置である。本明細書において、微生物を判別するとは、微生物を分類学的に同定することを指す。すなわち、例えば、微生物の属、種、株、系統の少なくとも１つを同定することである。したがって、装置１００は、「微生物判別用のデータベースを構築する装置」の一実施例に対応する。また、装置１００は、当該ｍ／ｚＤＢを利用して、質量分析法を用いて微生物を判別するための装置である。したがって、装置１００は、「微生物判別装置」の一実施例にも対応する。なお、本明細書において、微生物または生物の「種類」とは、例えば、微生物または生物の「ジェノタイプ、株、あるいは亜種・種・属・科等の系統分類群のランク」の少なくとも１つを含む。

　装置１００は、コントローラ１０１と、ディスプレイ１５と、操作部１４とを含む。コントローラ１０１には、ディスプレイ１５および操作部１４が接続される。操作部１４は、典型的には、タッチパネル、キーボード、マウスなどで構成される。操作部１４は、プロセッサ１０に対するユーザの操作入力を受け付ける。ディスプレイ１５は、例えば画像を表示可能な液晶パネルで構成される。ディスプレイ１５は、ユーザの操作入力の受け付けに関する画像を表示し、プロセッサ１０による処理の結果を表示する。

　コントローラ１０１は、主な構成要素として、プロセッサ１０と、メモリ１１と、通信インターフェイス（Ｉ／Ｆ）１２と、入出力Ｉ／Ｆ１３とを有する。これらの各部は、バスを介して互いに通信可能に接続される。

　プロセッサ１０は、典型的には、ＣＰＵ（Central　Processing　Unit）またはＭＰＵ（Micro　Processing　Unit）などの演算処理部である。プロセッサ１０は、メモリ１１に記憶されたプログラムを読み出して実行することで、装置１００の動作を制御する。

　メモリ１１は、たとえば、ＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）、および、ＨＤＤ（Hard　Disk　Drive）などの記憶装置で実現される。ＲＯＭは、プロセッサ１０にて実行されるプログラムを格納することができる。ＲＡＭは、プロセッサ１０におけるプログラムの実行中に利用されるデータを一時的に格納することができ、作業領域として利用される一時的なデータメモリとして機能することができる。ＨＤＤは、不揮発性の記憶装置である。ＨＤＤに加えて、あるいは、ＨＤＤに代えて、フラッシュメモリなどの半導体記憶装置を採用してもよい。なお、上記プログラムおよび／またはデータは、プロセッサ１０がアクセス可能な外部の記憶装置に格納されていてもよい。メモリ１１は、「記憶部」の一実施例に対応する。

　通信Ｉ／Ｆ１２は、公開ゲノムＤＢ７０および公開分類ＤＢ８０を含む外部装置と、各種データをやり取りするための通信インターフェイスであり、アダプタまたはコネクタなどによって実現される。なお、通信方式は、無線ＬＡＮ（Local　Area　Network）などによる無線通信方式であってもよいし、ＵＳＢ（Universal　Serial　Bus）などを利用した有線通信方式であってもよい。

　入出力Ｉ／Ｆ１３は、プロセッサ１０と、入出力Ｉ／Ｆ１３に接続される外部機器との間で各種データをやり取りするためのインターフェイスである。外部機器は、操作部１４と、ディスプレイ１５とを含む。入出力Ｉ／Ｆ１３には、質量分析装置（ＭＳ）１６が接続されてもよい。本明細書においては、入出力Ｉ／Ｆ１３は、装置１００に接続されるＵＳＢメモリ等の記憶端末と、プロセッサ１０との間でデータのやり取りを行なう機器も含むとする。

　ＭＳ１６は、サンプルに含まれる成分の質量分析を行なうための装置であり、例えば、ＭＡＬＤＩ－ＴＯＦ　ＭＳ（Matrix-Assisted　Laser　Desorption/Ionization　Time-of-Flight　Mass　Spectrometry）、ＭＡＬＤＩ－ＩＴ－ＴＯＦ（Matrix-Assisted　Laser　Desorption/Ionization　Ion　Trap　Time-of-Flight　Mass　Spectrometry）またはスキャン型ＩＴ－ＭＳであるが、これに限定されない。ＭＳ１６がＭＡＬＤＩ－ＴＯＦ　ＭＳの場合では、レーザー照射により生じたイオンをフライトチューブに引き出して飛行させ、飛行時間に応じて分離したのち検出する。飛行時間は、成分の質量電荷比ｍ／ｚに相関する。その結果、ｍ／ｚを横軸に、検出されたイオン強度を縦軸に示したマススペクトルが得られる。

　本明細書において、ＭＳ１６はサンプル中のタンパク質の質量分析を行なう。よって、マススペクトルにおいては、サンプル中のタンパク質のｍ／ｚに応じてピークが検出される。よって、マススペクトルのパターン、より詳細には、所定の閾値以上の高さのピークが得られたｍ／ｚのリスト（本明細書ではｍ／ｚリストとも称する）を参照すると、サンプルに含まれるタンパク質がわかる。本明細書において、ｍ／ｚリストに含まれるｍ／ｚは、マススペクトルのピークに対応するｍ／ｚを示すとする。

　異なる種類の生物は、異なるタンパク質を含むので、それぞれのマススペクトルのパターンおよびｍ／ｚリストも異なったものとなる。よって、マススペクトルのパターンおよびｍ／ｚリストに基づいて、生物の判別が可能である。

　ＭＳ１６は、サンプルである未知の微生物の質量分析を行なったのち、サンプルのｍ／ｚリストであるサンプルリストを装置１００に送信する。プロセッサ１０は、サンプルリストに基づいて、サンプルを判別する。

　なお、装置１００は、１つのコンピュータによって構成される必要はなく、複数のコンピュータによって構成されてもよい。

　［２．従来の装置との比較］
　従来、このような質量分析装置を用いた微生物の判別方法として、微生物毎に実際に測定したマススペクトルを含むデータベースを構築し、当該データベースと未知の微生物のマススペクトルとを比較する、フィンガープリント法が行なわれてきた。

　しかし、フィンガープリント法のための実用的なデータベースを構築するには、多くの種類（例えば千数百種）の微生物の実測したマススペクトルデータが必要である。また、同じ種類の微生物であっても、遺伝的多様性、培養条件、マススペクトル測定の前処理、繰り返し測定に伴うばらつきにより、マススペクトルのパターンが変化し得る。よって、これらの実情を鑑みると、実用的なデータベースには、非常に多くのマススペクトルデータが必要であり、例えば、各種類の微生物につき数十個、全ての種類の微生物で合計数万個のマススペクトルデータが必要となる。すなわち、実用的なデータベースの構築には、非常に多くの回数（例えば数万回）の微生物の培養およびマススペクトルの測定を実際に行なうことが必要であり、多大なコストがかかるものであった。

　そこで、新たな質量分析法を用いた微生物の判別方法として、公開されているゲノムデータベースを用いて、発現するタンパク質を予測し、当該タンパク質から予測されたｍ／ｚリストのデータベースであるｍ／ｚＤＢを構築し、当該ｍ／ｚＤＢを利用する方法が着目されてきた。この方法では、当該ｍ／ｚＤＢに含まれるｍ／ｚリストと、未知の微生物のマススペクトルのピークに対応するｍ／ｚリストであるサンプルリストとを比較することにより、サンプルを判別する。この方法においては、微生物の培養およびマススペクトルの測定を実際に行なう必要がなくなり、上記のフィンガープリント法と比較して、より簡便にマススペクトルのデータベースを構築することができる。

　しかし、この方法においても、予測されたｍ／ｚＤＢの品質、および、当該ｍ／ｚＤＢを用いた微生物の判別の精度には、向上の余地があった。

　例えば、この方法では、公開されているゲノムデータベースの中に含まれる、品質の低いゲノムデータ（例えば未決定塩基を多く含むゲノムデータ）も、ｍ／ｚＤＢに反映されてしまう。この結果、ｍ／ｚＤＢの品質が低下し、ｍ／ｚＤＢを用いた微生物の判別の精度も低下することが、懸念されていた。

　そこで、本実施の形態に従う装置１００においては、公開ゲノムＤＢ７０から取得したゲノムデータのうち、所定の基準を満たす、品質の高いゲノムデータのみに基づいて、ｍ／ｚＤＢを構築する。これにより、ｍ／ｚＤＢの品質を向上することができる。また、当該ｍ／ｚＤＢを用いた微生物の判別の精度を向上することができる。

　さらに、従来の予測されたｍ／ｚＤＢを用いた微生物の判別法には、他の問題も懸念されていた。例えば、予測されたｍ／ｚリストには、実測した場合マススペクトルには現れない偽のピークが含まれることが懸念されていた。これは、ゲノムデータからはタンパク質を発現すると予測される配列であっても、実際には何らかの理由でタンパク質が発現しなかったり、発現してもイオン化しない等の理由で実測のマススペクトルにおいてはピークとして検出できない可能性があるからである。この結果、サンプルリストと予測されたｍ／ｚリストとを比較する際に、当該偽のピークがノイズとなり、サンプルリストと、サンプルに無関係な種類の微生物のｍ／ｚリストが適合してしまう可能性が考えられた。よって、サンプルが無関係な種類の微生物であると判別されてしまう可能性が考えられた。すなわち、微生物の判別の精度が低下することが懸念されていた。

　そこで、本実施の形態に従う装置１００においては、偽のピークとなる可能性が低いタンパク質、すなわち、「微生物の生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される可能性が高いタンパク質」に重み付けして微生物の判別を行なう。よって、偽のピークの影響により、異なる微生物と誤って判別されてしまう可能性が低減される。これにより、微生物の判別の精度を向上することができる。

　［３．装置の処理の概要］
　図２は、装置１００で行なう処理の概要を示すフローチャートである。ステップ（以下、ＳＴとも称する）１０１において、装置１００のプロセッサ１０は、公開ゲノムＤＢ７０のゲノムデータからｍ／ｚＤＢを構築する。ＳＴ１０２において、プロセッサ１０は、当該ｍ／ｚＤＢを用いて、未知の微生物であるサンプルを判別する。

　（３－１．ｍ／ｚＤＢの構築に関する機能ブロック）
　図３は、図２のＳＴ１０１に対応する、ｍ／ｚＤＢの構築に関する装置１００の機能ブロック図である。図３を参照して、装置１００は、ゲノムデータ収集部２１、ゲノムデータ判定部２２、タンパク質予測部２３、ｍ／ｚＤＢ構築部２４および記憶部２５を含む。

　ゲノムデータ収集部２１は、公開ゲノムＤＢ７０から、ゲノムデータを収集する。
　ゲノムデータ判定部２２は、収集したゲノムデータが、ゲノムデータの品質に関連する所定の基準を満たすか否かを判定する。

　タンパク質予測部２３は、所定の基準を満たしたゲノムデータについて、発現するタンパク質を予測する。具体的にはＤＮＡ配列から推定遺伝子領域を予測し、推定遺伝子領域からアミノ酸配列が予測される。そして、当該アミノ酸配列に基づいて、発現するタンパク質が予測される。

　ｍ／ｚＤＢ構築部２４は、予測されたタンパク質に基づいて、ｍ／ｚリストを予測し、ｍ／ｚＤＢを構築し、記憶部２５に保存する。ｍ／ｚＤＢは、例えば、２種類のｍ／ｚＤＢを含む。一方のｍ／ｚＤＢは、ゲノムデータから予測された全てのタンパク質に対応するｍ／ｚを含む全体ｍ／ｚＤＢである。他方のｍ／ｚＤＢは、ゲノムデータから予測されたタンパク質のうち、特定のグループに含まれるタンパク質に対応するｍ／ｚだけを含む特定ｍ／ｚＤＢである。当該２つのｍ／ｚＤＢは、図４で説明する、未知の微生物であるサンプルの判別に用いられる。

　ゲノムデータ収集部２１、ゲノムデータ判定部２２、タンパク質予測部２３およびｍ／ｚＤＢ構築部２４は、図１のプロセッサ１０に対応する。記憶部２５は、図１のメモリ１１に対応する。

　（３－２．サンプルの判別に関する機能ブロック）
　図４は、図２のＳＴ１０２に対応する、サンプルの判別に関する装置１００の機能ブロック図である。図４を参照して、装置１００は、取得部３１、サンプル判別部３２、注釈部３３、出力部３４および記憶部２５を含む。

　取得部３１は、サンプルリストを取得する。サンプルリストは例えば、装置１００に接続されたＭＳ１６から取得される。サンプルリストの取得方法はこれに限定されず、例えば、装置１００と通信する外部の装置、または、装置１００に接続される記憶端末から取得されてもよい。取得部３１は、さらに、必要に応じてサンプルリストに含まれるｍ／ｚの測定誤差を推定し、補正を行なう。取得部３１は、図１のプロセッサ１０に対応する。

　サンプル判別部３２は、サンプルリストと、記憶部２５に記憶されたｍ／ｚＤＢとを、特定のグループに含まれるタンパク質に対応するｍ／ｚに重み付けした上で比較することによって、サンプルを判別する。サンプル判別部３２は、例えば、一次スクリーニング部３２１および二次スクリーニング部３２２を含む。一次スクリーニング部３２１は、特定ｍ／ｚＤＢに含まれるｍ／ｚリストを利用して、特定のグループに含まれるタンパク質に対応するｍ／ｚに基づくスクリーニングを行なう。二次スクリーニング部３２２は、全体ｍ／ｚＤＢに含まれるｍ／ｚリストのうち、一次スクリーニングで絞り込まれたゲノムデータに対応するｍ／ｚリストについて、全てのタンパク質に対応するｍ／ｚに基づくスクリーニングを行なうことによって、サンプルを判別する。サンプル判別部３２は、図１のプロセッサ１０に対応する。

　注釈部３３は、サンプルリストに含まれる各ｍ／ｚに対し、予測されるタンパク質に関する情報である注釈をリンクさせる。注釈のリンクには、例えば、タンパク質の質量に基づいて、対応するタンパク質の名称を検索するソフトウェアが用いられる。注釈部３３は、図１のプロセッサ１０に対応する。

　サンプル判別部３２による判別結果およびｍ／ｚの注釈は、記憶部２５に記憶され、かつ／または、出力部３４により出力される。出力部３４は、図１のプロセッサ１０、および、ディスプレイ１５または通信Ｉ／Ｆ１２に相当する。すなわち、判別結果および注釈は、ディスプレイ１５に表示される、および／または、通信Ｉ／Ｆ１２を介して外部の装置に送信される。これにより、ユーザは、判別結果および注釈を認識することができる。

　［４．ｍ／ｚＤＢの構築に関する処理の流れ］
　（４－１．ｍ／ｚＤＢの構築）
　次に、装置１００で行なわれる処理の流れを具体的に説明する。

　図５は、ｍ／ｚＤＢを構築する処理を示すフローチャートである。図５に示されるＳＴ０２～ＳＴ２８の処理は、図２のＳＴ１０１における処理に相当する。

　図５を参照して、ＳＴ０２において、プロセッサ１０は、公開ゲノムＤＢ７０から、微生物のゲノムデータを取得する。このとき、複数の公開ゲノムＤＢ７０からゲノムデータを取得することにより、臨床あるいは産業上重要な微生物種のゲノムデータを網羅的に収集することが可能である。

　ＳＴ０４において、プロセッサ１０は、取得したゲノムデータを統合して、収集ゲノムＤＢを構築する。

　ＳＴ０６において、プロセッサ１０は、収集ゲノムＤＢ内のゲノムデータが予め定められた基準を満たすか否かを判定する。当該基準は、品質の高いゲノムデータのみが基準を満たすように設定される。具体的な基準の内容については、図６で説明する。

　ＳＴ０８において、プロセッサ１０は、基準を満たすと判定されたゲノムデータが含まれる高品質ゲノムＤＢを構築する。

　ＳＴ１０において、プロセッサ１０は、高品質ゲノムＤＢに含まれるゲノムデータについて、ゲノムデータに含まれる遺伝子を予測する。遺伝子とは、ＤＮＡ上のタンパク質に翻訳される特定の領域、または、その領域に含まれる情報を指す。遺伝子の予測は、例えば、ゲノムデータ上のタンパク質に翻訳される推定遺伝子領域を、翻訳の開始コドン（ＡＴＧ配列）および終止コドン（ＴＧＡ配列）を手がかりに推定することを含む。

　ＳＴ１２において、プロセッサ１０は、予測された遺伝子から翻訳後のアミノ酸配列を予測する。アミノ酸配列の予測は、例えば、推定遺伝子領域に含まれる各コドン（３つの塩基配列）に対応するアミノ酸を推定し、それをつなぎ合わせることを含む。

　ＳＴ１４において、プロセッサ１０は、予測されたアミノ酸配列からなるタンパク質に対する翻訳後修飾を予測する。翻訳後修飾は、翻訳された直後のタンパク質が、実際に生体内の各所で機能するタンパク質に変化するために、タンパク質に対して行なわれる修飾である。翻訳後修飾は、例えば、メチオニンの除去、シグナルペプチドの除去を含むタンパク質の分解、リン酸化を含む特異的化学修飾を含む。翻訳後修飾はほとんどのタンパク質に加えられ、そのｍ／ｚを変化させる。よって、翻訳後修飾を鑑みることで、より正確なタンパク質のｍ／ｚが算出できる。

　ＳＴ１６において、プロセッサ１０は、予測された翻訳後修飾を加えたタンパク質を予測する。

　ＳＴ１８において、プロセッサ１０は、当該タンパク質に基づいてゲノムデータ毎のｍ／ｚリストを予測する。具体的には、当該タンパク質に含まれる原子の質量を基に、タンパク質に対応するｍ／ｚが計算される。なお、原子の質量として、自然界における元素の同位体分布を反映した元素の平均質量が用いられることが好ましい。これにより、より正確なｍ／ｚが計算される。

　ＳＴ２０Ａにおいて、プロセッサ１０は、当該ｍ／ｚリストを含む質量電荷比のデータベースである全体ｍ／ｚＤＢを構築する。全体ｍ／ｚＤＢは、ゲノムデータ毎に予測された全てのｍ／ｚを含む。

　一方で、ＳＴ２２において、プロセッサ１０は、ＳＴ１６で予測されたタンパク質のデータに注釈をリンクさせる。注釈とは、一般的には、タンパク質に関する情報であり、タンパク質の名称、機能等を含む。注釈のリンクは、例えば、一般的な、ｍ／ｚに応じて注釈を付加するソフトウェアを使用して行なわれるが、これに限定されず、例えば装置１００が公開ゲノムＤＢ７０および公開分類ＤＢ８０に基づいてｍ／ｚと注釈との関連を示す表を作成し、当該表を用いて行なわれてもよい。

　本明細書においては、注釈は、タンパク質に関する情報であり、タンパク質が含まれるグループの情報を含む。タンパク質のグループに関する情報は、タンパク質の名称、機能およびファミリーの少なくともいずれか１つを含む。

　注釈をリンクさせるメリットの１つは、注釈に基づいて特定のグループに含まれるタンパク質に対応するｍ／ｚを選択して、その他のタンパク質に対応するｍ／ｚとは別に扱うことができることである。よって、例えば、「微生物の生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される可能性が高いタンパク質のグループ」に対応するｍ／ｚに、選択的に重み付けして微生物の判別を行なうことが可能になる。これにより、ゲノムデータから予測されたｍ／ｚリストにおいて、「微生物の生体内では実際にタンパク質として発現しなかったり、発現してもマススペクトルには現れないタンパク質に対応するｍ／ｚ（偽のピーク）」に比べ、「生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される可能性が高いタンパク質に対応するｍ／ｚ」に重み付けして、サンプルを選別できる。よって、予測したｍ／ｚリストに含まれる偽のピークがノイズとなり、サンプルの選別の精度が低減することを抑制できる。

　「生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される」ためには、発現量が所定の閾値以上であるという条件、生命維持に不可欠な機能を有するという条件、所定の種類に分類される微生物（例えば所定の科に属する微生物）においてアミノ酸配列の類似度（相同性）が所定の閾値以上である微生物が所定の割合以上存在するという条件、塩基性タンパク質であるという条件、ＭＡＬＤＩ－ＭＳ測定で測定した際に±１４Ｄａ以内（さらに好ましくは±３Ｄａ以内）の誤差範囲で質量電荷比を分析できるという条件、タンパク質の質量が４～３０ｋＤａ（さらに好ましくは２～２０ｋＤａ）に含まれるという条件、グループに含まれるタンパク質の種類が所定の数以上であるという条件、所定の種類に分類される微生物（例えば所定の科に属する微生物）において当該ゲノムデータを含む微生物の数が所定の割合以上である条件、の少なくとも１つの条件に基づいて、グループが選択されることが好ましい。

　なお、上記生命維持に不可欠な機能は、細胞の維持および増殖の少なくとも１つに不可欠な機能を含む。

　このような条件を鑑みて決定されるグループは、例えば、リボソームタンパク質である。グループの他の例は、シャペロン、ＤＮＡ結合タンパク質である。

　また、グループは、上記に例示したような微生物全般で顕著に発現するタンパク質に限らず、特定の微生物で顕著に発現することが知られているタンパク質であってもよい。例えば、各々の属で顕著に発現することが知られている特定のタンパク質に重み付けして、サンプルの判別を行なうと、サンプルが正しい属に判別される可能性を高めることができる。なお、本明細書において「顕著に発現するタンパク質」の一例は、所定の閾値以上の発現量を示すタンパク質である。

　ＳＴ２４において、プロセッサ１０は、注釈に含まれるグループに関する情報に基づいて、特定のグループに含まれると予測されるタンパク質を選択する。続くＳＴ２６において、プロセッサ１０は、選択されたタンパク質から予測されるｍ／ｚのみを含む特定ｍ／ｚリストを予測する。ＳＴ２０Ｃにおいて、プロセッサ１０は、特定ｍ／ｚリストを含むｍ／ｚデータベースである特定ｍ／ｚＤＢを構築する。

　注釈をリンクさせる他のメリットは、ｍ／ｚリストに含まれるｍ／ｚがそれぞれどんなタンパク質に対応するか否かがユーザにとってわかりやすくなることである。このような観点から、ｍ／ｚに対する注釈を利用しやすくするために、ＳＴ２０Ｂにおいて、プロセッサ１０は全体ｍ／ｚＤＢに含まれるｍ／ｚに対する注釈をまとめた注釈ＤＢを構築する。

　注釈をリンクさせるさらに他のメリットは、注釈を参照して、サンプルリストとｍ／ｚＤＢに含まれるｍ／ｚリストとの比較の妥当性が検討できることである。例えば、サンプルリストとｍ／ｚのパターンが適合する度合い（適合率）が高いと判定されたｍ／ｚＤＢのｍ／ｚリストにおいて、注釈を参照できる。このとき、当該ｍ／ｚリストにおいて、注釈からはその微生物においては発現しないと推定されるタンパク質に対応するｍ／ｚが多数含まれる場合には、当該ｍ／ｚリスト自体の信頼性が危ぶまれるので、そもそもサンプルリストと比較する妥当性も低く、サンプルの判別の信頼性も低い。また、サンプルリストにおいて機能的に重要であり、進化的に保存されていると思われるタンパク質に対応するｍ／ｚが、当該ｍ／ｚリストにおけるノイズのｍ／ｚと一致する場合にも、当該比較の妥当性が低く、サンプルの判別性の信頼性も低いことが分かる。このように、サンプルリストとの比較の妥当性が低いｍ／ｚリストを見いだした場合、ユーザは、当該ｍ／ｚリストを除去するなどして、判別の信頼性を高めることができる。

　注釈ＤＢの注釈は、ｍ／ｚＤＢに含まれるｍ／ｚとリンクされる。一例として、ｍ／ｚＤＢに含まれるｍ／ｚリストのｍ／ｚを参照する際に、注釈ＤＢに含まれる対応する注釈が合わせて参照できるように、ｍ／ｚＤＢと注釈ＤＢが対応づけられる。また、他の例としては、ｍ／ｚＤＢに含まれるｍ／ｚに対応する注釈が付加される形で、ｍ／ｚＤＢの一部として注釈ＤＢが構成されてもよい。

　ＳＴ２８において、プロセッサ１０は、公開分類ＤＢ８０の分類データを取得する。ＳＴ２０Ｄにおいて、プロセッサ１０は、収集した分類データを統合した、収集分類ＤＢを構築する。このとき、複数の公開分類ＤＢ８０の分類データに基づいて収集分類ＤＢを構築すれば、幅広い分類学的体系を取り込むことが可能である。よって、収集分類ＤＢを用いれば、様々な分類学的体系を、微生物の判別結果に反映することが可能になる。

　また、収集分類ＤＢは、ゲノムごとのＩＤであるゲノムＩＤを含んでもよい。ゲノムＩＤは、例えば収集した分類データに基づいて作成される。

　収集分類ＤＢの分類データは、全体ｍ／ｚＤＢ、特定ｍ／ｚＤＢ、注釈ＤＢの各々に含まれるデータと対応付けられる。よって、全体ｍ／ｚＤＢ、特定ｍ／ｚＤＢの各ゲノムデータに、ゲノムＩＤを付加することができる。また、収集分類ＤＢの内容を、全体ｍ／ｚＤＢおよび特定ｍ／ｚＤＢの整理に用いたり、内容に反映することも可能である。また収集分類ＤＢは、上記した「特定の種でのみ顕著に発現することが知られている特定のタンパク質」を決定するとき等、装置１００における他の用途にも用いることが可能である。

　これらの対応付けられた４つのＤＢをまとめて微生物ＤＢと称する。プロセッサ１０は、ＳＴ２０Ａ～２０Ｄで微生物ＤＢを構築した後に、処理を一旦終了する。これにより、装置１００は、微生物ＤＢを用いて、図８、図９で詳述する質量分析法を用いたサンプルの判別を行うことが可能になる。

　図５で示された処理は、例えば公開ゲノムＤＢ７０の更新に応じて、例えば年１回行なわれる。これにより、公開ゲノムＤＢ７０で更新された内容を適宜微生物ＤＢに反映できるので、微生物ＤＢの内容がさらに向上する。

　（４－２．ゲノムデータの判定）
　図６は、ゲノムデータの判定処理を示す図である。図６に示されるＳＴ０６０～ＳＴ０６９は、図２のＳＴ０６に対応する処理である。図６に示される処理は、収集ゲノムＤＢに含まれる品質の低いゲノムデータを除去するために行なわれる。

　ＳＴ０６０において、プロセッサ１０は、ゲノムデータの完全性に基づいて、ゲノムデータの品質を判定する。ゲノムの完全性は、例えば微生物のゲノムに１コピーずつ存在することが知られている単一コピーマーカー遺伝子（single　copy　marker　gene）群を指標として行なわれる。ゲノムデータが完全である場合、サンプル内に単一コピーマーカー遺伝子が全て存在するはずである。しかし、例えば、ゲノムデータの一部が欠損していたり、誤って読み取られている場合のように、ゲノムデータが不完全である場合には、当該欠損部に含まれる単一コピーマーカー遺伝子は失われる。したがって、ゲノムデータが欠損したり、誤って読み取られている部分が大きいほど、ゲノムデータ上の単一コピーマーカー遺伝子の数は少なくなる。従って、ゲノムデータの完全性の指標として、単一コピーマーカー遺伝子の数が使用できる。具体的には、ゲノムデータ上に単一コピーマーカー遺伝子が全て存在した場合を１００％として、単一コピーマーカー遺伝子が存在した数に比例して完全性が割合として計算される。

　具体的には、ＳＴ０６０において、プロセッサ１０は、ゲノムデータの完全性が基準値Ｔ１より大きいか否かを判定する。基準値Ｔ１は、例えば５０％である。完全性が基準値Ｔ１以下の場合（ＳＴ０６０においてＮＯ）、ＳＴ０６１において、プロセッサ１０は、当該ゲノムデータを除去する。完全性が基準値Ｔ１より大きい場合（ＳＴ０６０においてＹＥＳ）、プロセッサ１０は、ＳＴ０６２に処理を進める。

　ＳＴ０６２において、プロセッサ１０は、ゲノムのコンタミネーションの割合に基づいて、ゲノムデータの品質を判定する。コンタミネーションとは、何らかの理由で、１つのゲノムデータのＤＮＡ配列中に、他のゲノムデータのＤＮＡ配列が混じってしまう現象を指す。すなわち、コンタミネーションが起こっているとは、典型的には複数の微生物のＤＮＡ配列が混ざってしまっている状態である。ゲノムデータにコンタミネーションが起こっていない場合、単一コピーマーカー遺伝子が見いだされる割合を１００％とすると、コンタミネーションが起こっている場合、当該割合は１００％より大きくなる。したがって、例えば、コンタミネーションが起こらずに、ゲノムデータ上に単一コピーマーカー遺伝子が全て存在した場合を１００％として、単一コピーマーカー遺伝子が見いだされた数に基づいてコンタミネーションの割合が計算される。単一コピーマーカー遺伝子が見いだされた数が（１００＋ｎ）％に相当する場合、コンタミネーションの割合はｎ％である。ｎはｎ＞０を満たす実数である。コンタミネーションの割合が高いと、複数の種類の微生物のＤＮＡ配列が混ざってしまっている可能性が高いと考えられる。

　具体的には、ＳＴ０６２において、プロセッサ１０は、コンタミネーションの割合が基準値Ｔ２より小さいか否かを判定する。基準値Ｔ２は、例えば２０％である。コンタミネーションの割合が基準値Ｔ２以上である場合（ＳＴ０６２においてＮＯ）、ＳＴ０６３において、プロセッサ１０は、当該ゲノムデータを除去する。コンタミネーションの割合が基準値Ｔ２より小さい場合（ＳＴ０６２においてＹＥＳ）、プロセッサ１０は、ＳＴ０６４に処理を進める。

　ＳＴ０６４において、プロセッサ１０は、コンティグの数に基づいて、ゲノムデータの品質を判定する。コンティグとは、本来１本のＤＮＡ配列が、複数のＤＮＡ配列に分断されている場合、その分断された配列のことを指す。従って、コンティグの数が多いほど、ＤＮＡ配列が細かく分断されている。コンティグの数が多すぎると、タンパク質を発現する遺伝子領域も分断され、正確に読み出せない可能性がある。コンティグの数は、ゲノムデータに含まれるＤＮＡ配列がいくつに分断されているかを数えればわかる。

　具体的には、ＳＴ０６４において、プロセッサ１０は、コンティグの数が基準値Ｔ３より小さいか否かを判定する。基準値Ｔ３は、例えば１０００個である。コンティグの数が基準値Ｔ３以上である場合（ＳＴ０６４においてＮＯ）、ＳＴ０６５において、プロセッサ１０は、当該ゲノムデータを除去する。コンティグの数が基準値Ｔ３より小さい場合（ＳＴ０６４においてＹＥＳ）、プロセッサ１０は、ＳＴ０６６に処理を進める。

　ＳＴ０６６において、プロセッサ１０は、未決定塩基の数に基づいて、ゲノムデータの品質を判定する。未決定塩基とは、ＤＮＡ塩基配列が解読された際に、ＡＧＣＴのいずれとも判定できなかった塩基を指す。未決定塩基が多く含まれるＤＮＡ配列からは、適切に遺伝子が見いだせない可能性が高い。

　具体的には、ＳＴ０６６において、プロセッサ１０は、未決定塩基の数が基準値Ｔ４より小さいか否かを判定する。基準値Ｔ４は、例えば１０万個である。未決定塩基の数が基準値Ｔ４以上である場合（ＳＴ０６６においてＮＯ）、ＳＴ０６７において、プロセッサ１０は、当該ゲノムデータを除去する。コンティグの数が基準値Ｔ４より小さい場合（ＳＴ０６７においてＹＥＳ）、プロセッサ１０は、ＳＴ０６８に処理を進める。

　ＳＴ０６８において、プロセッサ１０は、遺伝子数が基準値を満たすか否かに基づいて、ゲノムデータの品質を判定する。この基準は、ゲノムデータから推測される遺伝子数が妥当な範囲に含まれるか否かを判定するためのものである。例えば、ゲノムデータから推測される遺伝子数が異常に多い場合、何らかの原因で、本来遺伝子でない部分が遺伝子として推測されてしまっていると考えられる。何らかの原因とは、例えば、ＤＮＡ塩基配列の解読の際に、塩基配列の解読間違いが生じて、本来転写や翻訳の開始や終了に関係しない配列が、転写や翻訳の開始や終了に関係する配列として解読されてしまうことである。この場合、本来タンパク質を発現しない配列も、タンパク質を発現する配列であると誤解されてしまい、予測されるｍ／ｚリストには誤ったピークが多数含まれてしまうことが懸念される。このようなｍ／ｚリストがｍ／ｚＤＢに含まれると、ｍ／ｚＤＢの品質が低下し、サンプルの判別の精度も低下する。

　具体的には、ＳＴ０６８において、プロセッサ１０は、ゲノムデータ中の遺伝子数を、遺伝子をコードする塩基（coding　bases）の数で除算した数が、基準値Ｔ５より小さいか否かを判定する。遺伝子をコードする塩基とは、一般的には、ＤＮＡ配列上の、タンパク質の発現に関する領域に含まれる塩基を指す。基準値Ｔ５は、例えば０．００１８０である。当該除算した数が基準値Ｔ５以上である場合（ＳＴ０６８においてＮＯ）、ＳＴ０６９において、プロセッサ１０は、当該ゲノムデータを除去する。当該除算した数が基準値Ｔ５より小さい場合（ＳＴ０６８においてＹＥＳ）、プロセッサ１０は、当該ゲノムデータを高品質ゲノムＤＢに加える。

　プロセッサ１０は、ＳＴ０６０～ＳＴ０６９を、収集ゲノムＤＢに含まれる全てのゲノムデータに対して行なう。

　なお、完全性、コンタミネーションの割合、コンティグの数、未決定塩基の数、遺伝子数の妥当性の各々の基準に対する計算法は上記の例に限定されない。例えば、遺伝子数の妥当性は、１つのゲノムデータに含まれる遺伝子数が、所定の基準値より小さいか否かで判定してもよい。

　図６に示された処理により、収集ゲノムＤＢに含まれていた、基準を満たさないゲノムデータは除去される。すなわち、公開ゲノムＤＢ７０に含まれていたゲノムデータのうち、品質の低いものが除去され、品質の高いものだけがｍ／ｚＤＢを構築するために使用される。よって、装置１００におけるｍ／ｚＤＢの品質が向上する。

　（４－３．新たなゲノムデータの追加）
　装置１００は、さらに、新たなゲノムデータのｍ／ｚＤＢへの追加も可能に構成される。当該追加は、例えば、装置１００を使用するユーザが、新たな微生物を発見し、当該微生物のゲノムデータの追加を所望するときに実施される。

　図７は、新たなゲノムデータを追加する処理を示す図である。図７のフローチャートは、図５のフローチャートのＳＴ０２がＳＴ０２Ａに変更されており、図５のＳＴ０４，ＳＴ０８のステップが削除されている。図７のフローチャートのＳＴ１２以降の処理は、図５のフローチャートのＳＴ１２以降の処理に対応する。

　ＳＴ０２Ａにおいて、プロセッサ１０は、新たなゲノムデータを取得する。具体的には、例えば、プロセッサ１０は、当該ゲノムデータをＤＮＡシーケンサまたは記憶装置などの外部の装置から、または、ＵＳＢメモリなどの記憶端末から、入出力Ｉ／Ｆ１３または通信Ｉ／Ｆ１２を介して取得する。

　ＳＴ０６において、プロセッサ１０は、当該ゲノムデータが基準を満たすか判定する。当該基準は、品質の高いゲノムデータのみが基準を満たすように設定される。新たなゲノムデータが基準を満たした場合、プロセッサ１０はＳＴ１０に処理を進める。新たなゲノムデータが基準を満たさない場合、プロセッサ１０は新たなゲノムデータを除去する。

　ＳＴ１０において、プロセッサ１０は、当該ゲノムデータに含まれる遺伝子を予測し、処理をＳＴ１２に進める。以降の処理は、図５の処理と同じであるため、その説明は繰り返さない。よって、プロセッサ１０は、新たなゲノムデータから発現が予測されるタンパク質についても、所定の基準を満たす品質の場合には、ｍ／ｚＤＢに追加することができる。

　このように構成すれば、新たに取得されたゲノムデータから予測されるｍ／ｚリストをｍ／ｚＤＢに追加することができ、ｍ／ｚＤＢの内容をより充実させることができる。結果的に、ｍ／ｚＤＢの品質がさらに向上し、当該ｍ／ｚＤＢを用いてのサンプルの判別の精度もさらに向上する。

　［５．サンプルの判別に関する処理の流れ］
　（５－１．２段階スクリーニング）
　装置１００は、以上のように構築したｍ／ｚＤＢを用いてサンプルの判別を行なう。

　図８は、サンプルの判別に関する処理を示すフローチャートである。図８に示されるＳＴ３２～ＳＴ５４の処理は、図２のＳＴ１０２の処理に相当する。

　図８を参照して、ＳＴ３２において、プロセッサ１０は、サンプルリストを取得する。サンプルリストは、例えば、ＭＳ１６から取得される。ＳＴ３４において、プロセッサ１０は、サンプルリストのｍ／ｚを補正するか否かを判定する。サンプルリストを補正するか否かは、例えば、前もってユーザに設定されている。

　ＭＡＬＤＩ－ＴＯＦ　ＭＳ等の質量分析装置における分析時には、サンプルに含まれるタンパク質の質量、使用する装置等に応じて、実際より大きい、または、実際より小さいｍ／ｚが検出されることがある。すなわち、サンプルリストにおいては、多少のｍ／ｚのシフトが測定誤差として含まれる場合がある。一方、装置１００に含まれるｍ／ｚＤＢは、理論値であるので、測定誤差を含まない。よって、サンプルリストのｍ／ｚを測定誤差を打ち消すようにシフトしてから、装置１００に含まれるｍ／ｚＤＢと比較した方が、正確にサンプルが判別できる。

　測定誤差の推定は、以下の手順で行なわれる。まず、測定誤差を含むサンプルリストをそのまま「測定誤差を（略）含まないと想定されるｍ／ｚリスト」と比較する。続いて、当該サンプルリストを所定の値でシフトしたときに、「測定誤差を含まないと想定されるｍ／ｚリスト」との適合率が高くなる所定の値を探す。この所定の値が、測定誤差に対応する。なお、所定の値は、測定誤差としてとりうる値の範囲内で探される。

　なお、「測定誤差を含まないと想定されるｍ／ｚリスト」は、例えば、偽のピークを含みにくいと考えられる特定ｍ／ｚＤＢに含まれるｍ／ｚリストであるが、これに限定されず、例えば全体ｍ／ｚＤＢに含まれるｍ／ｚリストでもよいし、サンプルリストの測定誤差の補正用に準備された他のｍ／ｚリストであってもよい。

　サンプルリストのｍ／ｚを補正する場合（ＳＴ３４においてＹＥＳ）、ＳＴ３６において、プロセッサ１０は、特定ｍ／ｚＤＢに基づいて、サンプルリストに含まれる測定誤差を推定する。ＳＴ３８において、プロセッサ１０は、推定された測定誤差の分だけサンプルリストのｍ／ｚをシフトするという補正を行なう。

　サンプルリストのｍ／ｚを補正しない場合（ＳＴ３４においてＮＯ）、または、ＳＴ３８に続いて、ＳＴ４０～ＳＴ４４において、プロセッサ１０は、サンプルリストと、ｍ／ｚＤＢとを、特定のグループに含まれるタンパク質に対応するｍ／ｚに重み付けした上で比較し、サンプルを判別する。

　ＳＴ４０において、プロセッサ１０は、一次スクリーニングとして、特定ｍ／ｚＤＢの中から、サンプルリストとの適合率が所定の順位以上のｍ／ｚリストを選択する。「適合率が所定の順位以上のｍ／ｚリスト」とは、より詳細には、スクリーニングに用いるｍ／ｚＤＢ中のｍ／ｚリストの中で、サンプルリストとの適合率が所定の順位以上であるｍ／ｚリストである。例えば、適合率が上位Ｎ１個のｍ／ｚリストが、適合率が所定の順位以上のｍ／ｚリストとして選択される。Ｎ１は、例えば５００～５０００の間の整数である。「適合率が所定の順位以上のｍ／ｚリスト」の他の例は、適合率が所定の数値以上のｍ／ｚリストである。「適合率が所定の数値以上のｍ／ｚリスト」は、「適合率が所定の数値以上のｍ／ｚリストの数に対応する順位以上のｍ／ｚリスト」と考えることができる。

　ＳＴ４２において、プロセッサ１０は、当該上位Ｎ１個のｍ／ｚリストに対応する、全体ｍ／ｚＤＢ中のｍ／ｚリストを選択する。換言すると、当該上位Ｎ１個のｍ／ｚリストに対応するゲノムの、全体ｍ／ｚＤＢ中のｍ／ｚリストを選択する。

　ＳＴ４４において、プロセッサ１０は、二次スクリーニングとして、選択された全体ｍ／ｚＤＢ中のｍ／ｚリストの中から、サンプルリストと適合率の高いｍ／ｚリストを選択することにより、サンプルを判別する。例えば、選択された全体ｍ／ｚＤＢ中のｍ／ｚリストの上位Ｎ２個のｍ／ｚリストが、適合率の高いｍ／ｚリストとして選択される。なお、Ｎ１は、Ｎ２＜Ｎ１となる整数であり、例えば、１～１００の間の整数である。

　サンプルの判別が完了すると、ＳＴ４６において、プロセッサ１０は、判別結果に分類データを反映する。例えば、プロセッサ１０は、選別されたＮ１個のｍ／ｚリストの各々に対応する微生物の分類情報（科、属、種、系統等）を付加する。

　また、Ｎ１個のｍ／ｚリストを、分類データを基に整理してもよい。例えば、Ｎ１個のｍ／ｚリストを、分類情報順に並び替えた表を作成してもよい。また、例えば、Ｎ１個のｍ／ｚリストに対応する微生物を系統樹上に記載した図を作成してもよい。また、例えば、Ｎ１個のｍ／ｚリストに対応する微生物の中に特定の科、属、種、系統に対応する微生物がいくつずつ含まれるかを数値化してもよい。具体的には、Ｎ１個のｍ／ｚリストに対応する微生物の中で、最も数が多かった科、属、種、系統を記載した表を作成してもよい。また、例えば、Ｎ１個のｍ／ｚリストに分類データを反映することで、さらに判別結果を絞り込んでもよい。具体的には、分類学的に明らかな外れ値であるｍ／ｚリストは除去するなどの処理を加えてもよい。以上に例示された処理により、分類学的観点を反映した判別結果が出力可能である。また、以上に例示された処理は、２種類以上の分類学的体系に基づいてなされてもよい。これにより、複数の分類学的観点を反映した判別結果を作成できる。

　ＳＴ４８において、プロセッサ１０は、サンプルリストに含まれるｍ／ｚに対応するタンパク質、すなわち、サンプルで発現すると考えられるタンパク質を予測するかを判定する。タンパク質を予測するか否かは、例えば、前もってユーザによって設定されている。

　タンパク質を予測しない場合（ＳＴ４８においてＮＯ）、ＳＴ５０において、プロセッサ１０は判別結果を出力し、処理を終了する。判別結果は、例えば、ディスプレイ１５に表示されることで、出力される。

　タンパク質を予測する場合（ＳＴ４８においてＹＥＳ）、ＳＴ５２において、プロセッサ１０は、サンプルリストに含まれるｍ／ｚに対応するタンパク質の注釈をリンクさせる。注釈は、上記したようにタンパク質に関する情報であり、タンパク質が含まれるグループに関する情報を含む。具体的には、例えば、プロセッサ１０は、サンプルリストに、ｍ／ｚに対応するタンパク質の名称および機能の項目を追加する。また、例えば、プロセッサ１０は、サンプルリストと独立した、サンプルリストに含まれるｍ／ｚに対応するタンパク質の名称および機能の表を作成してもよい。

　タンパク質の注釈がリンクされると、ＳＴ５４において、プロセッサ１０は、ＳＴ４４，ＳＴ４６で作成された判別結果と、ＳＴ５２においてサンプルリストに含まれるｍ／ｚに対応づけられた注釈とを出力し、処理を終了する。判別結果と注釈とは、例えば、ディスプレイ１５に表示されることで、出力される。このように、サンプルリストから予測された発現するタンパク質に関する情報を出力すると、ユーザは、サンプルにおいて発現すると予測されるタンパク質に関する情報を容易に認識できるので、サンプルへの理解を深める。また、当該タンパク質に関する情報は、サンプルの判別結果の検討時にも参照可能であるし、サンプルに対して他の解析を行なうときに参照することも可能であり、ユーザの利便性を高める。

　図８の処理では、特定ｍ／ｚＤＢに基づく一次スクリーニングと、全体ｍ／ｚＤＢに基づく二次スクリーニングが行なわれるが、これには以下のメリットがある。まず、機能的に重要であり、発現量の多いタンパク質のｍ／ｚに絞って一次スクリーニングを行なうことによって、偽のピークの影響が少ない状態で、適合率の高いｍ／ｚリストを絞り込むことができる。次に、全てのｍ／ｚにおいて、二次スクリーニングを行なうことによって、一次スクリーニングで行なった特定のグループに含まれるタンパク質以外のタンパク質の類似度を反映することができる。

　なお、一次スクリーニングと異なる特定のグループに含まれるタンパク質のｍ／ｚに絞って二次スクリーニングを行なってもよい。この場合は、２種類の重要なタンパク質に着目してサンプルを判別できる。

　また、このように異なるスクリーニングを３回以上組み合わせてもよい。
　まとめると、装置１００は、特定のグループに含まれるタンパク質に対応するｍ／ｚに基づくスクリーニングを含む、２段階以上のスクリーニングによりサンプルを分類学的に判別することができる。このように複数の異なるスクリーニングを行なうことで、それぞれのスクリーニングの特徴を生かし、全体としてサンプルの判別の精度を高めることができる。

　さらに、装置１００は、微生物の分類に関する分類データを基に、サンプルを判別するようにも構成できる。

　例えば、特定ｍ／ｚＤＢを、比較的上位の分類群（例えば種・株より上位の分類群として属等）の中で共通して発現するタンパク質のグループに対応するｍ／ｚのみを含むように構築する。概念的には、特定ｍ／ｚＤＢとして、ある属Ａ内で共通して発現するタンパク質のグループＰＡを含むとする。この場合、当該特定ｍ／ｚＤＢを用いたスクリーニングにより、サンプルが属Ａに含まれるか否かを精度よく判定できる。同様にして、特定ｍ／ｚＤＢとして、各属内で共通して発現するタンパク質のグループの各々を含むように構築すれば、当該特定ｍ／ｚＤＢを用いたスクリーニングにより、サンプルの属を精度よく判別できる。そして、その後、二次スクリーニングとして、判別された属内での、種・株の判別を行なうことができる。よって、一次スクリーニングにおいて、サンプルの属が誤って判定される可能性を軽減し、二次スクリーニングにおいて、種・株の判別に適した状態でスクリーニングを行なうことができる。よって、サンプルの判別の精度を高めることができる。

　（５－２．スコアによる重み付け）
　サンプルの判別において、特定のグループに含まれるタンパク質に対応するｍ／ｚに重み付けする方法は、上記の特定ｍ／ｚＤＢを利用する方法に限定されない。例えば、サンプルリストと全体ｍ／ｚＤＢに含まれるｍ／ｚリストとを比較する際に、特定のグループに含まれるタンパク質に対応するｍ／ｚが一致した場合には、他のタンパク質に対応するｍ／ｚが一致した場合より、適合率が高くなるように計算する方法であってもよい。

　図９は、サンプルの判別に関する処理の他の例を示すフローチャートである。図９のフローチャートは、図８のフローチャートのＳＴ４０～ＳＴ４２がＳＴ４０Ａに変更されており、図９のその他のステップは図８と同様である。

　図９のＳＴ４０Ａにおいて、プロセッサ１０は、全体ｍ／ｚＤＢ中のｍ／ｚリストの中から、サンプルリストと適合率の高いｍ／ｚリストを選択する。例えば、全体ｍ／ｚＤＢ中の上位Ｎ３個のｍ／ｚリストが、適合率の高いｍ／ｚリストとして選択される。具体的には、プロセッサ１０は、まず、全体ｍ／ｚＤＢに含まれるｍ／ｚリストの各々について、ｍ／ｚリストに含まれるｍ／ｚとサンプルリストに含まれるｍ／ｚとが一致した数に、所定の係数を乗算してスコアを計算する。そして、全体ｍ／ｚＤＢ中において、スコアが所定の順位以上のｍ／ｚリストを選択する。「スコアが所定の順位以上のｍ／ｚリスト」とは、より詳細には、スクリーニングに用いるｍ／ｚＤＢ中のｍ／ｚリストの中で、スコアが所定の順位以上であるｍ／ｚリストである。例えば、スコアが上位Ｎ３個のｍ／ｚリストが、スコアが所定の順位以上のｍ／ｚリストとして選択される。「スコアが所定の順位以上のｍ／ｚリスト」の他の例は、スコアが所定の数値以上のｍ／ｚリストである。「スコアが所定の数値以上のｍ／ｚリスト」は、「スコアが所定の数値以上のｍ／ｚリストの数に対応する順位以上のｍ／ｚリスト」と考えることができる。

　このとき、スコアを計算する際に用いる係数は、特定のグループに含まれるタンパク質に対応するｍ／ｚが一致した場合には、特定のグループに含まれるタンパク質に対応しないｍ／ｚが一致した場合よりも大きくなるように設定されている。例えば、係数は１０倍に設定される。すなわち、特定のグループに含まれるタンパク質に対応するｍ／ｚが一致した場合の方が、そうではないタンパク質に対応するｍ／ｚが一致した場合より、スコアが大きくなりやすく、結果として適合率が高く計算されやすくなる。したがって、特定のグループに含まれるタンパク質に重み付けした状態で、サンプルの判別を行なうことができる。よって、例えば偽のピークを含みにくい機能的に重要で保存されているタンパク質について重み付けしてサンプルを判別できるので、サンプルの判別の精度が高まる。

　なお、ＳＴ４０Ａにおいて、特定のグループに含まれるタンパク質に対応するｍ／ｚは、特定ｍ／ｚＤＢに含まれるｍ／ｚとして選択されてもよいが、注釈ＤＢを参照して選択されてもよい。また、上記したように、ＳＴ３６で示される測定誤差の推定においても、必ずしも特定ｍ／ｚＤＢを利用する必要は無い。よって、スコアの係数で重み付けをする微生物の判別方法においては、特定ｍ／ｚＤＢの構築は必ずしも必須ではない。

　また、重み付けの方法として、特定ｍ／ｚＤＢを利用した多段スクリーニングを行なう方法と、スコアの係数を変化させる方法を組み合わせてもよい。例えば、一次スクリーニングとして、とあるグループのタンパク質の特定ｍ／ｚＤＢを用いてスクリーニングし、二次スクリーニングとして、別のグループのタンパク質に相当するｍ／ｚが一致した場合の係数を大きくしてサンプルを判別することを行なってもよい。

　［６．実験例］
　微生物判別システム１０００を用いて行なった実験の一例を説明する。

　（６－１．データベース構築）
　米国・国立生物工学情報センター（ＮＣＢＩ）からバクテリア、アーキアのゲノム配列をＦＴＰサーバを介して取得した（ＲｅｆＳｅｑ　ｖ９５を利用、２７万件以上）。すべてのゲノム配列について、遺伝子推定（Ｐｒｏｄｉｇａｌを利用）を行い遺伝子座とその産物の予測を行った。その結果の完全性、コンタミネーションはｃｈｅｃｋＭにより推定した。また、ゲノム配列中のコンティグ数、未決定塩基（Ｎ）の数、Ｎ５０、ゲノム塩基長に対する遺伝子数をコンピュータ上で計測した。なお、Ｎ５０とは、ゲノム情報（アセンブリ）の良し悪しを示す指標の一つであり、ゲノム配列のアセンブリ中のコンティグの配列長の加重平均を示す。Ｎ５０は、コンティグを長い順に並べて上から順に足していった時に、全体の長さの半分に達したときの配列の長さ（塩基長）のことである。推定された遺伝子から予測される産物（タンパク質）は、そのアミノ酸構成に応じて、メチオニンの除去、シグナルタンパクの予測とそれによる切断断片予測（ＳｉｇｎａｌＰを利用）を実施し、予測される最終タンパク質の質量を計算した。それら理論タンパク質質量情報をデータ化し（全体ｍ／ｚＤＢ）、各ゲノムの系統分類情報（ＧＴＤＢ、Ｓｉｌｖａ、ＧｒｅｅｎＧｅｎｅｓなどの既存の分類学的情報）を収集、それらが同一ＩＤで連結されたデータベースを作成した（分類ＤＢ）。また、予測された遺伝子産物（タンパク質）については、ＵｎｉＰｒｏＫＢやＰＦＡＭなどの既存のタンパク質データベースの登録情報との類似度を利用して、それぞれのタンパク質の機能を推定し、すべての理論タンパク質質量とタンパク質の名称が紐づいたデータベース（注釈ＤＢ）を作成した。

　各ゲノム配列について、推定された完全度が５０％以下、コンタミネーションが１０％以上、コンティグ数が１，０００以上、Ｎ５０が５ｋｂｐ以下、未決定塩基（Ｎ）が１００，０００以上かのいずれかの基準値を示すゲノム配列は、ゲノム配列の品質が低いと判断しデータより除外した。また、（遺伝子数／ゲノム中の遺伝子座における塩基数全長）が０．００１８０以上のゲノム配列は削除した。

　これらの基準を考慮せずにすべてのゲノムエントリを対象としてデータベースを構築し、ＭＡＬＤＩ－ＭＳ（ＡＸＩＭＡ（登録商標）　島津製作所製）により取得した既知微生物株のタンパク質測定ピークリストから微生物同定を行った場合、ゲノムあたりの遺伝子数が極端に高いゲノムエントリが高い確率で一致し、正しい結果が得られないことが観察された。

　具体的な、既知微生物株の実験手順は次の通りである。独立行政法人製品評価技術基盤機構バイオテクノロジーセンター（ＮＢＲＣ）などより入手した微生物群、たとえばEscherichia　coli　NBRC　3301、Bacillus　subtilis　subsp.　subtilis　NBRC　13719、Microlunatus　phosphovorus　NBRC　101784、Bifidobacterium　longum　ATCC　15707、Clostridium　acetobutylicum　NBRC　13948、Arthrobacter　globiformis　NBRC　12137、Brachybacterium　conglomeratum　NBRC　15472、Streptomyces　griseus　subsp.　griseus　NBRC　12875、Tetrasphaera　duodecadis　NBRC12959、Bacteroides　fragilis　ATCC　25285、Sphingomonas　yanoikuyae　NBRC　15102、Xanthobacter　autotrophicus　NBRC　102463、Rhodobacter　azotoformans　NBRC　16436、Methanosarcina　thermophila　MST-A1、Thauera　linaloolentis　NBRC　102519などのバクテリア、アーキアを指定培地で培養し、培養液を遠心分離して（１００００ｇ、２分）培地成分を除去し、同量の純水を加えて菌体を分散させ、同じ条件で遠心分離して、上清を除去した。得られた菌体の沈殿物に純水５００μＬを加えて菌体を分散させ、菌体分散液を得た。１．５ｍＬ容のスクリューキャップ付チューブに５００μＬのジルコニアビーズ（φ０．５ｍｍ）を加え、前述の菌体分散液５００μＬを加えた。ビーズ破砕機（ＴＯＭＹ精工製　ＭＳ－１００）で４０００ｒｐｍ、合計３分間破砕処理を行い、破砕液を遠心分離して（１５０００ｇ、５分）得た上清１μＬを９μＬの１０ｍｇ／ｍｌのＣＨＣＡ（α-cyano-4-hydroxycinnamic　acid）溶液（１％ＴＦＡ（Trifluoroacetic　Acid）を含む５０％アセトニトリル水溶液）と混合して、ＭＡＬＤＩ－ＭＳ用試料プレートに１μＬ滴下し、風乾させて試料／マトリックス混合結晶を調製した。これらの菌体試料よりＭＡＬＤＩ－ＭＳリニア―モードでｍ／ｚ２０００－２００００の範囲を測定し、ＭＡＬＤＩマススペクトルを得た。ピークピックを行い、検出ピークのｍ／ｚ値とピーク強度（ｍＶ）からなるピークリストを作成した。

　その後、上記で作成したデータベースを利用しピークリスト中のピークとデータベース中の理論ｍ／ｚ値との照合により、一致度の確認を行った。その結果、多くで実測ピークが一定の幅で一致するものが該当の菌種のゲノム情報から推定された理論ピークであったが、そのうち該当の菌種以外のゲノム情報から推定された理論ピークにも高い一致度を示すゲノム情報が含まれていた。

　図１０は、ゲノム中の遺伝子部位での塩基配列総数とゲノムあたりの推定遺伝子数との関係を示す図である。より詳細には、図１０は、ＲｅｆＳｅｑ９５でのバクテリア、アーキアゲノム情報（２７万件以上）から推定したそれぞれのゲノム中遺伝子座位塩基長と推定遺伝子数の関係を示す。図１０において、当該塩基配列総数と推定遺伝子との関係をすべてのゲノムエントリ（２７万件以上）で示した場合、図１０中の一点鎖線（遺伝子数／ゲノム中の遺伝子座における塩基数全長が０．００１８０の線）よりも上に位置するゲノムが多く検出されていた。これらは、ゲノム解読時の塩基配列の読み取りエラーなどに起因して実際には存在しないタンパク質を予測、実際よりも多くの理論ピークを予測していることで偽陽性としてピークの一致が見られることがその原因であることが推定された。

　一方、使用するデータ（遺伝子数／ゲノム中の遺伝子座における塩基数全長）が約０．００１８０以上のゲノムエントリをデータベースから削除することで、上記微生物群からのピークリストと、該当するゲノム情報からの推定理論ピークとの一致度が上位に位置付けられる結果が得られた。換言すると、図１０の一点鎖線の上に位置するゲノムエントリをデータベースから削除することで適切な評価を実施できることが確認された。これらのことは、公共データベースに登録のあるゲノム情報をもとに、上記の方法で適切に選別したデータベースを構築することが、微生物判別用のデータベースを構築する上で不可欠であることを示している。

　これらの選別の結果、１９３，１９７エントリを持つ全体ｍ／ｚＤＢを作成した。また、ＧＴＤＢを参考にその中で種レベルで代表するデータベースを別途作成し、３１，７６０エントリで構成される種レベルの代表データベースを構築した。

　（６－２．アルゴリズム構築）
　ＮＢＲＣなどより入手した微生物群、たとえばEscherichia　coli　NBRC　3301、Bacillus　subtilis　subsp.　subtilis　NBRC　13719、Microlunatus　phosphovorus　NBRC　101784、Bifidobacterium　longum　ATCC　15707、Clostridium　acetobutylicum　NBRC　13948、Arthrobacter　globiformis　NBRC　12137、Brachybacterium　conglomeratum　NBRC　15472、Streptomyces　griseus　subsp.　griseus　NBRC　12875、Tetrasphaera　duodecadis　NBRC12959、Bacteroides　fragilis　ATCC　25285、Sphingomonas　yanoikuyae　NBRC　15102、Xanthobacter　autotrophicus　NBRC　102463、Rhodobacter　azotoformans　NBRC　16436、Methanosarcina　thermophila　MST-A1、Thauera　linaloolentis　NBRC　102519などのバクテリア、アーキアを指定培地で培養し、培養液を遠心分離して（１００００ｇ、２分）培地成分を除去し、同量の純水を加えて菌体を分散させ、同じ条件で遠心分離して、上清を除去した。これらの微生物群は、好気性、嫌気性バクテリア、メタン生成アーキアなどの多様な系統群を含み、グラム陽性、グラム陰性などの多様な細胞壁構造を持ち、放線菌なども含まれる微生物群である。これらの得られた菌体の沈殿物に純水５００μＬを加えて菌体を分散させ菌体分散液を得た。１．５ｍＬ容のスクリューキャップ付チューブに５００μＬのジルコニアビーズ（φ０．５ｍｍ）を加え、前述の菌体分散液５００μＬを加えた。ビーズ破砕機（ＴＯＭＹ精工製　ＭＳ－１００）で４０００ｒｐｍ、合計３分間破砕処理を行い、破砕液を遠心分離して（１５０００ｇ、５分）得た上清１μＬを９μＬの１０ｍｇ／ｍｌのＣＨＣＡ溶液（１％ＴＦＡを含む５０％アセトニトリル水溶液）と混合して、ＭＡＬＤＩ－ＭＳ用試料プレートに１μＬ滴下し、風乾させて試料／マトリックス混合結晶を調製した。次に、ＭＡＬＤＩ－ＭＳ（ＡＸＩＭＡ（登録商標）　島津製作所製）で測定を行い、各試料菌株のマススペクトルを得た。

　上記作成のデータベースでの理論ピークリストと、培養微生物群から実際に得られた実測ピークを比較した。理論ピークから一定の範囲内に実測ピークがある場合ピークを一致するとし、その範囲を２００ｐｐｍとして一致するピーク数を全体ｍ／ｚＤＢ中のすべてのエントリで計算した場合、最も一致度が高いゲノムエントリが必ずしも測定株に該当するゲノムエントリではない場合が見られた。次に、ＭＡＬＤＩでの測定で高頻度に検出されやすいタンパク質を選別したデータベース（特定ｍ／ｚＤＢ）を構築した。ここでは、高頻度で検出されやすいリボソームタンパクをデータベース（注釈ＤＢ）を参考に抽出し、そのデータベース中で実測ピークリストと一致度が高いゲノムエントリを選別（たとえば５００から５，０００エントリを抽出）、それらのエントリに対してすべての理論タンパクピークリストを利用した一致度を計算する２段階の検索アルゴリズムを実装した。その結果、下記表１に示すように、上記１５菌株の全てにおいて、実測ピークリストから近縁なゲノムエントリを選択、正しく系統分類群（属、種）を推定できるアルゴリズムが構築された。表１は、様々な系統、生理学的特徴、細胞壁の特徴を持つバクテリアおよびアーキアについて、当該アルゴリズムを用いて判別した結果を示す図である。

　［態様］
　上述した複数の例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。

　（第１項）一態様に係る微生物判別用のデータベースを構築する方法は、ゲノムデータベースから、微生物のゲノムデータを取得するステップと、取得したゲノムデータが基準を満たすか判定するステップと、基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測するステップと、予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む、質量電荷比データベースを構築するステップとを備えてもよい。

　第１項に記載の微生物判別用のデータベースを構築する方法によれば、ゲノムデータベース上の基準を満たすゲノムデータのみに基づいて、質量電荷比データベースを構築できる。すなわち、質量分析法を用いた微生物の判別に用いられる、ゲノムデータベースを基に構築される質量電荷比のデータベースの品質を向上できる。

　（第２項）第１項に記載の微生物判別用のデータベースを構築する方法において、基準を満たすか判定するステップは、遺伝子数が基準値を満たすかに基づいて判定するステップを含んでもよい。

　第２項に記載の微生物判別用のデータベースを構築する方法によれば、ゲノムデータから推測される遺伝子数が妥当な範囲に含まれないゲノムデータは除去され、質量電荷比データベースには反映されない。よって、質量電荷比データベースの品質が向上する。

　（第３項）第１項または第２項に記載の微生物判別用のデータベースを構築する方法において、基準を満たすか判定するステップは、ゲノムの完全性に基づいて判定するステップを含んでもよい。

　第３項に記載の微生物判別用のデータベースを構築する方法によれば、ゲノムデータの一部が欠損していたり、誤って読み取られている場合のように、ゲノムデータが不完全である場合には、当該ゲノムデータは除去され、質量電荷比データベースには反映されない。よって、質量電荷比データベースの品質が向上する。

　（第４項）第１～３項のいずれか１項に記載の微生物判別用のデータベースを構築する方法において、基準を満たすか判定するステップは、ゲノムのコンタミネーションの割合に基づいて判定するステップを含んでもよい。

　第４項に記載の微生物判別用のデータベースを構築する方法によれば、コンタミネーションの割合が高いゲノムデータを除去できる。すなわち、複数の種類の微生物のＤＮＡ配列が混ざってしまっている可能性が高いゲノムデータは、質量電荷比データベースには反映されない。よって、質量電荷比データベースの品質が向上する。

　（第５項）第１～４項のいずれか１項に記載の微生物判別用のデータベースを構築する方法において、基準を満たすか判定するステップは、コンティグの数に基づいて判定するステップを含んでもよい。

　第５項に記載の微生物判別用のデータベースを構築する方法によれば、コンティグの数が多いゲノムデータを除去できる。コンティグの数が多すぎると、タンパク質を発現する遺伝子領域も分断され、正確に読み出せない可能性がある。よって、コンティグの数に基づいて品質の低いゲノムデータが除去され、当該ゲノムデータが質量電荷比データベースに反映されないようにすることで、質量電荷比データベースの品質が向上できる。

　（第６項）第１～５項のいずれか１項に記載の微生物判別用のデータベースを構築する方法において、基準を満たすか判定するステップは、未決定塩基の数に基づいて判定するステップを含んでもよい。

　第６項に記載の微生物判別用のデータベースを構築する方法によれば、未決定塩基の数が多いゲノムデータを除去できる。未決定塩基が多く含まれるＤＮＡ配列からは、適切に遺伝子が見いだせない可能性が高い。よって、未決定塩基の数に基づいて品質の低いゲノムデータが除去され、当該ゲノムデータが質量電荷比データベースに反映されないようにすることで、質量電荷比データベースの品質が向上できる。

　（第７項）第１～６項のいずれか１項に記載の微生物判別用のデータベースを構築する方法において、質量電荷比データベースを構築するステップは、予測されたタンパク質または質量電荷比に、予測されたタンパク質が含まれるグループに関する情報をリンクさせるステップを含んでもよい。

　第７項に記載の微生物判別用のデータベースを構築する方法によれば、タンパク質が含まれるグループに関する情報に基づいて、特定のグループに含まれるタンパク質に対応する質量電荷比を選択的に処理することが可能となる。特定のグループとは、例えば、「微生物の生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される可能性が高いタンパク質のグループ」である。

　（第８項）第７項に記載の微生物判別用のデータベースを構築する方法において、グループに関する情報は、タンパク質の名称、タンパク質の機能およびファミリーの少なくとも１つを含んでもよい。

　第８項に記載の微生物判別用のデータベースを構築する方法によれば、同じタンパク質、同じ機能を有するタンパク質、または、同じファミリーのタンパク質に対応する質量電荷比を選択的に処理できる。例えば、「微生物の生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出される可能性が高いタンパク質のグループ」に対応する質量電荷比を、タンパク質の名称、機能またはファミリーの情報に基づいて、重み付けしてサンプルを判別することが可能となる。

　（第９項）第７項または第８項に記載の微生物判別用のデータベースを構築する方法において、質量電荷比データベースを構築するステップは、グループに関する情報に基づいて、特定のグループに含まれると予測された質量電荷比のみを有する特定質量電荷比リストを含む特定質量電荷比データベースを構築するステップをさらに含んでもよい。

　第９項に記載の微生物判別用のデータベースを構築する方法によれば、特定質量電荷比データベースを用いて、特定のグループに含まれるタンパク質の質量電荷比を選択的に処理することが容易となる。例えば、特定のグループに含まれるタンパク質の質量電荷比にのみ基づいたスクリーニングが可能になる。

　（第１０項）第７～９項のいずれか１項に記載の微生物判別用のデータベースを構築する方法において、グループは、発現量が所定の閾値以上であるという条件、生命維持に不可欠な機能を有するという条件、アミノ酸配列の類似度が所定の閾値以上である微生物が所定の割合以上存在するという条件、塩基性タンパク質であるという条件、ＭＡＬＤＩ－ＭＳ測定で測定した際に±１４Ｄａ以内の誤差範囲で質量電荷比を分析できるという条件、タンパク質の質量が４～３０ｋＤａに含まれるという条件、グループに含まれるタンパク質の種類が所定の数以上であるという条件、の少なくとも１つの条件に基づいて選択され、生命維持に不可欠な機能は、細胞の維持および増殖の少なくとも１つに不可欠な機能を含んでよい。

　第１０項に記載の微生物判別用のデータベースを構築する方法によれば、上記の条件を満たす「生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出されるタンパク質」に対応する質量電荷比が選択的に処理できる。

　（第１１項）第７～１０項のいずれか１項に記載の微生物判別用のデータベースを構築する方法において、グループは、リボソームタンパク質、シャペロン、ＤＮＡ結合タンパク質の少なくとも１つを含んでもよい。

　第１１項に記載の微生物判別用のデータベースを構築する方法によれば、リボソームタンパク質、シャペロン、ＤＮＡ結合タンパク質という、「生体内で発現する可能性が高く、マススペクトルを測定した場合にもピークとして検出されるタンパク質」に対応する質量電荷比が選択的に処理できる。よって、これらのタンパク質に重み付けして、サンプルの判別を行なうことが可能となる。

　（第１２項）第１～６項のいずれか１項に記載の微生物判別用のデータベースを構築する方法において、質量電荷比データベースを構築するステップは、予測された全ての質量電荷比を含む全体質量電荷比データベースを構築するステップを含んでもよい。

　第１２項に記載の微生物判別用のデータベースを構築する方法によれば、全体質量電荷比データベースを用いて、全ての質量電荷比に基づいたスクリーニングも可能になる。よって、特定のグループに含まれるタンパク質以外のタンパク質の類似度も、サンプルの選別に反映することが可能となる。

　（第１３項）第７～１１項のいずれか１項に記載の微生物判別用のデータベースを構築する方法において、質量電荷比データベースを構築するステップは、予測された全ての質量電荷比を含む全体質量電荷比データベースを構築するステップを含んでもよい。

　第１３項に記載の微生物判別用のデータベースを構築する方法によれば、全体質量電荷比データベースを用いて、全ての質量電荷比に基づいたスクリーニングも可能になる。よって、特定のグループに含まれるタンパク質以外のタンパク質の類似度も、サンプルの選別に反映することが可能となる。

　（第１４項）第１～１３項のいずれか１項に記載の微生物判別用のデータベースを構築する方法において、微生物の分類に関する分類データを含むデータベースから、分類データを取得するステップをさらに備えてよい。質量電荷比データベースを構築するステップは、分類データと質量電荷比データベースとを対応づけるステップを含んでもよい。

　第１４項に記載の微生物判別用のデータベースを構築する方法によれば、収集した分類データに基づいて作成されたゲノムＩＤを、全体質量電荷比データベース、特定質量電荷比データベースの各々に含まれるデータと対応付けられる。また、収集した分類データを、全体質量電荷比データベース、特定質量電荷比データベースの整理に用いたり、内容に反映することも可能である。また収集した分類データを、「特定の種でのみ顕著に発現することが知られている特定のタンパク質」を決定するとき等、装置における他の用途にも用いることが可能である。

　（第１５項）第１～１４項のいずれか１項に記載の微生物判別用のデータベースを構築する方法において、予測するステップは、ゲノムデータから遺伝子を予測するステップと、予測された遺伝子から翻訳後のアミノ酸配列を予測するステップと、翻訳後のアミノ酸配列から翻訳後修飾を予測するステップと、予測された翻訳後修飾を加えたタンパク質を予測するステップとを含んでもよい。

　第１５項に記載の微生物判別用のデータベースを構築する方法によれば、ゲノムデータから、実際に生体内で発現するタンパク質が予測できる。よって、実際に生体内で発現するタンパク質の質量電荷比を、質量電荷比データベースに反映できるため、質量電荷比データベースの品質が向上する。

　（第１６項）第１～１５項のいずれか１項に記載の微生物判別用のデータベースを構築する方法において、質量電荷比データベースに、新たなゲノムデータを取得するステップと、新たなゲノムデータが基準を満たすか判定するステップと、新たなゲノムデータが基準を満たした場合、新たなゲノムデータから発現するタンパク質を予測し、予測結果に基づいて質量電荷比を予測し、新たな質量電荷比のリストを予測するステップと、新たな質量電荷比のリストを、質量電荷比データベースに追加するステップとを含んでよい。

　第１６項に記載の微生物判別用のデータベースを構築する方法によれば、新たに取得されたゲノムデータをｍ／ｚＤＢに追加することができ、ｍ／ｚＤＢの内容をより充実させることができる。結果的に、ｍ／ｚＤＢの品質がさらに向上し、当該ｍ／ｚＤＢを用いてのサンプルの判別の精度もさらに向上する。

　（第１７項）一態様に係る微生物判別用のデータベースを構築する装置は、ゲノムデータベースから取得した微生物のゲノムデータを用いて微生物判別用のデータベースを構築する。当該装置は、プロセッサと、記憶部とを備える。プロセッサは、取得したゲノムデータが基準を満たすか判定する。また、プロセッサは、基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測する。また、プロセッサは、予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む質量電荷比データベースを構築する。また、プロセッサは、記憶部に、質量電荷比データベースを記憶する。

　第１７項に記載の微生物判別用のデータベースを構築する装置によれば、ゲノムデータベース上の基準を満たすゲノムデータのみに基づいて、質量電荷比データベースを構築できる。すなわち、質量分析法を用いた微生物の判別に用いられる、ゲノムデータベースを基に構築される質量電荷比のデータベースの品質を向上できる。

　今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　１０　プロセッサ、１１　メモリ、１２　通信Ｉ／Ｆ、１３　入出力Ｉ／Ｆ、１４　操作部、１５　ディスプレイ、１６　ＭＳ、２１　ゲノムデータ収集部、２２　ゲノムデータ判定部、２３　タンパク質予測部、２４　構築部、２５　記憶部、３１　取得部、３２　サンプル判別部、３３　注釈部、３４　出力部、７０　公開ゲノムデータベース、８０　公開分類データベース、９０　ネットワーク、１００　装置、１０１　コントローラ、３２１　一次スクリーニング部、３２２　二次スクリーニング部、１０００　微生物判別システム。

Claims

　ゲノムデータベースから、微生物のゲノムデータを取得するステップと、
　取得したゲノムデータが基準を満たすか判定するステップと、
　基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測するステップと、
　予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む、質量電荷比データベースを構築するステップとを備える、微生物判別用のデータベースを構築する方法。
　前記基準を満たすか判定するステップは、遺伝子数が基準値を満たすかに基づいて判定するステップを含む、請求項１に記載の微生物判別用のデータベースを構築する方法。
　前記基準を満たすか判定するステップは、ゲノムの完全性に基づいて判定するステップを含む、請求項１または２に記載の微生物判別用のデータベースを構築する方法。
　前記基準を満たすか判定するステップは、ゲノムのコンタミネーションの割合に基づいて判定するステップを含む、請求項１または２に記載の微生物判別用のデータベースを構築する方法。
　前記基準を満たすか判定するステップは、コンティグの数に基づいて判定するステップを含む、請求項１または２に記載の微生物判別用のデータベースを構築する方法。
　前記基準を満たすか判定するステップは、未決定塩基の数に基づいて判定するステップを含む、請求項１または２に記載の微生物判別用のデータベースを構築する方法。
　前記質量電荷比データベースを構築するステップは、予測されたタンパク質または質量電荷比に、予測されたタンパク質が含まれるグループに関する情報をリンクさせるステップを含む、請求項１に記載の微生物判別用のデータベースを構築する方法。
　前記グループに関する情報は、タンパク質の名称、タンパク質の機能およびファミリーの少なくとも１つを含む、請求項７に記載の微生物判別用のデータベースを構築する方法。
　前記質量電荷比データベースを構築するステップは、前記グループに関する情報に基づいて、特定の前記グループに含まれると予測された質量電荷比のみを有する特定質量電荷比リストを含む特定質量電荷比データベースを構築するステップをさらに含む、請求項７または８に記載の微生物判別用のデータベースを構築する方法。
　前記グループは、発現量が所定の閾値以上であるという条件、生命維持に不可欠な機能を有するという条件、アミノ酸配列の類似度が所定の閾値以上である微生物が所定の割合以上存在するという条件、塩基性タンパク質であるという条件、ＭＡＬＤＩ－ＭＳ測定で測定した際に±１４Ｄａ以内の誤差範囲で質量電荷比を分析できるという条件、タンパク質の質量が４～３０ｋＤａに含まれるという条件、グループに含まれるタンパク質の種類が所定の数以上であるという条件、の少なくとも１つの条件に基づいて選択され、
　生命維持に不可欠な機能は、細胞の維持および増殖の少なくとも１つに不可欠な機能を含む、請求項７または８に記載の微生物判別用のデータベースを構築する方法。
　前記グループは、リボソームタンパク質、シャペロン、ＤＮＡ結合タンパク質の少なくとも１つを含む、請求項７または８に記載の微生物判別用のデータベースを構築する方法。
　前記質量電荷比データベースを構築するステップは、予測された全ての質量電荷比を含む全体質量電荷比データベースを構築するステップを含む、請求項１または２に記載の微生物判別用のデータベースを構築する方法。
　前記質量電荷比データベースを構築するステップは、予測された全ての質量電荷比を含む全体質量電荷比データベースを構築するステップをさらに含む、請求項７または８に記載の微生物判別用のデータベースを構築する方法。
　微生物の分類に関する分類データを含むデータベースから、分類データを取得するステップをさらに備え、
　前記質量電荷比データベースを構築するステップは、前記分類データと前記質量電荷比データベースとを対応づけるステップを含む、請求項１または２に記載の、微生物判別用のデータベースを構築する方法。
　前記予測するステップは、
　　ゲノムデータから遺伝子を予測するステップと、
　　予測された遺伝子から翻訳後のアミノ酸配列を予測するステップと、
　　翻訳後のアミノ酸配列から翻訳後修飾を予測するステップと、
　　予測された翻訳後修飾を加えたタンパク質を予測するステップとを含む、請求項１または２に記載の、微生物判別用のデータベースを構築する方法。
　前記質量電荷比データベースに、新たなゲノムデータを取得するステップと、
　前記新たなゲノムデータが基準を満たすか判定するステップと、
　前記新たなゲノムデータが基準を満たした場合、前記新たなゲノムデータから発現するタンパク質を予測し、予測結果に基づいて質量電荷比を予測し、新たな質量電荷比のリストを予測するステップと、
　前記新たな質量電荷比のリストを、前記質量電荷比データベースに追加するステップとを含む、請求項１または２に記載の、微生物判別用のデータベースを構築する方法。
　ゲノムデータベースから取得した微生物のゲノムデータを用いて微生物判別用のデータベースを構築する装置であって、
　プロセッサと、
　記憶部とを備え、
　前記プロセッサは、
　　取得したゲノムデータが基準を満たすか判定し、
　　基準を満たすと判定されたゲノムデータ毎に、発現するタンパク質を予測し、
　　予測されたタンパク質に基づいて予測された、ゲノムデータ毎の質量電荷比のリストを含む質量電荷比データベースを構築し、
　　前記記憶部に、前記質量電荷比データベースを記憶する、微生物判別用のデータベースを構築する装置。