以下に、本発明にかかるタンパク質解析装置、タンパク質解析方法、および、プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
[本発明の実施の形態の概要]
以下、本発明の実施の形態の概要について図1を参照して説明し、その後、本実施の形態の構成および処理等について詳細に説明する。
まず、図1を参照して、本発明の実施の形態の概要の一例について説明する。図1は、本実施の形態の基本原理を示すフローチャートである。本実施の形態は、概略的に、以下の基本的特徴を有する。
すなわち、本実施の形態のタンパク質解析装置の制御部は、図1に示すように、タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの同位体標識率であるかを規定する標識パターンで構成されたタンパク質である標識体のNMR測定により得られるシグナル情報を取得する(ステップSA−1)。
そして、タンパク質解析装置の制御部は、標識パターンに基づいて、シグナル情報に基づくシグナルがどのアミノ酸に由来するかを判別する(ステップSA−2)。
以上で、本実施の形態の概要の説明を終える。
[タンパク質解析装置100の構成]
次に、本実施の形態におけるタンパク質解析装置100の構成の詳細について、図2を参照して以下に説明する。図2は、本実施の形態におけるタンパク質解析装置100の構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。ここで、本実施の形態におけるタンパク質解析装置100においては、各構成が一筐体内に全て備えられ、単独で処理を行うもの(スタンドアローン型)を、タンパク質解析装置100として説明するが、当該実施例に限らず、各構成が分離した筐体内に備えられ、ネットワーク300等を介して接続されて1つの概念としての装置を構成するもの(例えば、クラウドコンピューティング等)であってもよい。
図2において、外部システム200は、ネットワーク300を介して、タンパク質解析装置100と相互に接続され、タンパク質の配列情報等に関する外部データベース、ならびに/または、ユーザインターフェース等を実行するウェブサイトを提供する機能等を有していてもよい。
ここで、外部システム200は、WEBサーバやASPサーバ等として構成していてもよい。また、外部システム200のハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成していてもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現されてもよい。
また、ネットワーク300は、タンパク質解析装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
また、タンパク質解析装置100は、概略的に、制御部102と通信制御インターフェース部104と記憶部106と入出力制御インターフェース部108とを備える。ここで、タンパク質解析装置100は、更に、表示部112を少なくとも含む出力部、および、入力部114を備えていてもよい。また、出力部は、更に、音声出力部、および、印刷出力部等を含んでいてもよい。ここで、制御部102は、タンパク質解析装置100の全体を統括的に制御するCPU等である。また、通信制御インターフェース部104は、通信回線等に接続されるルータ等の通信装置(図示せず)に接続されるインターフェースであり、入出力制御インターフェース部108は、出力部、および、入力部114に接続されるインターフェースである。また、記憶部106は、各種のデータベースやテーブルなどを格納する装置である。これらタンパク質解析装置100の各部は任意の通信路を介して通信可能に接続されている。更に、このタンパク質解析装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
記憶部106に格納される各種のデータベースやテーブル(タンパク質配列情報データベース106a、標識パターンデータベース106b、および、シグナルデータベース106c)は、固定ディスク装置等のストレージ手段である。例えば、記憶部106は、各種処理に用いる各種のプログラム、テーブル、ファイル、データベース、および、ウェブページ等を格納する。
これら記憶部106の各構成要素のうち、タンパク質配列情報データベース106aは、タンパク質のアミノ酸配列に関する配列情報を記憶するタンパク質配列情報記憶手段である。これら配列情報は、タンパク質配列情報データベース106aに予め記憶されており、タンパク質解析装置100の制御部102は、定期的に、および/または、制御部102による処理に応じてネットワーク300を介して最新のデータを外部システム200(例えば、NCBI、または、UNIPROT等)からダウンロードしてタンパク質配列情報データベース106aに記憶された配列情報をアップデートしてもよい。
また、標識パターンデータベース106bは、タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの同位体標識率であるかを規定する標識パターンを記憶する標識パターン記憶手段である。ここで、元素は、窒素、炭素、フッ素、リン、ケイ素、酸素、および/または、水素等であってもよい。また、NMR測定は、NMR相関スペクトルの測定であってもよい。ここで、NMR相関スペクトルは、二次元15N/1H NMR相関スペクトル等であってもよい。また、NMR相関スペクトルは、HSQCスペクトル、HMQCスペクトル、HNCOスペクトル、HNCAスペクトル、HNCOCAスペクトル、HNCACBスペクトル、CBCANHスペクトル、CBCACONHスペクトル、HNCACOスペクトル、HBHACONHスペクトル、HBHANHスペクトル、CCONHスペクトル、HCCONHスペクトル、HNCANHスペクトル、HNCOCANHスペクトル、HCANHスペクトル、HCACOスペクトル、HCANスペクトル、HCACONスペクトル、TROSYスペクトル、COSYスペクトル、TOCSYスペクトル、NOESYスペクトル、および/または、ROESYスペクトル等であってもよい。また、同位体標識率は、安定同位体標識率であってもよい。
また、シグナルデータベース106cは、標識パターンで構成されたタンパク質である標識体のNMR測定により得られるシグナル情報を記憶するシグナル記憶手段である。ここで、シグナル情報は、ユーザにより入力部114を介して入力されたものであってもよい。例えば、シグナル情報は、ユーザによりNMR装置を用いて測定され、ユーザにより入力部114を介して入力されたものであってもよく、制御部102による処理に応じてネットワーク300を介して外部システム200からダウンロードしたものであってもよい。また、シグナル情報は、シグナル強度を含んでいてもよい。
また、通信制御インターフェース部104は、タンパク質解析装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、外部システム200、および、他の端末等と通信回線を介してデータを通信する機能を有する。
また、入出力制御インターフェース部108は、出力部(表示部112)、および、入力部114の制御を行う。
ここで、表示部112としては、アプリケーション等の表示画面を表示する表示手段(例えば、液晶または有機EL等から構成されるディスプレイ、モニタ、または、タッチパネル等)であってもよい。また、入力部114は、例えば、キー入力部、タッチパネル、コントロールパッド(例えば、タッチパッド、および、ゲームパッド等)、マウス、キーボード、スキャナ、または、マイク等であってもよい。また、音声出力部としては、例えば、スピーカ等であってもよい。また、印刷出力部としては、例えば、プリンタ等であってもよい。
また、図2において、制御部102は、OS(Operating System)等の制御プログラムや、各種の処理手順等を規定したプログラム、および、所要データを格納するための内部メモリを有する。そして、制御部102は、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、標識パターン生成部102a、シグナル情報取得部102b、補正部102c、判別部102d、帰属部102e、および、結果出力部102fを備える。
このうち、標識パターン生成部102aは、標識パターンを生成し、標識パターンデータベース106bに格納する標識パターン生成手段である。ここで、標識パターン生成部102aは、標識体毎の同位体標識率の差の絶対値の和であるハミング距離に基づいて、標識パターンを生成し、標識パターンデータベース106bに格納してもよい。ここで、ハミング距離とは、符号化理論における符号語間の情報学的距離であり、下記の数式(1)のように定義されてもよい。
(ここで、d(i,j)はアミノ酸iと,他のアミノ酸jと、の間のハミング距離、nは標識体の数、p
i kは標識体kにおけるアミノ酸iの同位体標識率、および、p
j kは標識体kにおけるアミノ酸jの同位体標識率である。)
また、標識パターン生成部102aは、タンパク質を構成するアスパラギン酸とアスパラギンと、および/または、グルタミン酸とグルタミンとの間で起こるスクランブルに基づいて、標識パターンを生成し、標識パターンデータベース106bに格納してもよい。
また、シグナル情報取得部102bは、標識体のNMR測定により得られるシグナル情報を取得するシグナル情報取得手段である。ここで、シグナル情報取得部102bは、更に、取得された標識体のシグナル情報をシグナルデータベース106cに格納してもよい。また、ユーザにより入力部114を介して入力された標識体のシグナル情報を取得してもよい。また、シグナル情報取得部102bは、ネットワーク300を介して外部システム200からダウンロードした標識体のシグナル情報を取得してもよい。また、シグナル情報は、HSQC強度、HMQC強度、HNCO強度、HNCA強度、HNCOCA強度、HNCACB強度、CBCANH強度、CBCACONH強度、HNCACO強度、HBHACONH強度、HBHANH強度、CCONH強度、HCCONH強度、HNCANH強度、HNCOCANH強度、HCANH強度、HCACO強度、HCAN強度、HCACON強度、TROSY強度、COSY強度、TOCSY強度、NOESY強度、および/または、ROESY強度等であってもよい。
また、補正部102cは、標識体間で濃度差がある場合、標識体を構成するアミノ酸のシグナル強度比に基づいて、標識体のシグナル情報を補正する補正手段である。ここで、アミノ酸は、グリシンであってもよい。
また、判別部102dは、標識パターンデータベース106bに記憶された標識パターンに基づいて、シグナル情報に基づく標識体のシグナルがどのアミノ酸に由来するかを判別する判別手段である。
また、帰属部102eは、タンパク質配列情報データベース106aに記憶された配列情報に基づいて、判別部102dによりどのアミノ酸に由来するか判別されたシグナルの帰属を決定する帰属手段である。ここで、シグナルの帰属の決定とは、シグナルがタンパク質中のどのアミノ残基に由来するか決定する主鎖帰属であってもよい。
また、結果出力部102fは、帰属部102eにより決定されたシグナルの帰属に関する解析結果を出力部を介して出力させる結果出力手段である。また、結果出力部102fは、判別部102dにより判別された標識体のシグナルがどのアミノ酸に由来するかに関する解析結果を出力部を介して出力させてもよい。ここで、結果出力部102fは、解析結果を表示部112に表示させてもよい。また、結果出力部102fは、解析結果を印刷出力部を介して出力させてもよい。
以上で、本実施の形態におけるタンパク質解析装置100の構成の一例の説明を終える。
[タンパク質解析装置100の処理]
次に、このように構成された本実施の形態におけるタンパク質解析装置100の処理の詳細について、以下に図3乃至図19を参照して詳細に説明する。図3は、本実施の形態におけるタンパク質解析装置100の処理の一例を示すフローチャートである。
図3に示すように、標識パターン生成部102aは、タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの同位体標識率であるかを規定する標識パターンを生成し、標識パターンデータベース106bに格納する(ステップSB−1)。ここで、標識パターン生成部102aは、標識体毎の同位体標識率の差の絶対値の和であるハミング距離に基づいて、標識パターンを生成し、標識パターンデータベース106bに格納してもよい。また、標識パターン生成部102aは、タンパク質を構成するアスパラギン酸とアスパラギンと、および/または、グルタミン酸とグルタミンとの間で起こるスクランブルに基づいて、標識パターンを生成し、標識パターンデータベース106bに格納してもよい。
ここで、図4乃至図7を参照して、本実施の形態における標識パターンの一例について説明する。
まず、図4を参照して、本実施の形態における3進数3桁の符号語を用いた符号化における標識パターンの一例について説明する。図4は、本実施の形態における標識パターンの一例を示す図である。図4に示す標識パターンは、定量的な安定同位体標識率を用いることで、1標識体あたりの情報量を増やし、必要な標識体の数を減らした3進数3桁の符号語を用いた標識パターンである。すなわち、図4に示す標識パターンにおいては、3進数を用いて、1標識体あたりに盛り込むことができる情報量は1トリット(約1.58ビット)としている。ここで、図4に示す標識パターンにおいては、15Nの標識率については、3進数の「2」に100%、「1」に75%、および、「0」に50%を対応させる。また、13Cの標識率については、「2」に100%、「1」に50%、および、「0」に0%を対応させる。
ここで、NMR測定により得られるシグナル強度は、標識率に比例するが、そもそもアミノ酸残基ごとに強度は異なるため、標識率を求めるには基準が必要である。そこで、図4においては、どのアミノ酸についても、いずれか1つの標識体でかならず「2」、つまり100% 13C、かつ、100% 15Nとなるようにしておき、もっとも強いシグナル強度を示した標識体を基準として標識率を求めている。これにより、図4に示す標識パターンにおいては、従来技術のように選択標識体以外にユニバーサル標識体を用意することなく、アミノ酸判別が可能となる。また、図4に示すように、3桁の3進数でいずれかの桁が「2」である標識パターンは、19種類あることから、わずか3つの選択標識体を用いて19種のアミノ酸の判別が可能となる。
ここで、図4において、どの符号語(3桁の3進数)にどのアミノ酸を割り当てるかは自由であるが、ここではさらなる利便性のために、以下の(1)乃至(3)を考慮して割り当ててもよい。
(1)まず、定量的な解析のためには、標識体間の濃度差等が問題となる。そこで、サンプル(標識体)間の濃度差の補正を行うことを想定し、どの標識体でもすべて100%標識であるアミノ酸を用いるのが便利であるため、15Nの化学シフトが低磁場側であるという特徴をもち、他のアミノ酸と見分けやすいグリシンの符号語を「222」としてもよい。
(2)次に、タンパク質合成中のアミノ酸の標識スクランブルは、アミノ酸判別を乱す大きな要因になってしまう可能性がある。そこで、本実施の形態においては、比較的スクランブルの少ない無細胞タンパク質合成系をさらに改良し、スクランブルを抑える方法(例えば、Yokoyama,J.et al.(2011).Analytical Biochemistry 411(2): 223−229.等)を用いてもよい。ここで、本実施の形態においては、スクランブルを厳密に抑えられない場合でも、上記の方法を使えるように標識パターンを工夫してもよい。
ここで、標識スクランブルでもっとも問題になるのは、アスパラギンとアスパラギン酸との間、または、グルタミンとグルタミン酸との間である。そこで、図4に示す標識パターンにおいては、アスパラギンを「220」、および、アスパラギン酸を「210」に対応させていることで、いくらアスパラギンとアスパラギン酸との間でスクランブルが起ころうとも、標識体1は「2」、標識体3は「0」に対応した標識率が保たれる。ここで、標識体2は、「2」と「1」との中間、すなわち、15N標識率については100%と75%との中間、13C標識率については100%と50%との中間になる可能性があるが、そうなったとしても、アスパラギンとアスパラギン酸とのどちらかであること自体は判断が可能となる。例えば、「200」に対応させたアルギニンとも誤判別せずにすむこととなる。グルタミンとグルタミン酸との間についても同様である。
また、スクランブルは、実際には、アスパラギンからアスパラギン酸への一方的な標識のリーク、グルタミンからグルタミン酸への一方的な標識のリークが多い。例えば、図4において、アスパラギンからアスパラギン酸へのリークを想定して、標識体2のアスパラギン酸の標識率をあらかじめ低めの値にしておき、アスパラギンから標識リークがおこって標識率が上がることを利用して、所望の標識率を達成するようにしてもよい。
ここで、これらリークは、スクランブルを抑える方法(Yokoyama,J.et al.(2011).Analytical Biochemistry 411(2): 223−229.)を用いて、実用上完全にリークを抑えることは可能である。しかしながら、特に、アスパラギンからアスパラギン酸へのリークを抑えるのに必要な代謝阻害剤である5−ジアゾ−4−オキソ−L−ノルバリンはその不安定性から市販されておらず利用にしくいという問題点があった。そこで、本実施の形態においては、アスパラギン酸、および、グルタミン酸の双方について、標識リークを想定して標識率をあらかじめ低めにしておいてもよい。
(3)そして、図4に示すように、本実施の形態における標識パターンにおいては、トリプトファンのように安定同位体標識が高価なものはなるべく安定同位体標識体の使用量を少なくするようにしてもよい。
また、図5を参照して、本実施の形態における3進数3桁の符号語を用いた符号化における他の標識パターンの一例について説明する。図5は、本実施の形態における標識パターンの一例を示す図である。図5に示す標識パターンは、図4に示す標識パターンと同様、上記(1)乃至(3)の条件に従った、3進数3桁の符号語を用いた標識パターンであってもよい。
ここで、図5を含む本実施の形態における標識パターンにおいては、標識率を100%または0%と記載しているが、実際には技術的な理由で、厳密に100%または0%を達成するのは難しい。しかし、本実施の形態において実用上は問題ない理由について、以下に説明する。
まず、標識率の下限について、13Cの天然存在比は、約1.1%であり、15Nの天然存在比は、約0.36%であり、非標識アミノ酸を用いると標識率の下限はこの値となるが、図5に示すように、0%と50%との判別には問題のないレベルである。
また、標識率の上限について、13C標識および15N標識されたアミノ酸の、同位体標識率はおおむね90%乃至98%程度であるため、100%を達成するのは難しい。しかしながら、本実施の形態は、13C標識および15N標識されたアミノ酸を用いて観測された強度に対する比のみを用いて帰属を決定する方法であるので、その基準が、100%ではなく実際には90%であっても、問題はない。ここで、13C/15N標識アミノ酸の15N標識率と、15N標識アミノ酸の15N標識率と、が大きく異なる場合には、それらを混ぜ合わせたアミノ酸混合物の15N標識率が想定と異なってしまう場合があるが、多くは問題ない。例えば、13C/15N標識アミノ酸の15N標識率が、実際には98%であり、15N標識アミノ酸の15N標識率が、実際には90%である場合、50% 13C/75% 15Nを達成しようとすると、非標識体、15N標識体、13C/15N標識体を1:1:2で混合することになり、最終的な15N標識率は、71.5%となる。基準となるのは98% 15Nであるので、本実施の形態(後述する数式(3))で計算される標識率は73.0%となる。これは当初設定しようとした75%と大きく変わらず、特に問題とはならない。逆に、13C/15N標識アミノ酸の15N標識率が実際には90%、15N標識アミノ酸の15N標識率が実際には98%である場合、50% 13C/75% 15Nを達成しようとすると、最終的な15N標識率は69.5%となる。基準となるのは90% 15Nであるので、本実施の形態(後述する数式(3))で計算される標識率は77.2%となる。これも当初設定しようとした75%と大きく変わらず、特に問題とはならない。
また、本実施の形態においては、図5に示すように、定量的な標識により1標識体に1ビットを超える情報を盛り込むことで標識体数を減らしてもよい。また、本実施の形態においては、図5に示すように、少なくとも1つの標識体で100%標識になるようにしてリファレンスを不要にしている。本実施の形態においては、これら2つの工夫により、3種の標識体で19種類のアミノ酸の判別を可能にしている。なお、実際には、これら2つの工夫は独立実施可能である。一方、非特許文献3に記載の技術においては、いずれも採用していないため、16種類のアミノ酸を判別するのに、リファレンスとなるユニバーサル標識体1種、および、選択標識体4種の計5種類の標識体を必要とする。
また、本実施の形態においては、15N標識については主鎖のアミド窒素のみ、または、13C標識については主鎖のカルボニル炭素のみが標識されていればよい。また、本実施の形態においては、その他の窒素または炭素が標識されていてもよい。また、所望の標識率は、非標識アミノ酸、15N標識アミノ酸、13C標識アミノ酸、および/または、13C/15N標識アミノ酸を混合して達成してもよい。ここで、図4および図5(後述する図6および図7)に示すように、いずれの標識体のアミノ酸においても、15N標識率が13C標識率と同じか上回るように設定しておけば、13C標識アミノ酸は不要となる。実際には、13C/15N標識アミノ酸で主鎖のカルボニル炭素のみが標識されているもの、または、15N標識や13C/15N標識アミノ酸で複数の窒素のうち主鎖のアミド窒素のみが標識されているものは入手しにくい。そこで、本実施の形態においては、15N標識アミノ酸、および、13C/15N標識アミノ酸とも、すべての窒素や炭素が標識されているものを用いてもよい。
ここで、図4および図5(後述する図6および図7)に示す標識パターンでは、いずれもn=c/2+0.5(ただし、cおよびnは、それぞれ13Cおよび15Nの標識率)を満たすように標識率を定めているが、この式によらずに標識パターンを定めてもよい。その場合、上述したリファレンスを不要にする条件を満たすためには、いずれのアミノ酸についても、少なくとも1つの標識体で15N標識率が100%、少なくとも1つの標識体(15Nのときとは別の標識体でもよい)で13C標識率が100%となっていればよい。
また、図6を参照して、本実施の形態における4進数3桁の符号語を用いた符号化における標識パターンの一例について説明する。図6は、本実施の形態における標識パターンの一例を示す図である。図6に示す標識パターンは、ハミング距離に基づいて生成された、4進数3桁の符号語を用いた標識パターンである。ここで、図6に示す標識パターンにおいては、ハミング距離を用いて、全てのアミノ酸の組み合わせを、等しく、且つ、よく判別するように設計している。
しかしながら、本実施の形態においては、用途により、判別の精度を特に高くしたいアミノ酸の組み合わせ、または、逆に判別の精度が低くてもよい組み合わせがある場合には、そのような束縛条件を追加して最適化問題を解くことで、用途に適した標識パターンを設計してもよい。例えば、本実施の形態においては、標識率がぶれやすいアミノ酸と他のアミノ酸とのハミング距離が広くなるように設計してもよい。また、本実施の形態においては、出現率が低いアミノ酸同士はハミング距離が近くなるように設計してもよい。また、本実施の形態においては、本発明を三重共鳴による連鎖帰属法等と組み合わせて使う場合、化学シフトで区別しやすいアミノ酸同士のハミング距離が近くなるように設計してもよい。
ここで、本実施の形態において、ハミング距離とは、符号化理論における符号語間の情報学的距離であり、下記の数式(1)のように定義されてもよい。
(ここで、d(i,j)はアミノ酸iと,他のアミノ酸jと、の間のハミング距離、nは標識体の数、p
i kは標識体kにおけるアミノ酸iの同位体標識率、および、p
j kは標識体kにおけるアミノ酸jの同位体標識率である。)
また、ハミング距離は、15N標識率、および、13C標識率それぞれで定義できるが、図4に示すように、標識パターンは、13Cで定義したハミング距離が15Nで定義したハミング距離のちょうど2倍になっていてもよい。ここで、全てのアミノ酸間のハミング距離のうち最小のものを最小ハミング距離と定義できる。すなわち、最小ハミング距離は、全ての符号語間のハミング距離のうち最小のものである。そして、最小ハミング距離の値が大きいほど、どのような符号語同士であっても、よく判別できる。すなわち、最小ハミング距離が大きい標識パターンほど、ノイズなどの攪乱要因があっても、どのようなアミノ酸同士であっても、よく判別できる。したがって、最小ハミング距離を最大化するという最適化問題を解くことによって、任意のアミノ酸数を任意の標識体数で判別しようとする場合の、ノイズ等の攪乱要因に最も強い標識パターンを設計することができる。例えば、本実施の形態において、図4に示す標識パターンでは、13Cの最小ハミング距離が0.500となる。また、図4と同じ19アミノ酸を3標識体で判別するパターンでも、図6に示す標識パターンでは、13Cの最小ハミング距離が0.667となる。
また、図7を参照して、本実施の形態における20アミノ酸を3標識体で判別する標識パターンの一例について説明する。図7は、本実施の形態における標識パターンの一例を示す図である。図7に示すように、本実施の形態においては、13Cの標識率については29種類、および、15Nの標識率については22種類用いて、20アミノ酸を3標識体で判別する標識パターンを設計してもよい。なお、図7に示す標識パターンでは、最小ハミング距離が0.596となる。
図3に戻り、シグナル情報取得部102bは、ユーザにより、標識パターンデータベース106bに記憶された標識パターンで構成されたタンパク質である標識体が生成され、NMR測定により当該標識体のシグナル情報が取得され、入力部114を介して当該シグナル情報が入力された場合、当該標識体のシグナル情報を取得し、シグナルデータベース106cに格納する(ステップSB−2)。ここで、シグナル情報取得部102bは、ネットワーク300を介して外部システム200からダウンロードした標識体のシグナル情報(例えば、オープンソースとして公開されているもの、または、ユーザにより予め測定され外部システム200に格納されているもの等)を取得してもよい。
ここで、図8乃至図15を参照して、本実施の形態における無細胞タンパク質合成系による標識体生成について説明する。
まず、図8乃至図10を参照して、本実施の形態における無細胞タンパク質合成系に用いるアミノ酸溶液の調製の一例について説明する。図8乃至図10は、本実施の形態におけるアミノ酸溶液の組成の一例を示す図である。
ここで、本実施の形態においては、無細胞タンパク質合成系に用いるアミノ酸溶液として、種々の水溶液もしくは懸濁液を作製してもよい。例えば、本実施の形態においては、水溶液もしくは懸濁液として、800mM L−アラニン水溶液、800mM 15N L−アラニン水溶液、800mM 13C/15N L−アラニン水溶液、400mM L−アルギニン水溶液、400mM 15N L−アルギニン水溶液、400mM 13C/15N L−アルギニン水溶液、140mM L−アスパラギン水溶液、140mM 15N L−アスパラギン水溶液、140mM 13C/15N L−アスパラギン水溶液、140mM L−アスパラギン酸、水酸化カリウム水溶液 pH7.0、140mM 15N L−アスパラギン酸、水酸化カリウム水溶液 pH7.0、140mM 13C/15N L−アスパラギン酸、水酸化カリウム水溶液 pH7.0、600mM L−システイン、600mM ジチオスレイトール水溶液、600mM 15N L−システイン、600mM ジチオスレイトール水溶液、600mM 13C/15N L−システイン、600mM ジチオスレイトール水溶液、200mM L−グルタミン水溶液、200mM 15N L−グルタミン水溶液、200mM 13C/15N L−グルタミン水溶液、160mM L−グルタミン酸、水酸化カリウム水溶液 pH7.0、160mM 15N L−グルタミン酸、水酸化カリウム水溶液 pH7.0、160mM 13C/15N L−グルタミン酸、水酸化カリウム水溶液 pH7.0、800mM 13C/15Nグリシン水溶液、260mM L−ヒスチジン水溶液、260mM 15N L−ヒスチジン水溶液、260mM 13C/15N L−ヒスチジン水溶液、200mM L−イソロイシン水溶液、200mM 15N L−イソロイシン水溶液、200mM 13C/15N L−イソロイシン溶液、100mM L−ロイシン水溶液、100mM 15N L−ロイシン水溶液、100mM 13C/15N L−ロイシン溶液、400mM L−リジン水溶液、400mM 15N L−リジン水溶液、400mM 13C/15N L−リジン溶液、200mM L−メチオニン水溶液、200mM 15N L−メチオニン水溶液、200mM 13C/15N L−メチオニン溶液、110mM L−フェニルアラニン水溶液、110mM 15N L−フェニルアラニン水溶液、110mM 13C/15N L−フェニルアラニン溶液、800mM L−プロリン水溶液、800mM L−セリン水溶液、800mM 15N L−セリン水溶液、800mM 13C/15N L−セリン水溶液、400mM L−スレオニン水溶液、400mM 15N L−スレオニン水溶液、400mM 13C/15N L−スレオニン水溶液、20mM L−トリプトファン水溶液、20mM 15N L−トリプトファン水溶液、20mM 13C/15N L−トリプトファン水溶液、130mM L−チロシン懸濁液、130mM 15N L−チロシン懸濁液、130mM 13C/15N L−チロシン懸濁液、400mM L−バリン水溶液、400mM 15N L−バリン水溶液、および/または、400mM 13C/15N L−バリン水溶液を作製してもよい。
なお、本実施の形態における水溶液もしくは懸濁液の作製に用いる試薬のメーカーとしては、15N L−アラニン、13C/15N L−アラニン、13C/15N L−アルギニン、15N L−アスパラギン、13C/15N L−アスパラギン、15N L−アスパラギン酸、13C/15N L−アスパラギン酸、15N L−グルタミン、15N L−グルタミン酸、13C/15N L−グルタミン酸、13C/15Nグリシン、15N L−イソロイシン、15N L−ロイシン、13C/15N L−ロイシン、15N L−リジン、13C/15N L−リジン、15N L−メチオニン、13C/15N L−メチオニン、15N L−フェニルアラニン、13C/15N L−フェニルアラニン、15N L−セリン、15N L−スレオニン、15N L−チロシン、13C/15N L−チロシン、15N L−バリン、および、13C/15N L−バリンについては、Sigma−Aldrich Co.LLC.(会社名)、15N L−アルギニン、13C/15N L−グルタミン、15N L−ヒスチジン、13C/15N L−ヒスチジン、13C/15N L−ロイシン、13C/15N L−スレオニン、15N L−トリプトファン、および、13C/15N L−トリプトファンについては、味の素株式会社(会社名)、15N L−システイン、13C/15N L−システイン、および、13C/15N L−セリンについては、大陽日酸株式会社(会社名)、ならびに、その他の試薬については、ナカライテスク株式会社(会社名)を用いた。
そして、本実施の形態における無細胞タンパク質合成系においては、これらのアミノ酸溶液を、図8に示す組成で混合することで、タンパク質の合成に用いる7.5mM アミノ酸混合溶液(システインを除く19種類のアミノ酸を含む)を調製し、図4に示す標識パターンで構成された標識体1の生成に用いてもよい。また、本実施の形態における無細胞タンパク質合成系においては、これらのアミノ酸溶液を、図9に示す組成で混合することで、タンパク質の合成に用いる7.5mM アミノ酸混合溶液を調製し、図4に示す標識パターンで構成された標識体2の生成に用いてもよい。また、本実施の形態における無細胞タンパク質合成系においては、これらのアミノ酸溶液を、図10に示す組成で混合することで、タンパク質の合成に用いる7.5mM アミノ酸混合溶液を調製し、図4に示す標識パターンで構成された標識体3の生成に用いてもよい。
また、図11乃至図13を参照して、本実施の形態における無細胞タンパク質合成系に用いるシステイン水溶液の調製の一例について説明する。図11乃至図13は、本実施の形態におけるシステイン水溶液の組成の一例を示す図である。
本実施の形態における無細胞タンパク質合成系においては、上記システイン水溶液を、図11に示す組成で混合することで、タンパク質の合成に用いる600mM システイン、および、600mM ジチオスレイトール溶液を調製し、図4に示す標識パターンで構成された標識体1の生成に用いてもよい。また、本実施の形態における無細胞タンパク質合成系においては、上記システイン水溶液を、図12に示す組成で混合することで、タンパク質の合成に用いる600mM システイン、および、600mM ジチオスレイトール溶液を調製し、図4に示す標識パターンで構成された標識体2の生成に用いてもよい。また、本実施の形態における無細胞タンパク質合成系においては、上記システイン水溶液を、図13に示す組成で混合することで、タンパク質の合成に用いる600mM システイン、および、600mM ジチオスレイトール溶液を調製し、図4に示す標識パターンで構成された標識体3の生成に用いてもよい。
このように、これらの7.5mM アミノ酸混合溶液、600mM システイン、および、600mM ジチオスレイトール溶液中の各アミノ酸の安定同位体標識率は、図4に示したようになっていてもよい。ただし、例外的に、標識体2のアスパラギン酸の13C標識率は、50%ではなく30%、標識体2のアスパラギン酸の15N標識率は、75%ではなく65%、標識体3のグルタミン酸の13C標識率は、50%ではなく15%、および、標識体3のグルタミン酸の15N標識率は、75%ではなく55%であってもよい。これらは、それぞれアスパラギン、および、グルタミンからの標識リークにより所望の標識率が達成されるからである。
次に、図14および図15を参照して、本実施の形態における無細胞タンパク質合成用鋳型DNA調製の一例について説明する。図14は、本実施の形態における透析外液の組成の一例を示す図である。図15は、本実施の形態における透析内液の組成の一例を示す図である。
まず、本実施の形態においては、例えば、ヒトSmoothelinタンパク質のCHドメインの領域を合成するため、鋳型DNAを作製する。具体的には、本実施の形態においては、遺伝子特異的フォワードプライマーDNA(ACTGAGAACC TGTACTTCCA GGGAATCAAG CAGATGCTGC TGGAC)と遺伝子特異的リバースプライマーDNA(GGGCGGGGAT CAATCAATCA TTAGGACTTT TTGGTTTTTA CCAGCCCCTT)と、ヒトSmoothelin cDNA(OriGene Technologies, Inc.(会社名))と、を用いて、従来技術(Yabuki,T., et al. (2007).J Struct Funct Genomics 8(4): 173−191.)に基づいて、ヒスチジンアフィニティータグを含む鋳型DNAを作製してもよい。そして、本実施の形態においては、これを翻訳したアフィニティータグ切断前のアミノ酸配列(MKDHLIHNHHKHEHAHAEHTENLYFQGIKQMLLDWCRAKTRGYEHVDIQNFSSSWSDGMAFCALVHNFFPEAFDYGQLSPQNRRQNFEVAFSSAETHADCPQLLDTEDMVRLREPDWKCVYTYIQEFYRCLVQKGLVKTKKS)を取得してもよい。
ここで、本実施の形態においては、作製した鋳型DNAを用いて、従来技術(Kigawa,T.(2010).Methods in Molecular Biology 607:101−111.)の方法に従い、無細胞タンパク質合成系を用いて各標識体の調製(合成)をしてもよい。ただし、本実施の形態においては、所望の安定同位体標識率を達成するために、アミノ酸間の標識スクランブルを抑える方法(Yokoyama,J.,et al.(2011).Analytical Biochemistry 411(2):223−229.)を参考に、反応液(図14に示す透析外液、および、図15に示す透析内液)の組成を変更してもよい。
また、合成反応は、30℃にて振盪しながら12時間行い、透析内液を回収して18mlのA緩衝液(20mM リン酸ナトリウム緩衝液 pH7.4、500mM 塩化ナトリウム、および、20mM イミダゾール)を加えてもよい。そして、当該透析内液を回収して18mlのA緩衝液を加えた溶液を、HisTrap 5mlカラム(GEヘルスケア(会社名))に吸着させ、50mlのA緩衝液で洗浄したのちに15mlのB緩衝液(20mM リン酸ナトリウム緩衝液 pH7.4、500mM 塩化ナトリウム、および、500mM イミダゾール)で溶出してもよい。そして、この溶出液を、アミコン−ウルトラ15 MWCO−3000(メルクミリポア(会社名))を用いて限外濾過法にてA緩衝液に溶媒交換し、3mlに濃縮してもよい。そして、当該濃縮液に、3μlの0.5M EDTAと0.4mlの1mg/ml Tobacco Etch Virusプロテアーゼ(自家調製)とを加え、室温で18時間静置してもよい。
そして、当該静置した溶液を、HisTrap 5mlカラムに通し、素通り画分と16mlのA緩衝液とで洗浄した画分をあわせて回収してもよい。そして、当該回収した溶液を、アミコン−ウルトラ15 MWCO−3000、および、VIVASPIN 2 5000 MWCO PES(ザルトリウス(会社名))を用いて限外濾過法にてNMR測定用緩衝液(20mM 重水素化Tris−Cl緩衝液 pH7.0、100mM 塩化ナトリウム、0.02% アジ化ナトリウム、および、1mM 重水素化ジチオスレイトール)に交換してもよい。そして、アミノ酸配列から、280nmのモル吸光係数を23950[M−1cm−1]と推定し(Pace,C.N.,et al.(1995).Protein Science 4(11):2411−2423.の方法による)、紫外吸光法によってタンパク質濃度を測定して、最終濃度10%の重水を加えたNMR測定用緩衝液中でタンパク質濃度が0.4mM になるようNMR測定用試料を調製し、水溶液用5mm対称形ミクロ試験管(株式会社シゲミ株式会社(会社名))に充填してもよい。なお、こうして得られたタンパク質(ヒトSmoothelin)は、アフィニティータグが取り除かれたアフィニティータグ切断後のアミノ酸配列(GIKQMLLDWCRAKTRGYEHVDIQNFSSSWSDGMAFCALVHNFFPEAFDYGQLSPQNRRQNFEVAFSSAETHADCPQLLDTEDMVRLREPDWKCVYTYIQEFYRCLVQKGLVKTKKS)であってもよい。
次に、本実施の形態におけるNMR測定について説明する。ここで、本実施の形態におけるNMR測定は、各標識体について、AVANCE700 NMR装置(ブルカー・バイオスピン株式会社(会社名))を用い、22℃にて1H−15N 2次元HSQCスペクトル(以下、HSQCと記載)、および1H−15N 2次元HN(CO)スペクトル(以下、HNCOと記載)を測定してもよい。
ここで、スペクトルは、NMRPipeプログラム(Delaglio,F.,et al.(1995)J Biomol NMR 6:277−293)を用いてプロセスし、標識体のHSQCスペクトルについてNMRviewプログラム(Johnson,B.A.et al.(1994)J Biomol NMR 4:603−614.)を用いてピークピックを行い、148ピークからなるピークリストを得てもよい。このピークリストに含まれる各ピークについては、
1Hの化学シフト差が0.1ppm以下、かつ、
15Nの化学シフト差が0.8ppm以下のピーク同士が同じグループに属するようにグループ分けを行い、82グループを得るようにしてもよい。また、各グループについては、グループ内の各ピークのいずれかから
1Hの化学シフトが0.05ppm以内、かつ、
15Nの化学シフトが0.4ppm以内の領域を切り出す操作をスペクトル毎に行ってもよい。この切り出した領域毎に、minpack.lmプログラム(http://CRAN.R−project.org/package=minpack.lm)を用いて下記の数式(2)に示す2次元ガウス関数にフィッティングを行ってもよい。
(ここで、x、yはそれぞれ
1H軸、
15N軸を動く変数、I
HSQC1(x,y)は点(x,y)における標識体1のHSQCスペクトルの強度、I
HSQC2(x,y)は点(x,y)における標識体2のHSQCスペクトルの強度、I
HSQC3(x,y)は点(x,y)における標識体3のHSQCスペクトルの強度、I
HNCO1(x,y)は点(x,y)における標識体1のHNCOスペクトルの強度、I
HNCO2(x,y)は点(x,y)における標識体2のHNCOスペクトルの強度、I
HNCO3(x,y)は点(x,y)における標識体3のHNCOスペクトルの強度、nはグループに含まれるピーク数、a
k HSQC1はグループに含まれるk番目のピークの標識体1のHSQCにおける強度(フィッティングで求めるべき未知数)、a
k HSQC2はグループに含まれるk番目のピークの標識体2のHSQCにおける強度(フィッティングで求めるべき未知数)、a
k HSQC3はグループに含まれるk番目のピークの標識体3のHSQCにおける強度(フィッティングで求めるべき未知数)、a
k HNCO1はグループに含まれるk番目のピークの標識体1のHNCOにおける強度(フィッティングで求めるべき未知数)、a
k HNCO2はグループに含まれるk番目のピークの標識体2のHNCOにおける強度(フィッティングで求めるべき未知数)、a
k HNCO3はグループに含まれるk番目のピークの標識体3のHNCOにおける強度(フィッティングで求めるべき未知数)、x
k 0、y
k 0はそれぞれ
1H軸、
15N軸上のk番目のピークの中心位置(求めるべき未知数)、σ
k x、σ
k yはそれぞれ
1H軸、
15N軸方向のk番目のピークの広がりをあらわす未知数である。)
そして、本実施の形態においては、数式(2)を用いて求められる6個の未知数ak HSQC1乃至ak HNCO3を、各ピークのアミノ酸判別に用いてもよい。
図3に戻り、補正部102cは、標識体間で濃度差がある場合、標識体を構成するアミノ酸(例えば、グリシン等)のシグナル強度比に基づいて、シグナルデータベース106cに記憶された標識体のシグナル情報を補正する(ステップSB−3)。
ここで、図16を参照して、本実施の形態における標識体の濃度補正処理の一例について説明する。図16は、本実施の形態における標識体間のタンパク質濃度の一例を示す図である。
正確にアミノ酸を判別するために、標識体間でタンパク質濃度が等しいことが望ましい。しかしながら、実際には、調製誤差、または、標識体を順に測定していく際に生じる測定までの待ち時間の差異により、標識体間で沈殿または変性による濃度差が生じる。また、試料管内の磁場不均一性が標識体間で異なる場合にも、濃度差がある場合と同様の影響が生じる。
そこで、補正部102cは、これらの影響を調整するため、全て100%標識してあるグリシンのピークを利用して、シグナル情報を補正してもよい。例えば、図16に示すように、グリシンと判別されたピークの15N標識率から、標識体1乃至3の実際の濃度比は、96.5:99.5:97.6であると推定される。そこで、補正部102cは、各ピークのHSQC強度、および、HNCO強度を、標識体1については0.965、標識体2については0.995、および、標識体3については0.976で割った値をアミノ酸判別に用いる補正値として取得してもよい。
図3に戻り、判別部102dは、標識パターンデータベース106bに記憶された標識パターンに基づいて、補正部102cにより補正されたシグナル情報に基づく標識体のシグナルがどのアミノ酸に由来するかを判別する(ステップSB−4)。
そして、帰属部102eは、タンパク質配列情報データベース106aに記憶された配列情報に基づいて、判別部102dによりどのアミノ酸に由来するか判別された標識体のシグナルの主鎖帰属を行う(ステップSB−5)。
ここで、図4および図17を参照して、本実施の形態におけるアミノ酸判別処理の一例について説明する。図17は、本実施の形態におけるアミノ酸判別処理の一例を示す図である。
まず、本実施の形態におけるアミノ酸判別(主鎖帰属)処理においては、各ピークについて以下の数式(3)を用いて、安定同位体標識率を求めてもよい。
(ここで、r
N1乃至r
N3はこのピークから見たi位の標識体1乃至3の
15N標識率であり、max(a
HSQC)は標識体1乃至3におけるHSQC強度の最大値である。)
また、HNCO強度は、i位の
15N標識率とi−1位の
13C標識率との両方に比例するので、HNCO強度からi−1位の
13C標識率を求めるには、まず、先に求めた
15N標識率で割る必要があるため、以下の数式(4)を用いて、HNCO強度を計算してもよい。
(ここで、a’
HNCO1乃至a’
HNCO3は、
15N標識率で割ったあとのHNCO強度(以下、修正HNCO強度と記載する)であり、r
C1乃至r
C3は、このピークから見たi−1位の標識体1乃至3の
13C標識率であり、max(a’
HNCO)は、標識体1乃至3の修正HNCO強度の最大値である。)
ここで、判別部102dは、このように求めたi位の15N標識率が、62.5%未満の場合50%、62.5%以上87.5%未満の場合75%、または、87.5%以上の場合100%であるとして、図4に示す標識率から、その標識率に該当するアミノ酸をi位のアミノ酸として判別してもよい。また、判別部102dは、i−1位の13C標識率が、25%未満の場合0%、25%以上75%未満の場合50%、または、75%以上の場合100%であるとして、図4に示す標識率から、その標識率に該当するアミノ酸をi−1位のアミノ酸として判別してもよい。
ここで、アミノ酸判別が正しいかどうかを確認するため、別途、本実施の形態において判別したタンパク質(ヒトSmoothelinタンパク質)について、三重共鳴による連鎖帰属法により主鎖帰属を行い、本実施の形態における判別結果と比較した。当該比較により、HSQC上で他のピークと重なっていない、主鎖由来のピークは88個あった。そして、当該ピークについて、i−1位がプロリンである場合には、i位が正しく判別できている場合に正解であるとし、i−1位がプロリン以外のアミノ酸残基である場合には、i位とi−1位とがともに正しく判別できている場合に正解であるとして、解析したところ、88ピーク全てについて正解であることが確かめられた。
例えば、図17には、本実施の形態におけるヒトSmoothelinタンパク質のアミノ酸判別(アスパラギン酸73の判別)の一例が示してある。図17に示すピークのi−1位に相当する残基は、アラニン72であるが、本発明を適用することにより、i位のアスパラギン酸、および、i−1位のアラニン共に正しく判別できた。
また、図18を参照して、本実施の形態における判別精度の一例について説明する。図18は、本実施の形態における判別精度の一例を示す図である。
図18には、本発明による判別の精度を確認するため、HSQC上で他のピークと重なっていないヒトSmoothelinタンパク質の主鎖由来の88ピークについて、標識体およびアミノ酸の種類毎に、求めた標識率の平均およびばらつきを示している。ここで、黒丸印は、平均値を示しており、バツ印は、設定した標識率(図4のとおり)を示しており、エラーバーは、標準偏差を示している。図18に示すように、15Nについては、100%、75%、または、50%の3段階のいずれであるか、13Cについては、100%、50%、または、0%の3段階のいずれであるかを見極めるために十分な標識精度があることが示された。
また、図19を参照して、本実施の形態において観測されたシグナルに重複が生じている場合に、重複シグナルを分離して判別した一例について説明する。図19は、本実施の形態における重複シグナルを分離して判別した一例を示す図である。
図19には、HSQC上、および、HNCO上でヒトSmoothelinタンパク質の主鎖由来の2つのシグナル(トリプトファン9、および、グルタミン23)が重なっている場合(図19(a))に、本実施の形態における判別方法を適用することにより重複シグナルを分離して正しく判別できることが示されている。
まず、図19(b)には、重なってみえるピークが1つのアミノ酸残基に由来するものであると仮定した場合に、標識体1乃至3のHSQC上、および、HNCO上の各シグナルを下記の数式(2)に示す2次元ガウス関数にフィッティングさせて解析した結果が示されている。
(ここで、x、yはそれぞれ
1H軸、
15N軸を動く変数、I
HSQC1(x,y)は点(x,y)における標識体1のHSQCスペクトルの強度、I
HSQC2(x,y)は点(x,y)における標識体2のHSQCスペクトルの強度、I
HSQC3(x,y)は点(x,y)における標識体3のHSQCスペクトルの強度、I
HNCO1(x,y)は点(x,y)における標識体1のHNCOスペクトルの強度、I
HNCO2(x,y)は点(x,y)における標識体2のHNCOスペクトルの強度、I
HNCO3(x,y)は点(x,y)における標識体3のHNCOスペクトルの強度、nはグループに含まれるピーク数、a
k HSQC1はグループに含まれるk番目のピークの標識体1のHSQCにおける強度(フィッティングで求めるべき未知数)、a
k HSQC2はグループに含まれるk番目のピークの標識体2のHSQCにおける強度(フィッティングで求めるべき未知数)、a
k HSQC3はグループに含まれるk番目のピークの標識体3のHSQCにおける強度(フィッティングで求めるべき未知数)、a
k HNCO1はグループに含まれるk番目のピークの標識体1のHNCOにおける強度(フィッティングで求めるべき未知数)、a
k HNCO2はグループに含まれるk番目のピークの標識体2のHNCOにおける強度(フィッティングで求めるべき未知数)、a
k HNCO3はグループに含まれるk番目のピークの標識体3のHNCOにおける強度(フィッティングで求めるべき未知数)、x
k 0、y
k 0はそれぞれ
1H軸、
15N軸上のk番目のピークの中心位置(求めるべき未知数)、σ
k x、σ
k yはそれぞれ
1H軸、
15N軸方向のk番目のピークの広がりをあらわす未知数である。)
この結果について、下記の数式(3)に基づき、標識体1乃至3のi位の
15N標識率を計算すると、r
N1=0.493、r
N2=0.751、および、r
N3=1.000となり、スレオニンであると判別(誤判別)された。
(ここで、r
N1乃至r
N3はこのピークから見たi位の標識体1乃至3の
15N標識率であり、max(a
HSQC)は標識体1乃至3におけるHSQC強度の最大値である。)
また、下記の数式(4)に基づき、標識体1乃至3のi−1位の
13C標識率を計算すると、r
C1=1.000、r
C2=0.930、および、r
C3=0.271となり、フェニルアラニンであると判別(誤判別)された。
(ここで、a’
HNCO1乃至a’
HNCO3は、
15N標識率で割ったあとのHNCO強度(以下、修正HNCO強度と記載する)であり、r
C1乃至r
C3は、このピークから見たi−1位の標識体1乃至3の
13C標識率であり、max(a’
HNCO)は、標識体1乃至3の修正HNCO強度の最大値である。)
この場合、図19(c)に示すように、実際に観測されたピーク(図19(a))と、1つのシグナルのものであると仮定した場合のモデル(図19(b))との間には残差(エラー)が生じており、適切なフィッティングが行えていないことがわかった。
一方、図19(d)には、重なってみえるピークが2つのアミノ酸残基に由来すると仮定した場合に、標識体1乃至3について、上述と同様に解析した結果が示されている。
ここで、図19(d)(i)に示したシグナルについて、標識体1乃至3のi位の15N標識率は、rN1=0.483、rN2=0.454、および、rN3=1.000となり、トリプトファンであると判別(正しく判別)された。
そして、図19(d)(i)に示したシグナルについて、標識体1乃至3のi−1位の13C標識率は、rC1=1.000、rC2=0.409、および、rC3=−0.043となり、アスパラギン酸であると判別(正しく判別)された。
また、図19(d)(ii)に示したシグナルについて、標識体1乃至3のi位の15N標識率は、rN1=0.498、rN2=0.954、および、rN3=1.000となり、グルタミンであると判別(正しく判別)された。
そして、図19(d)(ii)に示したシグナルについて、標識体1乃至3のi−1位の13C標識率は、rC1=0.596、rC2=1.000、および、rC3=0.487となり、イソロイシンであると判別(正しく判別)された。
このように、図19(d)に示すように、図19(d)(i)にトリプトファン9のシグナル、図19(d)(ii)にグルタミン23のシグナルが、それぞれ正しく判別されている。
この場合、図19(e)に示すように、実際に観測されたピーク(図19(a))と、ピークが2つのシグナルの重複であると仮定した場合のモデル(図19(d)(i)、(ii))の各ピーク強度を加算したものとの間には残差が殆ど生じておらず、適切なフィッティングが行えていることが明らかとなった。
以上のように、従来の組み合わせ選択標識法では、標識の有無または強弱という定性的な情報のみを用いているため重複シグナルを分離することができず、シグナルが重なっている場合、誤判別が生じる可能性が高かった。それに比べて、本実施の形態における判別方法によれば、各シグナルをガウス関数にフィッティングさせて定量的な解析を行うことにより、重複シグナルを分離して判別することが可能になるため、判別精度を飛躍的に向上させることが可能となる。
図3に戻り、結果出力部102fは、帰属部102eにより行われたシグナルの主鎖帰属に関する解析結果を表示部112に表示させ(ステップSB−6)、処理を終了する。ここで、結果出力部102fは、解析結果を印刷出力部を介して出力させてもよい。
以上で、本実施の形態におけるタンパク質解析装置100の処理の一例の説明を終える。
[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
例えば、タンパク質解析装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、タンパク質解析装置100は、クライアント端末(タンパク質解析装置100とは別筐体である)からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するようにしてもよい。
また、実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
このほか、上記文献中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
また、タンパク質解析装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
例えば、タンパク質解析装置100の各装置が備える処理機能、特に制御部102にて行われる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、後述する、コンピュータに本発明に係る方法を実行させるためのプログラム化された命令を含む、一時的でないコンピュータ読み取り可能な記録媒体に記録されており、必要に応じてタンパク質解析装置100に機械的に読み取られる。すなわち、ROMまたはHDD(Hard Disk Drive)などの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。
また、このコンピュータプログラムは、タンパク質解析装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
また、本発明に係るプログラムを、コンピュータ読み取り可能な記録媒体に格納してもよく、また、プログラム製品として構成することもできる。ここで、この「記録媒体」とは、メモリーカード、USBメモリ、SDカード、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD、および、Blu−ray(登録商標) Disc等の任意の「可搬用の物理媒体」を含むものとする。
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
記憶部106に格納される各種のデータベース等(タンパク質配列情報データベース106a、標識パターンデータベース106b、および、シグナルデータベース106c)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、および、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラム、テーブル、データベース、および、ウェブページ用ファイル等を格納する。
また、タンパク質解析装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理装置として構成してもよく、また、該情報処理装置に任意の周辺装置を接続して構成してもよい。また、タンパク質解析装置100は、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、および、データ等を含む)を実装することにより実現してもよい。
更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。すなわち、上述した実施形態を任意に組み合わせて実施してもよく、実施形態を選択的に実施してもよい。
[本実施の形態のまとめ]
NMRを用いたタンパク質の解析において、主鎖アミド水素および窒素の化学シフトを決定する主鎖帰属の工程は、立体構造解析、相互作用部位解析、または、分子内運動の解析などに必要な工程である。また、主鎖帰属は、多くの場合、三重共鳴による連鎖帰属法によって達成されるが、タンパク質が高分子量である、低収量である、低溶解度である、または、会合しているなどの場合困難を伴う。したがって、このような場合、アミド窒素をアミノ酸選択的に15N標識することで、i位のアミノ酸を判別することができるアミノ酸選択的安定同位体標識法が有効である。また、デュアル選択標識法では、さらにカルボニル炭素をアミノ酸選択的に13C標識することでi−1位のアミノ酸を判別することができる。
これら従来のアミノ酸選択標識法は、アミノ酸の種類の数に相当する多くの種類の選択標識体が必要であり、時間、コスト、および、手間のかかる方法であった。また、必要な選択標識体の数を減らすために、組み合わせ選択標識法が提案されているが、従来の組み合わせ選択標識法は、定性的な安定同位体標識の情報(標識の有無または強弱)を利用していた。すなわち、従来の組み合わせアミノ酸選択標識法においては、本発明のように、たとえ、安定同位体標識率の違いを符号で表現する、即ち、安定同位体標識の有(または標識率の高)を例えば「1」に、無(または標識率の低)を例えば「0」に対応づけることにより符号化したとしても、16種類のアミノ酸を4桁の2進数で符号化していることとなり、2進数を使う限り1標識体あたりに盛り込める情報量は1ビットにとどまるため、さらなる標識体数の減少は望めないという問題点を有していた。これにより、特に対象タンパク質が高分子量である、低収量である、低溶解度である、または、会合しているなど難度の高いタンパク質である場合に、アミノ酸判別を行うのに十分なスペクトルを得るためにかかる時間が大幅に長くなってしまい、現実的には困難である場合が生じるという問題点を有していた。また、従来の組み合わせアミノ酸選択標識法においては、定量的なシグナル強度解析を行なわないことから、本発明のようにハミング距離を定義するなどして標識パターンを最適化することができず、標識体数とアミノ酸数との組み合わせによっては情報量に無駄が生じてしまうという問題点を有していた。また、HNCOスペクトルのシグナル強度はi−1位の13Cの標識率のみならずi位の15N標識率にも影響を受けることから、定量的なシグナル強度解析を行なわず、HNCOスペクトルにおけるシグナルの有無のみを利用する従来法では、そもそも13C標識率を3段階以上に設定できないという問題点を有していた。
一方、本発明は、定量的な安定同位体標識率の情報を利用することで、選択標識体1種類あたりの情報量を増やし、少ない数の選択標識体で同じ情報を得ることができる。すなわち、本発明では、安定同位体標識率を定量的に制御して符号化し、NMRスペクトルの強度比から標識率を逆算することによって復号することで、1つの標識体により多くの情報を盛り込んでいる。例えば、本発明のアミノ酸判別は、NMRスペクトルから標識率を逆算することによって行い、15Nの標識率を、HSQC強度を用いて求め、13Cの標識率を、HNCOの強度を先にHSQC強度を用いて求めた15Nの標識率で割ることにより求めることで、定性的な1ビットの情報ではなく、定量的な1ビットを超える情報を利用可能としている。また、本発明では、全てのアミノ酸について、少なくとも1つの標識体で100%標識になるように標識パターンを設計することでリファレンスとしてのユニバーサル標識体を不要としている。また、本発明では、ハミング距離を考慮して標識パターンを最適化することにより、任意の標識体数と任意のアミノ酸数において情報量に無駄がなくノイズ等の攪乱要因に最も強い標識パターンを客観的に生成することが可能である。これらの工夫によって必要な選択標識体数を減らすことにより、高難度のタンパク質でも現実的な時間で解析することが可能である。
また、例えば、本発明にリファレンスとしてのユニバーサル標識体を加えた場合、リファレンスを含めて3種類の標識体で9種類、4種類の標識体で27種類(実際には20種類)を判別することもできる。
したがって、本発明は、従来多くの標識体を必要としていた選択標識法に代わり、同じ情報を、より少ない標識体数で得る方法であり、主鎖帰属の工程を時間、手間、および、コストの意味で効率化させ、これまで現実的には困難であったものを可能にするものである。また、主鎖帰属は、多くのタンパク質NMR解析の基礎となる工程であり、本発明の波及効果は大きいものである。