WO2014167744A1 - タンパク質解析装置、タンパク質解析方法、および、プログラム - Google Patents

タンパク質解析装置、タンパク質解析方法、および、プログラム Download PDF

Info

Publication number
WO2014167744A1
WO2014167744A1 PCT/JP2013/077672 JP2013077672W WO2014167744A1 WO 2014167744 A1 WO2014167744 A1 WO 2014167744A1 JP 2013077672 W JP2013077672 W JP 2013077672W WO 2014167744 A1 WO2014167744 A1 WO 2014167744A1
Authority
WO
WIPO (PCT)
Prior art keywords
protein
label
amino acid
labeling
pattern
Prior art date
Application number
PCT/JP2013/077672
Other languages
English (en)
French (fr)
Inventor
卓磨 葛西
木川 隆則
Original Assignee
独立行政法人理化学研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 独立行政法人理化学研究所 filed Critical 独立行政法人理化学研究所
Priority to JP2015511071A priority Critical patent/JP6191927B2/ja
Publication of WO2014167744A1 publication Critical patent/WO2014167744A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R33/00Arrangements or instruments for measuring magnetic variables
    • G01R33/20Arrangements or instruments for measuring magnetic variables involving magnetic resonance
    • G01R33/44Arrangements or instruments for measuring magnetic variables involving magnetic resonance using nuclear magnetic resonance [NMR]
    • G01R33/46NMR spectroscopy
    • G01R33/465NMR spectroscopy applied to biological material, e.g. in vitro testing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N24/00Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects
    • G01N24/08Investigating or analyzing materials by the use of nuclear magnetic resonance, electron paramagnetic resonance or other spin effects by using nuclear magnetic resonance

Definitions

  • the present invention relates to a protein analysis apparatus, a protein analysis method, and a program.
  • Non-Patent Document 1 a technique for performing assignment using chemical shifts of amide nitrogen and carbonyl carbon is disclosed.
  • NMR measurement using 15 N labeling of amide nitrogen for a certain amino acid A, 13 C labeling of a carbonyl carbon for a certain amino acid B, and coupling of a single bond of 13 C- 15 N By performing the above, there is disclosed a technique for performing assignment by observing only a combination of amino acids in the arrangement order of BA.
  • BA when there is only one combination of amino acids BA in the target protein, it can be assigned immediately, that is, without using the chain assignment method.
  • Non-Patent Document 2 a technique for performing assignment using a chemical shift of amide nitrogen and amide hydrogen is disclosed.
  • the combination selection labeling method described in Non-Patent Document 3 discloses a technique for performing attribution using only one type of universal label and only five types of label including four types of selection labels. ing.
  • the combination selection labeling method by combining four labeled bodies with a 15 N labeling rate of 50% or 100% and a 13 C labeling rate of 0% or 100%, the fourth power of 2 or 16 Different types of amino acids are distinguished.
  • the HSQC spectrum has a signal intensity proportional to the 15 N labeling rate of the corresponding amino acid (referred to as “i-position”).
  • the i-position amino acid can be discriminated by examining whether the signal intensity of is weak or comparable.
  • the strength of HNCO spectrum is proportional to both the 15 N labeling index and i-1 of 13 C-labeled rate for the i-th, 15 N, 13 C-labeled rate are both 100% Supposing the 1 HNCO intensity when it is, 13 intensity 0 when C-labeled rate is 0%, 13 C-labeled rate intensity 0.5 or by 15 N labeling index in the case of a 100% 1
  • the glycine 4 residues are labeled in four stages on the basis of the uniformly labeled label, and the four residues are distinguished. In terms of accuracy, it has been difficult to greatly increase the number of residues that can be distinguished at one time.
  • 19 kinds of amino acids are to be discriminated, 19 levels of labeling must be set in increments of 5.6%, which is difficult in practice. Had.
  • the protein analysis method has a problem that it is very expensive to perform stable isotope labeling by chemical synthesis. In other words, the protein analysis method can be carried out only because it is inexpensive glycine, but generally has a problem that it is practically difficult to apply to various amino acids.
  • Non-Patent Documents 1 and 2 in order to obtain information on all main chain signals, as many label bodies as the number of combinations of all amino acids appearing in the target protein are used. In principle, there is a problem that the number of types becomes 380 at the maximum.
  • Non-Patent Document 3 since it is based only on qualitative information such as the presence / absence or strength of a label, universal labeling is used to distinguish 19 types or 20 types of amino acids. There is a problem that as many as six kinds of labels including the body are required.
  • the combination selection labeling method when the target protein has a high molecular weight, low yield, low solubility, or low signal intensity due to association or the like, a signal sufficient for amino acid discrimination is obtained.
  • the NMR measurement time has to be lengthened, and this effect increases as the number of labeled bodies increases. Therefore, there is a problem that it is not practical to apply to highly difficult proteins. .
  • the present invention has been made in view of the above problems, and a protein analysis apparatus, a protein analysis method, and a method that can significantly reduce time, cost, and labor by performing amino acid discrimination with a small number of labels.
  • the purpose is to provide a program.
  • the protein analysis device of the present invention is a protein analysis device including at least a storage unit and a control unit, and the storage unit includes three or more stages of each amino acid constituting the protein.
  • Label pattern storage means for storing a label pattern that defines which isotope labeling rate for each element among the isotope labeling ratios, and NMR measurement of a label that is the protein composed of the label pattern
  • Signal storage means for storing the obtained signal information
  • the control unit determines which amino acid signal of the label based on the signal information is based on the label pattern stored in the label pattern storage means.
  • a discriminating means for discriminating whether it is derived from.
  • the storage unit further includes a protein sequence information storage unit that stores sequence information related to the amino acid sequence of the protein, and the control unit is stored in the protein sequence information storage unit.
  • the method further comprises assignment means for determining assignment of the signal determined by which means the amino acid is derived based on the sequence information.
  • the protein analyzer of the present invention is the above-described protein analyzer, wherein the control unit is based on a Hamming distance that is a sum of absolute values of differences in the isotope labeling rates for the labeled bodies.
  • the apparatus further comprises a sign pattern generating means for generating a pattern and storing it in the sign pattern storage means.
  • the protein analyzer of the present invention is characterized in that, in the protein analyzer described above, the Hamming distance is calculated using the following mathematical formula (1). (Where d (i, j) is the Hamming distance between amino acid i and another amino acid j, n is the number of labels, p i k is the isotope labeling rate of amino acid i in label k, And p j k is the isotope labeling rate of amino acid j in label k.)
  • the protein analyzer of the present invention is the above-described protein analyzer, wherein the control unit is based on scrambled between aspartic acid and asparagine and / or glutamic acid and glutamine constituting the protein. And a sign pattern generating means for generating the sign pattern and storing it in the sign pattern storage means.
  • the protein analyzer of the present invention is characterized in that, in the protein analyzer described above, the elements are nitrogen and carbon.
  • the protein analysis apparatus of the present invention is the above-described protein analysis apparatus, wherein the control unit, when there is a concentration difference between the labeled bodies, based on the signal intensity ratio of the amino acids constituting the labeled bodies,
  • the image processing apparatus further includes correction means for correcting the signal information.
  • the protein analyzer of the present invention is characterized in that, in the protein analyzer described above, the NMR measurement is measurement of an NMR correlation spectrum.
  • the protein analysis method of the present invention is a protein analysis method executed in a protein analysis apparatus including at least a storage unit and a control unit, and the storage unit includes three or more stages of each amino acid constituting the protein.
  • Label pattern storage means for storing a label pattern that defines which isotope labeling rate for each element among the isotope labeling ratios, and NMR measurement of a label that is the protein composed of the label pattern
  • Signal storage means for storing the obtained signal information, and based on the label pattern stored in the label pattern storage means executed in the control unit, the signal of the label based on the signal information is A discriminating step for discriminating which amino acid is derived from the amino acid.
  • the program of the present invention is a program for causing a protein analysis apparatus including at least a storage unit and a control unit to execute, wherein the storage unit is an isotope having three or more stages of each amino acid constituting the protein.
  • a label pattern storage means for storing a label pattern that defines which isotope labeling ratio for each element of the labeling rate, and a signal obtained by NMR measurement of the label that is the protein composed of the labeling pattern
  • Signal storage means for storing information, and in the control unit, based on the label pattern stored in the label pattern storage means, the signal of the labeled body based on the signal information is derived from which amino acid
  • a determination step of determining whether or not is a program for causing a protein analysis apparatus including at least a storage unit and a control unit to execute, wherein the storage unit is an isotope having three or more stages of each amino acid constituting the protein.
  • a label pattern storage means for storing a label pattern that defines which isotope labeling ratio for each element
  • the labeling pattern based on the labeling pattern, it is determined which amino acid the signal of the label based on the signal information is derived from. Therefore, by using quantitative stable isotope labeling rate information, The amount of information per type of body is increased, and the amino acid can be discriminated with a small number of selection labels. Moreover, according to this invention, there exists an effect that an amino acid can be discriminate
  • the attribution of the signal determined from which amino acid is derived is determined based on the sequence information, which signal uses which information on the quantitative stable isotope labeling rate is used. There is an effect that it can be determined whether it is derived from an amino acid residue.
  • the labeling pattern is generated and stored based on the Hamming distance that is the sum of the absolute values of the differences in the isotope labeling rate for each labeling object, the minimum Hamming distance is set to be large.
  • the difference in amino acids can be clearly discriminated, so that the superiority or inferiority of the labeling pattern can be determined based on objective criteria, and noise and other disturbances when trying to determine the number of arbitrary amino acids by the number of arbitrary labels. It is possible to design a labeling pattern that is the strongest to the factor, and even when the signal intensity is low due to the high molecular weight, low yield, low solubility, or association of the target protein. The effect is that analysis can be performed in a specific measurement time.
  • the Hamming distance is calculated using the following formula (1). (Where d (i, j) is the Hamming distance between amino acid i and another amino acid j, n is the number of labels, p i k is the isotope labeling rate of amino acid i in label k, And p j k is the isotope labeling rate of amino acid j in label k.) Based on objective criteria, it is possible to judge the superiority or inferiority of the labeling pattern, and when trying to discriminate any number of amino acids by any number of labeled bodies, it is possible to design a labeling pattern that is strongest against disturbance factors such as noise. Even when the signal intensity is low due to the high molecular weight, low yield, low solubility, or association of the target protein, the analysis can be performed in a realistic measurement time.
  • the elements are nitrogen and carbon, there is an effect that they can be introduced into various systems for a general purpose at a low cost.
  • the signal information is corrected based on the signal intensity ratio of the amino acids constituting the labeled bodies.
  • the amino acid when glycine is used as the amino acid, The chemical shift of 15 N is on the low magnetic field side, and from the characteristics of glycine that can be easily distinguished from other amino acids, there is an effect that the preparation error can be corrected with high accuracy.
  • the NMR measurement is a measurement of the NMR correlation spectrum, there is an effect that both the i-position and i-1-position amino acids can be efficiently distinguished.
  • FIG. 1 is a flowchart showing the basic principle of the present embodiment.
  • FIG. 2 is a block diagram showing an example of the configuration of the protein analyzing apparatus in the present embodiment.
  • FIG. 3 is a flowchart showing an example of processing of the protein analyzing apparatus in the present embodiment.
  • FIG. 4 is a diagram illustrating an example of a marker pattern in the present embodiment.
  • FIG. 5 is a diagram showing an example of a marker pattern in the present embodiment.
  • FIG. 6 is a diagram illustrating an example of a marker pattern in the present embodiment.
  • FIG. 7 is a diagram illustrating an example of a marker pattern in the present embodiment.
  • FIG. 8 is a diagram showing an example of the composition of the amino acid solution in the present embodiment.
  • FIG. 1 is a flowchart showing the basic principle of the present embodiment.
  • FIG. 2 is a block diagram showing an example of the configuration of the protein analyzing apparatus in the present embodiment.
  • FIG. 3 is a flowchart showing an example of processing of the protein
  • FIG. 9 is a diagram showing an example of the composition of the amino acid solution in the present embodiment.
  • FIG. 10 is a diagram showing an example of the composition of the amino acid solution in the present embodiment.
  • FIG. 11 is a diagram showing an example of the composition of the aqueous cysteine solution in the present embodiment.
  • FIG. 12 is a diagram showing an example of the composition of an aqueous cysteine solution in the present embodiment.
  • FIG. 13 is a diagram showing an example of the composition of an aqueous cysteine solution in the present embodiment.
  • FIG. 14 is a diagram showing an example of the composition of the external dialysis solution in the present embodiment.
  • FIG. 15 is a diagram showing an example of the composition of the dialysis internal solution in the present embodiment.
  • FIG. 16 is a diagram showing an example of protein concentration between labeled bodies in the present embodiment.
  • FIG. 17 is a diagram showing an example of amino acid discrimination processing in the present embodiment.
  • FIG. 18 is a diagram illustrating an example of the discrimination accuracy in the present embodiment.
  • FIG. 19 is a diagram showing an example in which duplicate signals are separated and discriminated in the present embodiment.
  • FIG. 1 is a flowchart showing the basic principle of the present embodiment.
  • the present embodiment schematically has the following basic features.
  • control unit of the protein analysis apparatus of the present embodiment has which isotope labeling rate for each element among the three or more isotope labeling rates for each amino acid constituting the protein.
  • control unit of the protein analyzer determines which amino acid the signal based on the signal information is derived from based on the labeling pattern (step SA-2).
  • FIG. 2 is a block diagram showing an example of the configuration of the protein analyzing apparatus 100 in the present embodiment, and conceptually shows only the portion related to the present invention in the configuration.
  • a structure in which each component is all provided in one housing and performs processing alone (stand-alone type) will be described as the protein analysis apparatus 100.
  • the configuration is not limited to an example, and each component may be provided in a separate housing and connected via the network 300 or the like to constitute a single conceptual device (for example, cloud computing).
  • an external system 200 is connected to the protein analysis apparatus 100 via a network 300, and provides an external database regarding protein sequence information and / or a website for executing a user interface and the like. Etc. may be included.
  • the external system 200 may be configured as a WEB server, an ASP server, or the like.
  • the hardware configuration of the external system 200 may be configured by an information processing apparatus such as a commercially available workstation or a personal computer and its attached devices.
  • Each function of the external system 200 may be realized by a CPU, a disk device, a memory device, an input device, an output device, a communication control device, and the like in the hardware configuration of the external system 200, a program for controlling them, and the like. .
  • the network 300 has a function of connecting the protein analyzer 100 and the external system 200 to each other, for example, the Internet.
  • the protein analysis apparatus 100 generally includes a control unit 102, a communication control interface unit 104, a storage unit 106, and an input / output control interface unit 108.
  • the protein analyzing apparatus 100 may further include an output unit including at least the display unit 112 and an input unit 114.
  • the output unit may further include an audio output unit, a print output unit, and the like.
  • the control unit 102 is a CPU or the like that comprehensively controls the entire protein analysis apparatus 100.
  • the communication control interface unit 104 is an interface connected to a communication device (not shown) such as a router connected to a communication line
  • the input / output control interface unit 108 is an output unit and an input unit 114. It is an interface connected to.
  • the storage unit 106 is a device that stores various databases and tables. Each part of the protein analyzer 100 is connected to be communicable via an arbitrary communication path. Further, the protein analyzing apparatus 100 is communicably connected to the network 300 via a communication device such as a router and a wired or wireless communication line such as a dedicated line.
  • the various databases and tables (protein sequence information database 106a, label pattern database 106b, and signal database 106c) stored in the storage unit 106 are storage means such as a fixed disk device.
  • the storage unit 106 stores various programs, tables, files, databases, web pages, and the like used for various processes.
  • the protein sequence information database 106a is a protein sequence information storage unit that stores sequence information related to the amino acid sequence of the protein.
  • the sequence information is stored in advance in the protein sequence information database 106a, and the control unit 102 of the protein analysis apparatus 100 is updated with the latest information via the network 300 periodically and / or according to processing by the control unit 102.
  • the sequence information stored in the protein sequence information database 106a may be updated by downloading data from the external system 200 (for example, NCBI or UNIPROT).
  • the label pattern database 106b is a label pattern storage means for storing a label pattern that defines which isotope labeling rate for each element among three or more levels of isotope labeling rates for each amino acid constituting the protein. is there.
  • the element may be nitrogen, carbon, fluorine, phosphorus, silicon, oxygen, and / or hydrogen.
  • the NMR measurement may be a measurement of an NMR correlation spectrum.
  • the NMR correlation spectrum may be a two-dimensional 15 N / 1 H NMR correlation spectrum or the like.
  • the NMR correlation spectrum is HSQC spectrum, HMQC spectrum, HNCO spectrum, HNCA spectrum, HNCOCA spectrum, HNCACB spectrum, CBCANH spectrum, CBCACONH spectrum, HNCACO spectrum, HBHACONH spectrum, HBHANH spectrum, CCONH spectrum, HCCONH spectrum, HNCONH spectrum, HNCONANH spectrum. It may be a spectrum, HCANH spectrum, HCACO spectrum, HCAN spectrum, HCACON spectrum, TROSY spectrum, COSY spectrum, TOCSY spectrum, NOESY spectrum, and / or ROESY spectrum.
  • the isotope labeling rate may be a stable isotope labeling rate.
  • the signal database 106c is a signal storage means for storing signal information obtained by NMR measurement of a labeled body that is a protein composed of a labeling pattern.
  • the signal information may be input by the user via the input unit 114.
  • the signal information may be measured by the user using an NMR apparatus and input by the user via the input unit 114, and the external system 200 via the network 300 according to processing by the control unit 102. It may be downloaded from.
  • the signal information may include signal intensity.
  • the communication control interface unit 104 performs communication control between the protein analysis device 100 and the network 300 (or a communication device such as a router). That is, the communication control interface unit 104 has a function of communicating data with the external system 200 and other terminals via a communication line.
  • the input / output control interface unit 108 controls the output unit (display unit 112) and the input unit 114.
  • the display unit 112 may be display means for displaying a display screen of an application or the like (for example, a display, a monitor, a touch panel, or the like configured by liquid crystal or organic EL).
  • the input unit 114 may be, for example, a key input unit, a touch panel, a control pad (for example, a touch pad and a game pad), a mouse, a keyboard, a scanner, or a microphone.
  • a speaker etc. may be sufficient, for example.
  • the print output unit may be a printer, for example.
  • the control unit 102 has an internal memory for storing a control program such as an OS (Operating System), a program defining various processing procedures, and necessary data. And the control part 102 performs the information processing for performing various processes by these programs.
  • the control unit 102 includes a sign pattern generation unit 102a, a signal information acquisition unit 102b, a correction unit 102c, a determination unit 102d, an attribution unit 102e, and a result output unit 102f in terms of functional concept.
  • the sign pattern generation unit 102a is a sign pattern generation unit that generates a sign pattern and stores it in the sign pattern database 106b.
  • the label pattern generation unit 102a may generate a label pattern based on the Hamming distance that is the sum of the absolute values of the differences in the isotope labeling rates for each label, and store the label pattern in the label pattern database 106b.
  • the Hamming distance is an informatics distance between code words in the coding theory, and may be defined as the following mathematical formula (1).
  • d (i, j) is the Hamming distance between amino acid i and another amino acid j
  • n is the number of labels
  • p i k is the isotope labeling rate of amino acid i in label k
  • p j k is the isotope labeling rate of amino acid j in label k.
  • the label pattern generation unit 102a generates a label pattern based on aspartic acid and asparagine constituting the protein and / or scramble between glutamic acid and glutamine, and stores them in the label pattern database 106b. Also good.
  • the signal information acquisition unit 102b is signal information acquisition means for acquiring signal information obtained by NMR measurement of the labeled body.
  • the signal information acquisition unit 102b may further store the acquired signal information of the label in the signal database 106c. Moreover, you may acquire the signal information of the labeled body input via the input part 114 by the user. Further, the signal information acquisition unit 102b may acquire the signal information of the labeled body downloaded from the external system 200 via the network 300.
  • the signal information includes HSQC intensity, HMQC intensity, HNCO intensity, HNCA intensity, HNCACA intensity, HNCACB intensity, CBCANH intensity, CBCACONH intensity, HNCACO intensity, HBHACONH intensity, HBHANH intensity, CCONH intensity, HCCONH intensity, HNCANH intensity , HCANH intensity, HCACO intensity, HCAN intensity, HCACON intensity, TROSY intensity, COSY intensity, TOCSY intensity, NOESY intensity, and / or ROESY intensity.
  • the correcting unit 102c is a correcting unit that corrects the signal information of the labeled body based on the signal intensity ratio of the amino acids constituting the labeled body when there is a concentration difference between the labeled bodies.
  • the amino acid may be glycine.
  • the discriminating unit 102d is discriminating means for discriminating which amino acid the signal of the label based on the signal information is derived from based on the label pattern stored in the label pattern database 106b.
  • the attribution unit 102e is an attribution unit that determines the attribution of the signal that has been identified by the discrimination unit 102d based on the sequence information stored in the protein sequence information database 106a.
  • determination of signal assignment may be main chain assignment that determines which amino residue in the protein the signal is derived from.
  • the result output unit 102f is a result output unit that outputs an analysis result related to signal attribution determined by the attribution unit 102e via the output unit.
  • the result output unit 102f may output an analysis result regarding which amino acid the signal of the label determined by the determination unit 102d is derived from via the output unit.
  • the result output unit 102f may display the analysis result on the display unit 112. Further, the result output unit 102f may output the analysis result via the print output unit.
  • FIG. 3 is a flowchart showing an example of processing of the protein analysis apparatus 100 in the present embodiment.
  • the label pattern generation unit 102a generates a label pattern that defines which isotope labeling rate for each element out of three or more levels of isotope labeling rates. And stored in the sign pattern database 106b (step SB-1).
  • the label pattern generation unit 102a may generate a label pattern based on the Hamming distance that is the sum of the absolute values of the differences in the isotope labeling rates for each label, and store the label pattern in the label pattern database 106b.
  • the label pattern generation unit 102a generates a label pattern based on aspartic acid and asparagine constituting the protein and / or scramble between glutamic acid and glutamine, and stores them in the label pattern database 106b. Also good.
  • FIG. 4 is a diagram illustrating an example of a marker pattern in the present embodiment.
  • the labeling pattern shown in FIG. 4 uses a ternary three-digit codeword that uses a quantitative stable isotope labeling rate to increase the amount of information per label and reduce the number of required labels. It is a sign pattern. That is, in the marker pattern shown in FIG. 4, the amount of information that can be included per marker using a ternary number is 1 trit (about 1.58 bits).
  • the ternary “2” corresponds to 100%, “1” corresponds to 75%, and “0” corresponds to 50%.
  • the labeling rate of 13 C “2” corresponds to 100%, “1” corresponds to 50%, and “0” corresponds to 0%.
  • the signal intensity obtained by NMR measurement is proportional to the labeling rate, but since the intensity is different for each amino acid residue, a standard is required to obtain the labeling rate. Therefore, in FIG. 4, for any amino acid, any one label is always “2”, that is, 100% 13 C and 100% 15 N, and the strongest signal intensity is shown. The labeling rate is determined based on the label. As a result, in the labeling pattern shown in FIG. 4, amino acid discrimination can be performed without preparing a universal label other than the selected label as in the prior art. In addition, as shown in FIG. 4, since there are 19 types of labeling patterns in which a 3-digit ternary number and any digit is “2”, 19 types of amino acids are discriminated using only three selection markers. Is possible.
  • label scrambling of amino acids during protein synthesis may be a major factor that disturbs amino acid discrimination. Therefore, in the present embodiment, a cell-free protein synthesis system with relatively little scramble is further improved to suppress scramble (for example, Yokoyama, J. et al. (2011). Analytical Biochemistry 411 (2): 223. -229. Etc.) may also be used.
  • a marker pattern may be devised so that the above method can be used.
  • the most serious problem with label scramble is between asparagine and aspartic acid, or between glutamine and glutamic acid. Therefore, in the labeling pattern shown in FIG. 4, asparagine corresponds to “220” and aspartic acid corresponds to “210”, no matter how much scrambling occurs between asparagine and aspartic acid.
  • the labeling ratio corresponding to “2” for 1 and the labeling body 3 corresponding to “0” is maintained.
  • the labeled body 2 is an intermediate between “2” and “1”, that is, an intermediate between 100% and 75% for the 15 N labeling rate, and an intermediate between 100% and 50% for the 13 C labeling rate. Even if this happens, it can be determined whether it is either asparagine or aspartic acid. For example, an arginine corresponding to “200” can be prevented from being erroneously determined. The same applies to between glutamine and glutamic acid.
  • the scramble actually has many one-sided leaks from asparagine to aspartic acid and one-sided leaks from glutamine to glutamic acid.
  • the labeling rate of aspartic acid in labeled body 2 is set to a low value in advance, and the labeling leak from asparagine occurs and the labeling rate increases.
  • a desired labeling rate may be achieved.
  • the amount of the stable isotope label should be reduced as much as possible. Also good.
  • FIG. 5 is a diagram showing an example of a marker pattern in the present embodiment.
  • the sign pattern shown in FIG. 5 may be a sign pattern using a three-digit code word in accordance with the above conditions (1) to (3), similarly to the sign pattern shown in FIG.
  • the labeling rate is described as 100% or 0%, but in actuality, strictly 100% or 0% is achieved for technical reasons. Difficult to do. However, the reason why there is no practical problem in this embodiment will be described below.
  • the natural abundance ratio of 13 C is about 1.1%
  • the natural abundance ratio of 15 N is about 0.36%
  • the lower limit of the labeling rate when an unlabeled amino acid is used is used. Although this is the value, as shown in FIG. 5, it is a level at which there is no problem in distinguishing between 0% and 50%.
  • the isotope labeling rate of 13 C-labeled and 15 N-labeled amino acids is about 90% to 98%.
  • the present embodiment is a method of determining the assignment using only the ratio to the intensity observed using 13 C-labeled and 15 N-labeled amino acids, the criterion is actually not 100%. Even if it is 90%, there is no problem.
  • the 15 N-labeled rate of 13 C / 15 N-labeled amino acids, 15 and N-labeled 15 N labeling index of amino acids if are significantly different, the 15 N labeling index thereof was blended mixture of amino acids is contemplated It may be different, but many are fine.
  • 15 N-labeled rate of 13 C / 15 N-labeled amino acids are, in fact, 98%, 15 if 15 N labeling index of N-labeled amino acids, in practice a 90%, 50% 13 C / 75 % 15 N would result in a 1: 1: 2 mix of unlabeled, 15 N labeled, 13 C / 15 N labeled, resulting in a final 15 N labeling rate of 71.5 %. Since the reference is 98% 15 N, the labeling rate calculated in the present embodiment (formula (3) described later) is 73.0%. This is not much different from the 75% initially set and is not a problem.
  • the number of labeled bodies may be reduced by incorporating information exceeding 1 bit into one labeled body by quantitative labeling.
  • the reference is unnecessary by making the label 100% with at least one label.
  • these two contrivances make it possible to discriminate 19 kinds of amino acids with three kinds of labels. Actually, these two devices can be implemented independently.
  • a total of 5 types of reference labeled bodies and 4 selected labeled bodies are used to discriminate 16 types of amino acids. Requires a type of marker.
  • a desired labeling rate may be achieved by mixing unlabeled amino acids, 15 N-labeled amino acids, 13 C-labeled amino acids, and / or 13 C / 15 N-labeled amino acids.
  • the 15 N labeling rate can be set to be equal to or higher than the 13 C labeling rate in any of the labeled amino acids. In this case, 13 C-labeled amino acids are unnecessary.
  • n c / 2 + 0.5 (where c and n are the labeling rates of 13 C and 15 N, respectively)
  • the labeling pattern may be determined without depending on this formula.
  • the 15 N labeling rate is 100% for at least one labeled body, and at least one labeled body (as opposed to the case of 15 N).
  • the 13 C labeling rate should be 100%.
  • FIG. 6 is a diagram illustrating an example of a marker pattern in the present embodiment.
  • the sign pattern shown in FIG. 6 is a sign pattern using a quaternary three-digit code word generated based on the Hamming distance.
  • the labeling pattern shown in FIG. 6 is designed so that all amino acid combinations are equally and well discriminated using the Hamming distance.
  • a sign pattern suitable for the application may be designed.
  • it may be designed so that the Hamming distance between an amino acid whose labeling rate is likely to fluctuate and another amino acid is increased.
  • amino acids with low appearance rates may be designed so that the Hamming distance is close.
  • the Hamming distance between amino acids that are easily distinguished by chemical shifts may be designed to be close.
  • the Hamming distance is an informatics distance between code words in the coding theory, and may be defined as the following mathematical formula (1). (Where d (i, j) is the Hamming distance between amino acid i and another amino acid j, n is the number of labels, p i k is the isotope labeling rate of amino acid i in label k, And p j k is the isotope labeling rate of amino acid j in label k.)
  • the Hamming distance can be defined by the 15 N labeling rate and the 13 C labeling rate, respectively. As shown in FIG. 4, the labeling pattern has a Hamming distance defined by 13 C and a Hamming distance defined by 15 N. You may have just doubled.
  • the minimum hamming distance between all amino acids can be defined as the minimum hamming distance. That is, the minimum hamming distance is the minimum hamming distance between all codewords. As the value of the minimum hamming distance is larger, any code word can be distinguished better. That is, a marker pattern with a larger minimum hamming distance can be discriminated well regardless of whether there is a disturbance factor such as noise or between amino acids.
  • the minimum hamming distance of 13 C is 0.500 in the marker pattern shown in FIG. Further, even in the pattern in which 19 amino acids, which are the same as those in FIG. 4, are discriminated by three labeled bodies, the minimum hamming distance of 13 C is 0.667 in the labeled pattern shown in FIG.
  • FIG. 7 is a diagram illustrating an example of a marker pattern in the present embodiment. As shown in FIG. 7, in the present embodiment, 29 types of 13 C labeling rates and 22 types of 15 N labeling rates are used, and the labeling pattern for discriminating 20 amino acids with 3 labeled forms is used. You may design. In the marker pattern shown in FIG. 7, the minimum hamming distance is 0.596.
  • the signal information acquisition unit 102 b generates a labeled body that is a protein composed of the label pattern stored in the label pattern database 106 b by the user, and acquires signal information of the labeled body by NMR measurement.
  • the signal information is input via the input unit 114, the signal information of the label is acquired and stored in the signal database 106c (step SB-2).
  • the signal information acquisition unit 102b is the signal information of the sign body downloaded from the external system 200 via the network 300 (for example, the information disclosed as open source, or measured in advance by the user and stored in the external system 200) Etc.) may be obtained.
  • FIGS. 8 to 10 are diagrams showing an example of the composition of the amino acid solution in the present embodiment.
  • various aqueous solutions or suspensions may be prepared as the amino acid solution used in the cell-free protein synthesis system.
  • manufacturers of reagents used in the preparation of the aqueous solution or suspension in the present embodiment include 15 N L-alanine, 13 C / 15 N L-alanine, 13 C / 15 N L-arginine, 15 N L- Asparagine, 13 C / 15 N L-Asparagine, 15 N L-Aspartic acid, 13 C / 15 N L-Aspartic acid, 15 N L-glutamine, 15 N L-glutamic acid, 13 C / 15 N L-glutamic acid, 13 C / 15 N glutamic acid, 13 C / 15 N glycine, 15 N L-isoleucine, 15 N L-leucine, 13 C / 15 N L-leucine, 15 N L-lysine, 13 C / 15 N L-lysine, 15 N L-methionine, 13 C / 15 N L-methionine, 15 N L-phenylalanine, 13 C / 15 N L- phenylalanine, 5 N
  • these amino acid solutions are mixed with the composition shown in FIG. 8 to obtain a 7.5 mM amino acid mixed solution (19 kinds of cysteine except cysteine) used for protein synthesis. (Including amino acids) may be prepared and used to generate labeled body 1 having the labeling pattern shown in FIG. Further, in the cell-free protein synthesis system according to the present embodiment, these amino acid solutions are mixed with the composition shown in FIG. 9 to prepare a 7.5 mM amino acid mixed solution used for protein synthesis. You may use for the production
  • FIGS. 11 to 13 are diagrams showing an example of the composition of the aqueous cysteine solution in the present embodiment.
  • a 600 mM cysteine and 600 mM dithiothreitol solution used for protein synthesis is prepared by mixing the above cysteine aqueous solution with the composition shown in FIG. You may use for the production
  • a 600 mM cysteine and 600 mM dithiothreitol solution used for protein synthesis is prepared by mixing the cysteine aqueous solution with the composition shown in FIG. You may use for the production
  • the stable isotope labeling rate of each amino acid in these 7.5 mM amino acid mixed solution, 600 mM cysteine, and 600 mM dithiothreitol solution may be as shown in FIG.
  • the 13 C labeling rate of aspartic acid of labeled body 2 is 30% instead of 50%
  • the 15 N labeling rate of aspartic acid of labeled body 2 is 65% instead of 75%
  • the 13 C labeling rate of glutamic acid may be 15% instead of 50%
  • the 15 N labeling rate of glutamic acid of labeled body 3 may be 55% instead of 75%. This is because a desired labeling rate is achieved by label leakage from asparagine and glutamine, respectively.
  • FIG. 14 is a diagram showing an example of the composition of the external dialysis solution in the present embodiment.
  • FIG. 15 is a diagram showing an example of the composition of the dialysis internal solution in the present embodiment.
  • a template DNA is prepared in order to synthesize the region of the CH domain of the human Smoothelin protein.
  • gene-specific forward primer DNA ACTGAGAACC, TGTACTCCCA, GGGAATCAAG, CAGATGCGTC, TGGAC, GTGCGGGGGAT, CAATCAATCA, TTAGGTCTT, TTGTT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TGT, TTGTT, TTCTT, TGT, TTC, TGT, TGT, TGT, TTGTT, TTCTT, TTCTGTC (Company name)), and a template containing a histidine affinity tag based on the conventional technology (Yabuki, T., et al.
  • DNA may be produced.
  • the translated amino acid sequence before the affinity tag cleavage (MKDHLHNHHKHHEHAHAEKYKYQQLQFQRQYQQLQFLYQQFLSGIQQLQWQFQQRQNQFQQRQNQFLYQQFLYQQFLYQQFLYQQFLYQQFLYQQFLYQQFLYQQRQQQQQQQQQQQQQQQQQQQQQQQQQQQRRQ
  • a cell-free protein synthesis system is used in accordance with the method of the prior art (Kigawa, T. (2010). Methods in Molecular Biology 607: 101-111.) Using the prepared template DNA. It may be used to prepare (synthesize) each label.
  • a method for suppressing label scrambling between amino acids Yokoyama, J., et al. (2011). Analytical Biochemistry 411 (2): 223-229.
  • the composition of the reaction solution (external dialysis solution shown in FIG. 14 and dialysis internal solution shown in FIG. 15) may be changed.
  • the synthesis reaction was carried out for 12 hours with shaking at 30 ° C., and the dialyzed solution was collected and 18 ml of A buffer (20 mM sodium phosphate buffer, pH 7.4, 500 mM sodium chloride, and 20 mM imidazole) was added. May be added. And the solution which collect
  • the eluate may be concentrated to 3 ml by subjecting the eluate to an A buffer solution by ultrafiltration using Amicon-Ultra 15 MWCO-3000 (Merck Millipore (company name)). Then, 3 ⁇ l of 0.5 M EDTA and 0.4 ml of 1 mg / ml Tobacco Etch Virus protease (in-house preparation) may be added to the concentrated solution and allowed to stand at room temperature for 18 hours.
  • the stationary solution may be passed through a HisTrap 5 ml column, and the pass-through fraction and the fraction washed with 16 ml of A buffer solution may be collected together. Then, the collected solution was subjected to NMR measurement buffer (20 mM deuterated Tris) by ultrafiltration using Amicon-Ultra 15 MWCO-3000 and VIVASPIN 2 5000 MWCO PES (Sartorius (company name)).
  • NMR measurement buffer (20 mM deuterated Tris) by ultrafiltration using Amicon-Ultra 15 MWCO-3000 and VIVASPIN 2 5000 MWCO PES (Sartorius (company name)).
  • -Cl buffer pH 7.0, 100 mM sodium chloride, 0.02% sodium azide, and 1 mM deuterated dithiothreitol).
  • the molar extinction coefficient at 280 nm was estimated to be 23950 [M ⁇ 1 cm ⁇ 1 ] (Pace, CN, et al. (1995). Protein Science 4 (11): 2411-2423.
  • the protein concentration is measured by ultraviolet absorption method, and a sample for NMR measurement is prepared so that the protein concentration becomes 0.4 mM in a buffer for NMR measurement to which 10% final concentration of heavy water is added. 5 mm symmetrical micro test tubes (Shigemi Co., Ltd. (company name)) may be filled.
  • the protein thus obtained (human Smoothelin) is an amino acid sequence after cleavage of the affinity tag from which the affinity tag has been removed (GIKQMLLDWCCRAKTRGYEHVDIQNFSSSWSDMAFCCALVHNFFPEAFDYGQLSPQNRRQNFEVATKLVQVLDQRTDVK
  • NMR measurement in the present embodiment is carried out by using an AVANCE 700 NMR apparatus (Bruker Biospin Co., Ltd. (company name)) for each label, and a 1 H- 15 N two-dimensional HSQC spectrum (hereinafter referred to as “22H”). , HSQC), and 1 H- 15 N two-dimensional HN (CO) spectrum (hereinafter referred to as HNCO) may be measured.
  • AVANCE 700 NMR apparatus Bruker Biospin Co., Ltd. (company name)
  • HNCO 1 H- 15 N two-dimensional HN
  • the spectra were processed using the NMRPipe program (Delaglio, F., et al. (1995) J Biomol NMR 6: 277-293) and the NMRview program (Johnson, BA, et al. et al. (1994) J Biomol NMR 4: 603-614.) to obtain a peak list consisting of 148 peaks. Each peak included in this peak list is grouped so that peaks having a chemical shift difference of 1 H of 0.1 ppm or less and a chemical shift difference of 15 N of 0.8 ppm or less belong to the same group. , 82 groups may be obtained.
  • I HSQC1 (x, y) is the intensity of the HSQC spectrum of the label 1 at the point (x, y), and I HSQC2 (x, y ) strength of HSQC spectrum of the label 2 in the point (x, y), I HSQC3 (x, y) is a point (x, intensity of HSQC spectrum of labels 3 in y), I HNCO1 (x, y) is The intensity of the HNCO spectrum of the label 1 at the point (x, y), I HNCO2 (x, y) is the intensity of the HNCO spectrum of the label 2 at the point (x, y), and I HNCO3 (x, y) is the point ( x, y strength of HNCO spectrum of labels 3 in), n is the number of peaks included in the group, a k HSQC1 the k-th intensity in HSQC of labels
  • a k HSQC1 to a k HNCO3 obtained using equation (2) may be employed for amino acid determination of each peak.
  • the correcting unit 102 c determines the label body stored in the signal database 106 c based on the signal intensity ratio of amino acids (for example, glycine) constituting the labeled body.
  • the signal information is corrected (step SB-3).
  • FIG. 16 is a diagram showing an example of protein concentration between labeled bodies in the present embodiment.
  • the protein concentration is equal between the labeled bodies.
  • a difference in concentration due to precipitation or denaturation occurs between the labeled bodies due to a preparation error or a difference in waiting time until measurement that occurs when the labeled bodies are measured in order.
  • the magnetic field inhomogeneity in the sample tube is different between the labeled bodies, the same effect as when there is a difference in concentration occurs.
  • the correction unit 102c may correct the signal information by using glycine peaks that are all 100% labeled in order to adjust these effects. For example, as shown in FIG. 16, from the 15 N labeling rate of the peak discriminated as glycine, the actual concentration ratio of the labeled bodies 1 to 3 is estimated to be 96.5: 99.5: 97.6. The Therefore, the correction unit 102c divides the HSQC intensity and the HNCO intensity of each peak by 0.965 for the labeled body 1, 0.995 for the labeled body 2, and 0.976 for the labeled body 3. The value may be acquired as a correction value used for amino acid discrimination.
  • the determination unit 102d determines from which amino acid the signal of the label based on the signal information corrected by the correction unit 102c is derived ( Step SB-4).
  • the assigning unit 102e performs main chain assignment of the signal of the label that has been determined by the determining unit 102d based on the sequence information stored in the protein sequence information database 106a (step SB-5). ).
  • FIG. 17 is a diagram showing an example of amino acid discrimination processing in the present embodiment.
  • the stable isotope labeling rate may be obtained for each peak using the following formula (3).
  • r N1 to r N3 are the 15 N labeling rates of the i-positioned labels 1 to 3 seen from this peak, and max (a HSQC ) is the maximum value of the HSQC intensity in the labels 1 to 3. .
  • HNCO intensity is proportional to both the i-position of the 15 N labeling index and i-1 position of the 13 C-labeled rate, to determine the 13 C-labeled ratio of i-1 of the HNCO strength, firstly, Since it is necessary to divide by the previously obtained 15 N labeling rate, the HNCO intensity may be calculated using the following formula (4).
  • a ′ HNCO1 to a ′ HNCO3 are HNCO intensities after being divided by the 15 N labeling rate (hereinafter referred to as modified HNCO intensities), and r C1 to r C3 are i i seen from this peak.
  • It is the 13 C labeling rate of the labeled bodies 1 to 3 at position ⁇ 1
  • max (a ′ HNCO ) is the maximum value of the corrected HNCO intensity of the labeled bodies 1 to 3.
  • determination unit 102d thus obtained i-position of 15 N-labeled rate is 50% of less than 62.5%, if 75% of less than 87.5% 62.5% or more, or, 87 If it is 5% or more, it may be determined that the amino acid corresponding to the labeling rate is the i-position amino acid from the labeling rate shown in FIG. Further, the determination unit 102d determines that the 13C labeling rate at the i-1 position is 0% when it is less than 25%, 50% when it is 25% or more and less than 75%, or 100% when it is 75% or more. From the labeling rate shown in FIG. 4, the amino acid corresponding to the labeling rate may be determined as the amino acid at the i-1 position.
  • the protein (human Smoothelin protein) discriminated in the present embodiment is separately assigned to the main chain by the triple chain resonance method based on the triple resonance, and the discrimination in the present embodiment is performed. Compared with the results. According to the comparison, there were 88 main chain-derived peaks that did not overlap with other peaks on HSQC. For the peak, when the i-1 position is proline, it is assumed that the answer is correct when the i position is correctly determined, and when the i-1 position is an amino acid residue other than proline, Analysis was made assuming that the correct answer was obtained when both the i-position and the i-1-position were correctly determined, and it was confirmed that all 88 peaks were correct.
  • FIG. 17 shows an example of amino acid discrimination (discrimination of aspartic acid 73) of human Smoothellin protein in the present embodiment.
  • the residue corresponding to position i-1 of the peak shown in FIG. 17 is alanine 72.
  • FIG. 18 is a diagram illustrating an example of the discrimination accuracy in the present embodiment.
  • the average and variation of rates are shown.
  • the black circles indicate the average value
  • the crosses indicate the set labeling rate (as shown in FIG. 4)
  • the error bars indicate the standard deviation.
  • 15 N has three stages of 100%, 75%, or 50%
  • 13 C has three stages of 100%, 50%, or 0%. It was shown that there was sufficient labeling accuracy to determine which.
  • FIG. 19 is a diagram showing an example in which duplicate signals are separated and discriminated in the present embodiment.
  • FIG. 19 when two signals (tryptophan 9 and glutamine 23) derived from the main chain of human Smoothelin protein overlap on HSQC and HNCO (FIG. 19 (a)), It has been shown that by applying the discrimination method in the form, duplicate signals can be separated and correctly discriminated.
  • I HSQC1 (x, y) is the intensity of the HSQC spectrum of the label 1 at the point (x, y), and I HSQC2 (x, y ) strength of HSQC spectrum of the label 2 in the point (x, y), I HSQC3 (x, y) is a point (x, intensity of HSQC spectrum of labels 3 in y), I HNCO1 (x, y) is The intensity of the HNCO spectrum of the label 1 at the point (x, y), I HNCO2 (x, y) is the intensity of the HNCO spectrum of the label 2 at the point (x, y), and I HNCO3 (x, y) is the point ( x, y strength of HNCO spectrum of labels 3 in), n is the number of peaks included in the group, a k HSQC1 the k-th intensity in HSQC of labels
  • FIG. 19 (c) an actually observed peak (FIG. 19 (a)) and a model (FIG. 19 (b)) in a case where it is assumed that the signal belongs to one signal. There was a residual (error) between them, indicating that proper fitting was not possible.
  • FIG. 19 (d) shows the results of analyzing the labeled bodies 1 to 3 in the same manner as described above, assuming that the overlapping peaks are derived from two amino acid residues.
  • FIG. 19 (e) an actually observed peak (FIG. 19 (a)) and a model (FIG. 19 (d) ()) assuming that the peak is an overlap of two signals. There was almost no residual between the sum of the peak intensities i) and (ii)), and it was revealed that appropriate fitting was performed.
  • the conventional combination selection labeling method uses only qualitative information on the presence / absence or strength of the label, so that it is not possible to separate duplicate signals, and misclassification occurs when signals overlap. The possibility was high.
  • the discrimination method in the present embodiment it is possible to separate and discriminate duplicate signals by fitting each signal to a Gaussian function and performing a quantitative analysis. Can be dramatically improved.
  • the result output unit 102f displays the analysis result on the main chain attribution of the signal performed by the attribution unit 102e on the display unit 112 (step SB-6), and ends the process.
  • the result output unit 102f may output the analysis result via the print output unit.
  • the protein analysis apparatus 100 responds to a request from a client terminal (which is a separate casing from the protein analysis apparatus 100). Processing may be performed, and the processing result may be returned to the client terminal.
  • all or part of the processes described as being automatically performed can be performed manually, or the processes described as being performed manually can be performed. All or a part can be automatically performed by a known method.
  • each illustrated component is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • each device of the protein analysis apparatus 100 in particular, the processing functions performed by the control unit 102, all or any part thereof are interpreted and executed by a CPU (Central Processing Unit) and the CPU. It may be realized by a program to be executed, or may be realized as hardware by wired logic.
  • the program is recorded on a non-temporary computer-readable recording medium including a programmed instruction for causing a computer to execute the method according to the present invention, which will be described later, and a protein analyzer as necessary. 100 mechanically read. That is, in the storage unit 106 such as a ROM or an HDD (Hard Disk Drive), a computer program for giving instructions to the CPU in cooperation with an OS (Operating System) and performing various processes is recorded. This computer program is executed by being loaded into the RAM, and constitutes a control unit in cooperation with the CPU.
  • OS Operating System
  • the computer program may be stored in an application program server connected to the protein analysis apparatus 100 via an arbitrary network 300, and may be downloaded in whole or in part as necessary. It is.
  • the program according to the present invention may be stored in a computer-readable recording medium, or may be configured as a program product.
  • the “recording medium” means a memory card, USB memory, SD card, flexible disk, magneto-optical disk, ROM, EPROM, EEPROM, CD-ROM, MO, DVD, and Blu-ray (registered trademark). It includes any “portable physical medium” such as Disc.
  • program is a data processing method described in an arbitrary language or description method, and may be in any form such as source code or binary code.
  • program is not necessarily limited to a single configuration, but is distributed in the form of a plurality of modules and libraries, or in cooperation with a separate program typified by an OS (Operating System). Including those that achieve the function.
  • OS Operating System
  • a well-known configuration and procedure can be used for a specific configuration for reading a recording medium, a reading procedure, an installation procedure after reading, and the like in each device described in the embodiment.
  • Various databases and the like stored in the storage unit 106 include a memory device such as a RAM and a ROM, a fixed disk device such as a hard disk, a flexible disk, and
  • the storage means such as an optical disk stores various programs, tables, databases, web page files, and the like used for various processes and website provision.
  • the protein analysis apparatus 100 may be configured as an information processing apparatus such as a known personal computer or workstation, or may be configured by connecting an arbitrary peripheral device to the information processing apparatus.
  • the protein analysis apparatus 100 may be realized by installing software (including a program and data) that causes the information processing apparatus to realize the method of the present invention.
  • the specific form of distribution / integration of the devices is not limited to that shown in the figure, and all or a part of them may be functional or physical in arbitrary units according to various additions or according to functional loads. Can be distributed and integrated. That is, the above-described embodiments may be arbitrarily combined and may be selectively implemented.
  • the stable isotope labeling rate is quantitatively controlled and encoded, and decoding is performed by back calculating the labeling rate from the intensity ratio of the NMR spectrum, thereby incorporating more information into one label.
  • the amino acid discrimination of the present invention is carried out by calculating the labeling rate back from the NMR spectrum, the 15 N labeling rate is determined using the HSQC intensity, the 13 C labeling rate is determined, the HQC intensity first, and the HSQC intensity.
  • a universal label as a reference is unnecessary by designing a label pattern so that all amino acids are 100% labeled with at least one label. Further, in the present invention, by optimizing the labeling pattern in consideration of the Hamming distance, the labeling pattern that is most resistant to disturbance factors such as noise without waste of information amount in any number of labeled bodies and any number of amino acids is objectively observed. Can be generated automatically. By reducing the number of selective label bodies required by these devices, even highly difficult proteins can be analyzed in a realistic time.
  • the present invention is a method for obtaining the same information with a smaller number of labeled bodies in place of the selective labeling method that conventionally required many labeled bodies, and the main chain assignment step is time, labor and cost. It is efficient in meaning and enables what has been difficult in the past.
  • the main chain assignment is a process that is the basis of many protein NMR analyses, and the ripple effect of the present invention is great.
  • a protein analyzer As described above in detail, according to the present invention, a protein analyzer, a protein analysis method, and a protein analysis apparatus that can significantly reduce time, cost, and labor by performing amino acid discrimination with a small number of labeled bodies, and Since the program can be provided, it is extremely useful particularly in various fields such as medical, pharmaceutical, drug discovery, and biological research.

Landscapes

  • Physics & Mathematics (AREA)
  • High Energy & Nuclear Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

 本発明は、タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの同位体標識率であるかを規定する標識パターンで構成されたタンパク質である標識体のNMR測定により得られるシグナル情報を取得し、標識パターンに基づいて、シグナル情報に基づくシグナルがどのアミノ酸に由来するかを判別する。

Description

タンパク質解析装置、タンパク質解析方法、および、プログラム
 本発明は、タンパク質解析装置、タンパク質解析方法、および、プログラムに関する。
 従来から、タンパク質の核磁気共鳴法(NMR)による解析においては、主鎖帰属を行う種々の技術が開示されている。
 特許文献1および2に記載のタンパク質解析方法においては、残基ごとに同位体標識率を変えられる化学合成系の特徴を活かして、同じアミノ酸で違う残基のシグナルを判別する技術が開示されている。
 また、非特許文献1に記載のデュアル選択標識法においては、アミド窒素およびカルボニル炭素の化学シフトを用いて帰属を行う技術が開示されている。例えば、当該デュアル選択標識法においては、あるアミノ酸Aについてアミド窒素を15N標識し、あるアミノ酸Bについてカルボニル炭素を13C標識し、13C-15Nの単結合のカップリングを利用するNMR測定を行うことにより、BAという並び順のアミノ酸の組み合わせのみを観測することによって帰属を行う技術が開示されている。ここで、BAというアミノ酸の組み合わせが対象タンパク質中にひとつしかない場合にはただちに、すなわち、連鎖帰属法によらずに帰属できる。
 また、非特許文献2に記載のデュアル選択標識法においては、アミド窒素およびアミド水素の化学シフトを用いて帰属を行う技術が開示されている。
 また、非特許文献3に記載の組み合わせ選択標識法においては、1種類のユニバーサル標識体、および、4種類の選択標識体のあわせて5種類の標識体のみを用いて帰属を行う技術が開示されている。ここで、当該組み合わせ選択標識法においては、15N標識率を50%もしくは100%、ならびに、13C標識率を0%もしくは100%とした4標識体を組み合わせることによって、2の4乗つまり16種類のアミノ酸を区別している。例えば、当該組み合わせ選択標識法においては、HSQCスペクトルは対応するアミノ酸(「i位」とする)の15N標識率に比例したシグナル強度となるので、ユニバーサル標識体と比較して4種の標識体のシグナル強度が弱いか同程度であるかを調べることで、i位のアミノ酸を判別できる。また、当該組み合わせ選択標識法においては、HN(CO)スペクトルはi位の15N標識率と1残基N末端側のアミノ酸(「i-1位」とする)の13C標識率双方に比例するが、15Nの標識率は50%もしくは100%、13Cの標識率は0%もしくは100%であるので、シグナルがあるかどうかを調べることでi-1位のアミノ酸を判別できる。すなわち、当該組み合わせ選択標識法においては、HNCOスペクトルの強度はi位の15N標識率とi-1位の13C標識率の双方に比例するから、15N、13C標識率が共に100%である場合のHNCO強度を仮に1とすると、13C標識率が0%である場合には強度0となり、13C標識率が100%である場合には15N標識率により強度0.5または1となる。
特開2007-254295号公報 特開2007-255910号公報
M. Kainosho and T. Tsuji, Assignment of the Three Methionyl Carbonyl Carbon Resonances in Streptomyces Subtilisin Inhibitor by a Carbon-13 and Nitrogen-15 Double Labeling Technique. A New Strategy for Structural Studies of Proteins in Solution", Biochemistry, 24, 6273-6279 (1982). Yabuki T, Kigawa T, Dohmae N, Takio K, Terada T, Ito Y, Laue ED, Cooper JA, Kainosho M and Yokoyama S, Dual amino acid-selective and site-directed stable-isotope labeling of the human c-Ha-Ras protein by cell-free synthesis, J Biomol NMR. 1998 Apr;11(3):295-306. Parker MJ, Aulton-Jones M, Hounslow AM and Craven CJ, A combinatorial selective labeling method for the assignment of backbone amide NMR resonances, J Am Chem Soc. 2004 Apr 28;126(16):5020-1.
 しかしながら、特許文献1および2に記載の従来のタンパク質解析方法においては、均一に標識した標識体を基準にして、グリシン4残基を4段階に標識してその4残基を区別しようとしているが、精度に関して、一度に区別できる残基の数を大幅に増やすことが難しいという問題点を有していた。また、当該タンパク質解析方法においては、仮に、19種のアミノ酸を判別しようとすると、5.6%刻みで19段階の標識率を設定せねばならず、実用的には困難であるという問題点を有していた。また、当該タンパク質解析方法においては、化学合成で安定同位体標識をするのは非常にコストがかかるという問題点を有していた。すなわち、当該タンパク質解析方法において、安価なグリシンだからこそ実施可能であるが、一般的に種々のアミノ酸に適用することは、実用上難しいという問題点を有していた。
 また、非特許文献1および2に記載の従来のデュアル選択標識法においては、すべての主鎖シグナルについて情報を得るためには、対象タンパク質にあらわれるすべてのアミノ酸の組み合わせの数だけの標識体を用いなければならず、原理的には最大で380種類となってしまうという問題点を有していた。
 また、非特許文献3に記載の従来の組み合わせ選択標識法においては、単に標識の有無や強弱といった定性的な情報のみに基づいているため、19種類または20種類のアミノ酸を区別するにはユニバーサル標識体を含めて6種類もの多くの標識体が必要となるという問題点を有していた。特に、当該組み合わせ選択標識法においては、対象タンパク質が高分子量である、低収量である、低溶解度である、または、会合しているなどの理由によりシグナル強度が低い場合、アミノ酸判別に十分なシグナル強度を得るためにNMR測定時間を長くせざるを得ず、標識体数が多くなるほどこの影響が大きくなるため、高難度のタンパク質に適用するのは現実的ではないという問題点を有していた。
 本発明は、上記問題点に鑑みてなされたもので、少ない標識体数でアミノ酸判別を行なうことにより時間、コスト、および、手間を大幅に削減することができるタンパク質解析装置、タンパク質解析方法、および、プログラムを提供することを目的とする。
 このような目的を達成するため、本発明のタンパク質解析装置は、記憶部と制御部とを少なくとも備えたタンパク質解析装置であって、上記記憶部は、タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの上記同位体標識率であるかを規定する標識パターンを記憶する標識パターン記憶手段と、上記標識パターンで構成された上記タンパク質である標識体のNMR測定により得られるシグナル情報を記憶するシグナル記憶手段と、を備え、上記制御部は、上記標識パターン記憶手段に記憶された上記標識パターンに基づいて、上記シグナル情報に基づく上記標識体のシグナルがどの上記アミノ酸に由来するかを判別する判別手段、を備えたことを特徴とする。
 また、本発明のタンパク質解析装置は、上記記憶部は、上記タンパク質のアミノ酸配列に関する配列情報を記憶するタンパク質配列情報記憶手段、を更に備え、上記制御部は、上記タンパク質配列情報記憶手段に記憶された上記配列情報に基づいて、上記判別手段によりどの上記アミノ酸に由来するか判別された上記シグナルの帰属を決定する帰属手段、を更に備えたことを特徴とする。
 また、本発明のタンパク質解析装置は、上記記載のタンパク質解析装置において、上記制御部は、上記標識体毎の上記同位体標識率の差の絶対値の和であるハミング距離に基づいて、上記標識パターンを生成し、上記標識パターン記憶手段に格納する標識パターン生成手段、を更に備えたことを特徴とする。
 また、本発明のタンパク質解析装置は、上記記載のタンパク質解析装置において、上記ハミング距離は、以下の数式(1)を用いて算出することを特徴とする。
Figure JPOXMLDOC01-appb-M000002
(ここで、d(i,j)はアミノ酸iと,他のアミノ酸jと、の間のハミング距離、nは標識体の数、p は標識体kにおけるアミノ酸iの同位体標識率、および、p は標識体kにおけるアミノ酸jの同位体標識率である。)。
 また、本発明のタンパク質解析装置は、上記記載のタンパク質解析装置において、上記制御部は、上記タンパク質を構成するアスパラギン酸とアスパラギンと、および/または、グルタミン酸とグルタミンとの間で起こるスクランブルに基づいて、上記標識パターンを生成し、上記標識パターン記憶手段に格納する標識パターン生成手段、を更に備えたことを特徴とする。
 また、本発明のタンパク質解析装置は、上記記載のタンパク質解析装置において、上記元素は、窒素、および、炭素であることを特徴とする。
 また、本発明のタンパク質解析装置は、上記記載のタンパク質解析装置において、上記制御部は、上記標識体間で濃度差がある場合、上記標識体を構成するアミノ酸のシグナル強度比に基づいて、上記シグナル情報を補正する補正手段、を更に備えたことを特徴とする。
 また、本発明のタンパク質解析装置は、上記記載のタンパク質解析装置において、上記NMR測定は、NMR相関スペクトルの測定であることを特徴とする。
 また、本発明のタンパク質解析方法は、記憶部と制御部とを少なくとも備えたタンパク質解析装置において実行されるタンパク質解析方法であって、上記記憶部は、タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの上記同位体標識率であるかを規定する標識パターンを記憶する標識パターン記憶手段と、上記標識パターンで構成された上記タンパク質である標識体のNMR測定により得られるシグナル情報を記憶するシグナル記憶手段と、を備え、上記制御部において実行される、上記標識パターン記憶手段に記憶された上記標識パターンに基づいて、上記シグナル情報に基づく上記標識体のシグナルがどの上記アミノ酸に由来するかを判別する判別ステップ、を含むことを特徴とする。
 また、本発明のプログラムは、記憶部と制御部とを少なくとも備えたタンパク質解析装置に実行させるためのプログラムであって、上記記憶部は、タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの上記同位体標識率であるかを規定する標識パターンを記憶する標識パターン記憶手段と、上記標識パターンで構成された上記タンパク質である標識体のNMR測定により得られるシグナル情報を記憶するシグナル記憶手段と、を備え、上記制御部において、上記標識パターン記憶手段に記憶された上記標識パターンに基づいて、上記シグナル情報に基づく上記標識体のシグナルがどの上記アミノ酸に由来するかを判別する判別ステップ、を実行させることを特徴とする。
 この発明によれば、標識パターンに基づいて、シグナル情報に基づく標識体のシグナルがどのアミノ酸に由来するかを判別するので、定量的な安定同位体標識率の情報を利用することで、選択標識体1種類あたりの情報量を増やし、少ない数の選択標識体でアミノ酸の判別が可能となるという効果を奏する。また、この発明によれば、アミノ酸ごとに標識率を変えられる、無細胞タンパク質合成系を含む生合成系の特徴を活かして、アミノ酸を判別することができるという効果を奏する。
 また、この発明によれば、配列情報に基づいて、どのアミノ酸に由来するか判別されたシグナルの帰属を決定するので、定量的な安定同位体標識率の情報を利用して、どのシグナルがどのアミノ酸残基に由来するか決定することができるという効果を奏する。
 また、この発明によれば、標識体毎の同位体標識率の差の絶対値の和であるハミング距離に基づいて、標識パターンを生成し、格納するので、最小ハミング距離が大きくなるように設定することで、アミノ酸の違いを明確に判別できるため、客観的基準に基づいて標識パターンの優劣を判断でき、任意のアミノ酸数を任意の標識体数で判別しようとする場合の、ノイズ等の攪乱要因に最も強い標識パターンを設計することができ、ひいては対象タンパク質が高分子量である、低収量である、低溶解度である、または、会合しているなどの理由によりシグナル強度が低い場合にも現実的な測定時間で解析できるという効果を奏する。
 また、この発明によれば、ハミング距離は、以下の数式(1)を用いて算出するので、
Figure JPOXMLDOC01-appb-M000003
(ここで、d(i,j)はアミノ酸iと,他のアミノ酸jと、の間のハミング距離、nは標識体の数、p は標識体kにおけるアミノ酸iの同位体標識率、および、p は標識体kにおけるアミノ酸jの同位体標識率である。)
客観的基準に基づいて標識パターンの優劣を判断でき、任意のアミノ酸数を任意の標識体数で判別しようとする場合の、ノイズ等の攪乱要因に最も強い標識パターンを設計することができ、ひいては対象タンパク質が高分子量である、低収量である、低溶解度である、または、会合しているなどの理由によりシグナル強度が低い場合にも現実的な測定時間で解析できるという効果を奏する。
 また、この発明によれば、タンパク質を構成するアスパラギン酸とアスパラギンと、および/または、グルタミン酸とグルタミンとの間で起こるスクランブルに基づいて、標識パターンを生成し、格納するので、NMR測定時の誤差を軽減できるという効果を奏する。
 また、この発明によれば、元素は、窒素、および、炭素であるので、さまざまなシステムに汎用的に、低コストで導入することができるという効果を奏する。
 また、この発明によれば、標識体間で濃度差がある場合、標識体を構成するアミノ酸のシグナル強度比に基づいて、シグナル情報を補正するので、例えば、当該アミノ酸としてグリシンを使用した場合、15Nの化学シフトが低磁場側であり、他のアミノ酸と見分けやすいグリシンの特徴から、調製誤差の補正を精度良く行えるという効果を奏する。
 また、この発明によれば、NMR測定は、NMR相関スペクトルの測定であるので、i位およびi-1位双方のアミノ酸を効率的に判別できるという効果を奏する。
図1は、本実施の形態の基本原理を示すフローチャートである。 図2は、本実施の形態におけるタンパク質解析装置の構成の一例を示すブロック図である。 図3は、本実施の形態におけるタンパク質解析装置の処理の一例を示すフローチャートである。 図4は、本実施の形態における標識パターンの一例を示す図である。 図5は、本実施の形態における標識パターンの一例を示す図である。 図6は、本実施の形態における標識パターンの一例を示す図である。 図7は、本実施の形態における標識パターンの一例を示す図である。 図8は、本実施の形態におけるアミノ酸溶液の組成の一例を示す図である。 図9は、本実施の形態におけるアミノ酸溶液の組成の一例を示す図である。 図10は、本実施の形態におけるアミノ酸溶液の組成の一例を示す図である。 図11は、本実施の形態におけるシステイン水溶液の組成の一例を示す図である。 図12は、本実施の形態におけるシステイン水溶液の組成の一例を示す図である。 図13は、本実施の形態におけるシステイン水溶液の組成の一例を示す図である。 図14は、本実施の形態における透析外液の組成の一例を示す図である。 図15は、本実施の形態における透析内液の組成の一例を示す図である。 図16は、本実施の形態における標識体間のタンパク質濃度の一例を示す図である。 図17は、本実施の形態におけるアミノ酸判別処理の一例を示す図である。 図18は、本実施の形態における判別精度の一例を示す図である。 図19は、本実施の形態における重複シグナルを分離して判別した一例を示す図である。
 以下に、本発明にかかるタンパク質解析装置、タンパク質解析方法、および、プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
[本発明の実施の形態の概要]
 以下、本発明の実施の形態の概要について図1を参照して説明し、その後、本実施の形態の構成および処理等について詳細に説明する。
 まず、図1を参照して、本発明の実施の形態の概要の一例について説明する。図1は、本実施の形態の基本原理を示すフローチャートである。本実施の形態は、概略的に、以下の基本的特徴を有する。
 すなわち、本実施の形態のタンパク質解析装置の制御部は、図1に示すように、タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの同位体標識率であるかを規定する標識パターンで構成されたタンパク質である標識体のNMR測定により得られるシグナル情報を取得する(ステップSA-1)。
 そして、タンパク質解析装置の制御部は、標識パターンに基づいて、シグナル情報に基づくシグナルがどのアミノ酸に由来するかを判別する(ステップSA-2)。
 以上で、本実施の形態の概要の説明を終える。
[タンパク質解析装置100の構成]
 次に、本実施の形態におけるタンパク質解析装置100の構成の詳細について、図2を参照して以下に説明する。図2は、本実施の形態におけるタンパク質解析装置100の構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。ここで、本実施の形態におけるタンパク質解析装置100においては、各構成が一筐体内に全て備えられ、単独で処理を行うもの(スタンドアローン型)を、タンパク質解析装置100として説明するが、当該実施例に限らず、各構成が分離した筐体内に備えられ、ネットワーク300等を介して接続されて1つの概念としての装置を構成するもの(例えば、クラウドコンピューティング等)であってもよい。
 図2において、外部システム200は、ネットワーク300を介して、タンパク質解析装置100と相互に接続され、タンパク質の配列情報等に関する外部データベース、ならびに/または、ユーザインターフェース等を実行するウェブサイトを提供する機能等を有していてもよい。
 ここで、外部システム200は、WEBサーバやASPサーバ等として構成していてもよい。また、外部システム200のハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成していてもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現されてもよい。
 また、ネットワーク300は、タンパク質解析装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。
 また、タンパク質解析装置100は、概略的に、制御部102と通信制御インターフェース部104と記憶部106と入出力制御インターフェース部108とを備える。ここで、タンパク質解析装置100は、更に、表示部112を少なくとも含む出力部、および、入力部114を備えていてもよい。また、出力部は、更に、音声出力部、および、印刷出力部等を含んでいてもよい。ここで、制御部102は、タンパク質解析装置100の全体を統括的に制御するCPU等である。また、通信制御インターフェース部104は、通信回線等に接続されるルータ等の通信装置(図示せず)に接続されるインターフェースであり、入出力制御インターフェース部108は、出力部、および、入力部114に接続されるインターフェースである。また、記憶部106は、各種のデータベースやテーブルなどを格納する装置である。これらタンパク質解析装置100の各部は任意の通信路を介して通信可能に接続されている。更に、このタンパク質解析装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。
 記憶部106に格納される各種のデータベースやテーブル(タンパク質配列情報データベース106a、標識パターンデータベース106b、および、シグナルデータベース106c)は、固定ディスク装置等のストレージ手段である。例えば、記憶部106は、各種処理に用いる各種のプログラム、テーブル、ファイル、データベース、および、ウェブページ等を格納する。
 これら記憶部106の各構成要素のうち、タンパク質配列情報データベース106aは、タンパク質のアミノ酸配列に関する配列情報を記憶するタンパク質配列情報記憶手段である。これら配列情報は、タンパク質配列情報データベース106aに予め記憶されており、タンパク質解析装置100の制御部102は、定期的に、および/または、制御部102による処理に応じてネットワーク300を介して最新のデータを外部システム200(例えば、NCBI、または、UNIPROT等)からダウンロードしてタンパク質配列情報データベース106aに記憶された配列情報をアップデートしてもよい。
 また、標識パターンデータベース106bは、タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの同位体標識率であるかを規定する標識パターンを記憶する標識パターン記憶手段である。ここで、元素は、窒素、炭素、フッ素、リン、ケイ素、酸素、および/または、水素等であってもよい。また、NMR測定は、NMR相関スペクトルの測定であってもよい。ここで、NMR相関スペクトルは、二次元15N/H NMR相関スペクトル等であってもよい。また、NMR相関スペクトルは、HSQCスペクトル、HMQCスペクトル、HNCOスペクトル、HNCAスペクトル、HNCOCAスペクトル、HNCACBスペクトル、CBCANHスペクトル、CBCACONHスペクトル、HNCACOスペクトル、HBHACONHスペクトル、HBHANHスペクトル、CCONHスペクトル、HCCONHスペクトル、HNCANHスペクトル、HNCOCANHスペクトル、HCANHスペクトル、HCACOスペクトル、HCANスペクトル、HCACONスペクトル、TROSYスペクトル、COSYスペクトル、TOCSYスペクトル、NOESYスペクトル、および/または、ROESYスペクトル等であってもよい。また、同位体標識率は、安定同位体標識率であってもよい。
 また、シグナルデータベース106cは、標識パターンで構成されたタンパク質である標識体のNMR測定により得られるシグナル情報を記憶するシグナル記憶手段である。ここで、シグナル情報は、ユーザにより入力部114を介して入力されたものであってもよい。例えば、シグナル情報は、ユーザによりNMR装置を用いて測定され、ユーザにより入力部114を介して入力されたものであってもよく、制御部102による処理に応じてネットワーク300を介して外部システム200からダウンロードしたものであってもよい。また、シグナル情報は、シグナル強度を含んでいてもよい。
 また、通信制御インターフェース部104は、タンパク質解析装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、外部システム200、および、他の端末等と通信回線を介してデータを通信する機能を有する。
 また、入出力制御インターフェース部108は、出力部(表示部112)、および、入力部114の制御を行う。
 ここで、表示部112としては、アプリケーション等の表示画面を表示する表示手段(例えば、液晶または有機EL等から構成されるディスプレイ、モニタ、または、タッチパネル等)であってもよい。また、入力部114は、例えば、キー入力部、タッチパネル、コントロールパッド(例えば、タッチパッド、および、ゲームパッド等)、マウス、キーボード、スキャナ、または、マイク等であってもよい。また、音声出力部としては、例えば、スピーカ等であってもよい。また、印刷出力部としては、例えば、プリンタ等であってもよい。
 また、図2において、制御部102は、OS(Operating System)等の制御プログラムや、各種の処理手順等を規定したプログラム、および、所要データを格納するための内部メモリを有する。そして、制御部102は、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、標識パターン生成部102a、シグナル情報取得部102b、補正部102c、判別部102d、帰属部102e、および、結果出力部102fを備える。
 このうち、標識パターン生成部102aは、標識パターンを生成し、標識パターンデータベース106bに格納する標識パターン生成手段である。ここで、標識パターン生成部102aは、標識体毎の同位体標識率の差の絶対値の和であるハミング距離に基づいて、標識パターンを生成し、標識パターンデータベース106bに格納してもよい。ここで、ハミング距離とは、符号化理論における符号語間の情報学的距離であり、下記の数式(1)のように定義されてもよい。
Figure JPOXMLDOC01-appb-M000004
(ここで、d(i,j)はアミノ酸iと,他のアミノ酸jと、の間のハミング距離、nは標識体の数、p は標識体kにおけるアミノ酸iの同位体標識率、および、p は標識体kにおけるアミノ酸jの同位体標識率である。)
 また、標識パターン生成部102aは、タンパク質を構成するアスパラギン酸とアスパラギンと、および/または、グルタミン酸とグルタミンとの間で起こるスクランブルに基づいて、標識パターンを生成し、標識パターンデータベース106bに格納してもよい。
 また、シグナル情報取得部102bは、標識体のNMR測定により得られるシグナル情報を取得するシグナル情報取得手段である。ここで、シグナル情報取得部102bは、更に、取得された標識体のシグナル情報をシグナルデータベース106cに格納してもよい。また、ユーザにより入力部114を介して入力された標識体のシグナル情報を取得してもよい。また、シグナル情報取得部102bは、ネットワーク300を介して外部システム200からダウンロードした標識体のシグナル情報を取得してもよい。また、シグナル情報は、HSQC強度、HMQC強度、HNCO強度、HNCA強度、HNCOCA強度、HNCACB強度、CBCANH強度、CBCACONH強度、HNCACO強度、HBHACONH強度、HBHANH強度、CCONH強度、HCCONH強度、HNCANH強度、HNCOCANH強度、HCANH強度、HCACO強度、HCAN強度、HCACON強度、TROSY強度、COSY強度、TOCSY強度、NOESY強度、および/または、ROESY強度等であってもよい。
 また、補正部102cは、標識体間で濃度差がある場合、標識体を構成するアミノ酸のシグナル強度比に基づいて、標識体のシグナル情報を補正する補正手段である。ここで、アミノ酸は、グリシンであってもよい。
 また、判別部102dは、標識パターンデータベース106bに記憶された標識パターンに基づいて、シグナル情報に基づく標識体のシグナルがどのアミノ酸に由来するかを判別する判別手段である。
 また、帰属部102eは、タンパク質配列情報データベース106aに記憶された配列情報に基づいて、判別部102dによりどのアミノ酸に由来するか判別されたシグナルの帰属を決定する帰属手段である。ここで、シグナルの帰属の決定とは、シグナルがタンパク質中のどのアミノ残基に由来するか決定する主鎖帰属であってもよい。
 また、結果出力部102fは、帰属部102eにより決定されたシグナルの帰属に関する解析結果を出力部を介して出力させる結果出力手段である。また、結果出力部102fは、判別部102dにより判別された標識体のシグナルがどのアミノ酸に由来するかに関する解析結果を出力部を介して出力させてもよい。ここで、結果出力部102fは、解析結果を表示部112に表示させてもよい。また、結果出力部102fは、解析結果を印刷出力部を介して出力させてもよい。
 以上で、本実施の形態におけるタンパク質解析装置100の構成の一例の説明を終える。
[タンパク質解析装置100の処理]
 次に、このように構成された本実施の形態におけるタンパク質解析装置100の処理の詳細について、以下に図3乃至図19を参照して詳細に説明する。図3は、本実施の形態におけるタンパク質解析装置100の処理の一例を示すフローチャートである。
 図3に示すように、標識パターン生成部102aは、タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの同位体標識率であるかを規定する標識パターンを生成し、標識パターンデータベース106bに格納する(ステップSB-1)。ここで、標識パターン生成部102aは、標識体毎の同位体標識率の差の絶対値の和であるハミング距離に基づいて、標識パターンを生成し、標識パターンデータベース106bに格納してもよい。また、標識パターン生成部102aは、タンパク質を構成するアスパラギン酸とアスパラギンと、および/または、グルタミン酸とグルタミンとの間で起こるスクランブルに基づいて、標識パターンを生成し、標識パターンデータベース106bに格納してもよい。
 ここで、図4乃至図7を参照して、本実施の形態における標識パターンの一例について説明する。
 まず、図4を参照して、本実施の形態における3進数3桁の符号語を用いた符号化における標識パターンの一例について説明する。図4は、本実施の形態における標識パターンの一例を示す図である。図4に示す標識パターンは、定量的な安定同位体標識率を用いることで、1標識体あたりの情報量を増やし、必要な標識体の数を減らした3進数3桁の符号語を用いた標識パターンである。すなわち、図4に示す標識パターンにおいては、3進数を用いて、1標識体あたりに盛り込むことができる情報量は1トリット(約1.58ビット)としている。ここで、図4に示す標識パターンにおいては、15Nの標識率については、3進数の「2」に100%、「1」に75%、および、「0」に50%を対応させる。また、13Cの標識率については、「2」に100%、「1」に50%、および、「0」に0%を対応させる。
 ここで、NMR測定により得られるシグナル強度は、標識率に比例するが、そもそもアミノ酸残基ごとに強度は異なるため、標識率を求めるには基準が必要である。そこで、図4においては、どのアミノ酸についても、いずれか1つの標識体でかならず「2」、つまり100% 13C、かつ、100% 15Nとなるようにしておき、もっとも強いシグナル強度を示した標識体を基準として標識率を求めている。これにより、図4に示す標識パターンにおいては、従来技術のように選択標識体以外にユニバーサル標識体を用意することなく、アミノ酸判別が可能となる。また、図4に示すように、3桁の3進数でいずれかの桁が「2」である標識パターンは、19種類あることから、わずか3つの選択標識体を用いて19種のアミノ酸の判別が可能となる。
 ここで、図4において、どの符号語(3桁の3進数)にどのアミノ酸を割り当てるかは自由であるが、ここではさらなる利便性のために、以下の(1)乃至(3)を考慮して割り当ててもよい。
 (1)まず、定量的な解析のためには、標識体間の濃度差等が問題となる。そこで、サンプル(標識体)間の濃度差の補正を行うことを想定し、どの標識体でもすべて100%標識であるアミノ酸を用いるのが便利であるため、15Nの化学シフトが低磁場側であるという特徴をもち、他のアミノ酸と見分けやすいグリシンの符号語を「222」としてもよい。
 (2)次に、タンパク質合成中のアミノ酸の標識スクランブルは、アミノ酸判別を乱す大きな要因になってしまう可能性がある。そこで、本実施の形態においては、比較的スクランブルの少ない無細胞タンパク質合成系をさらに改良し、スクランブルを抑える方法(例えば、Yokoyama,J.et al.(2011).Analytical Biochemistry 411(2): 223-229.等)を用いてもよい。ここで、本実施の形態においては、スクランブルを厳密に抑えられない場合でも、上記の方法を使えるように標識パターンを工夫してもよい。
 ここで、標識スクランブルでもっとも問題になるのは、アスパラギンとアスパラギン酸との間、または、グルタミンとグルタミン酸との間である。そこで、図4に示す標識パターンにおいては、アスパラギンを「220」、および、アスパラギン酸を「210」に対応させていることで、いくらアスパラギンとアスパラギン酸との間でスクランブルが起ころうとも、標識体1は「2」、標識体3は「0」に対応した標識率が保たれる。ここで、標識体2は、「2」と「1」との中間、すなわち、15N標識率については100%と75%との中間、13C標識率については100%と50%との中間になる可能性があるが、そうなったとしても、アスパラギンとアスパラギン酸とのどちらかであること自体は判断が可能となる。例えば、「200」に対応させたアルギニンとも誤判別せずにすむこととなる。グルタミンとグルタミン酸との間についても同様である。
 また、スクランブルは、実際には、アスパラギンからアスパラギン酸への一方的な標識のリーク、グルタミンからグルタミン酸への一方的な標識のリークが多い。例えば、図4において、アスパラギンからアスパラギン酸へのリークを想定して、標識体2のアスパラギン酸の標識率をあらかじめ低めの値にしておき、アスパラギンから標識リークがおこって標識率が上がることを利用して、所望の標識率を達成するようにしてもよい。
 ここで、これらリークは、スクランブルを抑える方法(Yokoyama,J.et al.(2011).Analytical Biochemistry 411(2): 223-229.)を用いて、実用上完全にリークを抑えることは可能である。しかしながら、特に、アスパラギンからアスパラギン酸へのリークを抑えるのに必要な代謝阻害剤である5-ジアゾ-4-オキソ-L-ノルバリンはその不安定性から市販されておらず利用にしくいという問題点があった。そこで、本実施の形態においては、アスパラギン酸、および、グルタミン酸の双方について、標識リークを想定して標識率をあらかじめ低めにしておいてもよい。
 (3)そして、図4に示すように、本実施の形態における標識パターンにおいては、トリプトファンのように安定同位体標識が高価なものはなるべく安定同位体標識体の使用量を少なくするようにしてもよい。
 また、図5を参照して、本実施の形態における3進数3桁の符号語を用いた符号化における他の標識パターンの一例について説明する。図5は、本実施の形態における標識パターンの一例を示す図である。図5に示す標識パターンは、図4に示す標識パターンと同様、上記(1)乃至(3)の条件に従った、3進数3桁の符号語を用いた標識パターンであってもよい。
 ここで、図5を含む本実施の形態における標識パターンにおいては、標識率を100%または0%と記載しているが、実際には技術的な理由で、厳密に100%または0%を達成するのは難しい。しかし、本実施の形態において実用上は問題ない理由について、以下に説明する。
 まず、標識率の下限について、13Cの天然存在比は、約1.1%であり、15Nの天然存在比は、約0.36%であり、非標識アミノ酸を用いると標識率の下限はこの値となるが、図5に示すように、0%と50%との判別には問題のないレベルである。
 また、標識率の上限について、13C標識および15N標識されたアミノ酸の、同位体標識率はおおむね90%乃至98%程度であるため、100%を達成するのは難しい。しかしながら、本実施の形態は、13C標識および15N標識されたアミノ酸を用いて観測された強度に対する比のみを用いて帰属を決定する方法であるので、その基準が、100%ではなく実際には90%であっても、問題はない。ここで、13C/15N標識アミノ酸の15N標識率と、15N標識アミノ酸の15N標識率と、が大きく異なる場合には、それらを混ぜ合わせたアミノ酸混合物の15N標識率が想定と異なってしまう場合があるが、多くは問題ない。例えば、13C/15N標識アミノ酸の15N標識率が、実際には98%であり、15N標識アミノ酸の15N標識率が、実際には90%である場合、50% 13C/75% 15Nを達成しようとすると、非標識体、15N標識体、13C/15N標識体を1:1:2で混合することになり、最終的な15N標識率は、71.5%となる。基準となるのは98% 15Nであるので、本実施の形態(後述する数式(3))で計算される標識率は73.0%となる。これは当初設定しようとした75%と大きく変わらず、特に問題とはならない。逆に、13C/15N標識アミノ酸の15N標識率が実際には90%、15N標識アミノ酸の15N標識率が実際には98%である場合、50% 13C/75% 15Nを達成しようとすると、最終的な15N標識率は69.5%となる。基準となるのは90% 15Nであるので、本実施の形態(後述する数式(3))で計算される標識率は77.2%となる。これも当初設定しようとした75%と大きく変わらず、特に問題とはならない。
 また、本実施の形態においては、図5に示すように、定量的な標識により1標識体に1ビットを超える情報を盛り込むことで標識体数を減らしてもよい。また、本実施の形態においては、図5に示すように、少なくとも1つの標識体で100%標識になるようにしてリファレンスを不要にしている。本実施の形態においては、これら2つの工夫により、3種の標識体で19種類のアミノ酸の判別を可能にしている。なお、実際には、これら2つの工夫は独立実施可能である。一方、非特許文献3に記載の技術においては、いずれも採用していないため、16種類のアミノ酸を判別するのに、リファレンスとなるユニバーサル標識体1種、および、選択標識体4種の計5種類の標識体を必要とする。
 また、本実施の形態においては、15N標識については主鎖のアミド窒素のみ、または、13C標識については主鎖のカルボニル炭素のみが標識されていればよい。また、本実施の形態においては、その他の窒素または炭素が標識されていてもよい。また、所望の標識率は、非標識アミノ酸、15N標識アミノ酸、13C標識アミノ酸、および/または、13C/15N標識アミノ酸を混合して達成してもよい。ここで、図4および図5(後述する図6および図7)に示すように、いずれの標識体のアミノ酸においても、15N標識率が13C標識率と同じか上回るように設定しておけば、13C標識アミノ酸は不要となる。実際には、13C/15N標識アミノ酸で主鎖のカルボニル炭素のみが標識されているもの、または、15N標識や13C/15N標識アミノ酸で複数の窒素のうち主鎖のアミド窒素のみが標識されているものは入手しにくい。そこで、本実施の形態においては、15N標識アミノ酸、および、13C/15N標識アミノ酸とも、すべての窒素や炭素が標識されているものを用いてもよい。
 ここで、図4および図5(後述する図6および図7)に示す標識パターンでは、いずれもn=c/2+0.5(ただし、cおよびnは、それぞれ13Cおよび15Nの標識率)を満たすように標識率を定めているが、この式によらずに標識パターンを定めてもよい。その場合、上述したリファレンスを不要にする条件を満たすためには、いずれのアミノ酸についても、少なくとも1つの標識体で15N標識率が100%、少なくとも1つの標識体(15Nのときとは別の標識体でもよい)で13C標識率が100%となっていればよい。
 また、図6を参照して、本実施の形態における4進数3桁の符号語を用いた符号化における標識パターンの一例について説明する。図6は、本実施の形態における標識パターンの一例を示す図である。図6に示す標識パターンは、ハミング距離に基づいて生成された、4進数3桁の符号語を用いた標識パターンである。ここで、図6に示す標識パターンにおいては、ハミング距離を用いて、全てのアミノ酸の組み合わせを、等しく、且つ、よく判別するように設計している。
 しかしながら、本実施の形態においては、用途により、判別の精度を特に高くしたいアミノ酸の組み合わせ、または、逆に判別の精度が低くてもよい組み合わせがある場合には、そのような束縛条件を追加して最適化問題を解くことで、用途に適した標識パターンを設計してもよい。例えば、本実施の形態においては、標識率がぶれやすいアミノ酸と他のアミノ酸とのハミング距離が広くなるように設計してもよい。また、本実施の形態においては、出現率が低いアミノ酸同士はハミング距離が近くなるように設計してもよい。また、本実施の形態においては、本発明を三重共鳴による連鎖帰属法等と組み合わせて使う場合、化学シフトで区別しやすいアミノ酸同士のハミング距離が近くなるように設計してもよい。
 ここで、本実施の形態において、ハミング距離とは、符号化理論における符号語間の情報学的距離であり、下記の数式(1)のように定義されてもよい。
Figure JPOXMLDOC01-appb-M000005
(ここで、d(i,j)はアミノ酸iと,他のアミノ酸jと、の間のハミング距離、nは標識体の数、p は標識体kにおけるアミノ酸iの同位体標識率、および、p は標識体kにおけるアミノ酸jの同位体標識率である。)
 また、ハミング距離は、15N標識率、および、13C標識率それぞれで定義できるが、図4に示すように、標識パターンは、13Cで定義したハミング距離が15Nで定義したハミング距離のちょうど2倍になっていてもよい。ここで、全てのアミノ酸間のハミング距離のうち最小のものを最小ハミング距離と定義できる。すなわち、最小ハミング距離は、全ての符号語間のハミング距離のうち最小のものである。そして、最小ハミング距離の値が大きいほど、どのような符号語同士であっても、よく判別できる。すなわち、最小ハミング距離が大きい標識パターンほど、ノイズなどの攪乱要因があっても、どのようなアミノ酸同士であっても、よく判別できる。したがって、最小ハミング距離を最大化するという最適化問題を解くことによって、任意のアミノ酸数を任意の標識体数で判別しようとする場合の、ノイズ等の攪乱要因に最も強い標識パターンを設計することができる。例えば、本実施の形態において、図4に示す標識パターンでは、13Cの最小ハミング距離が0.500となる。また、図4と同じ19アミノ酸を3標識体で判別するパターンでも、図6に示す標識パターンでは、13Cの最小ハミング距離が0.667となる。
 また、図7を参照して、本実施の形態における20アミノ酸を3標識体で判別する標識パターンの一例について説明する。図7は、本実施の形態における標識パターンの一例を示す図である。図7に示すように、本実施の形態においては、13Cの標識率については29種類、および、15Nの標識率については22種類用いて、20アミノ酸を3標識体で判別する標識パターンを設計してもよい。なお、図7に示す標識パターンでは、最小ハミング距離が0.596となる。
 図3に戻り、シグナル情報取得部102bは、ユーザにより、標識パターンデータベース106bに記憶された標識パターンで構成されたタンパク質である標識体が生成され、NMR測定により当該標識体のシグナル情報が取得され、入力部114を介して当該シグナル情報が入力された場合、当該標識体のシグナル情報を取得し、シグナルデータベース106cに格納する(ステップSB-2)。ここで、シグナル情報取得部102bは、ネットワーク300を介して外部システム200からダウンロードした標識体のシグナル情報(例えば、オープンソースとして公開されているもの、または、ユーザにより予め測定され外部システム200に格納されているもの等)を取得してもよい。
 ここで、図8乃至図15を参照して、本実施の形態における無細胞タンパク質合成系による標識体生成について説明する。
 まず、図8乃至図10を参照して、本実施の形態における無細胞タンパク質合成系に用いるアミノ酸溶液の調製の一例について説明する。図8乃至図10は、本実施の形態におけるアミノ酸溶液の組成の一例を示す図である。
 ここで、本実施の形態においては、無細胞タンパク質合成系に用いるアミノ酸溶液として、種々の水溶液もしくは懸濁液を作製してもよい。例えば、本実施の形態においては、水溶液もしくは懸濁液として、800mM L-アラニン水溶液、800mM 15N L-アラニン水溶液、800mM 13C/15N L-アラニン水溶液、400mM L-アルギニン水溶液、400mM 15N L-アルギニン水溶液、400mM 13C/15N L-アルギニン水溶液、140mM L-アスパラギン水溶液、140mM 15N L-アスパラギン水溶液、140mM 13C/15N L-アスパラギン水溶液、140mM L-アスパラギン酸、水酸化カリウム水溶液 pH7.0、140mM 15N L-アスパラギン酸、水酸化カリウム水溶液 pH7.0、140mM 13C/15N L-アスパラギン酸、水酸化カリウム水溶液 pH7.0、600mM L-システイン、600mM ジチオスレイトール水溶液、600mM 15N L-システイン、600mM ジチオスレイトール水溶液、600mM 13C/15N L-システイン、600mM ジチオスレイトール水溶液、200mM L-グルタミン水溶液、200mM 15N L-グルタミン水溶液、200mM 13C/15N L-グルタミン水溶液、160mM L-グルタミン酸、水酸化カリウム水溶液 pH7.0、160mM 15N L-グルタミン酸、水酸化カリウム水溶液 pH7.0、160mM 13C/15N L-グルタミン酸、水酸化カリウム水溶液 pH7.0、800mM 13C/15Nグリシン水溶液、260mM L-ヒスチジン水溶液、260mM 15N L-ヒスチジン水溶液、260mM 13C/15N L-ヒスチジン水溶液、200mM L-イソロイシン水溶液、200mM 15N L-イソロイシン水溶液、200mM 13C/15N L-イソロイシン溶液、100mM L-ロイシン水溶液、100mM 15N L-ロイシン水溶液、100mM 13C/15N L-ロイシン溶液、400mM L-リジン水溶液、400mM 15N L-リジン水溶液、400mM 13C/15N L-リジン溶液、200mM L-メチオニン水溶液、200mM 15N L-メチオニン水溶液、200mM 13C/15N L-メチオニン溶液、110mM L-フェニルアラニン水溶液、110mM 15N L-フェニルアラニン水溶液、110mM 13C/15N L-フェニルアラニン溶液、800mM L-プロリン水溶液、800mM L-セリン水溶液、800mM 15N L-セリン水溶液、800mM 13C/15N L-セリン水溶液、400mM L-スレオニン水溶液、400mM 15N L-スレオニン水溶液、400mM 13C/15N L-スレオニン水溶液、20mM L-トリプトファン水溶液、20mM 15N L-トリプトファン水溶液、20mM 13C/15N L-トリプトファン水溶液、130mM L-チロシン懸濁液、130mM 15N L-チロシン懸濁液、130mM 13C/15N L-チロシン懸濁液、400mM L-バリン水溶液、400mM 15N L-バリン水溶液、および/または、400mM 13C/15N L-バリン水溶液を作製してもよい。
 なお、本実施の形態における水溶液もしくは懸濁液の作製に用いる試薬のメーカーとしては、15N L-アラニン、13C/15N L-アラニン、13C/15N L-アルギニン、15N L-アスパラギン、13C/15N L-アスパラギン、15N L-アスパラギン酸、13C/15N L-アスパラギン酸、15N L-グルタミン、15N L-グルタミン酸、13C/15N L-グルタミン酸、13C/15Nグリシン、15N L-イソロイシン、15N L-ロイシン、13C/15N L-ロイシン、15N L-リジン、13C/15N L-リジン、15N L-メチオニン、13C/15N L-メチオニン、15N L-フェニルアラニン、13C/15N L-フェニルアラニン、15N L-セリン、15N L-スレオニン、15N L-チロシン、13C/15N L-チロシン、15N L-バリン、および、13C/15N L-バリンについては、Sigma-Aldrich Co.LLC.(会社名)、15N L-アルギニン、13C/15N L-グルタミン、15N L-ヒスチジン、13C/15N L-ヒスチジン、13C/15N L-ロイシン、13C/15N L-スレオニン、15N L-トリプトファン、および、13C/15N L-トリプトファンについては、味の素株式会社(会社名)、15N L-システイン、13C/15N L-システイン、および、13C/15N L-セリンについては、大陽日酸株式会社(会社名)、ならびに、その他の試薬については、ナカライテスク株式会社(会社名)を用いた。
 そして、本実施の形態における無細胞タンパク質合成系においては、これらのアミノ酸溶液を、図8に示す組成で混合することで、タンパク質の合成に用いる7.5mM アミノ酸混合溶液(システインを除く19種類のアミノ酸を含む)を調製し、図4に示す標識パターンで構成された標識体1の生成に用いてもよい。また、本実施の形態における無細胞タンパク質合成系においては、これらのアミノ酸溶液を、図9に示す組成で混合することで、タンパク質の合成に用いる7.5mM アミノ酸混合溶液を調製し、図4に示す標識パターンで構成された標識体2の生成に用いてもよい。また、本実施の形態における無細胞タンパク質合成系においては、これらのアミノ酸溶液を、図10に示す組成で混合することで、タンパク質の合成に用いる7.5mM アミノ酸混合溶液を調製し、図4に示す標識パターンで構成された標識体3の生成に用いてもよい。
 また、図11乃至図13を参照して、本実施の形態における無細胞タンパク質合成系に用いるシステイン水溶液の調製の一例について説明する。図11乃至図13は、本実施の形態におけるシステイン水溶液の組成の一例を示す図である。
 本実施の形態における無細胞タンパク質合成系においては、上記システイン水溶液を、図11に示す組成で混合することで、タンパク質の合成に用いる600mM システイン、および、600mM ジチオスレイトール溶液を調製し、図4に示す標識パターンで構成された標識体1の生成に用いてもよい。また、本実施の形態における無細胞タンパク質合成系においては、上記システイン水溶液を、図12に示す組成で混合することで、タンパク質の合成に用いる600mM システイン、および、600mM ジチオスレイトール溶液を調製し、図4に示す標識パターンで構成された標識体2の生成に用いてもよい。また、本実施の形態における無細胞タンパク質合成系においては、上記システイン水溶液を、図13に示す組成で混合することで、タンパク質の合成に用いる600mM システイン、および、600mM ジチオスレイトール溶液を調製し、図4に示す標識パターンで構成された標識体3の生成に用いてもよい。
 このように、これらの7.5mM アミノ酸混合溶液、600mM システイン、および、600mM ジチオスレイトール溶液中の各アミノ酸の安定同位体標識率は、図4に示したようになっていてもよい。ただし、例外的に、標識体2のアスパラギン酸の13C標識率は、50%ではなく30%、標識体2のアスパラギン酸の15N標識率は、75%ではなく65%、標識体3のグルタミン酸の13C標識率は、50%ではなく15%、および、標識体3のグルタミン酸の15N標識率は、75%ではなく55%であってもよい。これらは、それぞれアスパラギン、および、グルタミンからの標識リークにより所望の標識率が達成されるからである。
 次に、図14および図15を参照して、本実施の形態における無細胞タンパク質合成用鋳型DNA調製の一例について説明する。図14は、本実施の形態における透析外液の組成の一例を示す図である。図15は、本実施の形態における透析内液の組成の一例を示す図である。
 まず、本実施の形態においては、例えば、ヒトSmoothelinタンパク質のCHドメインの領域を合成するため、鋳型DNAを作製する。具体的には、本実施の形態においては、遺伝子特異的フォワードプライマーDNA(ACTGAGAACC TGTACTTCCA GGGAATCAAG CAGATGCTGC TGGAC)と遺伝子特異的リバースプライマーDNA(GGGCGGGGAT CAATCAATCA TTAGGACTTT TTGGTTTTTA CCAGCCCCTT)と、ヒトSmoothelin cDNA(OriGene Technologies, Inc.(会社名))と、を用いて、従来技術(Yabuki,T., et al. (2007).J Struct Funct Genomics 8(4): 173-191.)に基づいて、ヒスチジンアフィニティータグを含む鋳型DNAを作製してもよい。そして、本実施の形態においては、これを翻訳したアフィニティータグ切断前のアミノ酸配列(MKDHLIHNHHKHEHAHAEHTENLYFQGIKQMLLDWCRAKTRGYEHVDIQNFSSSWSDGMAFCALVHNFFPEAFDYGQLSPQNRRQNFEVAFSSAETHADCPQLLDTEDMVRLREPDWKCVYTYIQEFYRCLVQKGLVKTKKS)を取得してもよい。
 ここで、本実施の形態においては、作製した鋳型DNAを用いて、従来技術(Kigawa,T.(2010).Methods in Molecular Biology 607:101-111.)の方法に従い、無細胞タンパク質合成系を用いて各標識体の調製(合成)をしてもよい。ただし、本実施の形態においては、所望の安定同位体標識率を達成するために、アミノ酸間の標識スクランブルを抑える方法(Yokoyama,J.,et al.(2011).Analytical Biochemistry 411(2):223-229.)を参考に、反応液(図14に示す透析外液、および、図15に示す透析内液)の組成を変更してもよい。
 また、合成反応は、30℃にて振盪しながら12時間行い、透析内液を回収して18mlのA緩衝液(20mM リン酸ナトリウム緩衝液 pH7.4、500mM 塩化ナトリウム、および、20mM イミダゾール)を加えてもよい。そして、当該透析内液を回収して18mlのA緩衝液を加えた溶液を、HisTrap 5mlカラム(GEヘルスケア(会社名))に吸着させ、50mlのA緩衝液で洗浄したのちに15mlのB緩衝液(20mM リン酸ナトリウム緩衝液 pH7.4、500mM 塩化ナトリウム、および、500mM イミダゾール)で溶出してもよい。そして、この溶出液を、アミコン-ウルトラ15 MWCO-3000(メルクミリポア(会社名))を用いて限外濾過法にてA緩衝液に溶媒交換し、3mlに濃縮してもよい。そして、当該濃縮液に、3μlの0.5M EDTAと0.4mlの1mg/ml Tobacco Etch Virusプロテアーゼ(自家調製)とを加え、室温で18時間静置してもよい。
 そして、当該静置した溶液を、HisTrap 5mlカラムに通し、素通り画分と16mlのA緩衝液とで洗浄した画分をあわせて回収してもよい。そして、当該回収した溶液を、アミコン-ウルトラ15 MWCO-3000、および、VIVASPIN 2 5000 MWCO PES(ザルトリウス(会社名))を用いて限外濾過法にてNMR測定用緩衝液(20mM 重水素化Tris-Cl緩衝液 pH7.0、100mM 塩化ナトリウム、0.02% アジ化ナトリウム、および、1mM 重水素化ジチオスレイトール)に交換してもよい。そして、アミノ酸配列から、280nmのモル吸光係数を23950[M-1cm-1]と推定し(Pace,C.N.,et al.(1995).Protein Science 4(11):2411-2423.の方法による)、紫外吸光法によってタンパク質濃度を測定して、最終濃度10%の重水を加えたNMR測定用緩衝液中でタンパク質濃度が0.4mM になるようNMR測定用試料を調製し、水溶液用5mm対称形ミクロ試験管(株式会社シゲミ株式会社(会社名))に充填してもよい。なお、こうして得られたタンパク質(ヒトSmoothelin)は、アフィニティータグが取り除かれたアフィニティータグ切断後のアミノ酸配列(GIKQMLLDWCRAKTRGYEHVDIQNFSSSWSDGMAFCALVHNFFPEAFDYGQLSPQNRRQNFEVAFSSAETHADCPQLLDTEDMVRLREPDWKCVYTYIQEFYRCLVQKGLVKTKKS)であってもよい。
 次に、本実施の形態におけるNMR測定について説明する。ここで、本実施の形態におけるNMR測定は、各標識体について、AVANCE700 NMR装置(ブルカー・バイオスピン株式会社(会社名))を用い、22℃にてH-15N 2次元HSQCスペクトル(以下、HSQCと記載)、およびH-15N 2次元HN(CO)スペクトル(以下、HNCOと記載)を測定してもよい。
 ここで、スペクトルは、NMRPipeプログラム(Delaglio,F.,et al.(1995)J Biomol NMR 6:277-293)を用いてプロセスし、標識体のHSQCスペクトルについてNMRviewプログラム(Johnson,B.A.et al.(1994)J Biomol NMR 4:603-614.)を用いてピークピックを行い、148ピークからなるピークリストを得てもよい。このピークリストに含まれる各ピークについては、Hの化学シフト差が0.1ppm以下、かつ、15Nの化学シフト差が0.8ppm以下のピーク同士が同じグループに属するようにグループ分けを行い、82グループを得るようにしてもよい。また、各グループについては、グループ内の各ピークのいずれかからHの化学シフトが0.05ppm以内、かつ、15Nの化学シフトが0.4ppm以内の領域を切り出す操作をスペクトル毎に行ってもよい。この切り出した領域毎に、minpack.lmプログラム(http://CRAN.R-project.org/package=minpack.lm)を用いて下記の数式(2)に示す2次元ガウス関数にフィッティングを行ってもよい。
Figure JPOXMLDOC01-appb-M000006
(ここで、x、yはそれぞれH軸、15N軸を動く変数、IHSQC1(x,y)は点(x,y)における標識体1のHSQCスペクトルの強度、IHSQC2(x,y)は点(x,y)における標識体2のHSQCスペクトルの強度、IHSQC3(x,y)は点(x,y)における標識体3のHSQCスペクトルの強度、IHNCO1(x,y)は点(x,y)における標識体1のHNCOスペクトルの強度、IHNCO2(x,y)は点(x,y)における標識体2のHNCOスペクトルの強度、IHNCO3(x,y)は点(x,y)における標識体3のHNCOスペクトルの強度、nはグループに含まれるピーク数、a HSQC1はグループに含まれるk番目のピークの標識体1のHSQCにおける強度(フィッティングで求めるべき未知数)、a HSQC2はグループに含まれるk番目のピークの標識体2のHSQCにおける強度(フィッティングで求めるべき未知数)、a HSQC3はグループに含まれるk番目のピークの標識体3のHSQCにおける強度(フィッティングで求めるべき未知数)、a HNCO1はグループに含まれるk番目のピークの標識体1のHNCOにおける強度(フィッティングで求めるべき未知数)、a HNCO2はグループに含まれるk番目のピークの標識体2のHNCOにおける強度(フィッティングで求めるべき未知数)、a HNCO3はグループに含まれるk番目のピークの標識体3のHNCOにおける強度(フィッティングで求めるべき未知数)、x 、y はそれぞれH軸、15N軸上のk番目のピークの中心位置(求めるべき未知数)、σ 、σ はそれぞれH軸、15N軸方向のk番目のピークの広がりをあらわす未知数である。)
 そして、本実施の形態においては、数式(2)を用いて求められる6個の未知数a HSQC1乃至a HNCO3を、各ピークのアミノ酸判別に用いてもよい。
 図3に戻り、補正部102cは、標識体間で濃度差がある場合、標識体を構成するアミノ酸(例えば、グリシン等)のシグナル強度比に基づいて、シグナルデータベース106cに記憶された標識体のシグナル情報を補正する(ステップSB-3)。
 ここで、図16を参照して、本実施の形態における標識体の濃度補正処理の一例について説明する。図16は、本実施の形態における標識体間のタンパク質濃度の一例を示す図である。
 正確にアミノ酸を判別するために、標識体間でタンパク質濃度が等しいことが望ましい。しかしながら、実際には、調製誤差、または、標識体を順に測定していく際に生じる測定までの待ち時間の差異により、標識体間で沈殿または変性による濃度差が生じる。また、試料管内の磁場不均一性が標識体間で異なる場合にも、濃度差がある場合と同様の影響が生じる。
 そこで、補正部102cは、これらの影響を調整するため、全て100%標識してあるグリシンのピークを利用して、シグナル情報を補正してもよい。例えば、図16に示すように、グリシンと判別されたピークの15N標識率から、標識体1乃至3の実際の濃度比は、96.5:99.5:97.6であると推定される。そこで、補正部102cは、各ピークのHSQC強度、および、HNCO強度を、標識体1については0.965、標識体2については0.995、および、標識体3については0.976で割った値をアミノ酸判別に用いる補正値として取得してもよい。
 図3に戻り、判別部102dは、標識パターンデータベース106bに記憶された標識パターンに基づいて、補正部102cにより補正されたシグナル情報に基づく標識体のシグナルがどのアミノ酸に由来するかを判別する(ステップSB-4)。
 そして、帰属部102eは、タンパク質配列情報データベース106aに記憶された配列情報に基づいて、判別部102dによりどのアミノ酸に由来するか判別された標識体のシグナルの主鎖帰属を行う(ステップSB-5)。
 ここで、図4および図17を参照して、本実施の形態におけるアミノ酸判別処理の一例について説明する。図17は、本実施の形態におけるアミノ酸判別処理の一例を示す図である。
 まず、本実施の形態におけるアミノ酸判別(主鎖帰属)処理においては、各ピークについて以下の数式(3)を用いて、安定同位体標識率を求めてもよい。
Figure JPOXMLDOC01-appb-M000007
(ここで、rN1乃至rN3はこのピークから見たi位の標識体1乃至3の15N標識率であり、max(aHSQC)は標識体1乃至3におけるHSQC強度の最大値である。)
 また、HNCO強度は、i位の15N標識率とi-1位の13C標識率との両方に比例するので、HNCO強度からi-1位の13C標識率を求めるには、まず、先に求めた15N標識率で割る必要があるため、以下の数式(4)を用いて、HNCO強度を計算してもよい。
Figure JPOXMLDOC01-appb-M000008
(ここで、a’HNCO1乃至a’HNCO3は、15N標識率で割ったあとのHNCO強度(以下、修正HNCO強度と記載する)であり、rC1乃至rC3は、このピークから見たi-1位の標識体1乃至3の13C標識率であり、max(a’HNCO)は、標識体1乃至3の修正HNCO強度の最大値である。)
 ここで、判別部102dは、このように求めたi位の15N標識率が、62.5%未満の場合50%、62.5%以上87.5%未満の場合75%、または、87.5%以上の場合100%であるとして、図4に示す標識率から、その標識率に該当するアミノ酸をi位のアミノ酸として判別してもよい。また、判別部102dは、i-1位の13C標識率が、25%未満の場合0%、25%以上75%未満の場合50%、または、75%以上の場合100%であるとして、図4に示す標識率から、その標識率に該当するアミノ酸をi-1位のアミノ酸として判別してもよい。
 ここで、アミノ酸判別が正しいかどうかを確認するため、別途、本実施の形態において判別したタンパク質(ヒトSmoothelinタンパク質)について、三重共鳴による連鎖帰属法により主鎖帰属を行い、本実施の形態における判別結果と比較した。当該比較により、HSQC上で他のピークと重なっていない、主鎖由来のピークは88個あった。そして、当該ピークについて、i-1位がプロリンである場合には、i位が正しく判別できている場合に正解であるとし、i-1位がプロリン以外のアミノ酸残基である場合には、i位とi-1位とがともに正しく判別できている場合に正解であるとして、解析したところ、88ピーク全てについて正解であることが確かめられた。
 例えば、図17には、本実施の形態におけるヒトSmoothelinタンパク質のアミノ酸判別(アスパラギン酸73の判別)の一例が示してある。図17に示すピークのi-1位に相当する残基は、アラニン72であるが、本発明を適用することにより、i位のアスパラギン酸、および、i-1位のアラニン共に正しく判別できた。
 また、図18を参照して、本実施の形態における判別精度の一例について説明する。図18は、本実施の形態における判別精度の一例を示す図である。
 図18には、本発明による判別の精度を確認するため、HSQC上で他のピークと重なっていないヒトSmoothelinタンパク質の主鎖由来の88ピークについて、標識体およびアミノ酸の種類毎に、求めた標識率の平均およびばらつきを示している。ここで、黒丸印は、平均値を示しており、バツ印は、設定した標識率(図4のとおり)を示しており、エラーバーは、標準偏差を示している。図18に示すように、15Nについては、100%、75%、または、50%の3段階のいずれであるか、13Cについては、100%、50%、または、0%の3段階のいずれであるかを見極めるために十分な標識精度があることが示された。
 また、図19を参照して、本実施の形態において観測されたシグナルに重複が生じている場合に、重複シグナルを分離して判別した一例について説明する。図19は、本実施の形態における重複シグナルを分離して判別した一例を示す図である。
 図19には、HSQC上、および、HNCO上でヒトSmoothelinタンパク質の主鎖由来の2つのシグナル(トリプトファン9、および、グルタミン23)が重なっている場合(図19(a))に、本実施の形態における判別方法を適用することにより重複シグナルを分離して正しく判別できることが示されている。
 まず、図19(b)には、重なってみえるピークが1つのアミノ酸残基に由来するものであると仮定した場合に、標識体1乃至3のHSQC上、および、HNCO上の各シグナルを下記の数式(2)に示す2次元ガウス関数にフィッティングさせて解析した結果が示されている。
Figure JPOXMLDOC01-appb-M000009
(ここで、x、yはそれぞれH軸、15N軸を動く変数、IHSQC1(x,y)は点(x,y)における標識体1のHSQCスペクトルの強度、IHSQC2(x,y)は点(x,y)における標識体2のHSQCスペクトルの強度、IHSQC3(x,y)は点(x,y)における標識体3のHSQCスペクトルの強度、IHNCO1(x,y)は点(x,y)における標識体1のHNCOスペクトルの強度、IHNCO2(x,y)は点(x,y)における標識体2のHNCOスペクトルの強度、IHNCO3(x,y)は点(x,y)における標識体3のHNCOスペクトルの強度、nはグループに含まれるピーク数、a HSQC1はグループに含まれるk番目のピークの標識体1のHSQCにおける強度(フィッティングで求めるべき未知数)、a HSQC2はグループに含まれるk番目のピークの標識体2のHSQCにおける強度(フィッティングで求めるべき未知数)、a HSQC3はグループに含まれるk番目のピークの標識体3のHSQCにおける強度(フィッティングで求めるべき未知数)、a HNCO1はグループに含まれるk番目のピークの標識体1のHNCOにおける強度(フィッティングで求めるべき未知数)、a HNCO2はグループに含まれるk番目のピークの標識体2のHNCOにおける強度(フィッティングで求めるべき未知数)、a HNCO3はグループに含まれるk番目のピークの標識体3のHNCOにおける強度(フィッティングで求めるべき未知数)、x 、y はそれぞれH軸、15N軸上のk番目のピークの中心位置(求めるべき未知数)、σ 、σ はそれぞれH軸、15N軸方向のk番目のピークの広がりをあらわす未知数である。)
 この結果について、下記の数式(3)に基づき、標識体1乃至3のi位の15N標識率を計算すると、rN1=0.493、rN2=0.751、および、rN3=1.000となり、スレオニンであると判別(誤判別)された。
Figure JPOXMLDOC01-appb-M000010
(ここで、rN1乃至rN3はこのピークから見たi位の標識体1乃至3の15N標識率であり、max(aHSQC)は標識体1乃至3におけるHSQC強度の最大値である。)
 また、下記の数式(4)に基づき、標識体1乃至3のi-1位の13C標識率を計算すると、rC1=1.000、rC2=0.930、および、rC3=0.271となり、フェニルアラニンであると判別(誤判別)された。
Figure JPOXMLDOC01-appb-M000011
(ここで、a’HNCO1乃至a’HNCO3は、15N標識率で割ったあとのHNCO強度(以下、修正HNCO強度と記載する)であり、rC1乃至rC3は、このピークから見たi-1位の標識体1乃至3の13C標識率であり、max(a’HNCO)は、標識体1乃至3の修正HNCO強度の最大値である。)
 この場合、図19(c)に示すように、実際に観測されたピーク(図19(a))と、1つのシグナルのものであると仮定した場合のモデル(図19(b))との間には残差(エラー)が生じており、適切なフィッティングが行えていないことがわかった。
 一方、図19(d)には、重なってみえるピークが2つのアミノ酸残基に由来すると仮定した場合に、標識体1乃至3について、上述と同様に解析した結果が示されている。
 ここで、図19(d)(i)に示したシグナルについて、標識体1乃至3のi位の15N標識率は、rN1=0.483、rN2=0.454、および、rN3=1.000となり、トリプトファンであると判別(正しく判別)された。
 そして、図19(d)(i)に示したシグナルについて、標識体1乃至3のi-1位の13C標識率は、rC1=1.000、rC2=0.409、および、rC3=-0.043となり、アスパラギン酸であると判別(正しく判別)された。
 また、図19(d)(ii)に示したシグナルについて、標識体1乃至3のi位の15N標識率は、rN1=0.498、rN2=0.954、および、rN3=1.000となり、グルタミンであると判別(正しく判別)された。
 そして、図19(d)(ii)に示したシグナルについて、標識体1乃至3のi-1位の13C標識率は、rC1=0.596、rC2=1.000、および、rC3=0.487となり、イソロイシンであると判別(正しく判別)された。
 このように、図19(d)に示すように、図19(d)(i)にトリプトファン9のシグナル、図19(d)(ii)にグルタミン23のシグナルが、それぞれ正しく判別されている。
 この場合、図19(e)に示すように、実際に観測されたピーク(図19(a))と、ピークが2つのシグナルの重複であると仮定した場合のモデル(図19(d)(i)、(ii))の各ピーク強度を加算したものとの間には残差が殆ど生じておらず、適切なフィッティングが行えていることが明らかとなった。
 以上のように、従来の組み合わせ選択標識法では、標識の有無または強弱という定性的な情報のみを用いているため重複シグナルを分離することができず、シグナルが重なっている場合、誤判別が生じる可能性が高かった。それに比べて、本実施の形態における判別方法によれば、各シグナルをガウス関数にフィッティングさせて定量的な解析を行うことにより、重複シグナルを分離して判別することが可能になるため、判別精度を飛躍的に向上させることが可能となる。
 図3に戻り、結果出力部102fは、帰属部102eにより行われたシグナルの主鎖帰属に関する解析結果を表示部112に表示させ(ステップSB-6)、処理を終了する。ここで、結果出力部102fは、解析結果を印刷出力部を介して出力させてもよい。
 以上で、本実施の形態におけるタンパク質解析装置100の処理の一例の説明を終える。
[他の実施の形態]
 さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
 例えば、タンパク質解析装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、タンパク質解析装置100は、クライアント端末(タンパク質解析装置100とは別筐体である)からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するようにしてもよい。
 また、実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
 このほか、上記文献中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
 また、タンパク質解析装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
 例えば、タンパク質解析装置100の各装置が備える処理機能、特に制御部102にて行われる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、後述する、コンピュータに本発明に係る方法を実行させるためのプログラム化された命令を含む、一時的でないコンピュータ読み取り可能な記録媒体に記録されており、必要に応じてタンパク質解析装置100に機械的に読み取られる。すなわち、ROMまたはHDD(Hard Disk Drive)などの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。
 また、このコンピュータプログラムは、タンパク質解析装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
 また、本発明に係るプログラムを、コンピュータ読み取り可能な記録媒体に格納してもよく、また、プログラム製品として構成することもできる。ここで、この「記録媒体」とは、メモリーカード、USBメモリ、SDカード、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD-ROM、MO、DVD、および、Blu-ray(登録商標) Disc等の任意の「可搬用の物理媒体」を含むものとする。
 また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
 記憶部106に格納される各種のデータベース等(タンパク質配列情報データベース106a、標識パターンデータベース106b、および、シグナルデータベース106c)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、および、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラム、テーブル、データベース、および、ウェブページ用ファイル等を格納する。
 また、タンパク質解析装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理装置として構成してもよく、また、該情報処理装置に任意の周辺装置を接続して構成してもよい。また、タンパク質解析装置100は、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、および、データ等を含む)を実装することにより実現してもよい。
 更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。すなわち、上述した実施形態を任意に組み合わせて実施してもよく、実施形態を選択的に実施してもよい。
[本実施の形態のまとめ]
 NMRを用いたタンパク質の解析において、主鎖アミド水素および窒素の化学シフトを決定する主鎖帰属の工程は、立体構造解析、相互作用部位解析、または、分子内運動の解析などに必要な工程である。また、主鎖帰属は、多くの場合、三重共鳴による連鎖帰属法によって達成されるが、タンパク質が高分子量である、低収量である、低溶解度である、または、会合しているなどの場合困難を伴う。したがって、このような場合、アミド窒素をアミノ酸選択的に15N標識することで、i位のアミノ酸を判別することができるアミノ酸選択的安定同位体標識法が有効である。また、デュアル選択標識法では、さらにカルボニル炭素をアミノ酸選択的に13C標識することでi-1位のアミノ酸を判別することができる。
 これら従来のアミノ酸選択標識法は、アミノ酸の種類の数に相当する多くの種類の選択標識体が必要であり、時間、コスト、および、手間のかかる方法であった。また、必要な選択標識体の数を減らすために、組み合わせ選択標識法が提案されているが、従来の組み合わせ選択標識法は、定性的な安定同位体標識の情報(標識の有無または強弱)を利用していた。すなわち、従来の組み合わせアミノ酸選択標識法においては、本発明のように、たとえ、安定同位体標識率の違いを符号で表現する、即ち、安定同位体標識の有(または標識率の高)を例えば「1」に、無(または標識率の低)を例えば「0」に対応づけることにより符号化したとしても、16種類のアミノ酸を4桁の2進数で符号化していることとなり、2進数を使う限り1標識体あたりに盛り込める情報量は1ビットにとどまるため、さらなる標識体数の減少は望めないという問題点を有していた。これにより、特に対象タンパク質が高分子量である、低収量である、低溶解度である、または、会合しているなど難度の高いタンパク質である場合に、アミノ酸判別を行うのに十分なスペクトルを得るためにかかる時間が大幅に長くなってしまい、現実的には困難である場合が生じるという問題点を有していた。また、従来の組み合わせアミノ酸選択標識法においては、定量的なシグナル強度解析を行なわないことから、本発明のようにハミング距離を定義するなどして標識パターンを最適化することができず、標識体数とアミノ酸数との組み合わせによっては情報量に無駄が生じてしまうという問題点を有していた。また、HNCOスペクトルのシグナル強度はi-1位の13Cの標識率のみならずi位の15N標識率にも影響を受けることから、定量的なシグナル強度解析を行なわず、HNCOスペクトルにおけるシグナルの有無のみを利用する従来法では、そもそも13C標識率を3段階以上に設定できないという問題点を有していた。
 一方、本発明は、定量的な安定同位体標識率の情報を利用することで、選択標識体1種類あたりの情報量を増やし、少ない数の選択標識体で同じ情報を得ることができる。すなわち、本発明では、安定同位体標識率を定量的に制御して符号化し、NMRスペクトルの強度比から標識率を逆算することによって復号することで、1つの標識体により多くの情報を盛り込んでいる。例えば、本発明のアミノ酸判別は、NMRスペクトルから標識率を逆算することによって行い、15Nの標識率を、HSQC強度を用いて求め、13Cの標識率を、HNCOの強度を先にHSQC強度を用いて求めた15Nの標識率で割ることにより求めることで、定性的な1ビットの情報ではなく、定量的な1ビットを超える情報を利用可能としている。また、本発明では、全てのアミノ酸について、少なくとも1つの標識体で100%標識になるように標識パターンを設計することでリファレンスとしてのユニバーサル標識体を不要としている。また、本発明では、ハミング距離を考慮して標識パターンを最適化することにより、任意の標識体数と任意のアミノ酸数において情報量に無駄がなくノイズ等の攪乱要因に最も強い標識パターンを客観的に生成することが可能である。これらの工夫によって必要な選択標識体数を減らすことにより、高難度のタンパク質でも現実的な時間で解析することが可能である。
 また、例えば、本発明にリファレンスとしてのユニバーサル標識体を加えた場合、リファレンスを含めて3種類の標識体で9種類、4種類の標識体で27種類(実際には20種類)を判別することもできる。
 したがって、本発明は、従来多くの標識体を必要としていた選択標識法に代わり、同じ情報を、より少ない標識体数で得る方法であり、主鎖帰属の工程を時間、手間、および、コストの意味で効率化させ、これまで現実的には困難であったものを可能にするものである。また、主鎖帰属は、多くのタンパク質NMR解析の基礎となる工程であり、本発明の波及効果は大きいものである。
 以上詳述に説明したように、本発明によれば、少ない標識体数でアミノ酸判別を行なうことにより時間、コスト、および、手間を大幅に削減することができるタンパク質解析装置、タンパク質解析方法、および、プログラムを提供することができるので、特に医療、製薬、創薬、および、生物学研究などの様々な分野において極めて有用である。
 100 タンパク質解析装置
  102 制御部
    102a 標識パターン生成部
    102b シグナル情報取得部
    102c 補正部
    102d 判別部
    102e 帰属部
    102f 結果出力部
  104 通信制御インターフェース部
  106 記憶部
    106a タンパク質配列情報データベース
    106b 標識パターンデータベース
    106c シグナルデータベース
  108 入出力制御インターフェース部
  112 表示部
  114 入力部
 200 外部システム
 300 ネットワーク

Claims (10)

  1.  記憶部と制御部とを少なくとも備えたタンパク質解析装置であって、
     上記記憶部は、
     タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの上記同位体標識率であるかを規定する標識パターンを記憶する標識パターン記憶手段と、
     上記標識パターンで構成された上記タンパク質である標識体のNMR測定により得られるシグナル情報を記憶するシグナル記憶手段と、
     を備え、
     上記制御部は、
     上記標識パターン記憶手段に記憶された上記標識パターンに基づいて、上記シグナル情報に基づく上記標識体のシグナルがどの上記アミノ酸に由来するかを判別する判別手段、
     を備えたことを特徴とするタンパク質解析装置。
  2.  請求項1に記載のタンパク質解析装置において、
     上記記憶部は、
     上記タンパク質のアミノ酸配列に関する配列情報を記憶するタンパク質配列情報記憶手段、
     を更に備え、
     上記制御部は、
     上記タンパク質配列情報記憶手段に記憶された上記配列情報に基づいて、上記判別手段によりどの上記アミノ酸に由来するか判別された上記シグナルの帰属を決定する帰属手段、
     を更に備えたことを特徴とするタンパク質解析装置。
  3.  請求項1または2に記載のタンパク質解析装置において、
     上記制御部は、
     上記標識体毎の上記同位体標識率の差の絶対値の和であるハミング距離に基づいて、上記標識パターンを生成し、上記標識パターン記憶手段に格納する標識パターン生成手段、
     を更に備えたことを特徴とするタンパク質解析装置。
  4.  請求項3に記載のタンパク質解析装置において、
     上記ハミング距離は、
     以下の数式(1)を用いて算出することを特徴とするタンパク質解析装置。
    Figure JPOXMLDOC01-appb-M000001
    (ここで、d(i,j)はアミノ酸iと,他のアミノ酸jと、の間のハミング距離、nは標識体の数、p は標識体kにおけるアミノ酸iの同位体標識率、および、p は標識体kにおけるアミノ酸jの同位体標識率である。)
  5.  請求項1または2に記載のタンパク質解析装置において、
     上記制御部は、
     上記タンパク質を構成するアスパラギン酸とアスパラギンと、および/または、グルタミン酸とグルタミンとの間で起こるスクランブルに基づいて、上記標識パターンを生成し、上記標識パターン記憶手段に格納する標識パターン生成手段、
     を更に備えたことを特徴とするタンパク質解析装置。
  6.  請求項1乃至5のいずれか一つに記載のタンパク質解析装置において、
     上記元素は、
     窒素、および、炭素であることを特徴とするタンパク質解析装置。
  7.  請求項1乃至6のいずれか一つに記載のタンパク質解析装置において、
     上記制御部は、
     上記標識体間で濃度差がある場合、上記標識体を構成するアミノ酸のシグナル強度比に基づいて、上記シグナル情報を補正する補正手段、
     を更に備えたことを特徴とするタンパク質解析装置。
  8.  請求項1乃至7のいずれか一つに記載のタンパク質解析装置において、
     上記NMR測定は、
     NMR相関スペクトルの測定であることを特徴とするタンパク質解析装置。
  9.  記憶部と制御部とを少なくとも備えたタンパク質解析装置において実行されるタンパク質解析方法であって、
     上記記憶部は、
     タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの上記同位体標識率であるかを規定する標識パターンを記憶する標識パターン記憶手段と、
     上記標識パターンで構成された上記タンパク質である標識体のNMR測定により得られるシグナル情報を記憶するシグナル記憶手段と、
     を備え、
     上記制御部において実行される、
     上記標識パターン記憶手段に記憶された上記標識パターンに基づいて、上記シグナル情報に基づく上記標識体のシグナルがどの上記アミノ酸に由来するかを判別する判別ステップ、
     を含むことを特徴とするタンパク質解析方法。
  10.  記憶部と制御部とを少なくとも備えたタンパク質解析装置に実行させるためのプログラムであって、
     上記記憶部は、
     タンパク質を構成する各アミノ酸が、3段階以上の同位体標識率のうち元素毎にどの上記同位体標識率であるかを規定する標識パターンを記憶する標識パターン記憶手段と、
     上記標識パターンで構成された上記タンパク質である標識体のNMR測定により得られるシグナル情報を記憶するシグナル記憶手段と、
     を備え、
     上記制御部において、
     上記標識パターン記憶手段に記憶された上記標識パターンに基づいて、上記シグナル情報に基づく上記標識体のシグナルがどの上記アミノ酸に由来するかを判別する判別ステップ、
     を実行させるためのプログラム。
PCT/JP2013/077672 2013-04-10 2013-10-10 タンパク質解析装置、タンパク質解析方法、および、プログラム WO2014167744A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015511071A JP6191927B2 (ja) 2013-04-10 2013-10-10 タンパク質解析装置、タンパク質解析方法、および、プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013-082543 2013-04-10
JP2013082543 2013-04-10

Publications (1)

Publication Number Publication Date
WO2014167744A1 true WO2014167744A1 (ja) 2014-10-16

Family

ID=51689168

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/077672 WO2014167744A1 (ja) 2013-04-10 2013-10-10 タンパク質解析装置、タンパク質解析方法、および、プログラム

Country Status (2)

Country Link
JP (1) JP6191927B2 (ja)
WO (1) WO2014167744A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007254295A (ja) * 2006-03-20 2007-10-04 Hokkaido Univ 安定同位体元素を有するポリペプチド混合物の合成方法
JP2007255910A (ja) * 2006-03-20 2007-10-04 Hokkaido Univ Nmrシグナルの帰属方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008051857A2 (en) * 2006-10-20 2008-05-02 The Board Of Trustees Of The University Of Illinois Nuclear magnetic resonance method for quantitative and qualitative measurement of natural products

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007254295A (ja) * 2006-03-20 2007-10-04 Hokkaido Univ 安定同位体元素を有するポリペプチド混合物の合成方法
JP2007255910A (ja) * 2006-03-20 2007-10-04 Hokkaido Univ Nmrシグナルの帰属方法

Also Published As

Publication number Publication date
JPWO2014167744A1 (ja) 2017-02-16
JP6191927B2 (ja) 2017-09-06

Similar Documents

Publication Publication Date Title
Sugiki et al. Current NMR techniques for structure-based drug discovery
Cordeiro et al. Small-angle scattering studies of intrinsically disordered proteins and their complexes
Gowda et al. Can NMR solve some significant challenges in metabolomics?
Ziarek et al. Binding site identification and structure determination of protein–ligand complexes by NMR: a semiautomated approach
Tugarinov et al. Methyl groups as probes of structure and dynamics in NMR studies of high‐molecular‐weight proteins
Vaudel et al. Current methods for global proteome identification
Meert et al. Pitfalls in histone propionylation during bottom‐up mass spectrometry analysis
Mizianty et al. In-silico prediction of disorder content using hybrid sequence representation
Kachala et al. Application of SAXS for the Structural Characterization of IDPs
Pritchard et al. Characterising side chains in large proteins by protonless 13C-detected NMR spectroscopy
Dayon et al. Progress and pitfalls of using isobaric mass tags for proteome profiling
Eidhammer et al. Computational and statistical methods for protein quantification by mass spectrometry
Milbradt et al. Increased resolution of aromatic cross peaks using alternate 13 C labeling and TROSY
Gruene et al. Integrated analysis of the conformation of a protein-linked spin label by crystallography, EPR and NMR spectroscopy
Kragelj et al. Ensemble calculation for intrinsically disordered proteins using NMR parameters
Thomas et al. Targeted proteomic assays for the verification of global proteomics insights
Isenegger et al. Posttranslational, site-directed photochemical fluorine editing of protein sidechains to probe residue oxidation state via 19F-nuclear magnetic resonance
Houben et al. Intrinsic dynamics of the partly unstructured PX domain from the Sendai virus RNA polymerase cofactor P
Plevin et al. Isotope-labelling of methyl groups for NMR studies of large proteins
JP6191927B2 (ja) タンパク質解析装置、タンパク質解析方法、および、プログラム
Kasai et al. NMR spectral analysis using prior knowledge
CN110310706B (zh) 一种蛋白质无标绝对定量方法
Ogura et al. Conformational change of Sos-derived proline-rich peptide upon binding Grb2 N-terminal SH3 domain probed by NMR
Piserchio et al. Assignment of backbone resonances in a eukaryotic protein kinase–ERK2 as a representative example
Bhattacharya et al. Deuterium spin relaxation of fractionally deuterated ribonuclease H using paired 475 and 950 MHz NMR spectrometers

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13881486

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015511071

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13881486

Country of ref document: EP

Kind code of ref document: A1