RU2774333C1

RU2774333C1 - RECOMBINANT PLASMID pET-GST-3CL-GPG PROVIDING SYNTHESIS OF SARS-CoV-2 3CL PROTEASE IN E. COLI CELLS IN SOLUBLE FORM

Info

Publication number: RU2774333C1
Application number: RU2021139297A
Authority: RU
Inventors: Дмитрий Николаевич Щербаков; Светлана Валерьевна Беленькая; Екатерина Александровна Волосникова; Кирилл Дмитриевич Назаров
Filing date: 2021-12-27
Publication date: 2022-06-17

Abstract

FIELD: biotechnology.

SUBSTANCE: invention relates to biotechnology. A recombinant plasmid pET-GST-3CL-GPG is described, which provides the synthesis of SARS-CoV-2 3CL protease in E. coli cells in a soluble form, having the nucleotide sequence of SEQ ID NO: 2. The plasmid has a map shown in Fig. 1 and contains the following elements: AmpR promoter; a genetic marker that determines ampicillin resistance of E. coli bacteria cells transformed with the recombinant AmpR plasmid; origin of replication site ori; lactose repressor lacI; DNA-binding protein that inhibits the expression of E. coli genes and ensures the expression of the target recombinant 3CL-GPG-6His protein after the addition of an isopropyl-β-D-1-thiogalactopyranoside (IPTG) inducer; lacI promoter; the T7 phage promoter, which ensures the expression of the GST-3CL-GPG gene sequence in E. coli cells; lac operator; RBS; gene GST-glutathione-S-transferase from Scihistosoma japonicum; Pep - region encoding the GSTSAVLQ peptide; the SARS-CoV-2 chimeric 3CL gene also including the GPG and 6His sequence, having the nucleotide sequence of SEQ ID NO: 1, and encoding the synthesis of the 3CL-GPG-6His protease with the amino acid sequence of SEQ ID NO: 3; T7 terminator.

EFFECT: invention can be used in biotechnology to obtain the 3CL enzyme, which is the main protease of SARS-CoV-2. This ensures the synthesis and transport of the chimeric variant of the 3CL protein into the periplasmic space of E. coli in a soluble form.

1 cl, 3 dwg, 1 tbl, 5 ex

Description

Область техникиTechnical field

Изобретение относится к рекомбинантной плазмиде pET-GST-3CL-GPG, обеспечивающей синтез протеазы 3CL SARS-CoV-2 в клетках E.coli в растворимой форме и может быть использовано в биотехнологии для получения фермента 3CL (с англ.: 3C-like protease), являющегося основной протеазой сарбековируса SARS-CoV-2. Получаемый белок 3CL может быть использован для in vitro поиска ингибиторов основной протеазы SARS-CoV-2 потенциальных терапевтических препаратов (Froggatt, Н.М., Heaton, В.Е., Heaton, N.S. (2020). Development of a fluorescence-based, high-throughput SARS-CoV-2 3CLpro reporter assay. Journal of virology, 94(22), e01265-20.; Zhu, W., Xu, M., Chen, C.Z., Guo, H., Shen, M., Hu, X., … & Zheng, W. (2020). Identincation of SARS-CoV-2 3CL protease inhibitors by a quantitative high-throughput screening. ACS pharmacology & translational science, 3(5), 1008-1016.). Изобретение включает дизайн генетических конструкций, метод трансформации клеток E.coli, очистки и оценки экспрессии целевого белка, метод анализа ферментативной активности.The invention relates to a recombinant plasmid pET-GST-3CL-GPG that provides the synthesis of SARS-CoV-2 3CL protease in E. coli cells in a soluble form and can be used in biotechnology to obtain the 3CL enzyme (from English: 3C-like protease) , which is the main protease of SARS-CoV-2 sarbecovirus. The resulting 3CL protein can be used for the in vitro search for inhibitors of the main SARS-CoV-2 protease of potential therapeutic drugs (Froggatt, N.M., Heaton, B.E., Heaton, N.S. (2020). Development of a fluorescence-based, high-throughput SARS-CoV-2 3CLpro reporter assay Journal of virology, 94(22), e01265-20 Zhu, W., Xu, M., Chen, C.Z., Guo, H., Shen, M., Hu, X., … & Zheng, W. (2020). Identincation of SARS-CoV-2 3CL protease inhibitors by a quantitative high-throughput screening. ACS pharmacology & translational science, 3(5), 1008-1016.). The invention includes the design of genetic constructs, a method for transforming E. coli cells, purification and evaluation of target protein expression, a method for analyzing enzymatic activity.

Уровень техникиState of the art

Геном SARS-CoV-2 кодирует более двадцати белков, среди которых присутствуют две протеазы - папаин-подобная PLpro и 3-С подобная 3CLpro (3CL), (или Mpro, основная протеаза). Обе протеазы играют важную роль в репликативном цикле вируса, их функцией является ферментативный гидролиз двух синтезируемых вирусных полипротеинов (1А и 1АВ) на отдельные функциональные белки.The SARS-CoV-2 genome encodes more than twenty proteins, among which two proteases are present - papain-like PLpro and 3-C like 3CLpro (3CL), (or Mpro, the main protease). Both proteases play an important role in the replication cycle of the virus, their function is the enzymatic hydrolysis of two synthesized viral polyproteins (1A and 1AB) into separate functional proteins.

В силу своих небольших размеров, а также высокой гомологии с аналогичными белками коронавирусов, вызывающих атипичные пневмонии SARS и MERS, основная протеаза SARS-CoV-2 является наиболее охарактеризованной мишенью для потенциальных антивирусных препаратов. Основная протеаза расщепляет полипротеин 1АВ в 11 специфических сайтах. Последовательность распознавания сайта в большинстве случаев состоит из участка цепи (L-Q)-(S-A-G), где расщепляется связь между глутамином и серином. Ингибирование активности основной протеазы приводит к остановке репликации вируса. Среди ферментов человека не известно протеаз с такой же специфичностью расщепления, что может говорить о вероятном специфическом действии и возможной низкой токсичности ингибиторов основной протеазы SARS-CoV-2 (Zhang L, Lin D, Sun X, et al. Crystal structure of SARS-CoV-2 main protease provides a basis for design of improved α-ketoamide inhibitors. Science (New York, NY). 2020; 368(6489):409-412. doi:10.1126/science.abb3405 Dai W, Zhang B, Su H, et al. Structure-based design of antiviral drug candidates targeting the SARS-CoV-2 main protease. Денисе. April 2020:eabb4489. doi:10.1126/science.abb4489 Jin Z, Du X, Xu Y, et al. Structure of Mpro from COVID-19 virus and discovery of its inhibitors. Nature. April 2020:1-9. doi:10.1038/s41586-020-2223-y).Due to its small size, as well as high homology with similar proteins of SARS and MERS coronaviruses, the SARS-CoV-2 main protease is the most characterized target for potential antiviral drugs. The core protease cleaves the 1AB polyprotein at 11 specific sites. The site recognition sequence in most cases consists of a chain segment (L-Q)-(S-A-G), where the bond between glutamine and serine is cleaved. Inhibition of the activity of the main protease leads to a stop in the replication of the virus. Among human enzymes, no proteases with the same cleavage specificity are known, which may indicate the likely specific action and possible low toxicity of SARS-CoV-2 major protease inhibitors (Zhang L, Lin D, Sun X, et al. Crystal structure of SARS-CoV Dai W, Zhang B, Su H Jin Z, Du X, Xu Y, et al Structure of Mpro from COVID-19 virus and discovery of its inhibitors Nature April 2020:1-9 doi:10.1038/s41586-020-2223-y).

Наиболее близким аналогом (прототипом) к заявляемому изобретению является создание конструкции экспрессионной плазмиды основной протеазы SARS; трансформирование плазмиды экспрессии основной протеазы SARS с получением рекомбинантного штамма Escherichia coli; получение с помощью системы экспрессии целевого белка путем культивирования рекомбинантного штамма Escherichia coli в жидкой питательной среде (в культуре LB) с последующим получением очищенной стабильной основной протеазы SARS-CoV-1 с помощью специального метода очистки (заявка на патент Китая CN111979214A, МПК C12N 15/70; C12N 9/50, опубл. 31.08.2020 г.).The closest analogue (prototype) to the claimed invention is the creation of the construction of the expression plasmid of the main SARS protease; transforming the expression plasmid of the main SARS protease to obtain a recombinant strain of Escherichia coli; Obtaining a target protein using an expression system by culturing a recombinant strain of Escherichia coli in a liquid nutrient medium (in LB culture), followed by obtaining a purified stable SARS-CoV-1 basic protease using a special purification method (China patent application CN111979214A, IPC C12N 15/ 70; C12N 9/50, published 08/31/2020).

Однако данное изобретение имеет ряд недостатков. Так используемый экспрессионный вектор рЕТ28а не имеет в своем составе последовательности GST, обеспечивающей более эффективный транспорт целевого белка в периплазматическое пространство клеток Escherichia coli. Кроме того, синтезируемый белок является основной протеазой коронавируса SARS-CoV-1, который существенно отличается нуклеотидной и аминокислотной последовательностями от основной протеазы коронавируса SARS-CoV-2.However, this invention has a number of disadvantages. Thus, the pET28a expression vector used does not contain the GST sequence, which provides more efficient transport of the target protein into the periplasmic space of Escherichia coli cells. In addition, the synthesized protein is the main protease of the SARS-CoV-1 coronavirus, which differs significantly in nucleotide and amino acid sequences from the main protease of the SARS-CoV-2 coronavirus.

Раскрытие изобретенияDisclosure of invention

Задачей настоящего изобретения являлась разработка экспрессионной системы и структуры химерного гена GST-3CL-GPG SARS-CoV-2, обеспечивающих получение химерного варианта растворимого белка 3CL SARS-CoV-2.The objective of the present invention was to develop an expression system and structure of the GST-3CL-GPG SARS-CoV-2 chimeric gene that would provide a chimeric variant of the SARS-CoV-2 soluble 3CL protein.

Техническим результатом изобретения является получение экспрессионной генетической конструкции, содержащей нуклеотидную последовательность белка (протеазы) 3CL с оптимизированными кодонами и обеспечивающей синтез и транспорт химерного варианта белка 3CL в периплазматическое пространство E. coli.The technical result of the invention is to obtain an expression genetic construct containing the nucleotide sequence of the 3CL protein (protease) with optimized codons and providing the synthesis and transport of the chimeric variant of the 3CL protein into the periplasmic space of E. coli.

Указанный технический результат достигается тем, что создана рекомбинантная плазмида pET-GST-3CL-GPG, обеспечивающая синтез и транспорт химерного белка (протеазы) 3CL SARS-CoV-2 в периплазматическое пространство клеток E. coli в растворимой форме, имеющая нуклеотидную последовательность SEQ ID NO: 2 размером 7008 п.н., и содержащая в соответствии с физической и генетической картой, представленной на фиг. 1, следующие элементы:This technical result is achieved by creating a recombinant plasmid pET-GST-3CL-GPG, which provides the synthesis and transport of the SARS-CoV-2 chimeric protein (protease) 3CL into the periplasmic space of E. coli cells in a soluble form, having the nucleotide sequence SEQ ID NO : 2 with a size of 7008 bp, and containing, in accordance with the physical and genetic map presented in Fig. 1, the following items:

- AmpR promoter (координаты с 494 п.н. по 598 п.н.);- AmpR promoter (coordinates from 494 bp to 598 bp);

- генетический маркер, определяющий устойчивость к ампициллину клеток бактерии E.coli, трансформированных рекомбинантной плазмидой AmpR (координаты с 599 по 1459 п.н.);- a genetic marker that determines the resistance to ampicillin of E. coli bacterial cells transformed with the recombinant AmpR plasmid (coordinates from 599 to 1459 bp);

- участок начала репликации ori (координаты с 1630 по 2218 п.н.);- site of origin of replication ori (coordinates from 1630 to 2218 bp);

- lacI - ДНК-связывающий белок, ингибирующий экспрессию генов E.coli и обеспечивающий экспрессию целевого рекомбинантного белка 3CL-GPG-6His после добавления индуктора изопропил-β-D-1-тиогалактопиранозида (IPTG) (координаты с 3648 по 4730 п.н.);- lacI - DNA-binding protein that inhibits the expression of E. coli genes and ensures the expression of the target recombinant protein 3CL-GPG-6His after the addition of the inducer isopropyl-β-D-1-thiogalactopyranoside (IPTG) (coordinates from 3648 to 4730 b.p. );

- lacI promoter (координаты с 4731 по 4808 п.н.);- lacI promoter (coordinates from 4731 to 4808 b.p.);

- промотор фага Т7 (координаты с 5117 по 5135 п.н.), обеспечивающий экспрессию последовательности гена GST-3CL-GPG-6His в клетках E.coli;- T7 phage promoter (coordinates from 5117 to 5135 bp), which ensures the expression of the GST-3CL-GPG-6His gene sequence in E. coli cells;

- lac operator (координаты с 5136 по 5160 п.н.);- lac operator (coordinates from 5136 to 5160 bp);

- RBS - сайт связывания рибосомы (координаты с 5191 по 5196 п.н.)- RBS - ribosome binding site (coordinates from 5191 to 5196 bp)

- ген GST (глутатион-S-трансфераза из Shistosoma japonium) (координаты с 5205 по 5857 п.н.- GST gene (glutathione-S-transferase from Shistosoma japonium) (coordinates from 5205 to 5857 b.p.

- Pep - участок, кодирующий пептид GSTSAVLQ, (координаты с 5859 по 5882 п.н.)- Pep - region encoding the GSTSAVLQ peptide, (coordinates from 5859 to 5882 bp)

химерный ген 3CL SARS-CoV-2 включающий так же последовательность GPG и 6His, имеющий координаты с 5883 по 6833 п.н., нуклеотидную последовательность SEQ ID NO: 1 и кодирующий синтез белка (протеазы) 3CL-GPG-6His с аминокислотной последовательностью SEQ ID NO: 3;chimeric SARS-CoV-2 3CL gene, which also includes the GPG and 6His sequence, having coordinates from 5883 to 6833 bp, the nucleotide sequence of SEQ ID NO: 1 and encoding the synthesis of the 3CL-GPG-6His protein (protease) with the amino acid sequence of SEQ ID NO: 3;

- Т7 terminator (координаты с 6936 по 6983 п.н.).- T7 terminator (coordinates from 6936 to 6983 bp).

Таким образом, получена кодон-оптимизированная нуклеотидная последовательность, имеющая последовательность SEQ ID NO: 1, кодирующая белок 3CL SARS-CoV-2, включающий так же последовательность GPG и последовательность 6×His, а также получена генетическая плазмидная конструкция pET-GST-3CL-GPG (фиг. 1), содержащая нуклеотидную последовательность 3CL-GPG SEQ ID NO: 2 и обеспечивающая синтез и транспорт в периплазматическое пространство белка 3CL-GPG-6His в клетках Е.coli.Thus, a codon-optimized nucleotide sequence having the sequence SEQ ID NO: 1 encoding the SARS-CoV-2 3CL protein, which also includes the GPG sequence and the 6×His sequence, was obtained, and the genetic plasmid construct pET-GST-3CL- GPG (Fig. 1), containing the nucleotide sequence 3CL-GPG SEQ ID NO: 2 and providing synthesis and transport into the periplasmic space of the 3CL-GPG-6His protein in E. coli cells.

Кроме того, получен химерный белок GST-3CL-GPG. Последовательность GST на N-конце белка обеспечивает транспорт слитого белка в периплазматическое пространство клеток Е.coli. В периплазматическом пространстве происходит автоотщепление GST благодаря каталитической активности протеазы 3CL. Последовательность GSTSAVLQ является консенсусной последовательностью сайта протеолиза 3CL и расположена между белком GST и 3CL. На С-конце белок содержит последовательность 6×His, обеспечивающую возможность очистки целевого белка при помощи аффинной металл-хелатной хроматографии. Последовательность 3CL и 6×His разделены аминокислотной последовательностью GPGSG, предотвращающей автоотщепление последовательности 6×His от 3CL.In addition, a chimeric protein GST-3CL-GPG was obtained. The GST sequence at the N-terminus of the protein provides for transport of the fusion protein into the periplasmic space of E. coli cells. In the periplasmic space, GST is autocleaved due to the catalytic activity of the 3CL protease. The GSTSAVLQ sequence is the consensus sequence for the 3CL proteolysis site and is located between the GST protein and 3CL. At the C-terminus, the protein contains the sequence 6×His, which allows purification of the target protein using metal chelate affinity chromatography. The 3CL and 6xHis sequence is separated by the GPGSG amino acid sequence preventing auto-cleavage of the 6xHis sequence from 3CL.

Белок 3CL-GPG-6His с аминокислотной последовательностью SEQ ID NO: 3, получают культивированием клеток E.coli, синтезом целевого белка и выделением растворимого белка с помощью аффинной металл-хелатной хроматографии.The 3CL-GPG-6His protein with the amino acid sequence of SEQ ID NO: 3 is obtained by culturing E. coli cells, synthesizing the target protein, and isolating the soluble protein by metal chelate affinity chromatography.

Изобретение имеет ряд преимуществ по сравнению с наиболее близким по сущности аналогом (прототипом). Использование белка GST позволяет получить белок 3CL-GPG-6His в растворимой форме, сохраняющей ферментативную активность, что позволяет использовать его для анализа веществ-ингибиторов коронавируса SARS-CoV-2. Проведенная оптимизация кодонов фрагмента ДНК, кодирующего белок 3CL, обеспечивает высокий уровень экспрессии белка. Последовательность GSTSAVLQ обеспечивает эффективное автоотщепление белка 3CL-GPG-6His. Использование в составе целевого белка последовательности 6×His делает возможным оптимизацию способа выделения и очистки белка 3CL-GPG-6His.The invention has a number of advantages compared to the closest analogue (prototype) in essence. The use of the GST protein makes it possible to obtain the 3CL-GPG-6His protein in a soluble form that retains enzymatic activity, which makes it possible to use it for the analysis of SARS-CoV-2 coronavirus inhibitor substances. The codon optimization of the DNA fragment encoding the 3CL protein ensures a high level of protein expression. The GSTSAVLQ sequence provides efficient autocleavage of the 3CL-GPG-6His protein. The use of the 6×His sequence in the target protein makes it possible to optimize the method for isolating and purifying the 3CL-GPG-6His protein.

Осуществление изобретенияImplementation of the invention

Изобретение иллюстрируется следующими графическими материалами.The invention is illustrated by the following graphics.

На фиг. 1. Представлена физическая и генетическая карта плазмидного вектора pET-GST-3CL-GPG, имеющего размер 7008 п.н.In FIG. 1. The physical and genetic map of the 7008 bp pET-GST-3CL-GPG plasmid vector is presented.

На фиг. 2 приведена электрофореграмма разделения препаратов белков в 15% ДСН-ПААГ:In FIG. 2 shows the electrophoregram of the separation of protein preparations in 15% SDS-PAGE:

1 - биомасса Е.coli до добавления индуктора IPTG;1 - E. coli biomass before adding the IPTG inducer;

2 - биомасса E.coli после добавления индуктора IPTG;2 - E. coli biomass after adding the IPTG inducer;

3 - фракция белков периплазмы (растворимая);3 - fraction of periplasmic proteins (soluble);

4 - нерастворимая фракция белков;4 - insoluble protein fraction;

М - маркер молекулярного веса, 10-200 кДаM - molecular weight marker, 10-200 kDa

На фиг. 3 представлена электрофореграмма разделения хроматографических фракций в 15% ДСН-ПААГ:In FIG. 3 shows the electropherogram of the separation of chromatographic fractions in 15% SDS-PAGE:

1 - лизат клеток E.coli содержащих плазмиду pET-GST-3CL-GPG до хроматографической очистки;1 - lysate of E. coli cells containing the plasmid pET-GST-3CL-GPG before chromatographic purification;

2 - баластные (примесные) белки, не связавшиеся с сорбентом (проскок нанесения);2 - ballast (impurity) proteins that have not contacted the sorbent (application breakthrough);

3 - фракция примесных белков после промывки колонки тремя объемами промывочного буфера;3 - fraction of impurity proteins after washing the column with three volumes of washing buffer;

4 - фракция целевого белка после хроматографической очистки;4 - target protein fraction after chromatographic purification;

М - маркер молекулярного веса, 10-200 кДа.M - molecular weight marker, 10-200 kDa.

Ниже приведены примеры 1-3 конкретного осуществления изобретения.Below are examples 1-3 of the specific implementation of the invention.

Пример 1. Конструирование генетической последовательности для синтеза белка 3CL-GPG-6HisExample 1 Construction of a Genetic Sequence for the Synthesis of the 3CL-GPG-6His Protein

Последовательность гена, кодирующего белок 3CL (3264S - 3569Q) коронавируса SARS-CoV-2 (GenBank MZ149976) заимствовали из базы данных GenBank и проводили оптимизацию частот встречаемости кодонов для млекопитающих при помощи сервиса JCat (http://www.jcat.de/), при этом индекс адаптации кодонов CAI достиг 0,87.The sequence of the gene encoding the 3CL protein (3264S - 3569Q) of the SARS-CoV-2 coronavirus (GenBank MZ149976) was borrowed from the GenBank database and the codon frequencies for mammals were optimized using the JCat service (http://www.jcat.de/) , while the CAI codon adaptation index reached 0.87.

На основе вектора pET-GST получали конструкцию pET-GST-3CL-GPG (фиг. 1), содержащую нуклеотидную последовательность 3CL-GPG-6His (SEQ ID NO: 1).Based on the pET-GST vector, the pET-GST-3CL-GPG construct (FIG. 1) containing the 3CL-GPG-6His nucleotide sequence (SEQ ID NO: 1) was obtained.

Нуклеотидную последовательность кодирующую пептид Pep (GSTSAVLQ), 6His, последовательность GPG и сайтов рестрикции BamHI и CciNI вводили в последовательность 3CL одновременно с помощью ПНР. Использовались пары праймеров 3CL-GPG-F и 3CL-GPG-R (таблица 1).The nucleotide sequence encoding the Pep peptide (GSTSAVLQ), 6His, the GPG sequence and the BamHI and CciNI restriction sites were introduced into the 3CL sequence simultaneously using the NDP. Primer pairs 3CL-GPG-F and 3CL-GPG-R were used (Table 1).

Пример 2. Создание плазмидной конструкции pET-GST-3CL-GPGExample 2 Creation of the plasmid construct pET-GST-3CL-GPG

2.1. Амплификация методом ПЦР нуклеотидной последовательности, кодирующей 3CL SARS-CoV-22.1. PCR amplification of the nucleotide sequence encoding SARS-CoV-2 3CL

Амплификацию фрагментов проводили по стандартному протоколу. Реакционная смесь, объемом 50 мкл содержала 10×буфер, 25 мМ dNTP, олигонуклеотидные праймеры (таблица 1) в количестве 15 пмоль каждого, 5 ед. Q5-полимеразы, 1 мкл раствора плазмидной ДНК. Реакцию проводили в амплификаторе Veriti™ 96-Well Thermal Cycler. Температурно-временной профиль ПЦР: плавление - 95°С - 5 мин. (1 цикл). 95°С - 30 секунд. Отжиг - 58°С - 30 секунд, элонгация - 72°С - 30 секунд (35 циклов).Fragment amplification was carried out according to the standard protocol. The reaction mixture, with a volume of 50 μl, contained 10 × buffer, 25 mm dNTP, oligonucleotide primers (table 1) in the amount of 15 pmol each, 5 units. Q5 polymerase, 1 µl of plasmid DNA solution. The reaction was carried out in a Veriti™ 96-Well Thermal Cycler. Temperature-time profile of PCR: melting - 95°C - 5 min. (1 cycle). 95°C - 30 seconds. Annealing - 58°C - 30 seconds, elongation - 72°C - 30 seconds (35 cycles).

2.2. Выделение ДНК из агарозного геля2.2. Isolation of DNA from agarose gel

После визуализации под УФ-излучением фрагменты ДНК необходимой длины, разделенные в агарозном геле, вырезали из геля и элюировали при помощи набора «Евроген» Cleanup Standard (Россия) в соответствии с рекомендациями производителя.After visualization under UV radiation, DNA fragments of the required length, separated in an agarose gel, were excised from the gel and eluted using the Evrogen Cleanup Standard kit (Russia) in accordance with the manufacturer's recommendations.

2.3. Ферментативный гидролиз вектора pET-GST и ПЦР-продукта (последовательность Pep-3CL-GPG)2.3. Enzymatic hydrolysis of pET-GST vector and PCR product (Pep-3CL-GPG sequence)

Для клонирования гена 3CL-GPG в составе вектора pET-GST были использованы эндонуклеазы рестрикции BamHI и CciNI (фирма «Сибэнзим», Россия) с прилагаемыми к ним буферами. Реакционную смесь готовили в соответствии с активностью фермента (2-5 е.а. на 1 мкг ДНК) и концентрации плазмидной ДНК. Условия реакции: температура, состав буфера и длительность проведения ферментативного гидролиза ДНК подбирали в соответствии с инструкциями производителя "Сибэнзим".For cloning of the 3CL-GPG gene in the pET-GST vector, restriction endonucleases BamHI and CciNI (Sibenzym, Russia) were used with buffers attached to them. The reaction mixture was prepared in accordance with the activity of the enzyme (2-5 u per 1 μg of DNA) and the concentration of plasmid DNA. Reaction conditions: temperature, buffer composition, and duration of DNA enzymatic hydrolysis were selected in accordance with the instructions of the Sibenzym manufacturer.

2.4. Лигирование ПЦР-продукта (последовательность Pep-3CL-GPG) и вектора pET-GST2.4. Ligation of PCR product (Pep-3CL-GPG sequence) and pET-GST vector

Реакцию лигирования проводили в течение 30 мин. при комнатной температуре, используя смесь из 2 мкг ампликонов с ДНК-матрицы, 1 мкг векторной плазмиды и 20 е.а. ДНК-лигазы фага Т4 в прилагаемом к коммерческому набору реакционном буфере. Полученную лигазную смесь использовали для трансформирования культуры компетентных клеток Е.coli штамм Neb Stable.The ligation reaction was carried out for 30 min. at room temperature using a mixture of 2 µg of DNA template amplicons, 1 µg of vector plasmid, and 20 u.a. T4 DNA ligases in the reaction buffer supplied with the commercial kit. The resulting ligation mixture was used to transform a competent cell culture of E. coli strain Neb Stable.

2.5. Heat-shock трансформация2.5. Heat shock transformation

К «компетентным» клеткам Е. coli штамм Neb Stable добавляли 10 мкл лигазной смеси (отношение 1:10), инкубировали на льду в течение 30 мин. После этого клетки подвергали «температурному шоку» при 42°С в течение 45 сек. Охлаждали клетки на льду в течение 2 мин, затем добавляли 200 мкл среды SOB и инкубировали при 37°С в течение 60 мин. По окончании инкубации трансформированные клетки высевали на чашку Петри с твердой питательной средой LB, содержащей антибиотик.To the "competent" cells of E. coli strain Neb Stable were added 10 μl of the ligation mixture (ratio 1:10), incubated on ice for 30 min. After that, the cells were subjected to "temperature shock" at 42°C for 45 sec. The cells were cooled on ice for 2 min, then 200 µl of SOB medium was added and incubated at 37°C for 60 min. At the end of the incubation, the transformed cells were seeded on a Petri dish with a solid LB nutrient medium containing an antibiotic.

2.6. Отбор клонов для рестрикционного анализа. Клетки Е. coli штамма Neb Stable, трансформированные плазмидой селективно культивировали в 10 мл жидкой питательной среды LB с добавлением антибиотика в рабочей концентрации 25 мкг/мл.2.6. Selection of clones for restriction analysis. E. coli cells of the Neb Stable strain transformed with the plasmid were selectively cultivated in 10 ml of LB liquid nutrient medium supplemented with an antibiotic at a working concentration of 25 μg/ml.

2.7. Определение нуклеотидной последовательности ДНК2.7. Determination of the DNA nucleotide sequence

Секвенирование проводили по методу Сэнгера. Использовался набор CEQ2000Dye Terminator Cycle Sequencing Kit и 16-капилярный автоматический секвенатор ABI 3130xl.Sequencing was performed according to the Sanger method. A CEQ2000Dye Terminator Cycle Sequencing Kit and an ABI 3130xl 16-capillary automatic sequencer were used.

Пример 3. Наработка рекомбинантного белка 3CL-GPG-6HisExample 3 Production of recombinant 3CL-GPG-6His protein

Полученной плазмидой pET-GST-3CL-GPG (фиг. 1) трансформировали клетки Е. coli BL21(DE3). Индивидуальные колонии Е. coli, содержащие рекомбинантные плазмиды, культивировали в течение ночи на орбитальном шейкере в среде LB, содержащей 100 мкг/мл ампициллина, при 37°С и 180 об./мин. Инокулят в соотношении 1/100 переносили в колбу Эрленмейера, содержащую среду LB, и растили до поглощения 0,8 (при λ=600 нм). Добавляли индуктор изопропил-β-D-1-тиогалактопиранозид (ИПТГ) до конечной концентрации 1 мМ. Культуру дополнительно культивировали на шейкере в течение 5 ч при 37°С и 180 об/мин. Биомассу осаждали центрифугированием в течении 20 мин при 5000 g и 4°С. Полученный осадок растворяли в лизирующем буфере: 12 мМ Tris; 120 мМ NaCl; 0.1 mM EDTA; 1 mM DTT. Для разрушения клеточной стенки проводили ультразвуковую обработку полученного раствора. После суспензию центрифугировали при 16000g 20 минут при 4°С для отделения нерастворимой фракции. Полученные фракции анализировали при помощи электрофореза в денатурирующих условиях в 15% ПААГ. Белок находился в растворимой фракции (фиг. 2).The resulting plasmid pET-GST-3CL-GPG (Fig. 1) was transformed into E. coli BL21(DE3) cells. Individual E. coli colonies containing recombinant plasmids were cultured overnight on an orbital shaker in LB medium containing 100 μg/ml ampicillin at 37°C and 180 rpm. The inoculum at a ratio of 1/100 was transferred to an Erlenmeyer flask containing LB medium and grown to an absorbance of 0.8 (at λ=600 nm). The inducer isopropyl-β-D-1-thiogalactopyranoside (IPTG) was added to a final concentration of 1 mM. The culture was additionally cultivated on a shaker for 5 h at 37°C and 180 rpm. The biomass was precipitated by centrifugation for 20 min at 5000 g and 4°C. The resulting pellet was dissolved in lysis buffer: 12 mM Tris; 120 mM NaCl; 0.1 mM EDTA; 1mM DTT. To destroy the cell wall, ultrasonic treatment of the resulting solution was performed. After the suspension was centrifuged at 16000g for 20 minutes at 4°C to separate the insoluble fraction. The resulting fractions were analyzed by electrophoresis under denaturing conditions in 15% PAAG. The protein was in the soluble fraction (Fig. 2).

Пример 4. Очистка рекомбинантого белкаExample 4 Purification of Recombinant Protein

Супернатант, содержащий целевой белок подвергали металл-хелатной хроматографии. Для этого хроматографическую колонку с сорбентом Ni Sepharose 6 Fast Flow уравновешивали промывочным буфером, содержащим 15 мМ имидазол в PBS. Супернатант наносили на колонку из соотношения 30 мг белка на 1 мл сорбента и промывали 10 объемами промывочного буфера. Белок элюировали 3 объемами элюирующего буфера (350 мМ имидазол в PBS). Полученный элюат диализовали против 100 объемов 50 мМ Tris рН 7.5. Полученные фракции анализировали при помощи электрофореза в денатурирующих условиях в 15% ПААГ (фиг. 3).The supernatant containing the target protein was subjected to metal chelate chromatography. To do this, a chromatographic column with a Ni Sepharose 6 Fast Flow sorbent was equilibrated with a wash buffer containing 15 mM imidazole in PBS. The supernatant was applied to the column at a ratio of 30 mg of protein per 1 ml of sorbent and washed with 10 volumes of wash buffer. The protein was eluted with 3 volumes of elution buffer (350 mM imidazole in PBS). The resulting eluate was dialyzed against 100 volumes of 50 mm Tris pH 7.5. The resulting fractions were analyzed by electrophoresis under denaturing conditions in 15% PAAG (Fig. 3).

Пример 5. Анализ ферментативной активности рекомбинантого белка. Анализ ферментативной активности полученного белка проводили методом флуориметрии с использованием планшетного флуориметра CLARIOstar Plus, длины волн возбуждения - 495 нм, эмиссии - 520 нм. В качестве субстрата использовали синтетический пептид Dabcyl-VNSTLQSGLR-Lys(5FAM)-MA. Гидролиз субстрата химозином приводит к разгоранию флуоресценции из-за удаления флуорофора и тушителя. Скорость увеличения флуоресценции отражает скорость ферментативной реакции.Example 5. Analysis of the enzymatic activity of the recombinant protein. Analysis of the enzymatic activity of the resulting protein was carried out by fluorimetry using a plate fluorimeter CLARIOstar Plus, excitation wavelength - 495 nm, emission - 520 nm. The synthetic peptide Dabcyl-VNSTLQSGLR-Lys(5FAM)-MA was used as a substrate. Substrate hydrolysis with chymosin leads to fluorescence enhancement due to removal of the fluorophore and quencher. The rate of increase in fluorescence reflects the rate of the enzymatic reaction.

Реакционные смеси готовили в 384 луночном планшете, после чего инкубировали при комнатной температуре в течение 5 мин. Все измерения проводили при 25°С. Каждая лунка содержала одну реакционную смесь. Калибровку прибора проводили по раствору пептида, подвергшегося полному гидролизу. Значение флуоресценции данной смеси принимали за 80%. Реакционные смеси содержали 5 мкл Tris-HCl буфера (рН 8,0; 50 мМ Tris; 50 мМ NaCl), 2 мкл субстрата (С=33 мкг/мл). Реакцию запускали добавлением 3 мкл 3CL-GPG-6His (С=0,025 мг/мл). О ферментативной активности свидетельствовало увеличение сигнала флуоресценции. При инкубировании специфического пептидного субстрата (Dabcyl-VNSTLQSGLR-Lys(5FAM)-МА) с ферментом (протеазой 3CL-GPG-6His), происходило увеличение уровня флуоресценции до 200000 RFU (относительных единиц флуоресценции), что и позволяет судить о специфической ферментативной активности белка 3CL-GPG-6His.Reaction mixtures were prepared in 384 well plates and then incubated at room temperature for 5 min. All measurements were carried out at 25°C. Each well contained one reaction mixture. The instrument was calibrated using a peptide solution subjected to complete hydrolysis. The fluorescence value of this mixture was taken as 80%. The reaction mixtures contained 5 µl of Tris-HCl buffer (pH 8.0; 50 mM Tris; 50 mM NaCl), 2 µl of substrate (C=33 µg/ml). The reaction was started by adding 3 μl of 3CL-GPG-6His (C=0.025 mg/ml). Enzymatic activity was indicated by an increase in the fluorescence signal. When a specific peptide substrate (Dabcyl-VNSTLQSGLR-Lys(5FAM)-MA) was incubated with an enzyme (protease 3CL-GPG-6His), the fluorescence level increased to 200,000 RFU (relative fluorescence units), which makes it possible to judge the specific enzymatic activity of the protein 3CL-GPG-6His.

--->--->

ПРИЛОЖЕНИЕ APPENDIX

Перечень последовательностейSequence listing

<110> Федеральное бюджетное учреждение науки «Государственный научный центр <110> Federal budgetary institution of science "State Scientific Center

вирусологии и биотехнологии «Вектор» Федеральной службы по надзору в сфере virology and biotechnology "Vector" of the Federal Service for Supervision in the

защиты прав потребителей и благополучия человека (ФБУН ГНЦ ВБ «Вектор» protection of consumer rights and human well-being (FBUN SSC VB "Vector"

Роспотребнадзора)Rospotrebnadzor)

<120> Рекомбинантная плазмида pET-GST-3CL-GPG, обеспечивающая синтез протеазы <120> Recombinant plasmid pET-GST-3CL-GPG providing protease synthesis

3CL SARS-CoV-2 в клетках E.coli в растворимой форме.3CL SARS-CoV-2 in E. coli cells in soluble form.

<160> SEQ ID NO:3<160> SEQ ID NO:3

<210> SEQ ID NO:1<210> SEQ ID NO:1

<211> 951<211> 951

<212> DNA<212> DNA

<213> Artificial Sequence<213> Artificial Sequence

<220> <220>

<223> Нуклеотидная последовательность химерного гена 3CL-GPG-6His<223> Nucleotide sequence of the chimeric 3CL-GPG-6His gene

<400> 1<400> 1

1 AGCGGTTTTC GTAAAATGGC ATTTCCGAGC GGTAAAGTTG AAGGTTGTAT GGTTCAGGTT 1 AGCGGTTTTC GTAAAATGGC ATTTCCGAGC GGTAAAGTTG AAGGTTGTAT GGTTCAGGTT

61 ACCTGTGGCA CCACGACACT GAATGGTCTG TGGCTGGATG ATGTTGTTTA TTGTCCGCGT 61 ACCTGTGGCA CCACGACACT GAATGGTCTG TGGCTGGATG ATGTTGTTTA TTGTCCGCGT

121 CATGTTATTT GTACCAGCGA AGATATGCTG AACCCGAATT ATGAAGATCT GCTGATTCGC 121 CATGTTATTT GTACCAGCGA AGATATGCTG AACCCGAATT ATGAAGATCT GCTGATTCGC

181 AAAAGCAACC ATAATTTTCT GGTTCAGGCA GGTAATGTTC AGCTGCGTGT TATTGGTCAT 181 AAAAGCAACC ATAATTTTCT GGTTCAGGCA GGTAATGTTC AGTGCGTGT TATTGGTCAT

241 AGCATGCAGA ATTGTGTGCT GAAACTGAAA GTTGATACCG CCAATCCGAA AACGCCGAAA 241 AGCATGCAGA ATTGTGTGCT GAAACTGAAA GTTGATACCG CCAATCCGAA AACGCCGAAA

301 TATAAGTTTG TTCGTATTCA GCCTGGTCAG ACCTTTAGCG TTCTGGCATG TTATAATGGT 301 TATAAGTTTG TTCGTATTCA GCCTGGTCAG ACCTTTAGCG TTCTGGCATG TTATAATGGT

361 AGCCCGAGCG GTGTTTATCA GTGTGCAATG CGTCCGAATT TTACCATTAA AGGCAGCTTT 361 AGCCCGAGCG GTGTTTATCA GTGTGCAATG CGTCCGAATT TTACCATTAA AGGCAGCTTT

421 CTGAATGGTA GCTGTGGTAG CGTTGGTTTC AACATTGATT ATGATTGCGT GAGCTTCTGC 421 CTGAATGGTA GCTGTGGTAG CGTTGGTTTC AACATTGATT ATGATTGCGT GAGCTTCTGC

481 TATATGCATC ATATGGAACT GCCGACCGGT GTTCATGCAG GCACCGATCT GGAAGGTAAC 481 TATATGCATC ATATGGAACT GCCGACCGGT GTTCATGCAG GCACCGATCT GGAAGGTAAC

541 TTTTATGGTC CGTTTGTTGA TCGTCAGACC GCACAGGCAG CAGGTACAGA TACCACCATT 541 TTTTATGGTC CGTTTGTTGA TCGTCAGACC GCACAGGCAG CAGGTACAGA TACCACCATT

601 ACCGTTAATG TTCTGGCCTG GCTGTATGCA GCAGTTATTA ATGGTGATCG CTGGTTTCTG 601 ACCGTTAATG TTCTGGCCTG GCTGTATGCA GCAGTTATTA ATGGTGATCG CTGGTTTCTG

661 AATCGTTTTA CAACAACCCT GAACGATTTT AATCTGGTGG CCATGAAATA TAACTATGAA 661 AATCGTTTTTA CAACAACCCT GAACGATTTT AATCTGGTGG CCATGAAATA TAACTATGAA

721 CCGCTGACAC AGGATCATGT TGATATTCTG GGTCCGCTGA GCGCACAGAC CGGTATTGCA 721 CCGCTGACAC AGGATCATGT TGATATTCTG GGTCCGCTGA GCGCACAGAC CGGTATTGCA

781 GTTCTGGATA TGTGTGCAAG CCTGAAAGAA CTGTTACAGA ATGGTATGAA TGGTCGTACA 781 GTTCTGGATA TGTGTGCAAG CCTGAAAGAA CTGTTACAGA ATGGTATGAA TGGTCGTACA

841 ATTCTGGGTA GCGCACTGCT GGAAGATGAA TTCACCCCGT TTGATGTTGT GCGTCAGTGT 841 ATTCTGGGTA GCGCACTGCT GGAAGATGAA TTCACCCCGT TTGATGTTGT GCGTCAGTGT

901 AGCGGTGTTA CCTTTCAGGG ACCAGGTAGC GGTCATCATC ACCATCACCA C 901 AGCGGTGTTA CCTTTCAGGG ACCAGGTAGC GGTCATCATC ACCATCACCA C

<210> SEQ ID NO:2<210> SEQ ID NO:2

<211> 7008 п.н.<211> 7008 b.p.

<212> DNA<212> DNA

<213> Artificial Sequence<213> Artificial Sequence

<220> <220>

<223> Нуклеотидная последовательность рекомбинантной плазмиды pET-GST-3CL-GPG.<223> Nucleotide sequence of recombinant plasmid pET-GST-3CL-GPG.

<400> 2<400> 2

1 TGGCGAATGG GACGCGCCCT GTAGCGGCGC ATTAAGCGCG GCGGGTGTGG TGGTTACGCG 1 TGGCGAATGG GACGCGCCCT GTAGCGGCGC ATTAAGCGCG GCGGGTGTGG TGGTTACGCG

61 CAGCGTGACC GCTACACTTG CCAGCGCCCT AGCGCCCGCT CCTTTCGCTT TCTTCCCTTC 61 CAGCGTGACC GCTACACTTG CCAGCGCCCT AGCGCCCGCT CCTTTCGCTT TCTTCCCTTC

121 CTTTCTCGCC ACGTTCGCCG GCTTTCCCCG TCAAGCTCTA AATCGGGGGC TCCCTTTAGG 121 CTTTCTCGCC ACGTTCGCCG GCTTTCCCCG TCAAGCTCTA AATCGGGGGC TCCCTTTAGG

181 GTTCCGATTT AGTGCTTTAC GGCACCTCGA CCCCAAAAAA CTTGATTAGG GTGATGGTTC 181 GTTCCGATTT AGTGCTTTAC GGCACCTCGA CCCCAAAAAA CTTGATTAGG GTGATGGTTC

241 ACGTAGTGGG CCATCGCCCT GATAGACGGT TTTTCGCCCT TTGACGTTGG AGTCCACGTT 241 ACGTAGTGGG CCATCGCCCT GATAGACGGT TTTTCGCCCT TTGACGTTGG AGTCCACGTT

301 CTTTAATAGT GGACTCTTGT TCCAAACTGG AACAACACTC AACCCTATCT CGGTCTATTC 301 CTTTAATAGT GGACTCTTGT TCCAAACTGG AACAACACTC AACCCTATCT CGGTCTATTC

361 TTTTGATTTA TAAGGGATTT TGCCGATTTC GGCCTATTGG TTAAAAAATG AGCTGATTTA 361 TTTTGATTTA TAAGGGATTT TGCCGATTTC GGCCTATTGG TTAAAAAATG AGCTGATTTA

421 ACAAAAATTT AACGCGAATT TTAACAAAAT ATTAACGTTT ACAATTTCAG GTGGCACTTT 421 ACAAAAATTT AACGCGAATT TTAACAAAAT ATTAACGTTT ACAATTTCAG GTGGCACTTT

481 TCGGGGAAAT GTGCGCGGAA CCCCTATTTG TTTATTTTTC TAAATACATT CAAATATGTA 481 TCGGGGAAAT GTGCGCGGAA CCCCTATTTG TTTATTTTTC TAAATACATT CAAATATGTA

541 TCCGCTCATG AGACAATAAC CCTGATAAAT GCTTCAATAA TATTGAAAAA GGAAGAGTAT 541 TCCGCTCATG AGACAATAAC CCTGATAAAT GCTTCAATAA TATTGAAAAA GGAAGAGTAT

601 GAGTATTCAA CATTTCCGTG TCGCCCTTAT TCCCTTTTTT GCGGCATTTT GCCTTCCTGT 601 GAGTATTCAA CATTTCCGTG TCGCCCTTAT TCCCTTTTTT GCGGCATTTT GCCTTCCTGT

661 TTTTGCTCAC CCAGAAACGC TGGTGAAAGT AAAAGATGCT GAAGATCAGT TGGGTGCACG 661 TTTTGCTCAC CCAGAAACGC TGGTGAAAGT AAAAGATGCT GAAGATCAGT TGGGTGCACG

721 AGTGGGTTAC ATCGAACTGG ATCTCAACAG CGGTAAGATC CTTGAGAGTT TTCGCCCCGA 721 AGTGGGTTAC ATCGAACTGG ATCTCAACAG CGGTAAGATC CTTGAGAGTT TTCGCCCCGA

781 AGAACGTTTT CCAATGATGA GCACTTTTAA AGTTCTGCTA TGTGGCGCGG TATTATCCCG 781 AGAACGTTTT CCAATGATGA GCACTTTTAA AGTTCTGCTA TGTGGCGCGG TATTATCCCG

841 TATTGACGCC GGGCAAGAGC AACTCGGTCG CCGCATACAC TATTCTCAGA ATGACTTGGT 841 TATTGACGCC GGGCAAGAGC AACTCGGTCG CCGCATACAC TATTCTCAGA ATGACTTGGT

901 TGAGTACTCA CCAGTCACAG AAAAGCATCT TACGGATGGC ATGACAGTAA GAGAATTATG 901 TGAGTACTCA CCAGTCACAG AAAAGCATCT TACGGATGGC ATGACAGTAA GAGAATTATG

961 CAGTGCTGCC ATAACCATGA GTGATAACAC TGCGGCCAAC TTACTTCTGA CAACGATCGG 961 CAGTGCTGCC ATAACCATGA GTGATAACAC TGCGGCCAAC TTACTTCTGA CAACGATCGG

1021 AGGACCGAAG GAGCTAACCG CTTTTTTGCA CAACATGGGG GATCATGTAA CTCGCCTTGA 1021 AGGACCGAAG GAGCTAACCG CTTTTTTGCA CAACATGGGG GATCATGTAA CTCGCCTTGA

1081 TCGTTGGGAA CCGGAGCTGA ATGAAGCCAT ACCAAACGAC GAGCGTGACA CCACGATGCC 1081 TCGTTGGGAA CCGGAGCTGA ATGAAGCCAT ACCAAACGAC GAGCGTGACA CCACGATGCC

1141 TGCAGCAATG GCAACAACGT TGCGCAAACT ATTAACTGGC GAACTACTTA CTCTAGCTTC 1141 TGCAGCAATG GCAACAACGT TGCGCAAACT ATTAACTGGC GAACTACTTA CTCTAGCTTC

1201 CCGGCAACAA TTAATAGACT GGATGGAGGC GGATAAAGTT GCAGGACCAC TTCTGCGCTC 1201 CCGGCAACAA TTAATAGACT GGATGGAGGC GGATAAAGTT GCAGGACCAC TTCTGCGCTC

1261 GGCCCTTCCG GCTGGCTGGT TTATTGCTGA TAAATCTGGA GCCGGTGAGC GTGGGTCTCG 1261 GGCCCCTTCCG GCTGGCTGGT TTATTGCTGA TAAATCTGGA GCCGGTGAGC GTGGGTCTCG

1321 CGGTATCATT GCAGCACTGG GGCCAGATGG TAAGCCCTCC CGTATCGTAG TTATCTACAC 1321 CGGTATCATT GCAGCACTGG GGCCAGATGG TAAGCCCTCC CGTATCGTAG TTATCTACAC

1381 GACGGGGAGT CAGGCAACTA TGGATGAACG AAATAGACAG ATCGCTGAGA TAGGTGCCTC 1381 GACGGGGAGT CAGGCAACTA TGGATGAACG AAATAGACAG ATCGCTGAGA TAGGTGCCTC

1441 ACTGATTAAG CATTGGTAAC TGTCAGACCA AGTTTACTCA TATATACTTT AGATTGATTT 1441 ACTGATTAAG CATTGGTAAC TGTCAGACCA AGTTTACTCA TATATACTTT AGATTGATTT

1501 AAAACTTCAT TTTTAATTTA AAAGGATCTA GGTGAAGATC CTTTTTGATA ATCTCATGAC 1501 AAAACTTCAT TTTTAATTTA AAAGGATCTA GGTGAAGATC CTTTTTGATA ATCTCATGAC

1561 CAAAATCCCT TAACGTGAGT TTTCGTTCCA CTGAGCGTCA GACCCCGTAG AAAAGATCAA 1561 CAAAATCCCT TAACGTGAGT TTTCGTTCCA CTGAGCGTCA GACCCCGTAG AAAAGATCAA

1621 AGGATCTTCT TGAGATCCTT TTTTTCTGCG CGTAATCTGC TGCTTGCAAA CAAAAAAACC 1621 AGGATCTTCT TGAGATCCTT TTTTTCTGCG CGTAATCTGC TGCTTGCAAA CAAAAAAACC

1681 ACCGCTACCA GCGGTGGTTT GTTTGCCGGA TCAAGAGCTA CCAACTCTTT TTCCGAAGGT 1681 ACCGCTACCA GCGGTGGTTT GTTTGCCGGA TCAAGAGCTA CCAACTCTTT TTCCGAAGGT

1741 AACTGGCTTC AGCAGAGCGC AGATACCAAA TACTGTCCTT CTAGTGTAGC CGTAGTTAGG 1741 AACTGGCTTC AGCAGAGCGC AGATACCAAA TACTGTCCTT CTAGTGTAGC CGTAGTTAGG

1801 CCACCACTTC AAGAACTCTG TAGCACCGCC TACATACCTC GCTCTGCTAA TCCTGTTACC 1801 CCACCACTTC AAGAACTCTG TAGCACCGCC TACATACCTC GCTCTGCTAA TCCTGTTACC

1861 AGTGGCTGCT GCCAGTGGCG ATAAGTCGTG TCTTACCGGG TTGGACTCAA GACGATAGTT 1861 AGTGGCTGCT GCCAGTGGCG ATAAGTCGTG TCTTACCGGG TTGGACTCAA GACGATAGTT

1921 ACCGGATAAG GCGCAGCGGT CGGGCTGAAC GGGGGGTTCG TGCACACAGC CCAGCTTGGA 1921 ACCGGATAAG GCGCAGCGGT CGGGCTGAAC GGGGGGTTCG TGCACACAGC CCAGCTTGGA

1981 GCGAACGACC TACACCGAAC TGAGATACCT ACAGCGTGAG CTATGAGAAA GCGCCACGCT 1981 GCGAACGACC TACACCGAAC TGAGATACCT ACAGCGTGAG CTATGAGAAA GCGCCACGCT

2041 TCCCGAAGGG AGAAAGGCGG ACAGGTATCC GGTAAGCGGC AGGGTCGGAA CAGGAGAGCG 2041 TCCCGAAGGG AGAAAGGCGG ACAGGTATCC GGTAAGCGGC AGGGTCGGAA CAGGAGAGCG

2101 CACGAGGGAG CTTCCAGGGG GAAACGCCTG GTATCTTTAT AGTCCTGTCG GGTTTCGCCA 2101 CACGAGGGAG CTTCCAGGGG GAAACGCCTG GTATCTTTAT AGTCCTGTCG GGTTTCGCCA

2161 CCTCTGACTT GAGCGTCGAT TTTTGTGATG CTCGTCAGGG GGGCGGAGCC TATGGAAAAA 2161 CCTCTGACTT GACGTCGAT TTTTTGTGATG CTCGTCAGGG GGGCGGAGCC TATGGAAAAA

2221 CGCCAGCAAC GCGGCCTTTT TACGGTTCCT GGCCTTTTGC TGGCCTTTTG CTCACATGTT 2221 CGCCAGCAAC GCGGCCTTTT TACGGTTCCT GGCCTTTTGC TGGCCTTTTG CTCACATGTT

2281 CTTTCCTGCG TTATCCCCTG ATTCTGTGGA TAACCGTATT ACCGCCTTTG AGTGAGCTGA 2281 CTTTCCTGCG TTATCCCCTG ATTCTGTGGA TAACCGTATT ACCGCCTTTG AGTGAGCTGA

2341 TACCGCTCGC CGCAGCCGAA CGACCGAGCG CAGCGAGTCA GTGAGCGAGG AAGCGGAAGA 2341 TACCGCTCGC CGCAGCCGAA CGACCGAGCG CAGCGAGTCA GTGAGCGAGG AAGCGGAAGA

2401 GCGCCTGATG CGGTATTTTC TCCTTACGCA TCTGTGCGGT ATTTCACACC GCATATATGG 2401 GCGCCTGATG CGGTATTTTC TCCTTACGCA TCTGTGCGGT ATTTCACACC GCATATATGG

2461 TGCACTCTCA GTACAATCTG CTCTGATGCC GCATAGTTAA GCCAGTATAC ACTCCGCTAT 2461 TGCACTCTCA GTACAATCTG CTCTGATGCC GCATAGTTAA GCCAGTATAC ACTCCGCTAT

2521 CGCTACGTGA CTGGGTCATG GCTGCGCCCC GACACCCGCC AACACCCGCT GACGCGCCCT 2521 CGCTACGTGA CTGGGTCATG GCTGCGCCCC GACACCCGCC AACACCCGCT GACGCGCCCT

2581 GACGGGCTTG TCTGCTCCCG GCATCCGCTT ACAGACAAGC TGTGACCGTC TCCGGGAGCT 2581 GACGGGCTTG TCTGCTCCCG GCATCCGCTT ACAGACAAGC TGTGACCGTC TCCGGGAGCT

2641 GCATGTGTCA GAGGTTTTCA CCGTCATCAC CGAAACGCGC GAGGCAGCTG CGGTAAAGCT 2641 GCATGTGTCA GAGGTTTTCA CCGTCATCAC CGAAACGCGC GAGGCAGCTG CGGTAAAGCT

2701 CATCAGCGTG GTCGTGAAGC GATTCACAGA TGTCTGCCTG TTCATCCGCG TCCAGCTCGT 2701 CATCAGCGTG GTCGTGAAGC GATTCACAGA TGTCTGCCTG TTCATCCGCG TCCAGCTCGT

2761 TGAGTTTCTC CAGAAGCGTT AATGTCTGGC TTCTGATAAA GCGGGCCATG TTAAGGGCGG 2761 TGAGTTTCTC CAGAAGCGTT AATGTCTGGC TTCTGATAAA GCGGGCCATG TTAAGGGCGG

2821 TTTTTTCCTG TTTGGTCACT GATGCCTCCG TGTAAGGGGG ATTTCTGTTC ATGGGGGTAA 2821 TTTTTTCCTG TTTGGTCACT GATGCCTCCG TGTAAGGGGG ATTTTCTGTTC ATGGGGGTAA

2881 TGATACCGAT GAAACGAGAG AGGATGCTCA CGATACGGGT TACTGATGAT GAACATGCCC 2881 TGATACCGAT GAAACGAGAG AGGATGCTCA CGATACGGGT TACTGATGAT GAACATGCCC

2941 GGTTACTGGA ACGTTGTGAG GGTAAACAAC TGGCGGTATG GATGCGGCGG GACCAGAGAA 2941 GGTTACTGGA ACGTTGTGAG GGTAAACAAC TGGCGGTATG GATGCGGCGG GACCAGAGAA

3001 AAATCACTCA GGGTCAATGC CAGCGCTTCG TTAATACAGA TGTAGGTGTT CCACAGGGTA 3001 AAATCACTCA GGGTCAATGC CAGCGCTTCG TTAATACAGA TGTAGGTGTT CCACAGGGTA

3061 GCCAGCAGCA TCCTGCGATG CAGATCCGGA ACATAATGGT GCAGGGCGCT GACTTCCGCG 3061 GCCAGCAGCA TCCTGCGATG CAGATCCGGA ACATAATGGT GCAGGGCGCT GACTTCCGCG

3121 TTTCCAGACT TTACGAAACA CGGAAACCGA AGACCATTCA TGTTGTTGCT CAGGTCGCAG 3121 TTTCCAGACT TTACGAAACA CGGAAACCGA AGACCATTCA TGTTGTTGCT CAGGTCGCAG

3181 ACGTTTTGCA GCAGCAGTCG CTTCACGTTC GCTCGCGTAT CGGTGATTCA TTCTGCTAAC 3181 ACGTTTTGCA GCAGCAGTCG CTTCACGTTC GCTCGCGTAT CGGTGATTCA TTCTGCTAAC

3241 CAGTAAGGCA ACCCCGCCAG CCTAGCCGGG TCCTCAACGA CAGGAGCACG ATCATGCGCA 3241 CAGTAAGGCA ACCCCGCCAG CCTAGCCGGG TCCTCAACGA CAGGAGCACG ATCATGCCGCA

3301 CCCGTGGGGC CGCCATGCCG GCGATAATGG CCTGCTTCTC GCCGAAACGT TTGGTGGCGG 3301 CCCGTGGGGC CGCCATGCCG GCGATAATGG CCTGCTTCTC GCCGAAACGT TTGGTGGCGG

3361 GACCAGTGAC GAAGGCTTGA GCGAGGGCGT GCAAGATTCC GAATACCGCA AGCGACAGGC 3361 GACCAGTGAC GAAGGCTTGA GCGAGGGCGT GCAAGATTCC GAATACCGCA AGCGACAGGC

3421 CGATCATCGT CGCGCTCCAG CGAAAGCGGT CCTCGCCGAA AATGACCCAG AGCGCTGCCG 3421 CGATCATCGT CGCGCTCCAG CGAAAGCGGT CCTCGCCGAA AATGACCCAG AGCGCTGCCG

3481 GCACCTGTCC TACGAGTTGC ATGATAAAGA AGACAGTCAT AAGTGCGGCG ACGATAGTCA 3481 GCACTGTCC TACGAGTTGC ATGATAAAGA AGACAGTCAT AAGTGCGGCG ACGATAGTCA

3541 TGCCCCGCGC CCACCGGAAG GAGCTGACTG GGTTGAAGGC TCTCAAGGGC ATCGGTCGAG 3541 TGCCCCGCGC CCACCGGAAG GAGCTGACTG GGTTGAAGGC TCTCAAGGGC ATCGGTCGAG

3601 ATCCCGGTGC CTAATGAGTG AGCTAACTTA CATTAATTGC GTTGCGCTCA CTGCCCGCTT 3601 ATCCCGGTGC CTAATGAGTG AGCTAACTTA CATTAATTGC GTTGCGCTCA CTGCCCGCTT

3661 TCCAGTCGGG AAACCTGTCG TGCCAGCTGC ATTAATGAAT CGGCCAACGC GCGGGGAGAG 3661 TCCAGTCGGG AAACTGTCG TGCCAGCTGC ATTAATGAAT CGGCCAACGC GCGGGGAGAG

3721 GCGGTTTGCG TATTGGGCGC CAGGGTGGTT TTTCTTTTCA CCAGTGAGAC GGGCAACAGC 3721 GCGGTTTGCG TATTGGGCGC CAGGGTGGTT TTTCTTTTCA CCAGTGAGAC GGGCAACAGC

3781 TGATTGCCCT TCACCGCCTG GCCCTGAGAG AGTTGCAGCA AGCGGTCCAC GCTGGTTTGC 3781 TGATTGCCCT TCACCGCCTG GCCCTGAGAG AGTTGCAGCA AGCGGTCCAC GCTGGTTTGC

3841 CCCAGCAGGC GAAAATCCTG TTTGATGGTG GTTAACGGCG GGATATAACA TGAGCTGTCT 3841 CCCAGCAGGC GAAAATCCTG TTTGATGGTG GTTAACGGCG GGATATAACA TGAGCTGTCT

3901 TCGGTATCGT CGTATCCCAC TACCGAGATA TCCGCACCAA CGCGCAGCCC GGACTCGGTA 3901 TCGGTATCGT CGTATCCCAC TACCGAGATA TCCGCACCAA CGCGCAGCCC GGACTCGGTA

3961 ATGGCGCGCA TTGCGCCCAG CGCCATCTGA TCGTTGGCAA CCAGCATCGC AGTGGGAACG 3961 ATGGCGCGCA TTGCGCCCAG CGCCATCTGA TCGTTGGCAA CCAGCATCGC AGTGGGAACG

4021 ATGCCCTCAT TCAGCATTTG CATGGTTTGT TGAAAACCGG ACATGGCACT CCAGTCGCCT 4021 ATGCCCTCAT TCAGCATTTG CATGGTTTGT TGAAAACCGG ACATGGCACT CCAGTCGCCT

4081 TCCCGTTCCG CTATCGGCTG AATTTGATTG CGAGTGAGAT ATTTATGCCA GCCAGCCAGA 4081 TCCCCGTTCCG CTATCGGCTG AATTTGATTG CGAGTGAGAT ATTTATGCCA GCCAGCCAGA

4141 CGCAGACGCG CCGAGACAGA ACTTAATGGG CCCGCTAACA GCGCGATTTG CTGGTGACCC 4141 CGCAGACGCG CCGAGACAGA ACTTAATGGG CCCGCTAACA GCGCGATTTG CTGGTGACCC

4201 AATGCGACCA GATGCTCCAC GCCCAGTCGC GTACCGTCTT CATGGGAGAA AATAATACTG 4201 AATGCGACCA GATGCTCCAC GCCCAGTCGC GTACCGTCTT CATGGGAGAA AATAATACTG

4261 TTGATGGGTG TCTGGTCAGA GACATCAAGA AATAACGCCG GAACATTAGT GCAGGCAGCT 4261 TTGATGGGTG TCTGGTCAGA GACATCAAGA AATAACGCCG GAACATTAGT GCAGGCAGCT

4321 TCCACAGCAA TGGCATCCTG GTCATCCAGC GGATAGTTAA TGATCAGCCC ACTGACGCGT 4321 TCCACAGCAA TGGCATCCTG GTCATCCAGC GGATAGTTAA TGATCAGCCC ACTGACGCGT

4381 TGCGCGAGAA GATTGTGCAC CGCCGCTTTA CAGGCTTCGA CGCCGCTTCG TTCTACCATC 4381 TGCGCGAGAA GATTGTGCAC CGCCGCTTTA CAGGCTTCGA CGCCGCTTCG TTCTACCATC

4441 GACACCACCA CGCTGGCACC CAGTTGATCG GCGCGAGATT TAATCGCCGC GACAATTTGC 4441 GACACCACCA CGCTGGCACC CAGTTGATCG GCGCGAGATT TAATCGCCGC GACAATTTGC

4501 GACGGCGCGT GCAGGGCCAG ACTGGAGGTG GCAACGCCAA TCAGCAACGA CTGTTTGCCC 4501 GACGGCGCGT GCAGGGCCAG ACTGGAGGTG GCAACGCCAA TCAGCAACGA CTGTTTGCCC

4561 GCCAGTTGTT GTGCCACGCG GTTGGGAATG TAATTCAGCT CCGCCATCGC CGCTTCCACT 4561 GCCAGTTGTT GTGCCACGCG GTTGGGAATG TAATTCAGCT CCGCCATCGC CGCTTCCACT

4621 TTTTCCCGCG TTTTCGCAGA AACGTGGCTG GCCTGGTTCA CCACGCGGGA AACGGTCTGA 4621 TTTTCCCGCG TTTTCGCAGA AACGTGGCTG GCCTGGTTCA CCACGCGGGA AACGGTCTGA

4681 TAAGAGACAC CGGCATACTC TGCGACATCG TATAACGTTA CTGGTTTCAC ATTCACCACC 4681 TAAGAGACAC CGGCATACTC TGCGACATCG TATAACGTTA CTGGTTTCAC ATTCACCACC

4741 CTGAATTGAC TCTCTTCCGG GCGCTATCAT GCCATACCGC GAAAGGTTTT GCGCCATTCG 4741 CTGAATTGAC TCCTTCTCCGG GCGCTATCAT GCCATACCGC GAAAGGTTTT GCGCCATTCG

4801 ATGGTGTCCG GGATCTCGAC GCTCTCCCTT ATGCGACTCC TGCATTAGGA AGCAGCCCAG 4801 ATGGTGTCCG GGATCTCGAC GCTCTCCCTT ATGCGACTCC TGCATTAGGA AGCAGCCCAG

4861 TAGTAGGTTG AGGCCGTTGA GCACCGCCGC CGCAAGGAAT GGTGCATGCA AGGAGATGGC 4861 TAGTAGGTTG AGGCCGTTGA GCACCGCCGC CGCAAGGAAT GGTGCATGCA AGGAGATGGC

4921 GCCCAACAGT CCCCCGGCCA CGGGGCCTGC CACCATACCC ACGCCGAAAC AAGCGCTCAT 4921 GCCCAACAGT CCCCCGGCCA CGGGGCCTGC CACCATACCC ACGCCGAAAC AAGCGCTCAT

4981 GAGCCCGAAG TGGCGAGCCC GATCTTCCCC ATCGGTGATG TCGGCGATAT AGGCGCCAGC 4981 GAGCCCGAAG TGGCGAGCCC GATCTTCCCC ATCGGTGATG TCGGCGATAT AGGCGCCAGC

5041 AACCGCACCT GTGGCGCCGG TGATGCCGGC CACGATGCGT CCGGCGTAGA GGATCGAGAT 5041 AACCGCACCT GTGGCGCCGG TGATGCCGGC CACGATCGCGT CCGGCGTAGA GGATCGAGAT

5101 CTCGATCCCG CGAAATTAAT ACGACTCACT ATAGGGGAAT TGTGAGCGGA TAACAATTCC 5101 CTCGATCCCG CGAAATTAAT ACGACTCACT ATAGGGGAAT TGTGAGCGGA TAACAATTCC

5161 CCTCTAGAAA TAATTTTGTT TAACTTTAAG AAGGAGATAT ACATATGTCC CCTATACTAG 5161 CCTTAGAAA TAATTTTGTT TAACTTTAAG AAGGAGATAT ACATATGTCC CCTATACTAG

5221 GTTATTGGAA AATTAAGGGC CTTGTGCAAC CCACTCGACT TCTTTTGGAA TATCTTGAAG 5221 GTTATTGGAA AATTAAGGGC CTTGTGCAAC CCACTCGACT TCTTTTGGAA TATCTTGAAG

5281 AAAAATATGA AGAGCATTTG TATGAGCGCG ATGAAGGTGA TAAATGGCGA AACAAAAAGT 5281 AAAAATATGA AGAGCATTTG TATGAGCGCG ATGAAGGTGA TAAATGGCGA AACAAAAAGT

5341 TTGAATTGGG TTTGGAGTTT CCCAATCTTC CTTATTATAT TGATGGTGAT GTTAAATTAA 5341 TTGAATTGGG TTTGGAGTTT CCCAATCTTC CTTATTATAT TGATGGTGAT GTTAAATTAA

5401 CACAGTCTAT GGCCATCATA CGTTATATAG CTGACAAGCA CAACATGTTG GGTGGTTGTC 5401 CACAGTCTAT GGCCATCATA CGTTATATAG CTGACAAGCA CAACATGTTG GGTGGTTGTC

5461 CAAAAGAGCG TGCAGAGATT TCAATGCTTG AAGGAGCGGT TTTGGATATT AGATACGGTG 5461 CAAAAGAGCG TGCAGAGATT TCAATGCTTG AAGGAGCGGT TTTGGATATT AGATACGGTG

5521 TTTCGAGAAT TGCATATAGT AAAGACTTTG AAACTCTCAA AGTTGATTTT CTTAGCAAGC 5521 TTTCGAGAAT TGCATATAGT AAAGACTTTG AAACTCTCAA AGTTGATTTT CTTAGCAAGC

5581 TACCTGAAAT GCTGAAAATG TTCGAAGATC GTTTATGTCA TAAAACATAT TTAAATGGTG 5581 TACCTGAAAT GCTGAAAATG TTCGAAGATC GTTTATGTCA TAAAACATAT TTAAATGGTG

5641 ATCATGTAAC CCATCCTGAC TTCATGTTGT ATGACGCTCT TGATGTTGTT TTATACATGG 5641 ATCATGTAAC CCATCCTGAC TTCATGTTGT ATGACGCTCT TGATGTTGTT TTATACATGG

5701 ACCCAATGTG CCTGGATGCG TTCCCAAAAT TAGTTTGTTT TAAAAAACGT ATTGAAGCTA 5701 ACCCAATGTG CCTGGATGCG TTCCCAAAAT TAGTTTGTTT TAAAAAACGT ATTGAAGCTA

5761 TCCCACAAAT TGATAAGTAC TTGAAATCCA GCAAGTATAT AGCATGGCCT TTGCAGGGCT 5761 TCCCACAAAT TGATAAGTAC TTGAAATCCA GCAAGTATAT AGCATGGCCT TTGCAGGGCT

5821 GGCAAGCCAC GTTTGGTGGT GGCGACCATC CTCCAAAAGG ATCCACCTCA GCTGTTTTGC 5821 GGCAAGCCAC GTTTGGTGGT GGCGACCATC CTCCAAAAGG ATCCACCTCA GCTGTTTTGC

5881 AGAGCGGTTT TCGTAAAATG GCATTTCCGA GCGGTAAAGT TGAAGGTTGT ATGGTTCAGG 5881 AGAGCGGTTT TCGTAAAATG GCATTTCCGA GCGGTAAAGT TGAAGGTTGT ATGGTTCAGG

5941 TTACCTGTGG CACCACGACA CTGAATGGTC TGTGGCTGGA TGATGTTGTT TATTGTCCGC 5941 TTACCTGTGG CACCACGACA CTGAATGGTC TGTGGCTGGA TGATGTTGTT TATTGTCCGC

6001 GTCATGTTAT TTGTACCAGC GAAGATATGC TGAACCCGAA TTATGAAGAT CTGCTGATTC 6001 GTCATGTTAT TTGTACCAGC GAAGATATGC TGAACCCGAA TTATGAAGAT CTGCTGATTC

6061 GCAAAAGCAA CCATAATTTT CTGGTTCAGG CAGGTAATGT TCAGCTGCGT GTTATTGGTC 6061 GCAAAAGCAA CCATAATTTT CTGGTTCAGG CAGGTAATGT TCAGCTGCGT GTTATTGGTC

6121 ATAGCATGCA GAATTGTGTG CTGAAACTGA AAGTTGATAC CGCCAATCCG AAAACGCCGA 6121 ATAGCATGCA GAATTGTGTG CTGAAACTGA AAGTTGATAC CGCCAATCCG AAAACGCCGA

6181 AATATAAGTT TGTTCGTATT CAGCCTGGTC AGACCTTTAG CGTTCTGGCA TGTTATAATG 6181 AATATAAGTT TGTTCGTATT CAGCCTGGTC AGACCTTTAG CGTTCTGGCA TGTTATAATG

6241 GTAGCCCGAG CGGTGTTTAT CAGTGTGCAA TGCGTCCGAA TTTTACCATT AAAGGCAGCT 6241 GTAGCCCGAG CGGTGTTTAT CAGTGTGCAA TGCGTCCGAA TTTTACCATT AAAGGCAGCT

6301 TTCTGAATGG TAGCTGTGGT AGCGTTGGTT TCAACATTGA TTATGATTGC GTGAGCTTCT 6301 TTCTGAATGG TAGCTGTGGT AGCGTTGGTT TCAACATTGA TTATGATTGC GTGAGCTTCT

6361 GCTATATGCA TCATATGGAA CTGCCGACCG GTGTTCATGC AGGCACCGAT CTGGAAGGTA 6361 GCTATATGCA TCATATGGAA CTGCCGACCG GTGTTCATGC AGGCACCGAT CTGGAAGGTA

6421 ACTTTTATGG TCCGTTTGTT GATCGTCAGA CCGCACAGGC AGCAGGTACA GATACCACCA 6421 ACTTTTATGG TCCGTTTGTT GATCGTCAGA CCGCACAGGC AGCAGGTACA GATACCACCA

6481 TTACCGTTAA TGTTCTGGCC TGGCTGTATG CAGCAGTTAT TAATGGTGAT CGCTGGTTTC 6481 TTACCGTTAA TGTTCTGGCC TGGCTGTATG CAGCAGTTAT TAATGGTGAT CGCTGGTTTC

6541 TGAATCGTTT TACAACAACC CTGAACGATT TTAATCTGGT GGCCATGAAA TATAACTATG 6541 TGAATCGTTT TACAACAACC CTGAACGATT TTAATCTGGT GGCCATGAAA TATAACTATG

6601 AACCGCTGAC ACAGGATCAT GTTGATATTC TGGGTCCGCT GAGCGCACAG ACCGGTATTG 6601 AACCGCTGAC ACAGGATCAT GTTGATATTC TGGGTCCGCT GAGCGCACAG ACCGGTATTG

6661 CAGTTCTGGA TATGTGTGCA AGCCTGAAAG AACTGTTACA GAATGGTATG AATGGTCGTA 6661 CAGTTCTGGA TATGTGTGCA AGCCTGAAAG AACTGTTACA GAATGGTATG AATGGTCGTA

6721 CAATTCTGGG TAGCGCACTG CTGGAAGATG AATTCACCCC GTTTGATGTT GTGCGTCAGT 6721 CAATTCTGGG TAGCGCACTG CTGGAAGATG AATTCACCCC GTTTGATGTT GTGCGTCAGT

6781 GTAGCGGTGT TACCTTTCAG GGACCAGGTA GCGGTCATCA TCACCATCAC CACTAAGCGG 6781 GTAGCGGTGT TACCTTTCAG GGACCAGGTA GCGGTCATCA TCACCATCAC CACTAAAGCGG

6841 CCGCACTCGA GCACCACCAC CACCACCACT GAGATCCGGC TGCTAACAAA GCCCGAAAGG 6841 CCGCACTCGA GCACCACCAC CACCACCACT GAGATCCGGC TGCTAACAAA GCCCGAAAGG

6901 AAGCTGAGTT GGCTGCTGCC ACCGCTGAGC AATAACTAGC ATAACCCCTT GGGGCCTCTA 6901 AAGCTGAGTT GGCTGCTGCC ACCGCTGAGC AATAACTAGC ATAACCCCTT GGGGCCTCTA

6961 AACGGGTCTT GAGGGGTTTT TTGCTGAAAG GAGGAACTAT ATCCGGAT 6961 AACGGGTCTT GAGGGGTTTT TTGCTGAAAG GAGGAACTAT ATCCGGAT

<210> SEQ ID NO:3<210> SEQ ID NO:3

<211> 317 а.о.<211> 317 a.a.

<212> DNA<212> DNA

<213> Artificial Sequence<213> Artificial Sequence

<220> <220>

<223> Аминокислотная последовательность рекомбинантного белка 3CL-GPG-6His<223> Amino acid sequence of recombinant protein 3CL-GPG-6His

<400> 3<400> 3

1 SGFRKMAFPS GKVEGCMVQV TCGTTTLNGL WLDDVVYCPR HVICTSEDML NPNYEDLLIR 1 SGFRKMAFPS GKVEGCMVQV TCGTTTLNGL WLDDVVYCPR HVICTSEDML NPNYEDLLIR

61 KSNHNFLVQA GNVQLRVIGH SMQNCVLKLK VDTANPKTPK YKFVRIQPGQ TFSVLACYNG 61 KSNHNFLVQA GNVQLRVIGH SMQNCVLKLK VDTANPKTPK YKFVRIQPGQ TFSVLACYNG

121 SPSGVYQCAM RPNFTIKGSF LNGSCGSVGF NIDYDCVSFC YMHHMELPTG VHAGTDLEGN 121 SPSGVYQCAM RPNFTIKGSF LNGSCGSVGF NIDYDCVSFC YMHHMELPTG VHAGTDLEGN

181 FYGPFVDRQT AQAAGTDTTI TVNVLAWLYA AVINGDRWFL NRFTTTLNDF NLVAMKYNYE 181 FYGPFVDRQT AQAAGTDTTI TVNVLAWLYA AVINGDRWFL NRFTTTLNDF NLVAMKYNYE

241 PLTQDHVDIL GPLSAQTGIA VLDMCASLKE LLQNGMNGRT ILGSALLEDE FTPFDVVRQC 241 PLTQDHVDIL GPLSAQTGIA VLDMCASLKE LLQNGMNGRT ILGSALLEDE FTPFDVVRQC

301 SGVTFQGPGS GHHHHHH 301 SGVTFQGPGS GHHHHHH

<---<---

Claims

Recombinant plasmid pET-GST-3CL-GPG, which provides the synthesis and transport of SARS-CoV-2 3CL protease into the periplasmic space of E. coli cells in a soluble form, having a 7008 bp nucleotide sequence of SEQ ID NO: 2. and containing in accordance with the physical and genetic map presented in Fig. 1, the following items:

- AmpR promoter, having coordinates from 494 to 598 bp;

- a genetic marker that determines the resistance to ampicillin of E. coli bacteria cells transformed with the recombinant AmpR plasmid, having coordinates from 599 to 1459 bp;

- site of origin of replication ori, having coordinates from 1630 to 2218 bp;

- lacI - DNA-binding protein that inhibits the expression of E. coli genes, which ensures the expression of the target recombinant protein 3CL-GPG-6His after the addition of the inducer isopropyl-β-D-1-thiogalactopyranoside (IPTG), having coordinates from 3648 to 4730 bp .;

- lacI promoter, having coordinates from 4731 to 4808 bp;

- T7 phage promoter, having coordinates from 5117 to 5135 bp. and providing expression of the GST-3CL-GPG gene sequence in E. coli cells;

- lac operator, having coordinates from 5136 to 5160 bp;

- RBS - ribosome binding site, having coordinates from 5191 to 5196 bp;

- GST gene - glutathione-S-transferase from Shistosoma japonicum, having coordinates from 5205 to 5857 bp;

- Pep - region encoding the GSTSAVLQ peptide, having coordinates from 5859 to 5882 bp;

- chimeric gene 3CL SARS-CoV-2, which also includes the sequence of GPG and 6His, having the nucleotide sequence of SEQ ID NO: 1, coordinates from 5883 to 6833 p. and encoding the synthesis of the protease 3CL-GPG-6His with the amino acid sequence of SEQ ID NO: 3;

- T7 terminator, having coordinates from 6936 to 6983 b.p.