RU2803566C2 - Неоантигенные векторы на основе альфавируса - Google Patents

Неоантигенные векторы на основе альфавируса Download PDF

Info

Publication number
RU2803566C2
RU2803566C2 RU2019138741A RU2019138741A RU2803566C2 RU 2803566 C2 RU2803566 C2 RU 2803566C2 RU 2019138741 A RU2019138741 A RU 2019138741A RU 2019138741 A RU2019138741 A RU 2019138741A RU 2803566 C2 RU2803566 C2 RU 2803566C2
Authority
RU
Russia
Prior art keywords
sequence
neoantigen
nucleic acid
antigen
acid sequence
Prior art date
Application number
RU2019138741A
Other languages
English (en)
Other versions
RU2019138741A (ru
RU2019138741A3 (ru
Inventor
Уэйд БЛЭЙР
Карин ЙОСС
Эми Рейчел РАППАПОРТ
Сиаран Даниэл СКАЛЛАН
Леонид ГИТЛИН
Original Assignee
Гритстоун Био, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Гритстоун Био, Инк. filed Critical Гритстоун Био, Инк.
Priority claimed from PCT/US2018/031696 external-priority patent/WO2018208856A1/en
Publication of RU2019138741A publication Critical patent/RU2019138741A/ru
Publication of RU2019138741A3 publication Critical patent/RU2019138741A3/ru
Application granted granted Critical
Publication of RU2803566C2 publication Critical patent/RU2803566C2/ru

Links

Abstract

Группа изобретений относится к биотехнологии. Представлены: неоантигенная экспрессионная система, содержащая один или более векторов, причем один или более векторов содержат: РНК-остов альфавируса, где РНК-остов альфавируса содержит последовательности РНК-остова альфавируса, которые позволяют осуществлять саморепликацию вирусного генома, фармацевтическая композиция и их применения для лечения рака и для стимуляции иммунного ответа у субъекта. Настоящие изобретения могут быть эффективно применены в качестве вакцин. 4 н. и 19 з.п. ф-лы, 38 ил., 31 табл.

Description

ПЕРЕЧЕНЬ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
[0001] Данная заявка содержит Перечень Последовательностей, который был подан через EFS-Web, и включен в данный документ в полном объеме посредством ссылки. Указанная копия ASCII, созданная 19 июня 2018 г., называется 40317WO_CRF_sequencelisting.txt, а ее размер составляет 470747 байт.
УРОВЕНЬ ТЕХНИКИ
[0002] Терапевтические вакцины, основанные на опухолеспецифических неоантигенах, имеют большие перспективы в качестве следующего поколения персонализированной иммунотерапии рака. 1-3 Виды рака с высокой мутационной нагрузкой, такие как немелкоклеточный рак легкого (НМРЛ) и меланома, являются особенно привлекательными мишенями для такой терапии, учитывая относительно большую вероятность генерации неоантигена. 4,5 Ранние данные показывают, что вакцинация на основе неоантигена может вызывать Т-клеточные ответы6 и что клеточная терапия, нацеленная на неоантиген, может вызвать регрессию опухоли при определенных обстоятельствах у отдельных пациентов. 7
[0003] Одним из вопросов, касающихся проектирования неоантигенной вакцины, является вопрос, какая из множества мутаций кодирования, присутствующих в опухолях субъекта, может генерировать "лучшие" терапевтические неоантигены, например, антигены, которые могут вызывать противоопухолевый иммунитет и вызывать регрессию опухоли.
[0004] Были предложены начальные способы, включающие анализ на основе мутаций с применением сиквенирования следующего поколения, экспрессии генов РНК и прогнозирования аффинности связывания ГКГС потенциальных неоантигенных пептидов8. Однако эти предлагаемые способы могут не смоделировать весь процесс генерации эпитопа, который содержит много этапов (например, транспорт ТАР, протеасомальное расщепление и/или распознавание РТК (рецептором Т-клетки)) в дополнение к экспрессии генов и связыванию МНС9. Следовательно, существующие способы, вероятно, будут страдать от снижения или низкого положительного предсказуемого значения (PPV - positive predictive value). (Фигура 1А)
[0005] Действительно, анализ пептидов, представленных опухолевыми клетками, проведенный множественными группами, показал, что<5% пептидов, которые, как предсказывают, будут представлены с применением экспрессии генов и аффинности связывания ГКГС, могут быть обнаружены на поверхности опухоли ГКГС10,11 (Фигура 1В). Эта низкая корреляция между предсказанием связывания и презентацией ГКГС была дополнительно подтверждена недавними наблюдениями о недостаточном улучшении точности предсказания ограниченных по связыванию неоантигенов для ответа ингибитора контрольной точки по сравнению с количеством мутаций, взятым отдельно. 12
[0006] Это низкое положительное предсказуемое значение (PPV) существующих способов прогнозирования представляет проблему для разработки вакцин на основе неоантигена. Если вакцины разрабатываются с применением прогнозов с низким PPV, большинство пациентов вряд ли получат терапевтический неоантиген, и, тем не менее, меньшее число будет получать больше одного (даже если предположить, что все представленные пептиды являются иммуногенными). Таким образом, вакцинация неоантигеном современными способами вряд ли будет успешной у значительного числа субъектов, имеющих опухоли. (Фигура 1С)
[0007] Кроме того, предыдущие подходы генерировали кандидатные неоантигены, применяя только cis-действующие мутации, и в значительной степени не учитывались дополнительные источники нео-ОРС (открытая рамка считывания), включая мутации в факторах сплайсинга, которые встречаются во множественных типах опухолей и приводят к аберрантному сплайсингу многих генов13, и мутации, которые создают или удаляют сайты расщепления протеазой.
[0008] Наконец, стандартные подходы к анализу генома и транскриптома опухоли могут пропускать соматические мутации, которые приводят к появлению кандидатных неоантигенов из-за неоптимальных условий при создании библиотеки, захвате экзома и транскриптома, сиквенировании или анализе данных. Аналогичным образом, стандартные подходы к анализу опухолей могут непреднамеренно продвигать артефакты последовательностей или полиморфизмы зародышевой линии в качестве неоантигенов, что приводит к неэффективному применению потенциала вакцины или риску аутоиммунности, соответственно.
[0009] В дополнение к сложностям современных способов прогнозирования неоантигена существуют определенные проблемы с доступными векторными системами, которые можно применять для доставки неоантигена людям, многие из которых получены от людей. Например, многие люди имеют ранее существовавший иммунитет к вирусам человека в результате предыдущего естественного воздействия, и этот иммунитет может быть главным препятствием для применения рекомбинантных вирусов человека для доставки неоантигена с целью лечения рака.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0010] В данном документе описана композиция для доставки неоантигенной экспрессионной системы, содержащая: неоантигенную экспрессионную систему, причем неоантигенная экспрессионная система содержит один или более векторов, а один или более векторов содержат: (а) РНК-остов альфавируса, причем РНК-остов альфавируса содержит: (i) по меньшей мере одну нуклеотидную последовательность промотора и (ii) по меньшей мере одну последовательность полиаденилирования (поли(А)); и (b) неоантигенную кассету, причем неоантигенная кассета содержит: (i) по меньшей мере одну кодирующую неоантиген последовательность нуклеиновой кислоты, полученную из опухоли, присутствующей у субъекта, содержащую: (I) по меньшей мере одну последовательность нуклеиновой кислоты, кодирующую опухолеспецифический и субъект-специфический ГКГС класс I неоантиген, полученную из опухоли и содержащую: (А) последовательность нуклеиновой кислоты, кодирующую ГКГС класс I эпитоп с по меньшей мере одним изменением, которое отличает кодируемую пептидную последовательность от соответствующей пептидной последовательности, кодируемой последовательностью нуклеиновой кислоты дикого типа, и (В) необязательно, 5'-линкерную последовательность и (С) необязательно, 3'-линкерную последовательность; (ii) необязательно, вторую последовательность промотора, функционально связанную с кодирующей неоантиген последовательностью нуклеиновой кислоты; и (iii) необязательно, по меньшей мере одну последовательность нуклеиновой кислоты, кодирующую ГКГС класс II антиген; (iv) необязательно, по меньшей мере одну последовательность нуклеиновой кислоты, кодирующую аминокислотную линкерную последовательность GPGPG (SEQ ID NO: 56); и (v) необязательно, по меньшей мере одну вторую последовательность поли(А), причем вторая последовательность поли(А) представляет собой нативную последовательность поли(А) или экзогенную последовательность поли(А) для альфавируса.
[0011] В данном документе также описана композиция для доставки неоантигенной экспрессионной системы, содержащая: неоантигенную экспрессионную систему, причем неоантигенная экспрессионная система содержит один или более векторов, а один или более векторов содержат: (а) РНК-остов альфавируса, причем РНК-остов альфавируса содержит последовательность нуклеиновой кислоты, приведенную в SEQ ID NO: 6, причем последовательность РНК-остова альфавируса содержит нуклеотидную последовательность промотора 26S и последовательность поли(А), причем последовательность промотора 26S является эндогенной для РНК-остова альфавируса и причем последовательность поли(А) является эндогенной для РНК-остова альфавируса; и (b) неоантигенную кассету, интегрированную между нуклеотидной последовательностью промотора 26S и последовательностью поли(А), причем неоантигенная кассета содержит: (i) по меньшей мере одну кодирующую неоантиген последовательность нуклеиновой кислоты, полученную из опухоли, присутствующей у субъекта, содержащую: (I) по меньшей мере 10 последовательностей нуклеиновых кислот, кодирующих опухолеспецифический и субъект-специфический ГКГС класс I неоантиген, линейно связанных друг с другом, при этом каждая из них содержит: (А) последовательность нуклеиновой кислоты, кодирующую ГКГС класс I эпитоп с по меньшей мере одним изменением, которое отличает кодируемую пептидную последовательность от соответствующей пептидной последовательности, кодируемой последовательностью нуклеиновой кислоты дикого типа, причем последовательность нуклеиновой кислоты, кодирующая ГКГС класс I эпитоп, кодирует ГКГС класс I эпитоп длиной 7-15 минокислот, (В) 5'-линкерную последовательность, причем 5'-линкерная последовательность кодирует нативную N-концевую аминокислотную последовательность ГКГС класс I эпитопа и причем 5'-линкерная последовательность кодирует пептид длиной по меньшей мере в 3 аминокислоты, (С) 3'-линкерную последовательность, причем 3'-линкерная последовательность кодирует нативную N-концевую аминокислотную последовательность ГКГС класс I эпитопа и причем 3'-линкерная последовательность кодирует пептид длиной по меньшей мере в 3 аминокислоты, и причем неонтигенная кассета функционально связана с нуклеотидной последовательность промотора 26S, причем каждая из последовательностей нуклеиновых кислот, кодирующих ГКГС класс I неоантиген, кодирует полипептид длиной 13-25 аминокислот, и причем каждый 3' конец каждой последовательности нуклеиновой кислоты, кодирующей ГКГС класс I неоантиген, связан с 5' концом следующей последовательности нуклеиновой кислоты, кодирующей ГКГС класс I неоантиген, за исключением последней последовательности нуклеиновой кислоты, кодирующей ГКГС класс I неоантиген, в неоантигенной кассете; и (ii) по меньшей мере две последовательности нуклеиновых кислот, кодирующие ГКГС класс II антиген, содержащие: (I) последовательность ГКГС класс II PADRE (SEQ ID NO: 48), (II) последовательность ГКГС класс II столбнячного анатоксина (SEQ ID NO: 46), (III) первую последовательность нуклеиновой кислоты, кодирующую аминокислотную линкерную последовательность GPGPG (SEQ ID NO: 56), связывающую последовательность ГКГС класс II PADRE и последовательность ГКГС класс II столбнячного анатоксина, (IV) вторую последовательность нуклеиновой кислоты, кодирующую аминокислотную линкерную последовательность GPGPG (SEQ ID NO: 56), связывающую 5' конец по меньшей мере двух последовательностей нуклеиновых кислот, кодирующих ГКГС класс II антиген, с по меньшей мере 20 последовательностями нуклеиновых кислот, кодирующими опухолеспецифический и субъект-специфический ГКГС класс I неоантиген, (V) необязательно, третью последовательность нуклеиновой кислоты, кодирующую аминокислотную линкерную последовательность GPGPG (SEQ ID NO: 56) в 3' конце по меньшей мере двух последовательностей нуклеиновых кислот, кодирующих ГКГС класс II антиген.
[0012] В некоторых аспектах упорядоченная последовательность каждого элемента неоантигенной кассеты описана в формуле от 5' к 3' и содержит:
Pa-(L5b-Nc-L3d)X-(G5e-Uf)Y-G3g
[0013] где Р содержит нуклеотидную последовательность второго промотора, где а=0 или 1, N содержит одну из последовательностей нуклеиновых кислот, кодирующих ГКГС класс I эпитоп, где с=1, L5 содержит 5' линкерную последовательность, где b=0 или 1, L3 содержит 3' линкерную последовательность, где d=0 или 1, G5 содержит одну из по меньшей мере одной последовательности нуклеиновой кислоты, кодирующей аминокислотный линкер GPGPG (SEQ ID NO: 56), где e=0 или 1, G3 содержит одну из по меньшей мере одной последовательности нуклеиновой кислоты, кодирующей аминокислотный линкер GPGPG (SEQ ID NO: 56), где g=0 или 1, U содержит одну из по меньшей мере одной последовательности нуклеиновой кислоты, кодирующей ГКГС класс II антиген, где f=1, X=1-400, где в случае каждого X соответствующий Nc представляет собой кодирующую эпитоп последовательность нуклеиновой кислоты, a Y=0, 1 или 2, где в случае каждого Y соответствующий Uf представляет собой кодирующую антиген последовательность нуклеиновой кислоты. В некоторых аспектах в случае каждого X соответствующий Nc представляет собой последовательность нуклеиновой кислоты, кодирующую отличный ГКГС класс I эпитоп. В некоторых аспектах в случае каждого Y соответствующий Uf представляет собой последовательность нуклеиновой кислоты, кодирующую отличный ГКГС класс II эпитоп.
[0014] В некоторых аспектах а=0, b=1, d=1, е=1, g=1, h=1, X=20, Y=2, по меньшей мере одна нуклеотидная последовательность промотора представляет собой нуклеотидную последовательность промотора 26S, входящую в РНК-остов альфавируса, по меньшей мере одна последовательность полиаденилирования поли(А) представляет собой последовательность поли(А) из по меньшей мере 100 последовательных нуклеотидов А, входящую в РНК-остов альфавируса, каждый N кодирует ГКГС класс I эпитоп длиной 7-15 аминокислот, L5 представляет собой нативную 5' линкерную последовательность, которая кодирует нативную N-концевую аминокислотную последовательность ГКГС класс I эпитопа и при этом 5' линкерная последовательность кодирует пептид длиной по меньшей мере 3 аминокислоты, L3 представляет собой нативную 3' линкерную последовательность, которая кодирует нативную N-концевую аминокислотную последовательность ГКГС класс I эпитопа и при этом 3' линкерная последовательность кодирует пептид длиной по меньшей мере 3 аминокислоты, U представляет собой каждую из последовательности класс II PADRE и последовательности ГКГС класс II столбнячного анатоксина, РНК-остов альфавируса представляет собой последовательность, приведенную в SEQ ID NO: 6, а каждая из последовательностей нуклеиновых кислот, кодирующих ГКГС класс I неоантиген, кодирует полипептид длиной 13-25 аминокислот.
[0015] В некоторых аспектах любая из вышеприведенных композиций дополнительно содержит средство доставки в форме наночастиц. Средство доставки в форме наночастиц, в некоторых аспектах, может представлять собой липидную наночастицу (ЛНЧ). В некоторых аспектах ЛНЧ содержит ионизируемые аминолипиды. В некоторых аспектах ионизируемые аминолипиды содержат МС3-подобные (дилинолеилметил-4-диметиламинобутират) молекулы. В некоторых аспектах средство доставки в форме наночастиц инкапсулирует неоантигенную экспрессионную систему.
[0016] В некоторых аспектах любая из вышеприведенных композиций дополнительно содержит множество ЛНЧ, причем ЛНЧ содержат: неоантигенную экспрессионную систему; катионный липид; некатионный липид; и конъюгированный липид, который ингибирует агрегацию ЛНЧ, при этом около 95% ЛНЧ из множества ЛНЧ имеют не ламеллярную морфологию; или являются электронно-плотными.
[0017] В некоторых аспектах некатионный липид представляет собой смесь (1) фосфолипида и (2) холестерина или производного холестерина.
[0018] В некоторых аспектах конъюгированный липид, который ингибирует агрегацию ЛНЧ, представляет собой конъюгат полиэтиленгликоля (ПЭГ) и липида. В некоторых аспектах конъюгат ПЭГ-липид выбран из группы, состоящей из: конъюгата ПЭГ-диацилглицерин (ПЭГ-ДАГ), конъюгата ПЭГ-диалкилоксипропил (ПЭГ-ДАП), конъюгата ПЭГ-фосфолипид, конъюгата ПЭГ-церамид (ПЭГ-Цер) и их смеси. В некоторых аспектах конъюгат ПЭГ-ДАП является представителем группы, состоящей из: конъюгата ПЭГ-дидецилоксипропил (С10), конъюгата ПЭГ-дилаурилоксипропил (С12), конъюгата ПЭГ-димиристилоксипропил (С14), конъюгата ПЭГ-дипальмитилоксипропил (C16), конъюгата ПЭГ-дистеарилоксипропил (C18) и их смеси.
[0019] В некоторых аспектах неоантигенная экспрессионная система полностью инкапсулирована в ЛНЧ.
[0020] В некоторых аспектах не ламеллярная морфология ЛНЧ включает обратную гексагональную (HII) или кубическую фазовую структуру.
[0021] В некоторых аспектах катионный липид составляет от около 10 моль % до около 50 моль % общего количества липида, присутствующего в ЛНЧ. В некоторых аспектах катионный липид составляет от около 20 моль % до около 50 моль % общего количества липида, присутствующего в ЛНЧ. В некоторых аспектах катионный липид составляет от около 20 моль % до около 40 моль % общего количества липида, присутствующего в ЛНЧ.
[0022] В некоторых аспектах некатионный липид составляет от около 10 моль % до около 60 моль % общего количества липида, присутствующего в ЛНЧ. В некоторых аспектах некатионный липид составляет от около 20 моль % до около 55 моль % общего количества липида, присутствующего в ЛНЧ. В некоторых аспектах некатионный липид составляет от около 25 моль % до около 50 моль % общего количества липида, присутствующего в ЛНЧ.
[0023] В некоторых аспектах конъюгированный липид составляет от около 0,5 моль % до около 20 моль % общего количества липида, присутствующего в ЛНЧ. В некоторых аспектах конъюгированный липид составляет от около 2 моль % до около 20 моль % общего количества липида, присутствующего в ЛНЧ. В некоторых аспектах конъюгированный липид составляет от около 1,5 моль % до около 18 моль % общего количества липида, присутствующего в ЛНЧ.
[0024] В некоторых аспектах более 95% ЛНЧ имеют не ламеллярную морфологию. В некоторых аспектах более 95% ЛНЧ являются электронно-плотными.
[0025] В некоторых аспектах любая из вышеприведенных композиций дополнительно содержит множество ЛНЧ, причем ЛНЧ содержат: катионный липид, составляющий от 50 моль % до 65 моль % общего количества липида, присутствующего в ЛНЧ; конъюгированный липид, который ингибирует агрегацию ЛНЧ, составляющий от 0,5 моль % до 2 моль % общего количества липида, присутствующего в ЛНЧ; и некатионный липид, содержащий: смесь фосфолипида и холестерина или его производного, причем фосфолипид составляет от 4 моль % до 10 моль % общего количества липида, присутствующего в ЛНЧ, а холестерин или его производное составляет от 30 моль % до 40 моль % общего количества липида, присутствующего в ЛНЧ; смесь фосфолипида и холестерина или его производного, причем фосфолипид составляет от 3 моль % до 15 моль % общего количества липида, присутствующего в ЛНЧ, а холестерин или его производное составляет от 30 моль % до 40 моль % общего количества липида, присутствующего в ЛНЧ; или до 49,5 моль % общего количества липида, присутствующего в ЛНЧ, и содержащий смесь фосфолипида и холестерина или его производного, причем холестерин или его производное составляет от 30 моль % до 40 моль % общего количества липида, присутствующего в ЛНЧ.
[0026] В некоторых аспектах любая из вышеприведенных композиций дополнительно содержит множество ЛНЧ, причем ЛНЧ содержат: катионный липид, составляющий от 50 моль % до 85 моль % общего количества липида, присутствующего в ЛНЧ; конъюгированный липид, который ингибирует агрегацию ЛНЧ, составляющий от 0,5 моль % до 2 моль % общего количества липида, присутствующего в ЛНЧ; и некатионный липид, составляющий от 13 моль % до 49,5 моль % общего количества липида, присутствующего в ЛНЧ.
[0027] В некоторых аспектах фосфолипид содержит дипальмитоилфосфатидилхолин (ДПФХ), дистеароилфосфатидилхолин (ДСФХ) или их смесь.
[0028] В некоторых аспектах конъюгированный липид содержит конъюгат полиэтиленгликоля (ПЭГ) и липида. В некоторых аспектах конъюгат ПЭГ-липид содержит конъюгат ПЭГ-диацилглицерин (ПЭГ-ДАГ), конъюгат ПЭГ-диалкилоксипропил (ПЭГ-ДАП) или их смесь. В некоторых аспектах конъюгат ПЭГ-ДАП содержит конъюгат ПЭГ-димиристилоксипропил (ПЭГ-ДМП), конъюгат ПЭГ-диетеарилоксипропил (ПЭГ-ДСП) или их смесь. В некоторых аспектах ПЭГ-часть конъюгата имеет среднюю молекулярную массу около 2000 дальтон.
[0029] В некоторых аспектах конъюгированный липид составляет от 1 моль % до 2 моль % общего количества липида, присутствующего в ЛНЧ.
[0030] В некоторых аспектах ЛНЧ содержит соединение, имеющее структуру формулы I:
или его фармацевтически приемлемые соль, таутомер, пролекарственное вещество или стереоизомер, где: L1 и L2, каждый, независимо представляют собой -O(С=O)-, -(С=O)O-, -С(=O)-, -O-, -S(O)x-, -S-S-, -C(O)S-, -SC(=O)-, -RaC(=O)-, -C(=O) Ra-, - RaC(=O) Ra-, -ОС(=O)Ra-, - RaC(=O)O- или прямую связь; G1 представляет собой Ci-C2 алкилен, - (С=O)-, -O(С=O)-, -SC(=O)-, - RaC(=O)- или прямую связь: -С(=O)-, -(С=O)O-, -C(=O)S-, -С(=O) Ra- или прямую связь; G представляет собой С1-C6 алкилен; Ra представляет собой Н или С112 алкил; R1a и R1b в каждом случае независимо представляют собой: (а) Н или С112 алкил; или (b) R1a представляет собой Н или С112 алкил, a R1b вместе с атомом углерода, с которым он связан, взят вместе со смежным R1b и атомом углерода, с которым он связан, с образованием углерод-углеродной двойной связи; R2a и R2b в каждом случае независимо представляют собой: (а) Н или С112 алкил; или (b) R2a представляет собой Н или С112 алкил, a R2b вместе с атомом углерода, с которым он связан, взят вместе со смежным R2b и атомом углерода, с которым он связан, с образованием углерод-углеродной двойной связи; R3a и R3b в каждом случае независимо представляют собой: (а) Н или С112 алкил; или (b) R3a представляет собой Н или С112 алкил, a R3b вместе с атомом углерода, с которым он связан, взят вместе со смежным R и атомом углерода, с которым он связан, с образованием углерод-углеродной двойной связи; R4a и R4b в каждом случае независимо представляют собой: (а) Н или С112 алкил; или (b) R4a представляет собой Н или С112 алкил, a R4b вместе с атомом углерода, с которым он связан, взят вместе со смежным R4b и атомом углерода, с которым он связан, с образованием углерод-углеродной двойной связи; R5 и R6, каждый, независимо представляют собой Н или метил; R7 представляет собой С4-С20 алкил; R8 и R9, каждый, независимо представляют собой С112 алкил; или R8 и R9, вместе с атомом азота, к которому они присоединены, образуют 5, 6 или 7-членное гетероциклическое кольцо; а, b, с и d, каждый, независимо представляют собой целое число от 1 до 24; и х равен 0, 1 или 2.
[0031] В некоторых аспектах ЛНЧ содержит соединение, имеющее структуру формулы II:
или его фармацевтически приемлемые соль, таутомер, пролекарственное вещество или стереоизомер, где: L1 и L2, каждый независимо представляют собой -O(С=O)-, -(С=O)O- или углерод-углеродную двойную связь; R1a и R1b в каждом случае независимо представляют собой (а) Н или С112 алкил, или (b) R1a представляет собой Н или С112 алкил, а R1b вместе с атомом углерода, с которым он связан, взят вместе со смежным R1b и атомом углерода, с которым он связан, с образованием углерод-углеродной двойной связи; R2a и R2b в каждом случае независимо представляют собой (а) Н или С112 алкил, или (b) R2a представляет собой Н или С112 алкил, a R2b вместе с атомом углерода, с которым он связан, взят вместе со смежным R2b и атомом углерода, с которым он связан, с образованием углерод-углеродной двойной связи; R3a и R3b в каждом случае независимо представляют собой (а) Н или С112 алкил, или (b) R3a представляет собой Н или C112 алкил, a R3b вместе с атомом углерода, с которым он связан, взят вместе со смежным R3b и атомом углерода, с которым он связан, с образованием углерод-углерод ной двойной связи; R4a и R4b в каждом случае независимо представляют собой (а) Н или С112 алкил, или (b) R4a представляет собой Н или С112 алкил, a R4b вместе с атомом углерода, с которым он связан, взят вместе со смежным R4b и атомом углерода, с которым он связан, с образованием углерод-углеродной двойной связи; R5 и R6, каждый независимо представляют собой метил или циклоалкил; R7 в каждом случае независимо представляет собой Н или С112 алкил; R8 и R9, каждый независимо представляют собой незамещенный С112 алкил; или R8 и R9, вместе с атомом азота, к которому они присоединены, образуют 5, 6 или 7-членное гетероциклическое кольцо, содержащее один атом азота; a и d, каждый независимо представляют собой целое число от 0 до 24; b и с, каждый независимо представляют собой целое число от 1 до 24; а е равен 1 или 2, при условии, что: по меньшей мере один из R1a, R2a, R3a или R4a представляет собой С112 алкил или по меньшей мере один из L1 или L2 представляет собой -O(С=O)- или -(С=O)O-; а R1a и R1b не представляют собой изопропил, если а равен 6, или н-бутил, если а равен 8.
[0032] В некоторых аспектах любая из вышеприведенных композиций дополнительно содержит один или более наполнителей, включающих нейтральный липид, стероид и конъюгированный с полимером липид. В некоторых аспектах нейтральный липид включает по меньшей мере один из 1,2-дистеароил-sn-глицеро-3-фосфохолина (ДСФХ), 1,2-дипальмитоил-sn-глицеро-3-фосфохолина (ДПФХ), 1,2-димиристоил-sn-глицеро-3-фосфохолина (ДМФХ), 1-пальмитоил-2-олеоил-sn-глицеро-3-фосфохолина (ПОФХ), 1,2-диолеоил-sn-глицеро-3-фосфохолина (ДОФХ) и 1,2-диолеоил-sn-глицеро-3-фосфоэтаноламина (ДОФЭ). В некоторых аспектах нейтральный липид представляет собой ДСФХ.
[0033] В некоторых аспектах молярное отношение соединения к нейтральному липиду находится в диапазоне от около 2:1 до около 8:1.
[0034] В некоторых аспектах стероид представляет собой холестерин. В некоторых аспектах молярное отношение соединения к холестерину находится в диапазоне от около 2:1 до около 1:1.
[0035] В некоторых аспектах конъюгированный с полимером липид представляет собой пэгилированный липид. В некоторых аспектах молярное отношение соединения к пэгилированному липиду находится в диапазоне от около 100:1 до около 25:1. В некоторых аспектах пэгилированный липид представляет собой ПЭГ-ДАГ, ПЭГ-полиэтилен (ПЭГ-ПЭ), ПЭГ-сукциноилдиацилглицерин (ПЭГ-С-ДАГ), ПЭГ-цер или ПЭГ-диалкилоксипропилкарбамат. В некоторых аспектах пэгилированный липид имеет следующую структуру III:
или ее фармацевтически приемлемых соли, таутомера или стереоизомера, где: R10 и R11, каждый, независимо представляют собой линейную или разветвленную, насыщенную или ненасыщенную алкильную цепь, содержащую от 10 до 30 атомов углерода, причем алкильная цепь, необязательно, прерывается одной или более сложноэфирными связями; а z имеет среднее значение в диапазоне от 30 до 60. В некоторых аспектах R10 и R11, каждый, независимо представляют собой линейные, насыщенные алкильные цепи, имеющие от 12 до 16 атомов углерода. В некоторых аспектах средний z равен приблизительно 45.
начинать здесь
[0036] В некоторых аспектах ЛНЧ проходит самосборку в не-бислоевые структуры при смешивании с полианионной нуклеиновой кислотой. В некоторых аспектах не-бислоевые структуры имеют диаметр от 60 нм до 120 нм. В некоторых аспектах не-бислоевые структуры имеют диаметр около 70 нм, около 80 нм, около 90 нм или около 100 нм. В некоторых аспектах средство доставки в форме наночастиц имеет диаметр около 100 нм.
[0037] В некоторых аспектах неоантигенная кассета интегрирована между по меньшей мере одной промоторной нуклеотидной последовательностью и по меньшей мере одной последовательностью поли(А). В некоторых аспектах по меньшей мере одна промоторная нуклеотидная последовательность функционально связана с кодирующей неоантиген последовательностью нуклеиновой кислоты.
[0038] В некоторых аспектах один или более векторов содержат один или более +-цепочечных РНК-векторов. В некоторых аспектах один или более +-цепочечных РНК-векторов содержат 5' 7-метилгуанозиновый (m7g) кэп. В некоторых аспектах один или более +-цепочечных РНК-векторов получают путем in vitro транскрипции. В некоторых аспектах один или более векторов способны к саморепликации в клетке млекопитающего. [0039] В некоторых аспектах РНК-остов альфавируса содержит по меньшей мере одну нуклеотидную последовательность вируса Аура, вируса Форт Морган, вируса венесуэльского энцефалита лошадей, вируса Росс-ривер, вируса леса Семлики, вируса Синдбис или вируса Майаро. В некоторых аспектах РНК-остов альфавируса содержит по меньшей мере одну нуклеотидную последовательность вируса венесуэльского энцефалита лошадей. В некоторых аспектах РНК-остов альфавируса содержит по меньшей мере последовательности для опосредованной неструктурным белком амплификации, последовательность промотора 26S, последовательность поли(А), ген неструктурного белка 1 (nsP1), ген nsP2, ген nsP3 и ген nsP4, кодируемые нуклеотидной последовательностью вируса Аура, вируса Форт Морган, вируса венесуэльского энцефалита лошадей, вируса Росс-ривер, вируса леса Семлики, вируса Синдбис или вируса Майаро. В некоторых аспектах РНК-остов альфавируса содержит по меньшей мере последовательности для опосредованной неструктурным белком амплификации, последовательность промотора 26S и последовательность поли(А), кодируемые нуклеотидной последовательностью вируса Аура, вируса Форт Морган, вируса венесуэльского энцефалита лошадей, вируса Росс-ривер, вируса леса Семлики, вируса Синдбис или вируса Майаро. В некоторых аспектах последовательности для опосредованной неструктурным белком амплификации выбраны из группы, состоящей из: 5' НТО альфавируса, 51-нт КЭП, 24-нт КЭП, субгеномной последовательности промотора 26S, 19-нт КЭП, 3' НТО альфавируса или их комбинаций.
[0040] В некоторых аспектах РНК-остов альфавируса не кодирует капсид структурных белков вириона Е2 и Е1. В некоторых аспектах неоантигенная кассета вставлена на место структурных белков вириона в нуклеотидной последовательности вируса Аура, вируса Форт Морган, вируса венесуэльского энцефалита лошадей, вируса Росс-ривер, вируса леса Семлики, вируса Синдбис или вируса Майаро.
[0041] В некоторых аспектах вирус венесуэльского энцефалита лошадей (ВЭЛ) включает штамм ТС-83. В некоторых аспектах вирус венесуэльского энцефалита лошадей включает последовательность, приведенную в SEQ ID NO: 3 или SEQ ID NO: 5. В некоторых аспектах вирус венесуэльского энцефалита лошадей включает последовательность SEQ ID NO: 3 или SEQ ID NO: 5, дополнительно содержащую делецию между парами оснований 7544 и 11175. В некоторых аспектах РНК-остов альфавируса представляет собой последовательность, приведенную в SEQ ID NO: 6 или SEQ ID NO: 7. В некоторых аспектах неоантигенная кассета вставлена вместо делеции между парами оснований 7544 и 11175, приведенной в последовательности SEQ ID NO: 3 или SEQ ID NO: 5.
[0042] В некоторых аспектах вставка неоантигенной кассеты обеспечивает транскрипцию полицистронной РНК, содержащей гены nsP1-4 и по меньшей мере одну из кодирующих антиген последовательностей нуклеиновых кислот, причем гены nsP1-4 и по меньшей мере одна из кодирующих антиген последовательностей нуклеиновых кислот находятся в отдельных открытых рамках считывания.
[0043] В некоторых аспектах по меньшей мере одна нуклеотидная последовательность промотора представляет собой нуклеотидную последовательность нативного промотора 26S, кодируемую РНК-остовом альфавируса. В некоторых аспектах по меньшей мере одна нуклеотидная последовательность промотора представляет собой промотор экзогенной РНК. В некоторых аспектах вторая нуклеотидная последовательность промотора представляет собой нуклеотидную последовательность промотора 26S. В некоторых аспектах вторая нуклеотидная последовательность промотора содержит некоторое количество нуклеотидных последовательностей промотора 26S, причем каждая нуклеотидная последовательность промотора 26S обеспечивает транскрипцию одной или более отдельных открытых рамок считывания.
[0044] В некоторых аспектах один или более неоантигенных экспрессионных векторов, каждый, имеют размер по меньшей мере 300 нт. В некоторых аспектах один или более неоантигенных экспрессионных векторов, каждый, имеют размер по меньшей мере 1 т.о. В некоторых аспектах один или более неоантигенных экспрессионных векторов, каждый, имеют размер 2 т.о. В некоторых аспектах один или более неоантигенных экспрессионных векторов, каждый, имеют размер менее 5 т.о.
[0045] В некоторых аспектах по меньшей мере одна из по меньшей мере одной кодирующей неоантиген последовательности нуклеиновой кислоты кодирует полипептидную последовательность или ее часть, которая презентируется ГКГС класса I на опухолевой клетке. В некоторых аспектах каждая кодирующая антиген последовательность нуклеиновой кислоты напрямую связана с другой. В некоторых аспектах по меньшей мере одна из по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты связана с отличной кодирующей антиген последовательностью нуклеиновой кислоты посредством последовательности нуклеиновой кислоты, кодирующей линкер. В некоторых аспектах линкер связывает две ГКГС класс I последовательности или ГКГС класс I последовательность с ГКГС класс II последовательностью. В некоторых аспектах линкер выбран из группы, состоящей из: (1) последовательных остатков глицина длиной по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9 или 10 остатков; (2) последовательных остатков аланина длиной по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9 или 10 остатков; (3) двух остатков аргинина (RR); (4) аланина, аланина, тирозина (AAY); (5) консенсусной последовательности длиной по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9 или 10 аминокислотных остатков, которая эффективно процессируется протеасомой млекопитающего; и (6) одной или более нативных последовательностей, фланкирующих антиген, полученный из когнатного белка точки начала репликации, и который имеет длину по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 или 2-20 аминокислотных остатков. В некоторых аспектах линкер связывает две ГКГС класс II последовательности или ГКГС класс II последовательность с ГКГС класс I последовательностью. В некоторых аспектах линкер содержит последовательность GPGPG (SEQ ID NO: 56).
[0046] В некоторых аспектах по меньшей мере, одна последовательность из по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты связана, функционально или напрямую, с отдельной или смежной последовательностью, которая усиливает экспрессию, стабильность, клеточный перенос, процессинг и презентацию и/или иммуногенность по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты. В некоторых аспектах отдельная или смежная последовательность включает по меньшей мере одно из: последовательности убиквитина, последовательности убиквитина, модифицированной для повышения протеасомного нацеливания (например, последовательность убиквитина содержит замену Gly на Ala в положении 76), сигнальной последовательности иммуноглобулина (например, IgK), последовательности главного комплекса гистосовместимости класса I, лизосомально-ассоциированного мембранного белка (LAMP) -1, лизосомально-ассоциированного мембранного белка дендритных клеток человека и последовательности главного комплекса гистосовместимости класса II; необязательно, при этом последовательность убиквитина, модифицированная для повышения протеасомного нацеливания, представляет собой А76.
[0047] В некоторых аспектах по меньшей мере одна из по меньшей мере одной кодирующей неоантиген последовательности нуклеиновой кислоты кодирует полипептидную последовательность или ее часть, которая обладает повышенной аффинностью связывания с соответствующей аллелью ГКГС относительно транслированной соответствующей последовательности нуклеиновой кислоты дикого типа. В некоторых аспектах по меньшей мере одна из по меньшей мере одной кодирующей неоантиген последовательности нуклеиновой кислоты из множества кодирует полипептидную последовательность или ее часть, которая обладает повышенной стабильностью связывания с соответствующей аллелью ГКГС относительно транслированной соответствующей последовательности нуклеиновой кислоты дикого типа. В некоторых аспектах по меньшей мере одна из по меньшей мере одной кодирующей неоантиген последовательности нуклеиновой кислоты из множества кодирует полипептидную последовательность или ее часть, которая имеет повышенную вероятность презентации на соответствующей аллели ГКГС относительно транслированной соответствующей последовательности нуклеиновой кислоты дикого типа.
[0048] В некоторых аспектах по меньшей мере, одна мутация включает точечную мутацию, мутацию со сдвигом рамки считывания, мутацию без сдвига рамки считывания, мутацию делеции, мутацию вставки, вариант сплайсинга, геномную перестройку или сплайсированный антиген, генерируемый протеасомой.
[0049] В некоторых аспектах опухоль выбрана из группы, состоящей из: рака легкого, меланомы, рака молочной железы, рака яичника, рака предстательной железы, рака почки, рака желудка, рака толстой кишки, рака яичка, рака головы и шеи, рака поджелудочной железы, рака мочевого пузыря, рака головного мозга, В-клеточной лимфомы, острого миелогенного лейкоза, острого лимф областного лейкоза взрослых, хронического миелогенного лейкоза, хронического лимфоцитарного лейкоза, Т-клеточного лимфоцитарного лейкоза, немелкоклеточного рака легкого и мелкоклеточного рака легкого.
[0050] В некоторых аспектах по меньшей мере одна кодирующая неоантиген последовательность нуклеиновой кислоты содержит по меньшей мере 2-10, 2, 3, 4, 5, 6, 7, 8, 9 или 10 последовательностей нуклеиновых кислот. В некоторых аспектах по меньшей мере одна кодирующая неоантиген последовательность нуклеиновой кислоты содержит по меньшей мере 11-20, 15-20, 11-100, 11-200, 11-300, 11-400, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 или до 400 последовательностей нуклеиновых кислот.
[0051] В некоторых аспектах по меньшей мере одна кодирующая неоантиген последовательность нуклеиновой кислоты содержит по меньшей мере 2-400 последовательностей нуклеиновых кислот, и при этом по меньшей мере две из кодирующих неоантиген последовательностей нуклеиновых кислот кодируют полипептидные последовательности или их части, которые презентируются ГКГС класса I на поверхности опухолевых клеток. В некоторых аспектах по меньшей мере две из кодирующих неоантиген последовательностей нуклеиновых кислот кодируют полипептидные последовательности или их части, которые презентируются ГКГС класса I на поверхности опухолевой клетки. В некоторых аспектах при введении субъекту и трансляции по меньшей мере один из неоантигенов, кодируемых по меньшей мере одной кодирующей неоантиген последовательностью нуклеиновой кислоты, презентируется на антиген-презентирующих клетках, что приводит к иммунному ответу, направленному по меньшей мере на один из неоантигенов на поверхности опухолевой клетки. В некоторых аспектах, когда по меньшей мере одна из кодирующих неоантиген последовательностей нуклеиновых кислот вводится субъекту и транслируется, по меньшей мере один из ГКГС класс I или класс II неоантигенов презентируется на антиген-презентирующих клетках, что приводит к иммунному ответу, направленному по меньшей мере на один из неоантигенов на поверхности опухолевой клетки, и, необязательно, при этом экспрессия каждой из по меньшей мере одной кодирующих неоантиген последовательностей нуклеиновых кислот управляется нуклеотидной последовательностью по меньшей мере одного промотора.
[0052] В некоторых аспектах каждая кодирующая ГКГС класс I неоантиген последовательность нуклеиновой кислоты кодирует полипептидную последовательность длиной от 8 до 35 аминокислот, необязательно, длиной 9-17, 9-25, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34 или 35 аминокислот.
[0053] В некоторых аспектах присутствует по меньшей мере одна кодирующая ГКГС класс II антиген последовательность нуклеиновой кислоты. В некоторых аспектах присутствует по меньшей мере одна кодирующая ГКГС класс II антиген последовательность нуклеиновой кислоты и содержит по меньшей мере одну кодирующую ГКГС класс II неоантиген последовательность нуклеиновой кислоты, которая содержит по меньшей мере одну мутацию, которая отличает ее от соответствующей родительской последовательности нуклеиновой кислоты дикого типа. В некоторых аспектах по меньшей мере одна кодирующая ГКГС класс II антиген последовательность нуклеиновой кислоты имеет длину 12-20, 12, 13, 14, 15, 16, 17, 18, 19, 20 или 20-40 аминокислот. В некоторых аспектах присутствует по меньшей мере одна кодирующая ГКГС класс II антиген последовательность нуклеиновой кислоты и содержит по меньшей мере одну универсальную кодирующую ГКГС класс II антиген последовательность нуклеиновой кислоты, необязательно, при этом по меньшей мере одна универсальная последовательность содержит по меньшей мере одно из столбнячного анатоксина и PADRE.
[0054] В некоторых аспектах по меньшей мере нуклеотидная последовательность одного промотора или нуклеотидная последовательность второго промотора является индуцибельной. В некоторых аспектах по меньшей мере нуклеотидная последовательность одного промотора или нуклеотидная последовательность второго промотора является неиндуцибельной.
[0055] В некоторых аспектах по меньшей мере одна последовательность поли(А) содержит последовательность поли(А), нативную для альфавируса. В некоторых аспектах по меньшей мере одна последовательность поли(А) содержит последовательность поли(А), экзогенную для альфавируса. В некоторых аспектах по меньшей мере одна последовательность поли(А) функционально связана с по меньшей мере одной из по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты. В некоторых аспектах по меньшей мере одна последовательность поли(А) состоит из по меньшей мере 20, по меньшей мере 30, по меньшей мере 40, по меньшей мере 50, по меньшей мере 60, по меньшей мере 70, по меньшей мере 80 или по меньшей мере 90 последовательных нуклеотидов А. В некоторых аспектах по меньшей мере одна последовательность поли(А) состоит из по меньшей мере 100 последовательных нуклеотидов А.
[0056] В некоторых аспектах неоантигенная кассета дополнительно содержит по меньшей мере одно из: последовательности интрона, последовательности посттранскрипционного регуляторного элемента вируса гепатита сурка (WPRE), последовательности внутренней посадки рибосомы (IRES), нуклеотидной последовательности, кодирующей саморасщепляющуюся пептидную последовательность 2А, нуклеотидной последовательности, кодирующей сайт расщепления фурином, или последовательности в 5' или 3' не кодирующей области, которая, как известно, увеличивает ядерный экспорт, стабильность или эффективность трансляции мРНК, которая функционально связана по меньшей мере с одной из по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты.
[0057] В некоторых аспектах неоантигенная кассета дополнительно содержит репортерный ген, включая, но не ограничиваясь этим, зеленый флуоресцентный белок (ЗФБ), вариант ЗФБ, секретируемую щелочную фосфатазу, люциферазу, вариант люциферазы или пригодный для обнаружения пептид или эпитоп.В некоторых аспектах пригодный для обнаружения пептид или эпитоп выбран из группы, состоящей из НА-тэга, Flag-тэга, His-тэга или V5-тэга.
[0058] В некоторых аспектах один или более векторов дополнительно содержат одну или более последовательностей нуклеиновых кислот, кодирующих по меньшей мере один иммуномодулятор. В некоторых аспектах иммуномодулятор представляет собой антитело к CTLA4 или его антигенсвязывающий фрагмент, антитело к PD-1 или его антигенсвязывающий фрагмент, антитело к PD-L1 или его антигенсвязывающий фрагмент, антитело к 4-1ВВ или его антигенсвязывающий фрагмент или антитело к ОХ-40 или его антигенсвязывающий фрагмент.В некоторых аспектах антитело или его антигенсвязывающий фрагмент представляет собой Fab-фрагмент, Fab'-фрагмент, одноцепочечный Fv (scFv), однодоменное антитело (sdAb), односпецифическое или имеющее элементы множественной специфичности, связанные вместе (например, домены верблюжьего антитела), или полноразмерное одноцепочечное антитело (например, полноразмерный IgG с тяжелой и легкой цепями, связанными гибким линкером). В некоторых аспектах последовательности тяжелой и легкой цепи антитела представляют собой непрерывную последовательность, разделенную саморасщепляющейся последовательностью, такой как 2А или IRES; или последовательности тяжелой и легкой цепи антитела связаны гибким линкером, таким как последовательные остатки глицина.
[0059] В некоторых аспектах иммуномодулятор представляет собой цитокин. В некоторых аспектах цитокин представляет собой по меньшей мере один из ИЛ-2, ИЛ-7, ИЛ-12, ИЛ-15 или ИЛ-21 или вариант каждого из них.
[0060] Также в данном документе описан аденовирусный вектор, содержащий неоантигенную кассету, причем неоантигенная кассета содержит: некоторое количество кодирующих антиген последовательностей нуклеиновых кислот, полученных из опухоли, присутствующей у субъекта, включающее: по меньшей мере две кодирующие ГКГС класс I неоантиген последовательности нуклеиновых кислот, каждая из которых содержит по меньшей мере одно изменение, которое отличает ее от соответствующей родительской последовательности нуклеиновой кислоты дикого типа, и, необязательно, по меньшей мере одну кодирующую ГКГС класс II антиген последовательность нуклеиновой кислоты; и по меньшей мере одну последовательность промотора, функционально связанную с по меньшей мере одной последовательностью из некоторого количества.
[0061] В некоторых аспектах аденовирусный вектор представляет собой аденовирусный вектор шимпанзе (ChAd), необязательно, вектор С68. В некоторых аспектах аденовирусный вектор содержит последовательность, приведенную в SEQ ID NO: 1. В некоторых аспектах аденовирусный вектор содержит последовательность, приведенную в SEQ ID NO: 1, за исключением того, что эта последовательность полностью удалена или функционально удалена по меньшей мере в одном гене, выбранном из группы, состоящей из генов аденовируса шимпанзе Е1А, Е1В, Е2А, Е2В, Е3, Е4, L1, L2, L3, L4 и L5 из последовательности, приведенной в SEQ ID NO: 1, необязательно, при этом последовательность полностью удалена или функционально удалена в: (1) Е1А и Е1В; (2) Е1А, Е1В и Е3; или (3) Е1А, Е1В, Е3 и Е4 из последовательности, приведенной в SEQ ID NO: 1. В некоторых аспектах аденовирусный вектор содержит ген или регуляторную последовательность, полученные из последовательности SEQ ID NO: 1, необязательно, при этом ген выбран из группы, состоящей из инвертированного концевого повтора (ИКП) аденовируса шимпанзе генов Е1А, Е1В, Е2А, Е2В, Е3, Е4, L1, L2, L3, L4 и L5 из последовательности, приведенной в SEQ ID NO: 1.
[0062] В некоторых аспектах неоантигенная кассета вставлена в аденовирусный вектор в области Е1, области Е3 и/или в любой удаленной области AdV, которая допускает вставку неоантигенной кассеты.
[0063] В некоторых аспектах последовательность по меньшей мере одного промотора в аденовирусном векторе является индуцибельной. В некоторых аспектах последовательность по меньшей мере одного промотора в аденовирусном векторе является неиндуцибельной. В некоторых аспектах последовательность по меньшей мере одного промотора в аденовирусном векторе представляет собой последовательность промотора CMV, SV40, EF-1, RSV, PGK или EBV.
[0064] В некоторых аспектах неоантигенная кассета аденовирусного вектор дополнительно содержит по меньшей мере одну последовательность полиА, функционально связанную с по меньшей мере одной из некоторого количества последовательностей, необязательно, при этом последовательность полиА расположена 3' относительно по меньшей мере одной из некоторого количества последовательностей.
[0065] В некоторых аспектах аденовирусный вектор создают из вектора первого поколения, второго поколения или хелпер-зависимого аденовирусного вектора.
[0066] В некоторых аспектах аденовирусный вектор содержит одну или более делеций между парами оснований номер 577 и 3407 и, необязательно, при этом аденовирусный вектор дополнительно содержит одну или более делеций между парами оснований 27141 и 32022 или между парами оснований 27816 и 31332 последовательности, приведенной в SEQ ID NO: 1. В некоторых аспектах аденовирусный вектор дополнительно содержит одну или более делеций между парами оснований номер 3957 и 10346, парами оснований номер 21787 и 23370 и парами оснований номер 33486 и 36193 последовательности, приведенной в SEQ ID NO: 1.
[0067] В некоторых аспектах по меньшей мере одну кодирующую ГКГС класс I неоантиген последовательность нуклеиновой кислоты выбирают, проводя этапы: (а) получения данных опухолевого нуклеотидного сиквенирования по меньшей мере одного из экзома, транскриптома или полного генома, при этом данные опухолевого нуклеотидного сиквенирования применяют для получения данных, представляющих пептидные последовательности каждого из набора неоантигенов; (b) ввода пептидной последовательности каждого неоантигена в презентационную модель для генерации набора числовых вероятностей того, что каждый из неоантигенов презентируется одной или более аллелями ГКГС на поверхности опухолевой клетки опухоли, причем набор числовых вероятностей идентифицирован по меньшей мере на основании полученных масс-спектрометрических данных; и (с) выбора поднабора из набора неоантигенов на основании набора числовых вероятностей для генерации набора отобранных неоантигенов, которые используют для получения по меньшей мере одной кодирующей ГКГС класс I неоантиген последовательности нуклеиновой кислоты.
[0068] В некоторых аспектах каждую из по меньшей мере одной кодирующей ГКГС класс I неоантиген последовательности нуклеиновой кислоты выбирают, проводя этапы: (а) получения данных нуклеотидного сиквенирования по меньшей мере одного из экзома, транскриптома или полного генома опухоли, при этом данные нуклеотидного сиквенирования опухоли применяют для получения данных, представляющих пептидные последовательности каждого из набора неоантигенов; (b) ввода пептидной последовательности каждого неоантигена в презентационную модель для генерации набора числовых вероятностей того, что каждый из неоантигенов презентируется одним или более аллелями ГКГС на поверхности опухолевой клетки опухоли, причем набор числовых вероятностей идентифицирован по меньшей мере на основании полученных масс-спектрометрических данных; и (с) выбора поднабора из набора неоантигенов на основании набора числовых вероятностей для генерации набора отобранных неоантигенов, которые используют для получения по меньшей мере одной кодирующей ГКГС класс I неоантиген последовательности нуклеиновой кислоты.
[0069] В некоторых аспектах число выбранных неоантигенов в наборе составляет 2-20.
[0070] В некоторых аспектах презентационная модель представляет зависимость между: присутствием пары из конкретного одного из аллелей ГКГС и конкретной аминокислоты в определенном положении пептидной последовательности; и вероятность презентации на поверхности опухолевых клеток конкретным одним из аллелей ГКГС из пары такой пептидной последовательности, содержащей конкретную аминокислоту в конкретном положении.
[0071] В некоторых аспектах выбор набора выбранных неоантигенов включает выбор неоантигенов, которые имеют повышенную вероятность презентации на поверхности опухолевых клеток по сравнению с невыбранными неоантигенами, на основании презентационной модели. В некоторых аспектах выбор набора выбранных неоантигенов включает выбор неоантигенов, которые имеют повышенную вероятность того, что они способны индуцировать опухолеспецифический иммунный ответ у субъекта по сравнению с невыбранными неоантигенами на основании презентационной модели. В некоторых аспектах выбор набора выбранных неоантигенов включает выбор неоантигенов, которые имеют повышенную вероятность того, что они могут презентироваться наивным Т-клеткам специализированными антигенпрезентирующими клетками (АПК) по сравнению с невыбранными неоантигенами на основании презентационной модели, необязательно, при этом АПК представляет собой дендритную клетку (ДК). В некоторых аспектах выбор набора выбранных неоантигенов включает выбор неоантигенов, которые имеют пониженную вероятность ингибирования за счет центральной или периферической толерантности по сравнению с невыбранными неоантигенами на основании презентационной модели. В некоторых аспектах выбор набора выбранных неоантигенов включает выбор неоантигенов, которые имеют пониженную вероятность того, что они способны индуцировать аутоиммунный ответ на нормальную ткань у субъекта по сравнению с невыбранными неоантигенами на основании презентационной модели. В некоторых аспектах данные сиквенирования нуклеотидов экзома или транскриптома получают путем выполнения сиквенирования опухолевой ткани. В некоторых аспектах сиквенирование представляет собой сиквенирование следующего поколения (NGS - next generation sequencing) или любой подход массового параллельного сиквенирования.
[0072] В некоторых аспектах неоантигенная кассета содержит соединительные эпитопные последовательности, образованные смежными последовательностями в неоантигенной кассете. В некоторых аспектах по меньшей мере одна или каждая соединительная эпитопная последовательность имеет аффинность к ГКГС более 500 нМ. В некоторых аспектах каждая соединительная эпитопная последовательность является несобственной. В некоторых аспектах неоантигенная кассета не кодирует последовательность нуклеиновой кислоты нетерапевтического ГКГС класс I эпитопа или класса II, содержащую транслированную последовательность нуклеиновой кислоты дикого типа, при этом, как предсказывается, нетерапевтический эпитоп отображается на аллели ГКГС субъекта. В некоторых аспектах предсказанная последовательность нетерапевтического ГКГС класс I эпитопа или класса II представляет собой соединительную эпитопную последовательность, образованную смежными последовательностями в неоантигенной кассете. В некоторых аспектах предсказание основано на вероятностях презентации, генерируемых путем ввода последовательностей нетерапевтических эпитопов в презентационную модель. В некоторых аспектах порядок по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты в неоантигенной кассете определяют рядом этапов, включающих: (а) создание набора последовательностей кандидатной неоантигенной кассеты, соответствующих разным вариантам упорядочения по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты; (b) определение для каждой последовательности кандидатной неоантигенной кассеты оценки презентации на основании презентации нетерапевтических эпитопов в последовательности кандидатной неоантигенной кассеты; и (с) выбор последовательности кандидатной неоантигенной кассеты, имеющей оценку презентации ниже заданного порога, в качестве последовательности неоантигенной кассеты для неоантигенной вакцины.
[0073] Также в данном документе описана фармацевтическая композиция, содержащая любую из композиций, описанных в данном документе (таких как вектор на основе альфавируса или на основе ChAd, описанные в данном документе), и фармацевтически приемлемый носитель. В некоторых аспектах фармацевтическая композиция дополнительно содержит вспомогательное вещество. В некоторых аспектах фармацевтическая композиция дополнительно содержит иммуномодулятор. В некоторых аспектах иммуно модулятор представляет собой антитело к CTLA4 или его антигенсвязывающий фрагмент, антитело к PD-1 или его антигенсвязывающий фрагмент, антитело к PD-L1 или его антигенсвязывающий фрагмент, антитело к 4-1ВВ или его антигенсвязывающий фрагмент или антитело к ОХ-40 или его антигенсвязывающий фрагмент.
[0074] Также в данном документе описаны выделенная нуклеотидная последовательность или набор выделенных нуклеотидных последовательностей, содержащие неоантигенную кассету из любой из вышеприведенных композиций и один или более элементов, полученных из последовательности SEQ ID NO: 3 или SEQ ID NO: 5, необязательно, при этом один или более элементов выбраны из группы, состоящей из последовательностей, необходимых для опосредованной неструктурным белком амплификации, нуклеотидной последовательности промотора 26S, последовательности поли(А) и генов nsP1-4 последовательности, приведенной в SEQ ID NO: 3 или SEQ ID NO: 5, и, необязательно, при этом нуклеотидная последовательность представляет собой кДНК. В некоторых аспектах последовательность или набор выделенных нуклеотидных последовательностей содержат неоантигенную кассету, описанную в данном документе, вставленную в положении 7544 последовательности, приведенной в SEQ ID NO: 6 или SEQ ID NO: 7. В некоторых аспектах выделенная нуклеотидная последовательность дополнительно содержит нуклеотидную последовательность промотора РНК-полимеразы Т7 или SP6, расположенную 5' относительно одного или более элементов, полученных из SEQ ID NO: 3 или SEQ ID NO: 5, и, необязательно, один или более сайтов рестрикции 3' относительно последовательности поли(А). В некоторых аспектах неоантигенная кассета, описанная в данном документе, вставлена в положении 7563 SEQ ID NO: 8 или SEQ ID NO: 9. В другом аспекте последовательности, приведенные в SEQ ID NO: 8 или SEQ ID NO: 9, дополнительно содержат дополнительный нуклеотид аденина, вставленный в положении 17.
[0075] Также в данном документе описана выделенная нуклеотидная последовательность, содержащая неоантигенную кассету, описанную в данном документе, и по меньшей мере один промотор, описанный в данном документе. В некоторых аспектах выделенная нуклеотидная последовательность дополнительно содержит ген на основе ChAd. В некоторых аспектах ген на основе ChAd получен из последовательности SEQ ID NO: 1, необязательно, при этом ген выбран из группы, состоящей из ИКП аденовируса шимпанзе генов Е1А, Е1В, Е2А, Е2В, Е3, Е4, L1, L2, L3, L4 и L5 из последовательности, приведенной в SEQ ID NO: 1, и, необязательно, при этом нуклеотидная последовательность представляет собой кДНК.
[0076] Также в данном документе описана выделенная клетка, содержащая выделенную нуклеотидную последовательность, описанную в данном документе, необязательно, при этом клетка представляет собой клетку ВНК-21, СНО, HEK293 или ее варианты, 911, HeLa, А549, LP-293, PER.C6 или АЕ1-2а.
[0077] Также в данном документе описан вектор, содержащий выделенную нуклеотидную последовательность, описанную в данном документе.
[0078] Также в данном документе описан набор, содержащий вектор или композицию, описанные в данном документе, и инструкции по применению.
[0079] Также в данном документе описан способ лечения субъекта, имеющего рак, включающий введение субъекту вектора, описанного в данном документе, или фармацевтической композиции, описанной в данном документе. В некоторых аспектах по меньшей мере одна кодирующая ГКГС класс I неоантиген последовательность нуклеиновой кислоты, полученная из опухоли, получена из опухоли субъекта, имеющего рак. В некоторых аспектах по меньшей мере одна кодирующая ГКГС класс I неоантиген последовательность нуклеиновой кислоты не получена из опухоли субъекта, имеющего рак.
[0080] Также в данном документе описан способ индукции иммунного ответа в субъекта, включающий введение субъекту любых из композиций, векторов или фармацевтических композиций, описанных в данном документе.
[0081] В некоторых аспектах вектор или композицию вводят внутримышечно (В/М), внутрикожно (В/К), подкожно (П/К) или внутривенно (В/В).
[0082] В некоторых аспектах способы, описанные в данном документе, дополнительно включают введение одного или более иммуномодуляторов, необязательно, при этом иммуномодулятор вводят до, одновременно или после введения композиции или фармацевтической композиции. В некоторых аспектах один или более иммуномодуляторов выбраны из группы, состоящей из антитела к CTLA4 или его антигенсвязывающего фрагмента, антитела к PD-1 или его антигенсвязывающего фрагмента, антитела к PD-L1 или его антигенсвязывающего фрагмента, антитела к 4-1ВВ или его антигенсвязывающего фрагмента или антитела к ОХ-40 или его антигенсвязывающего фрагмента. В некоторых аспектах иммуномодулятор вводят внутривенно (В/В), внутримышечно (В/М), внутрикожно (В/К) или подкожно (П/К). В некоторых аспектах подкожное введение осуществляют вблизи места введения композиции или фармацевтической композиции или в непосредственной близости от одного или более дренирующих лимфатических узлов для вектора или композиции.
[0083] В некоторых аспектах способы, описанные в данном документе, дополнительно включают введение субъекту второй вакцинной композиции. В некоторых аспектах вторую вакцинную композицию вводят до введения композиции или фармацевтической композиции, описанных выше. В некоторых аспектах вторую вакцинную композицию вводят после введения композиции или фармацевтических композиций, описанных выше. В некоторых аспектах вторая вакцинная композиция является такой же, как и композиция или фармацевтические композиции, описанные выше. В некоторых аспектах вторая вакцинная композиция отличается от композиции или фармацевтических композиций, описанных выше. В некоторых аспектах вторая вакцинная композиция содержит аденовирусный вектор шимпанзе, кодирующий по меньшей мере одну кодирующую антиген последовательность нуклеиновой кислоты. В некоторых аспектах по меньшей мере одна кодирующая антиген последовательность нуклеиновой кислоты, кодируемая аденовирусным вектором шимпанзе, является такой же, как и по меньшей мере одна кодирующая антиген последовательность нуклеиновой кислоты из любых вышеприведенных композиций или векторов.
[0084] Также в данном документе описан способ производства одного или более векторов любой из вышеприведенных композиций, включающий: получение линеаризованной последовательности ДНК, содержащей РНК-остов альфавируса и неоантигенную кассету; in vitro транскрибирование линеаризованной последовательности ДНК путем добавления линеаризованной последовательности ДНК в реакционную смесь для in vitro транскрипции, содержащую все необходимые компоненты для транскрибирования линеаризованной последовательности ДНК в РНК, необязательно, дополнительно включающий in vitro добавление m7g-кэпа к получаемой в результате РНК; и выделение одного или более векторов из реакционной смеси для in vitro транскрипции. В некоторых аспектах линеаризованную последовательность ДНК создают путем линеаризации последовательности ДНК-плазмиды или путем амплификации с помощью ПЦР. В некоторых аспектах последовательность ДНК-плазмиды создают, используя одно из бактериальной рекомбинации или синтеза полногеномной ДНК, или синтеза полногеномной ДНК с амплификацией синтезированной ДНК в бактериальных клетках. В некоторых аспектах выделение одного или более векторов из реакционной смеси для in vitro транскрипции включает одно или более из фенольно-хлороформной экстракции, очистки на основе кварцевой колонки или сходных способов очистки РНК.
[0085] Также в данном документе описан способ производства любой из композиций, описанных в данном документе, включающий: обеспечение компонентов для средства доставки в форме наночастиц; обеспечение неоантигенной экспрессионной системы; и обеспечение условий, достаточных для получения на основе средства доставки в форме наночастиц и неоантигенной экспрессионной системы композиции для доставки неоантигенной экспрессионной системы. В некоторых аспектах условия обеспечивают путем микрофлюидного смешивания.
[0086] Также в данном документе описан способ производства аденовирусного вектора, описанного в данном документе, включающий: получение последовательности плазмиды, содержащей по меньшей мере одну последовательность промотора и неоантигеновую кассету; трансфекцию последовательности плазмиды в одну или более клеток-хозяев; и выделение аденовирусного вектора из одной или более клеток-хозяев.
[0087] В некоторых аспектах выделение включает: лизис клетки-хозяина для получения клеточного лизата, содержащего аденовирусный вектор; и очистку аденовирусного вектора из клеточного лизата.
[0088] В некоторых аспектах последовательность плазмиды создают, используя одно из бактериальной рекомбинации или синтеза полногеномной ДНК, или синтеза полногеномной ДНК с амплификацией синтезированной ДНК в бактериальных клетках. В некоторых аспектах одна или более клеток-хозяев представляют собой по меньшей мере одну из клеток СНО, HEK293 или ее вариантов, 911, HeLa, А549, LP-293, PER.C6 и АЕ1-2а. В некоторых аспектах очистка аденовирусного вектора из клеточного лизата включает одно или более из хроматографического разделения, центрифугирования, осаждения вируса и фильтрации.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ
[0089] Эти и другие особенности, аспекты и преимущества данного изобретения станут более понятными в отношении следующего описания и прилагаемых графических материалов, где:
[0090] На фигуре (Фиг.) 1А проиллюстрированы современные клинические подходы к идентификации неоантигенов.
[0091] На Фиг. 1В проиллюстрировано, что <5% предсказанных связанных пептидов презентируются на опухолевых клетках.
[0092] На Фиг. 1С проиллюстрировано влияние проблемы специфичности прогнозирования неоантигена.
[0093] На Фиг. 1D проиллюстрировано, что прогнозирования связывания недостаточно для идентификации неоантигена.
[0094] На Фиг. 1Е проиллюстрирована вероятность презентации ГКГС-I как функция длины пептида.
[0095] На Фиг. 1F проиллюстрирован пример пептидного спектра, сгенерированного из стандарта динамического диапазона Promega. На Фиг. Проиллюстрирована SEQ ID NO: 59.
[0096] На Фиг. 1G проиллюстрировано, как добавление характеристик увеличивает положительное предсказательное значение модели.
[0097] На Фиг. 2А проиллюстрирован обзор среды для идентификации вероятности презентации пептида у пациентов в соответствии с вариантом реализации изобретения.
[0098] На Фиг. 2В и Фиг. 2С проиллюстрирован способ получения информации презентации в соответствии с вариантом реализации изобретения. На Фиг. 2В проиллюстрирована SEQ ID NO: 62. На Фиг. 2С проиллюстрированы SEQ ID NO 62-67, соответственно, в порядке появления. На Фиг. 2D проиллюстрирована SEQ ID NO: 157. На Фиг. 2Е проиллюстрированы SEQ ID NO 62-65, 68 и 67, соответственно, в порядке появления.
[0099] На Фиг. 3 проиллюстрирована высокоуровневая блок-схема, иллюстрирующая компоненты компьютерной логики системы идентификации презентации в соответствии с одним вариантом реализации изобретения.
[00100] На Фиг. 4А проиллюстрирован примерный набор обучающих данных в соответствии с одним вариантом реализации изобретения, связанным с аллелями ГКГС класса I. На Фиг. 4А проиллюстрированы пептидные последовательности как SEQ ID NO 70-73 иd С-фланкирующие последовательности как SEQ ID NO 74, 158, 159 и 159, соответственно, в порядке появления. На Фиг. 4В проиллюстрирован примерный набор обучающих данных в соответствии с одним вариантом реализации изобретения, связанным с аллелью ГКГС класса II. На Фиг. 4В проиллюстрирована SEQ ID NO: 75
[00101] На Фиг. 5 проиллюстрирован пример сетевой модели в связи с аллелью ГКГС.
[00102] На Фиг. 6А проиллюстрирован пример сетевой модели NNH(⋅), общей для аллелей ГКГС, в соответствии с одним вариантом реализации изобретения. На Фиг. 6В проиллюстрирован пример сетевой модели NNH(⋅), общей для аллелей ГКГС, в соответствии с другим вариантом реализации изобретения.
[00103] На Фиг. 7 проиллюстрировано получение вероятности презентации для пептида в ассоциации с аллелью ГКГС с применением примерной сетевой модели.
[00104] На Фиг. 8 проиллюстрировано получение вероятности презентации для пептида в ассоциации с аллелью ГКГС с применением примерных сетевых моделей.
[00105] На Фиг. 9 проиллюстрировано получение вероятности презентации для пептида в ассоциации с аллелями ГКГС с применением примерных сетевых моделей.
[00106] На Фиг. 10 проиллюстрировано получение вероятности презентации для пептида в ассоциации с аллелями ГКГС с применением примерных сетевых моделей.
[00107] На Фиг. 11 проиллюстрировано получение вероятности презентации для пептида в ассоциации с аллелями ГКГС с применением примерных сетевых моделей.
[00108] На Фиг. 12 проиллюстрировано получение вероятности презентации для пептида в ассоциации с аллелями ГКГС с применением примерных сетевых моделей.
[00109] На Фиг. 13А проиллюстрированы результаты эффективности для презентации пептида, определенные методом масс-спектрометрии со сравнением различных моделей презентации пептидов. Проиллюстрированы результаты для максимума презентационной модели для одной аллели, представленной в уравнении (12) с применением функции аффинной зависимости gh(⋅) и функции экспита ƒ(⋅) с обучением на поднаборе масс-спектрометрических данных для HLA-A*02:01 и HLA-B*07:02 ("МС"). Также проиллюстрированы современные модели на основе предсказаний аффинности NETMHCpan "Аффинность" и на основе предсказаний стабильности NETMHCstab "Стабильность". Данные иллюстрируют положительное предсказательное значение (ППЗ) с процент запоминаемости 10%, а планки погрешностей (указанные сплошными линиями) отображают 95% доверительные интервалы.
[00110] На Фиг. 13В проиллюстрированы результаты эффективности для презентации пептида, определенные по Т-клеточным эпитопам со сравнением различных моделей презентации пептидов. Проиллюстрированы результаты для максимума презентационной модели для одной аллели, представленной в уравнении (12) с применением функции аффинной зависимости gh(⋅) и функции экспита ƒ(⋅) с обучением на поднаборе масс-спектрометрических данных для HLA-A*02:01. Также проиллюстрированы современные модели на основе предсказаний аффинности NETMHCpan "Аффинность" и на основе предсказаний стабильности NETMHCstab "Стабильность". Данные иллюстрируют положительное предсказательное значение (PPV) при частоте повторного вызова 10%, а планки погрешностей (указанные сплошными линиями) отображают 95% доверительные интервалы.
[00111] На Фиг. 13С проиллюстрированы результаты эффективности для презентации пептида, определенные методом масс-спектрометрии для типовой модели функции суммы (уравнение (13)), типовой модели суммы функций (уравнение (19)) и типовой модели второго порядка (уравнение (23)) для предсказания презентации пептида. Первый столбец относится к площади под кривой (ППК) операционных характеристик приемника (ROC), в случае, когда каждую презентационную модель применяли к тестовому набору, второй столбец относится к значению потери отрицательного логарифмического правдоподобия, а третий столбец относится к положительному предсказательному значению (PPV) при частоте повторного вызова 10%.
[00112] На Фиг. 13D проиллюстрированы результаты эффективности для презентации пептида, определенные методом масс-спектрометрии для двух типовых презентационных моделей, которые обучали на основе одноаллельных масс-спектрометрических данных и без них. Первый столбец относится к площади под кривой (ППК) операционных характеристик приемника (ROC), в случае, когда каждую презентационную модель применяли к тестовому набору, второй столбец относится к значению потери отрицательного логарифмического правдоподобия, а третий столбец относится к положительному предсказательному значению (PPV) при частоте повторного вызова 10%.
[00113] На Фиг. 13Е проиллюстрированы результаты эффективности для презентации пептида, определенные методом масс-спектрометрии для двух типовых презентационных моделей, которые обучали на основе одноаллельных масс-спектрометрических данных и без них. "Корреляция" относится к корреляции между фактическими метками, которые указывают, был ли пептид презентирован на соответствующей аллели в тестовых данных, и меткой для прогнозирования.
[00114] На Фиг. 13F проиллюстрирована частота обычных якорных остатков при позитронах 2 (Р2) и 9 (Р9) среди нонамеров, предсказанных презентационной моделью, обученной без одноаллельных масс-спектрометрических данных.
[00115] На Фиг. 13G проиллюстрированы результаты эффективности для презентации пептида, определенные методом масс-спектрометрии, для типовой презентационной модели, которая включала С- и N-концевые фланкирующие последовательности в качестве взаимодействующих с аллелью переменных, и типовой презентационной модели, которая включала С- и N-концевые фланкирующие последовательности в качестве не взаимодействующих с аллелью переменных. Первый столбец относится к площади под кривой (ППК) операционных характеристик приемника (ROC), в случае, когда каждую презентационную модель применяли к тестовому набору, второй столбец относится к значению потери отрицательного логарифмического правдоподобия, а третий столбец относится к положительному предсказательному значению (PPV) при частоте повторного вызова 10%.
[00116] На Фиг. 13Н проиллюстрирована зависимость между численностью мРНК и частотой пептидов, презентируемых на опухолевых клетках, по определению методом масс-спектрометрии. По горизонтальной оси указана экспрессия мРНК в пересчете на транскрипты на миллион (ТРМ - transcripts per million) квартилей. По вертикальной оси указана доля презентированных эпитопов из генов в соответствующих квартилях экспрессии мРНК. Каждая сплошная линия представляет собой график, относящийся к двум измерениям из образца опухоли, который связан с соответствующими данными масс-спектрометрии и измерениями экспрессии мРНК.
[00117] На Фиг. 13I проиллюстрированы результаты эффективности для презентации пептида, определенные методом масс-спектрометрии, для типовых презентационных моделей "MHCflurry+РНК-фильтр", аналогичных современной модели, которая позволяет предсказывать презентацию пептида на основе аффинных предсказаний со стандартным фильтром генной экспрессии, который удаляет все пептиды из белков, с количественными измерениями мРНК, которые составляли менее 3.2 FPKM. "Типовая модель, без РНК" является типовой презентационной моделью "сумма сигмоидов", представленной в уравнении (21). "Типовая модель, с РНК" является типовой презентационной моделью "сумма сигмоидов", представленной в уравнении (19), включающей данные количественного определения мРНК посредством логарифмической функции. Данные иллюстрируют положительное предсказательное значение (PPV) при частоте повторного вызова20%.
[00118] На Фиг. 13J проиллюстрирована вероятность презентации пептида для разных длин пептидов для презентационных моделей, которые учитывают длину пептида, и современных моделей, которые не учитывают длину пептида при предсказании презентации пептида. График "Истина (данные слепого испытания)" иллюстрирует долю презентированных пептидов в соответствии с длиной пептида в наборе тестовых данных образца. На графике "Модели без учета длины" указаны предсказанные измерения, при применении современных моделей, которые не учитывают длину пептида, к тому же набору тестовых данных для предсказания презентации. "Типовая модель, с РНК" является типовой презентационной моделью "сумма сигмоидов", представленной в уравнении (19), включающей данные количественного определения мРНК посредством логарифмической функции.
[00119] На Фиг. 13K представлена гистограмма длин пептидов, элюированных из аллелей ГКГС класса II на человеческих опухолевых клетках и инфильтрирующих опухоль лимфоцитах (ИОЛ) с помощью масс-спектрометрии.
[00120] На Фиг. 13L проиллюстрирована зависимость между количественным определением мРНК и презентированными пептидами на остаток для двух типовых наборов данных.
[00121] На Фиг. 13М представлено сравнение результатов эффективности для типовых презентационных моделей, обученных и протестированных на двух типовых наборах данных.
[00122] На Фиг. 13N представлена гистограмма, которая иллюстрирует количество пептидов, сиквенированных с помощью масс-спектрометрии, для каждого образца из всего 39 образцов, содержащих молекулы HLA класса П.
[00123] На Фиг. 13-O представлена гистограмма, которая иллюстрирует количество образцов, в которых была идентифицирована конкретная аллель ГКГС класс II молекулы.
[00124] На Фиг. 13Р представлена гистограмма, которая иллюстрирует относительное количество пептидов, презентированных ГКГС класс II молекулами всего в 39 образцах, для каждой длины пептида из некоторого диапазона длин пептидов.
[00125] На Фиг. 13Q представлен линейный график, который иллюстрирует взаимосвязь между генной экспрессией и распространенностью презентации продукта генной экспрессии ГКГС класс II молекулой для генов, присутствующих в 39 образцах.
[00126] На Фиг. 13R представлен линейный график, который сравнивает эффективность идентичных моделей с варьирующимися вводными данными при предсказании вероятности, что пептиды в тестовом наборе данных пептидов будут презентироваться ГКГС класс II молекулой.
[00127] На Фиг. 13S представлен линейный график, который сравнивает эффективность четырех разных моделей при предсказании вероятности, что пептиды в тестовом наборе данных пептидов будут презентироваться ГКГС класс II молекулой.
[00128] На Фиг. 13Т представлен линейный график, который сравнивает эффективность лучшей в своей категории модели существующего уровня техники с применением двух разных критериев и презентационной модели, описанной в данном документе, с двумя разными вводными данными при предсказании вероятности, что пептиды в тестовом наборе данных пептидов будут презентироваться ГКГС класс II молекулой.
[00129] На Фиг. 14 проиллюстрирован типовой компьютер для реализации элементов, проиллюстрированных на Фиг. 1 и 3.
[00130] На Фиг. 15 проиллюстрирована разработка анализа активации Т-клеток in vitro. Схема анализа, при котором доставка вакцинной кассеты к антиген-презентирующим клеткам приводит к экспрессии, процессингу и ГКГС-ограниченной презентации различных пептидных антигенов. Репортерные Т-клетки, сконструированные с рецепторами Т-клеток, которые соответствуют конкретной комбинации пептид-ГКГС, активируются, что приводит к экспрессии люциферазы.
[00131] На Фиг. 16А проиллюстрирована оценка линкерных последовательностей в коротких кассетах и проиллюстрировано пять ограниченных по ГКГС эпитопов класса I (эпитопы от 1 до 5), последовательно связанных в одном положении относительно друг друга, за которыми следуют два универсальных ГКГС класс II эпитопа (ГКГС-II). Различные итерации были созданы с применением разных линкеров. В некоторых случаях Т-клеточные эпитопы напрямую связаны друг с другом. В других случаях Т-клеточные эпитопы фланкируются с одной или с обеих сторон природной последовательностью. В других итерациях Т-клеточные эпитопы связаны с неприродными последовательностями AAY, RR и DPP.
[00132] На Фиг. 16В проиллюстрирована оценка линкерных последовательностей в коротких кассетах и проиллюстрирована информация о последовательностях Т-клеточных эпитопов, встроенных в короткие кассеты. На Фиг. проиллюстрированы SEQ ID NO 132, 133, 136, 135, 134, 160 и 161, соответственно, в порядке появления.
[00133] На Фиг. 17 проиллюстрирована оценка последовательностей клеточного нацеливания, добавленных к модельным вакцинным кассетам. Нацеливающие кассеты расширяют конструкции коротких кассет доменами убиквитина (Ub), сигнальных пептидов (СП) и/или транс мембранными доменами (ТМ) наряду с пятью маркерными Т-клеточными эпитопами человека (эпитопы от 1 до 5), а также двумя Т-клеточными эпитопами мыши SIINFEKL (SII) (SEQ ID NO: 57) и SPSYAYHQF (А5) (SEQ ID NO: 58), и используют неприродный линкер AAY- или природные линкеры, фланкирующие Т-клеточные эпитопы с обеих сторон (25 мер).
[00134] На Фиг. 18 проиллюстрирована оценка линкерных последовательностей в коротких кассетах in vivo. А) Экспериментальный дизайн оценки вакцинных кассет in vivo с применением трансгенных мышей HLA-A2.
[00135] На Фиг. 19А проиллюстрирована in vivo оценка влияния положения эпитопа в длинных 21-мерных кассетах и проиллюстрирована конструкция длинных кассет, включающая пять маркерных эпитопов класса I (эпитопы от 1 до 5), содержащихся в своей 25-мерной природной последовательности (линкер = природные фланкирующие последовательности), перемежающихся с дополнительными хорошо известными Т-клеточными эпитопами класса I (эпитопы с 6 по 21), содержащимися в 25-мерной природной последовательности, и два универсальных эпитопа класса II (ГКГС-II0, с вариацией только относительного положения эпитопов класса I).
[00136] На Фиг. 19В проиллюстрирована in vivo оценка влияния положения эпитопа в длинных 21-мерных кассетах и проиллюстрирована информация о последовательности применяемых Т-клеточных эпитопов. На Фиг. проиллюстрированы SEQ ID NO 132, 133, 136, 135, 134, 162-164, 137 и 165-176, соответственно, в порядке появления.
[00137] На Фиг. 20А проиллюстрирована конструкция окончательной кассеты для доклинических исследований с целью получения разрешения на ДИНЛ и проиллюстрировано, что конструкция окончательных кассет содержит 20 ГКГС I эпитопов, содержащихся в 25-мерной природной последовательности (линкер = природные фланкирующие последовательности), состоящей из 6 эпитопов отличных от человека приматов (ОЧП), 5 человеческих эпитопов, 9 мышиных эпитопов, а также 2 универсальных ГКГС класс II эпитопов.
[00138] На Фиг. 20В проиллюстрирована конструкция окончательной кассеты для доклинических исследований с целью получения разрешения на ДИНЛ и проиллюстрирована информация о последовательности для применяемых Т-клеточных эпитопов, которые презентируются на ГКГС класса I отличных от человека приматов (SEQ ID NO 177-182, соответственно, в порядке появления), мышей (SEQ ID NOS 57, 58 and 183-189, respectively, in order of appearance) и человека (SEQ ID NO 134-136, 132 и 133, соответственно, в порядке появления), а также последовательности 2 универсальных ГКГС класс II эпитопов PADRE и столбнячного анатоксина (SEQ ID NOS 160 и 190, соответственно, в порядке появления).
[00139] На Фиг. 21А проиллюстрировано получение вируса ChAdV68.4WTnt.GFP после трансфекции. Клетки HEK293A трансфицировали ДНК ChAdV68.4WTnt.GFP с применением протокола с фосфатом кальция. Репликацию вируса наблюдали через 10 дней после трансфекции, а бляшки вируса ChAdV68.4WTnt.GFP визуализировали с применением световой микроскопии (40-кратное увеличение).
[00140] На Фиг. 21В проиллюстрировано получение вируса ChAdV68.4WTnt.GFP после трансфекции. Клетки HEK293A трансфицировали ДНК ChAdV68.4WTnt.GFP с применением протокола с фосфатом кальция. Репликацию вируса наблюдали через 10 дней после трансфекции, а бляшки вируса ChAdV68.4WTnt.GFP визуализировали с применением световой микроскопии при 40-кратном увеличении.
[00141] На Фиг. 21С проиллюстрировано получение вируса ChAdV68.4WTnt.GFP после трансфекции. Клетки НЕК293А трансфицировали ДНК ChAdV68.4WTnt.GFP с применением протокола с фосфатом кальция. Репликацию вируса наблюдали через 10 дней после трансфекции, а бляшки вируса ChAdV68.4WTnt.GFP визуализировали с применением световой микроскопии при 100-кратном увеличении.
[00142] На Фиг. 22А проиллюстрировано получение вируса ChAdV68.5WTnt.GFP после трансфекции. Клетки HEK293A трансфицировали ДНК ChAdV68.5WTnt.GFP с применением протокола с липофектамином. Репликацию вируса (бляшки) наблюдали через 10 дней после трансфекции. Получали лизат и использовали для повторной инфекции колбы Т25 клеток 293А. Вирусные бляшки ChAdV68.5WTnt.GFP визуализировали и фотографировали через 3 дня с применением световой микроскопии (40-кратное увеличение).
[00143] На Фиг. 22В проиллюстрировано получение вируса ChAdV68.5WTnt.GFP после трансфекции. Клетки HEK293A трансфицировали ДНК ChAdV68.5WTnt.GFP с применением протокола с липофектамином. Репликацию вируса (бляшки) наблюдали через 10 дней после трансфекции. Получали лизат и использовали для повторной инфекции колбы Т25 клеток 293А. Вирусные бляшки ChAdV68.5WTnt.GFP визуализировали и фотографировали через 3 дня с применением флуоресцентной микроскопии при 4O-кратном увеличении.
[00144] На Фиг. 22С проиллюстрировано получение вируса ChAdV68.5WTnt.GFP после трансфекции. Клетки HEK293A трансфицировали ДНК ChAdV68.5WTnt.GFP с применением протокола с липофектамином. Репликацию вируса (бляшки) наблюдали через 10 дней после трансфекции. Получали лизат и использовали для повторной инфекции колбы Т25 клеток 293А. Вирусные бляшки ChAdV68.5WTnt.GFP визуализировали и фотографировали через 3 дня с применением флуоресцентной микроскопии при 10O-кратном увеличении.
[00145] На Фиг. 23 проиллюстрирована схема получения вирусных частиц.
[00146] На Фиг. 24 проиллюстрирован вектор самореплицирующейся РНК (срРНК) VEE, полученный из альфавируса.
[00147] На Фиг. 25 проиллюстрирована репортерная экспрессия in vivo после инокуляции мышей C57BL/6J срРНК VEE-люциферазы. Показаны репрезентативные изображения сигнала люциферазы после иммунизации мышей C57BL/6J срРНК VEE люциферазы (10 мкг на мышь, билатеральная внутримышечная инъекция, инкапсулированный МС3) в различные моменты времени.
[00148] На Фиг. 26А проиллюстрированы Т-клеточные ответы, измеренные через 14 дней после иммунизации срРНК VEE, приготовленной с ЛНЧ МС3, у несущих опухоль B16-OVA мышей. Несущим опухоль B16-OVA мышам C57BL/6J инъецировали 10 мкг срРНК VEE-люциферазы (контроль), срРНК VEE-UbAAY (Vax), срРНК VEE-люциферазы и анти-CTLA-4 (aCTLA-4) или срРНК VEE-UbAAY и анти-CTLA-4 (Vax + aCTLA-4). Кроме того, всех мышей обрабатывали mAb к PD1, начиная с 7-го дня. Каждая группа состояла из 8 мышей. Мышей умерщвляли и вырезали селезенку и лимфатические узлы через 14 дней после иммунизации. SIINFEKL-специфические Т-клеточные ответы ("SIINFEKL" приведена как SEQ ID NO: 57) оценивали с помощью ИФН-гамма ELISPOT и представляли как образующие пятна клетки (SFC - spot-forming cells) на 106 спленоцитов. Линии представляют медианы.
[00149] На Фиг. 26В проиллюстрированы Т-клеточные ответы, измеренные через 14 дней после иммунизации срРНК VEE, приготовленной с ЛНЧ МС3, у несущих опухоль B16-OVA мышей. Несущим опухоль B16-OVA мышам C57BL/6J инъецировали 10 мкг срРНК VEE-люциферазы (контроль), срРНК VEE-UbAAY (Vax), срРНК VEE-люциферазы и анти-CTLA-4 (aCTLA-4) или срРНК VEE-UbAAY и aHTH-CTLA-4 (Vax + aCTLA-4). Кроме того, всех мышей обрабатывали mAb к PD1, начиная с 7-го дня. Каждая группа состояла из 8 мышей. Мышей умерщвляли и вырезали селезенку и лимфатические узлы через 14 дней после иммунизации. SIINFEKL-специфические Т-клеточные ответы ("SIINFEKL" приведена как SEQ ID NO: 57) оценивали по окрашиванию MHCI-пентамером, представляли как пентамер-положительные клетки в виде процента от CD8-положительных клеток. Линии представляют медианы.
[00150] На Фиг. 27А проиллюстрированы антиген-специфические Т-клеточные ответы после гетерологичного примирования/стимуляции несущих опухоль B16-OVA мышей. Несущим опухоль B16-OVA мышам C57BL/6J инъецировали аденовирус, экспрессирующий ЗФБ (Ad5-GFP), и стимулировали срРНК VEE-люциферазы, приготовленной с ЛНЧ МС3 (контроль) или Ad5-UbAAY, и стимулировали срРНК VEE-UbAAY (Vax). Контрольную и Vax-группы также обрабатывали контрольным mAb IgG. Третью группу обрабатывали примированием срРНК Ad5-GFP/стимуляцией срРНК VEE-люциферазы в комбинации с анти-CTLA-4 (aCTLA-4), тогда как четвертую группу обрабатывали примированием Ad5-UbAAY/стимуляцией VEE-UbAAY в комбинации с анти-CTLA-4 (Vax + aCTLA-4). Кроме того, всех мышей обрабатывали mAb к PD-1, начиная с 21-го дня. Т-клеточные ответы измеряли с помощью ИФН-гамма ELISPOT. Мышей умерщвляли и вырезали селезенки и лимфатические узлы через 14 дней после иммунизации аденовирусом.
[00151] На Фиг. 27В проиллюстрированы антиген-специфические Т-клеточные ответы после гетерологичного примирования/стимуляции несущих опухоль B16-OVA мышей. Несущим опухоль B16-OVA мышам C57BL/6J инъецировали аденовирус, экспрессирующий ЗФБ (Ad5-GFP), и стимулировали срРНК VEE-люциферазы, приготовленной с ЛНЧ МС3 (контроль) или Ad5-UbAAY, и стимулировали срРНК VEE-UbAAY (Vax). Контрольную и Vax-группы также обрабатывали контрольным mAb IgG. Третью группу обрабатывали примированием срРНК Ad5-GFP/стимуляцией срРНК VEE-люциферазы в комбинации с анти-CTLA-4 (aCTLA-4), тогда как четвертую группу обрабатывали примированием Ad5-UbAAY/стимуляцией VEE-UbAAY в комбинации с анти-CTLA-4 (Vax+aCTLA-4). Кроме того, всех мышей обрабатывали mAb к PD-1, начиная с 21-го дня. Т-клеточные ответы измеряли с помощью ИФН-гамма ELISPOT. Мышей умерщвляли и вырезали селезенки и лимфатические узлы через 14 дней после иммунизации аденовирусом и через 14 дней после стимуляции срРНК (28-й день после примирования).
[00152] На Фиг. 27С проиллюстрированы антиген-специфические Т-клеточные ответы после гетерологичного примирования/стимуляции несущих опухоль B16-OVA мышей. Несущим опухоль B16-OVA мышам C57BL/6J инъецировали аденовирус, экспрессирующий ЗФБ (Ad5-GFP), и стимулировали срРНК VEE-люциферазы, приготовленной с ЛНЧ МС3 (контроль) или Ad5-UbAAY, и стимулировали срРНК VEE-UbAAY (Vax). Контрольную и Vax-группы также обрабатывали контрольным mAb IgG. Третью группу обрабатывали примированием срРНК Ad5-GFP/стимуляцией срРНК VEE-люциферазы в комбинации с анти-CTLA-4 (aCTLA-4), тогда как четвертую группу обрабатывали примированием Ad5-UbAAY/стимуляцией VEE-UbAAY в комбинации с анти-CTLA-4 (Vax + aCTLA-4). Кроме того, всех мышей обрабатывали mAb к PD-1, начиная с 21-го дня. Т-клеточные ответы измеряли окрашиванием пентамером ГКГС I класса. Мышей умерщвляли и вырезали селезенки и лимфатические узлы через 14 дней после иммунизации аденовирусом.
[00153] На Фиг. 27D проиллюстрированы антиген-специфические Т-клеточные ответы после гетерологичного примирования/стимуляции несущих опухоль B16-OVA мышей. Несущим опухоль B16-OVA мышам C57BL/6J инъецировали аденовирус, экспрессирующий ЗФБ (Ad5-GFP), и стимулировали срРНК VEE-люциферазы, приготовленной с ЛНЧ МС3 (контроль) или Ad5-UbAAY, и стимулировали срРНК VEE-UbAAY (Vax). Контрольную и Vax-группы также обрабатывали контрольным mAb IgG. Третью группу обрабатывали примированием срРНК Ad5-GFP/стимуляцией срРНК VEE-люциферазы в комбинации с анти-CTLA-4 (aCTLA-4), тогда как четвертую группу обрабатывали примированием Ad5-UbAAY/стимуляцией VEE-UbAAY в комбинации с анти-CTLA-4 (Vax + aCTLA-4). Кроме того, всех мышей обрабатывали mAb к PD-1, начиная с 21-го дня. Т-клеточные ответы измеряли по окрашиванию ГКГС класс I пентамером. Мышей умерщвляли и вырезали селезенки и лимфатические узлы через 14 дней после иммунизации аденовирусом и через 14 дней после стимуляции срРНК (28-й день после примирования).
[00154] На Фиг. 28А проиллюстрированы антиген-специфические Т-клеточные ответы после гетерологичного примирования/стимуляции несущих опухоль СТ26 (Balb/c) мышей. Мышей иммунизировали Ad5-GFP и стимулировали через 15 дней после примирования аденовирусом срРНК VEE-люциферазы, приготовленной с ЛНЧ МС3 (контроль), или примировали Ad5-UbAAY и стимулировали срРНК VEE-UbAAY (Vax). Контрольную и Vax-группы также обрабатывали контрольным mAb IgG. К отдельной группе применяли примирование/стимуляцию срРНК Ad5-GFP/VEE-люциферазы в комбинации с анти-PD-1 (aPD1), в то время как четвертая группа получала примирование/стимуляцию срРНК Ad5-UbAAY/VEE-UbAAY в комбинации с анти-PD-1 mAb (Vax + aPD1). Т-клеточные ответы на пептид АН1 измеряли с применением ИФН-гамма ELISPOT. Мышей умерщвляли и вырезали селезенки и лимфатические узлы через 12 дней после иммунизации аденовирусом.
[00155] На Фиг. 28В проиллюстрированы антиген-специфические Т-клеточные ответы после гетерологичного примирования/стимуляции несущих опухоль СТ26 (Balb/c) мышей. Мышей иммунизировали Ad5-GFP и стимулировали через 15 дней после примирования аденовирусом срРНК VEE-люциферазы, приготовленной с ЛНЧ МС3 (контроль), или примировали Ad5-UbAAY и стимулировали срРНК VEE-UbAAY (Vax). Контрольную и Vax-группы также обрабатывали контрольным mAb IgG. К отдельной группе применяли примирование/стимуляцию срРНК Ad5-GFP/VEE-люциферазы в комбинации с анти-PD-l (aPD1), в то время как четвертая группа получала примирование/стимуляцию срРНК Ad5-UbAAY/VEE-UbAAY в комбинации с анти-PD-1 mAb (Vax + aPD1). Т-клеточные ответы на пептид АН1 измеряли с применением ИФН-гамма ELISPOT. Мышей умерщвляли и вырезали селезенки и лимфатические узлы через 12 дней после иммунизации аденовирусом и через 6 дней после стимуляции срРНК (21-й день после примирования).
[00156] На Фиг. 29 проиллюстрирован ChAdV68, вызывающий Т-клеточные ответы на мышиные опухолевые антигены у мышей. Мышей иммунизировали ChAdV68.5WTnt.MAG25mer, и измеряли Т-клеточные ответы на ГКГС класс I эпитоп SIINFEKL (OVA) (SEQ ID NO: 57) у самок мышей C57BL/6J и ГКГС класс I эпитоп АН1-А5 у мышей Balb/c. Определяли среднее количество образующих пятна клеток (SFC) на 106 спленоцитов в представленных анализах ELISpot. Планки погрешностей представляют стандартное отклонение.
[00157] На Фиг. 30 проиллюстрированы клеточные иммунные ответы на модель опухоли СТ26 после однократной иммунизации ChAdV6, ChAdV + анти-PD-1, срРНК, срРНК + анти-PD-1 или одним анти-PD-1. Антиген-специфическую выработку ИФН-гамма измеряли в спленоцитах для 6 мышей из каждой группы с применением ELISpot. Результаты представлены в виде количества образующих пятна клеток (SFC) на 106 спленоцитов. Медиана для каждой группы обозначена горизонтальной линией. Р-значения определенны с применением критерия множественного сравнения Даннетта; ***Р<0,0001, **Р<0,001, *Р<0,05. ChAdV=ChAdV68.5WTnt.MAG25mer; срРНК=срРНК VEE-MAG25mer.
[00158] На Фиг. 31 проиллюстрированы CD8 Т-клеточные иммунные ответы на модель опухоли СТ26 после однократной иммунизации ChAdV6, ChAdV + анти-PD-1, срРНК, срРНК + анти-PD-1 или одним анти-PD-1. Антиген-специфическую выработку ИФН-гамма в CD8 Т-клетках измеряли с применением ICS, а результаты представлены в виде процента антиген-специфических CD8 Т-клеток от общего количества CD8 Т-клеток. Медиана для каждой группы обозначена горизонтальной линией. Р-значения определенны с применением критерия множественного сравнения Даннетта; ***Р<0,0001, **Р<0,001, *Р<0,05. ChAdV=ChAdV68.5WTnt.MAG25mer; срРНК=срРНК VEE-MAG25mer.
[00159] На Фиг. 32 проиллюстрирован рост опухоли в модели опухоли СТ26 после иммунизации посредством гетер о логичных примирования/стимуляции ChAdV/cpPHK, гетер ологичных примирования/стимуляции cpPHK/ChAdV или гомологичных примирования/стимуляции срРНК/срРНК. Также проиллюстрировано сравнение иммунизации путем примирования/стимуляции с введением или без введения анти-PD1 во время примирования и стимуляции. Объем опухолей измеряли дважды в неделю, а средний объем опухолей, представлен для первых 21 дней исследования. 22-28 мышей на группу в начале исследования. Планки погрешностей отображают стандартную ошибку среднего (СОС). Р-значения определенны с применением критерия Даннетта; *** Р<0,0001, **Р<0,001, *Р<0,05. ChAdV= ChAdV68.5WTnt.MAG25mer; срРНК= срРНК VEE-MAG25mer.
[00160] На Фиг. 33 проиллюстрировано выживание в модели опухоли СТ26 после иммунизации посредством гетерологичных примирования/стимуляции ChAdV/cpPHK, гетерологичных примирования/стимуляции cpPHK/ChAdV или гомологичных примирования/стимуляции срРНК/срРНК. Также проиллюстрировано сравнение иммунизации путем примирования/стимуляции с введением или без введения анти-PD1 во время примирования и стимуляции. Р-значения определенны с применением лонгрангового критерия; ***Р<0,0001, **Р<0,001, *Р<0,01. ChAdV=ChAdV68.5WTnt.MAG25mer; срРНК=срРНК VEE-MAG25mer.
[00161] На Фиг. 34 проиллюстрированы антиген-специфические клеточные иммунные ответы, измеренные с применением ELISpot. Антиген-специфическую выработку ИФН-гамма для шести разных mamu А01-ограниченных эпитопов измеряли в МКПК для группы гомологичных примирования/стимуляции срРНК-ЛНЧ1 VEE-MAG25mer (30 мкг) (Фиг. 34А), срРНК-ЛНЧ1 VEE-MAG25mer (100 мкг) (Фиг. 34В) или срРНК-ЛНЧ2 VEE-MAG25mer (100 мкг) (Фиг. 34С) или гетер ологичных примирования/стимуляции срРНК ChAdV68.5WTnt.MAG25mer/VEE-MAG25mer (Фиг. 34D) с применением ELISpot через 1, 2, 3, 4, 5, 6, 8, 9 или 10 недель после первой стимулирующей иммунизации (6 макаков-резус на группу). Результаты представлены в виде среднего количества образующих пятна клеток (SFC) на 106 МКПК для каждого эпитопа в формате стопочной диаграммы. Значения для каждого животного нормализовали к уровням перед забором крови (неделя 0).
[00162] На Фиг. 35 проиллюстрированы антиген-специфические клеточные иммунные ответы, измеренные с применением ELISpot. Антиген-специфическую выработку ИФН-гамма для шести разных mamu А01-ограниченных эпитопов измеряли в МКПК после иммунизации по схеме гетеро логичных примирования/стимуляции срРНК ChAdV68.5WTnt.MAG25mer/VEE-MAG25mer с применением ELISpot перед иммунизацией и через 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23 или 24 недели после первой иммунизации. Результаты представлены в виде среднего количества образующих пятна клеток (SFC) на 106 МКПК для каждого эпитопа (6 макаков-резус на группу) в формате стопочной диаграммы.
[00163] На Фиг. 36 проиллюстрированы антиген-специфические клеточные иммунные ответы, измеренные с применением ELISpot. Антиген-специфическую выработку ИФН-гамма для шести разных mamu А01-ограниченных эпитопов измеряли в МКПК после иммунизации по схеме гомологичных примирования/стимуляции срРНК VEE-MAG25mer ЛНЧ2 с применением ELISpot перед иммунизацией и через 4, 5, 6, 7, 8, 10, 11, 12, 13, 14 или 15 недель после первой иммунизации. Результаты представлены в виде среднего количества образующих пятна клеток (SFC) на 106 МКПК для каждого эпитопа (6 макаков-резус на группу) в формате стопочной диаграммы.
[00164] На Фиг. 37 проиллюстрированы антиген-специфические клеточные иммунные ответы, измеренные с применением ELISpot. Антиген-специфическую выработку ИФН-гамма для шести разных mamu А01-ограниченных эпитопов измеряли в МКПК после иммунизации по схеме гомологичных примирования/стимуляции срРНК VEE-MAG25mer ЛНЧ1 с применением ELISpot перед иммунизацией и через 4, 5, 6, 7, 8, 10, 11, 12, 13, 14 или 15 недель после первой иммунизации. Результаты представлены в виде среднего количества образующих пятна клеток (SFC) на 106 МКПК для каждого эпитопа (6 макаков-резус на группу) в формате стопочной диаграммы.
[00165] На Фиг. 38 проиллюстрировано определение метрики расстояния для двух типовых кассетных последовательностей. На Фиг. проиллюстрированы SEQ ID NO 191 и 192, соответственно, в порядке появления.
ПОДРОБНОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
I. Определения
[00166] В целом термины, применяемые в формуле изобретения и описании, предназначены для толкования как имеющие простое значение, понятное специалисту в данной области техники. Определенные термины определены ниже для обеспечения дополнительной ясности. В случае противоречия между простым значением и предоставленными определениями, должны применяться предоставленные определения.
[00167] В данном контексте термин "антиген" обозначает вещество, которое вызывает иммунный ответ.
[00168] В данном контексте термин "неоантиген" обозначает антиген, который имеет по меньшей мере одно изменение, которое отличает его от соответствующего антигена дикого типа, например, посредством мутации в опухолевой клетке или посттрансляционной модификации, специфичной для опухолевой клетки. Неоантиген может включать в себя полипептидную последовательность или нуклеотидную последовательность. Мутация может включать индел со смещением рамки считывания или без смещения рамки считывания, миссенс или нонсенс замену, изменение сайта сплайсинга, геномную перестройку или слияние генов, или любое изменение генома или экспрессии, приводящее к неоОРС. Мутации также могут включать вариант сплайсинга. Посттрансляционные модификации, специфичные для опухолевой клетки, могут включать в себя аберрантное фосфорилирование. Посттрансляционные модификации, специфичные для опухолевой клетки, также могут включать в себя сплайсированный антиген, генерируемый протеасомой. См. Liepe et al., A large fraction of HLA class I ligands are proteasome-generated spliced peptides; Science. 2016 Oct 21; 354(6310):354-358.
[00169] В данном контексте термин "опухолевый неоантиген" обозначает неоантиген, присутствующий в опухолевой клетке или ткани субъекта, но не в соответствующей нормальной клетке или ткани субъекта.
[00170] В данном контексте термин "вакцина на основе неоантигена" обозначает конструкцию вакцины, основанную на одном или более неоантигенах, например, на множестве неоантигенов.
[00171] В данном контексте термин "кандидатный неоантиген" обозначает мутацию или другую аберрацию, приводящую к появлению новой последовательности, которая может представлять собой неоантиген.
[00172] В данном контексте термин "кодирующая область" обозначает часть(и) гена, который кодирует белок.
[00173] В данном контексте термин "кодирующая мутация" обозначает мутацию, происходящую в кодирующей области.
[00174] В данном документе термин "ОРС" означает открытую рамку считывания.
[00175] В данном контексте термин "НЕО-ОРС" обозначает представляет собой опухолеспецифическую ОРС, возникающую в результате мутации или другой аберрации, такой как сплайсинг.
[00176] В данном контексте термин "миссенс-мутация" обозначает мутацию, вызывающую замену одной аминокислоты на другую.
[00177] В данном контексте термин "нонсенс-мутация" обозначает мутацию, вызывающую замену аминокислоты на стоп-кодон или вызывающую удаление канонического стоп-кодона.
[00178] В данном контексте термин "мутация сдвига рамки считывания" обозначает мутацию, вызывающую изменение каркаса белка.
[00179] В данном контексте термин "индел" обозначает вставку или делецию одной или более нуклеиновых кислот.
[00180] В данном контексте термин процентная «идентичность» в контексте двух или более последовательностей нуклеиновых кислот или полипептидов относится к двум или более последовательностям или подпоследовательностям, которые имеют определенный процент нуклеотидов или аминокислотных остатков, которые являются одинаковыми при сравнении и выравнивании для максимального соответствия, по определению с помощью одного из алгоритмов сравнения последовательностей, описанных ниже (например, BLASTP и BLASTN или других алгоритмов, доступных специалистам в данной области техники) или путем визуального осмотра. В зависимости от применения процент "идентичности" может существовать в области сравниваемой последовательности, например в функциональном домене, или, в альтернативном варианте, может существовать по всей длине двух сравниваемых последовательностей.
[00181] Для сравнения последовательностей обычно одну последовательность рассматривают как эталонную, с которой сравнивают тестируемые последовательности. В случае применения алгоритма для сравнения последовательностей тестируемую и эталонную последовательность вносят в компьютер, при необходимости обозначают координаты подпоследовательностей и устанавливают параметры алгоритма для сравнения последовательностей. Алгоритм для сравнения последовательностей затем рассчитывает процент идентичности для тестируемой последовательности(тей) относительно эталонной последовательности на основе указанных параметров программы. В альтернативном варианте, сходство или различие последовательностей может быть установлено по комбинированному присутствию или отсутствию конкретных нуклеотидов или, в случае транслированных последовательностей, аминокислот в выбранных положениях последовательности (например, мотивах последовательности).
[00182] Оптимальное выравнивание последовательностей для сравнения можно выполнить, например, с помощью алгоритма локальной гомологии согласно Smith & Waterman, Adv. Appl. Math. 2:482 (1981), с помощью алгоритма выравнивания областей гомологии по Needleman & Wunsch, J. Mol. Biol. 48:443 (1970), с помощью метода поиска сходства по Pearson & Lipman, Proc. Nat'l. Acad. Sci. USA 85:2444 (1988); с помощью компьютеризированных реализаций этих алгоритмов (GAP, BESTFIT, FASTA и TFASTA в программном пакете Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, Wis.) или с помощью визуальной проверки (см. в общих чертах Ausubel et al., ниже).
[00183] Одним примером алгоритма, который подходит для определения процента идентичности последовательностей и сходства последовательностей является алгоритм BLAST, который описан в Altschul et al., J. Mol. Biol. 215: 403-410 (1990). Программное обеспечение для проведения анализа BLAST общедоступно в Национальном центре биотехнологической информации.
[00184] В данном контексте термин "безостановочное или сквозное прочитывание" обозначает мутацию, вызывающую удаление природного стоп-кодона.
[00185] В данном контексте термин "эпитоп" обозначает специфическую часть антигена, обычно связываемого антителом или Т-клеточным рецептором.
[00186] В данном контексте термин "иммуногенный" означает способность вызывать иммунный ответ, например, через Т-клетки, В-клетки или и то, и другое.
[00187] В данном контексте термин "аффинность связывания HLA" "аффинность связывания ГКГС" означает аффинность связывания между конкретным антигеном и специфической аллелью ГКГС.
[00188] В данном контексте термин "приманка" обозначает зонд нуклеиновой кислоты, применяемый для обогащения определенной последовательности ДНК или РНК из образца.
[00189] В данном контексте термин "вариант" обозначает разницу между нуклеиновыми кислотами субъекта и эталонным геномом человека, применяемым в качестве контроля.
[00190] В данном контексте термин "определение варианта" обозначает алгоритмическое определение наличия варианта, как правило, из последовательности.
[00191] В данном контексте термин "полиморфизм" обозначает вариант зародышевой линии, то есть вариант, обнаруженный во всех ДНК-несущих клетках индивидуума.
[00192] В данном контексте термин "соматический вариант" обозначает вариант, возникающий в клетках не зародышевой линии индивидуума.
[00193] В данном контексте термин "аллель" обозначает версию гена или версию генетической последовательности или версию белка.
[00194] В данном контексте термин "тип HLA" обозначает комплемент аллелей гена HLA.
[00195] В данном контексте термин "нонсенс-опосредованная деградация" или "NMD" (NMD - nonsense-mediated decay) обозначает деградацию мРНК клеткой из-за преждевременного стоп-кодона.
[00196] В данном контексте термин "мутация ствола" (филогенетического дерева) обозначает мутацию, возникающую на ранней стадии развития опухоли и присутствующую в значительной части клеток опухоли.
[00197] В данном контексте термин "субклональная мутация" обозначает мутацию, возникающую позднее в развитии опухоли и присутствующую только в подмножестве клеток опухоли.
[00198] В данном контексте термин "экзом" обозначает подмножество генома, которое кодирует белки. Экзом может быть коллективным экзоном генома.
[00199] В данном контексте термин "логистическая регрессия" обозначает модель регрессии для двоичных данных из статистики, где логит вероятности того, что зависимая переменная равна единице, моделируется как линейная функция зависимых переменных.
[00200] В данном контексте термин "нейронная сеть" обозначает модель машинного обучения для классификации или регрессии, состоящую из множества уровней линейных преобразований, за которыми следуют поэлементные нелинейности, обычно обучаемые с помощью стохастического градиентного спуска и обратного распространения.
[00201] В данном контексте термин "протеом" обозначает совокупность всех белков, экспрессируемых и/или транслируемых клеткой, группой клеток или индивидуумом.
[00202] В данном контексте термин "пептидом" обозначает совокупность всех пептидов, презентируемых ГКГС-I или ГКГС-II на поверхности клетки. Пептидом может относиться к свойству клетки или совокупности клеток (например, пептидом опухоли, что означает объединение пептидомов всех клеток, которые составляют опухоль).
[00203] В данном контексте термин "ELISPOT" обозначает анализ иммуносорбента с иммобилизованными ферментами, который является распространенным способом мониторинга иммунных реакций у людей и животных.
[00204] В данном контексте термин "декстрамеры" обозначает мультимеры пептид-ГКГС на основе декстрана, которые применяются для антигенспецифического окрашивания Т-клеток в проточной цитометрии.
[00205] В данном контексте термин "толерантность или иммунная толерантность" обозначает состояние иммунной невосприимчивости к одному или более антигенам, например, аутоантигенам.
[00206] В данном контексте термин "центральная толерантность" обозначает толерантность, воздействующая в тимусе, либо путем удаления аутореактивных клонов Т-клеток, либо путем стимулирования аутореактивных клонов Т-клеток для дифференцировки в иммуносупрессивные регуляторные Т-клетки (Treg - regulatory T-cell).
[00207] В данном контексте термин "периферическая толерантность" обозначает толерантность, воздействующую на периферии путем подавления или анергизации аутореактивных Т-клеток, которые выживают в центральной толерантности или способствуют тому, чтобы эти Т-клетки дифференцировались в Tregs.
[00208] Термин "образец" может включать в себя одну клетку или множество клеток или фрагменты клеток или аликвоту жидкости организма, взятую у субъекта, с помощью таких методов, как венопункция, экскреция, эякуляция, массаж, биопсия, аспират отобранный шприцем, образец лаважа, соскоб, хирургический разрез или вмешательство или другие средства, известные в данной области техники.
[00209] Термин "субъект" охватывает клетку, ткань или организм человека или не человека, будь то in vivo, ex vivo или in vitro, мужчина или женщина. Термин субъект включает млекопитающих, в том числе людей.
[00210] Термин "млекопитающее" охватывает как людей, так и не людей и включает, без ограничений, людей, приматов, отличных от человека, псовых, кошачьих, мышиных, бычьих, коней и свиней.
[00211] Термин "клинический фактор" относится к измерению состояния субъекта, например, активности или тяжести заболевания. Термин "клинический фактор" охватывает все маркеры состояния здоровья субъекта, включая маркеры, не относящиеся к выборке, и/или другие характеристики субъекта, такие как, без ограничения, возраст и пол. Клиническим фактором может быть оценка, значение или набор значений, которые могут быть получены из оценки образца (или совокупности образцов) от субъекта или субъекта в определенных условиях. Клинический фактор также можно прогнозировать с помощью маркеров и/или других параметров, таких как суррогаты экспрессии генов. Клинические факторы могут включать тип опухоли, подтип опухоли и анамнез курения.
[00212] Термин "кодирующие антиген последовательности нуклеиновой кислоты, полученные из опухоли" относится к последовательностям нуклеиновой кислоты, непосредственно выделенным из опухоли, например, с помощью ОТ-ПЦР; или данные о последовательностях, полученные путем сиквенирования опухоли и затем синтеза последовательностей нуклеиновых кислот с применением данных сиквенирования, например, с помощью различных синтетических или основанных на ПЦР способов, известных в данной области техники.
[00213] Термин "альфавирус" относится к членам семейства Togaviridae, и обозначает одноцепочечные положительно-полярные РНК-вирусы. Альфавирусы обычно классифицируют как вирусы Старого Света, такие как вирусы Синдбис, Росс-Ривер, Майяро, Чикунгунья и Лес Семлики, или Новый Свет, такие как восточный лошадиный энцефалит, Аура, Форт-Морган или венесуэльский лошадиный энцефалит и его производный штамм ТС-83. Альфавирусы, как правило, являются самореплицирующимися РНК-вирусами.
[00214] Термин "основная цепь альфавируса" относится к минимальной последовательности (последовательностям) альфавируса, которые позволяют осуществлять саморепликацию вирусного генома. Минимальные последовательности могут включать консервативные последовательности для неструктурной белок-опосредованной амплификации, ген неструктурного белка 1 (nsP1), ген nsP2, ген nsP3, ген nsP4 и последовательность полиА, а также последовательности для экспрессии субгеномной вирусной РНК, включая промотор 26S.
[00215] Термин "последовательности для опосредованной неструктурным белком амплификации" включает консервативные элементы последовательности (КЭП) альфавируса, как известно в данной области техники. КЭП включают, но не ограничиваются этим, 5' НТО альфавируса, 51-нт КЭП, 24-нт КЭП или другую субгеномную последовательность промотора 26S, 19-нт КЭП и 3' НТО альфавируса.
[00216] Термин "РНК-полимераза" охватывает полимеразы, которые катализируют производство РНК-полинуклеотидов из матрицы ДНК. РНК-полимеразы включают в себя, но без ограничений, полимеразы, полученные из бактериофагов, включая Т3, Т7 и SP6.
[00217] Термин "липид" обозначает гидрофобные и/или амфифильные молекулы. Липиды могут быть катионными, анионными или нейтральными. Липиды могут быть синтетическими или природными, а в некоторых случаях биоразлагаемыми. Липиды могут включать в себя холестерин, фосфолипиды, липидные конъюгаты, включая, но без ограничений, полиэтиленгликоль (ПЭГ) конъюгаты (ПЭГилированные липиды), воски, масла, глицериды, жиры и жирорастворимые витамины. Липиды могут также включать в себя динолейлметил-4-диметиламинобутират (МС3) и МС3-подобные молекулы.
[00218] Термин "липидная наночастица" или "ЛНЧ" обозначает везикулярные структуры, образованные с применением липидсодержащей мембраны, окружающей водную внутреннюю часть, также называемую липосомами. Липидные наночастицы включают композиции на основе липидов с твердым липидным ядром, стабилизированным поверхностно-активным веществом. Основными липидами могут быть жирные кислоты, ацилглицерины, воски и смеси этих поверхностно-активных веществ. Биологические мембранные липиды, такие как фосфолипиды, сфингомиелины, желчные соли (таурохолат натрия) и стерины (холестерин) могут использоваться в качестве стабилизаторов. Наночастицы липидов могут быть получены с применением определенных соотношений различных молекул липидов, включая, но без ограничений, определенные соотношения одного или более катионных, анионных или нейтральных липидов. Липидные наночастицы могут инкапсулировать молекулы в оболочке внешней мембраны и впоследствии могут контактировать с целевыми клетками для доставки инкапсулированных молекул в цитозоль клетки-хозяина. Липидные наночастицы могут быть модифицированы или функционализированы нелипидными молекулами, в том числе на их поверхности. Липидные наночастицы могут быть однослойными (одноламелярными) или многослойными (многоламелярными). Липидные наночастицы могут образовывать комплекс с нуклеиновой кислотой. Однослойные липидные наночастицы могут образовывать комплекс с нуклеиновой кислотой, в которой нуклеиновая кислота находится внутри водного пространства. Многослойные липидные наночастицы могут образовывать комплекс с нуклеиновой кислотой, в которой нуклеиновая кислота находится внутри водного пространства, или образовываться или помещаться между ними.
[00219] Сокращения: ГКГС: главный комплекс гистосовместимости; HLA: антиген лейкоцитов человека или локус гена ГКГС человека; NGS: сиквенирование следующего поколения; PPV: положительная прогностическая ценность; TSNA: опухолеспецифический неоантиген; FFPE: фиксированный формалином, залитый парафином; NMD: нонсенс-опосредованная деградация; НМРЛ: немелкоклеточный рак легкого; ДК: дендритная клетка.
[00220] Следует отметить, что, при использовании в данном описании и приложенной формуле изобретения единственное число включает ссылку на множественное число, если из контекста очевидно не следует обратное.
[00221] Если специально не указано иное или иное не очевидно из контекста, в данном документе подразумевается, что термин «около» включает диапазон нормального допуска в данной области техники, например, в рамках 2 стандартных отклонений от среднего. Около может подразумевать в пределах 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1%, 0,5%, 0,1%, 0,05% или 0,01% от указанного значения. Если иное четко не следует из контекста, все числовые значения, приведенные в данном документе, модифицированы термином около.
[00222] Любые термины, прямо не определенные в данном документе, следует понимать как имеющие значения, обычно связанные с ними, как они понимаются в области техники изобретения. Определенные термины обсуждаются в данном документе, с целью предоставления дополнительного руководства для практикующего специалиста при описании композиций, устройств, способов и тому подобного аспектов изобретения, а также того, как их изготавливать или применять. Следует понимать, что одно и то же можно сказать несколькими способами. Следовательно, альтернативный язык и синонимы могут применяться для любого одного или более терминов, обсуждаемых в данном документе. Не следует придавать значения тому, разработан/обсуждается или нет термин в данном документе. Предоставляются некоторые синонимы или заменяемые способы, материалы и тому подобное. Изложение одного или более синонимов или эквивалентов не исключает применение других синонимов или эквивалентов, если это явно не указано. Применение примеров, включая примеры терминов, предназначено только для иллюстративных целей и не ограничивает объем и значение аспектов изобретения, приведенных в данном документе.
[00223] Все ссылки, выданные патенты и патентные заявки, приведенные в основной части описания, тем самым включены в качестве ссылки в полном объеме для любых целей.
II. Способы идентификации неоантигенов
[00224] В данном документе описаны способы идентификации неоантигенов из опухоли субъекта, которые вероятно могут быть представлены на клеточной поверхности опухолевых или иммунных клеток, включая специализированные антиген-презентирующие клетки, такие как дендритные клетки, и/или вероятно могут быть иммуногенными. В качестве примера один такой способ может включать в себя этапы: получения по меньшей мере одних данных сиквенирования нуклеотидов опухоли экзома, транскриптома или цельного генома из опухолевой клетки субъекта, при этом данные сиквенирования нуклеотидов опухоли применяют для получения данных, представляющих пептидные последовательности каждого из набора неоантигенов, и при этом пептидная последовательность каждого неоантигена содержит по меньшей мере одно изменение, которое отличает его от соответствующей пептидной последовательности дикого типа; ввода пептидной последовательности каждого неоантигена в одну или более моделей презентации для генерации набора числовых вероятностей того, что каждый из неоантигенов презентирован одним или более аллелями ГКГС на поверхности опухолевой клетки субъекта или клеток, присутствующих в опухоли, при этом набор числовых вероятностей, идентифицируется, по меньшей мере, на основе полученных данных масс-спектрометрии; и выбора поднабора из набора неоантигенов на основе набора числовых вероятностей для генерирования набора выбранных неоантигенов.
[00225] Модель презентации может содержать статистическую регрессию или модель машинного обучения (например, технологию глубокого обучения), обученную на наборе исходных данных (также называемом набором обучающих данных), содержащем набор соответствующих меток, при этом набор исходных данных получен от каждого из множества различных субъектов, где необязательно у некоторых субъектов может быть опухоль, и при этом набор исходных данных включает в себя, по меньшей мере, одно из: данные, представляющие экзомные нуклеотидные последовательности из опухолевой ткани, данные, представляющие экзомные нуклеотидные последовательности из нормальной ткани, данные представляют транскриптомные нуклеотидные последовательности из опухолевой ткани, данные, представляющие последовательности протеома из опухолевой ткани, и данные, представляющие последовательности ГКГС пептидома из опухолевой ткани, и данные, представляющие последовательности ГКГС пептидома из нормальной ткани. Исходные данные могут дополнительно включать в себя данные масс-спектрометрии, данные сиквенирования, данные сиквенирования РНК и данные протеомики для одноаллельных клеточных линий, сконструированных для экспрессии предварительно определенной аллели ГКГС, которые впоследствии подвергают воздействию синтетического белка, нормальных и опухолевых клеточных линий человека, а также свежих и замороженных исходных образцов и анализов Т-клеток (например, ELISPOT). В определенных аспектах набор исходных данных включает в себя каждую форму исходных данных.
[00226] Модель презентации может содержать набор признаков, полученных, по меньшей мере, частично из набора исходных данных, и в котором набор признаков содержит, по меньшей мере, один из аллель-зависимых признаков и аллель-независимых признаков. В определенных аспектах каждый признак включен.
[00227] Также в данном документе описаны способы генерации выходных данных для создания персонализированной противораковой вакцины путем идентификации одного или более неоантигенов из одной или более опухолевых клеток субъекта, для которых существует вероятность презентации на поверхности опухолевых клеток. В качестве примера один такой способ может включать этапы: получения данных нуклеотидного сиквенирования по меньшей мере одного из экзома, транскриптома или цельного генома из опухолевых клеток и нормальных клеток субъекта, причем данные нуклеотидного сиквенирования используют для получения данных, представляющих пептидные последовательности каждого из набора неоантигенов, идентифицированных путем сравнения данных нуклеотидного сиквенирования из опухолевых клеток и данных нуклеотидного сиквенирования из нормальных клеток, и при этом пептидная последовательность каждого неоантигена содержит по меньшей мере одно изменение, которое отличает ее от соответствующей пептидной последовательности дикого типа, идентифицированной из нормальных клеток субъекта; кодирования пептидных последовательностей каждого из неоантигенов в соответствующий числовой вектор, причем каждый числовой вектор содержит информацию относительно некоторого количества аминокислот, которые составляют пептидную последовательность, и набора положений аминокислот в пептидной последовательности; ввода числовых векторов посредством компьютерного процессора в презентационную модель с глубоким обучением для генерации набора вероятностей презентации для набора неоантигенов, причем каждая вероятность презентации в наборе представляет вероятность того, что соответствующий неоантиген презентируется одной или более аллелями ГКГС класса II на поверхности опухолевых клеток субъекта, презентационная модель с глубоким обучением; выбора поднабора из набора неоантигенов на основании набора вероятностей презентации для создания набора выбранных неоантигенов; и генерации выходных данных для создания персонализированной противораковой вакцины на основании набора выбранных неоантигенов.
[00228] В некоторых вариантах реализации изобретения презентационная модель содержит некоторое количество параметров, идентифицированных по меньшей мере на основании набора обучающих данных, в качестве вводных данных, и вероятность презентации, генерируемую в качестве выходных данных на основании числового вектора и указанных параметров. В определенных вариантах реализации изобретения набор обучающих данных содержит метки, полученные посредством масс-спектрометрического определения присутствия пептидов, связанных с по меньшей мере одной аллелью ГКГС класса II, идентифицированных как присутствующие по меньшей мере в одном из некоторого количества образцов, обучающие пептидные последовательности, закодированные в виде числовых векторов, содержащих информацию относительно некоторого количества аминокислот, которые составляют пептидную последовательность, и набора положений аминокислот в пептидной последовательности, и по меньшей мере одну аллель HLA, связанную с обучающими пептидными последовательностями.
[00229] Презентация дендритных клеток признакам наивных Т-клеток может включать в себя по меньшей мере одно из: Описанный выше признак. Дозу и тип антигена в вакцине, (например, пептид, мРНК, вирус и тому подобное): (1) путь, по которому дендритные клетки (ДК) захватывают антигенный тип (например, эндоцитоз, микропиноцитоз); и/или (2) эффективность, с которой антиген поглощается ДК. Дозу и тип вспомогательного вещества в вакцине. Длину последовательности вакцинного антигена. Количество и места введения вакцин. Базовую иммунную функцию пациента (например, измеренную в анамнезе недавних инфекций, показателей крови и тому подобного) Для РНК-вакцин: (1) скорость метаболизма белкового продукта мРНК в дендритной клетке; (2) скорость трансляции мРНК после поглощения дендритными клетками, измеренная в экспериментах in vitro или in vivo; и/или (3) количество или циклы трансляции мРНК после поглощения дендритными клетками, измеренные в экспериментах in vivo или in vitro. Присутствие мотивов расщепления протеазой в пептиде, необязательно придавая дополнительный вес протеазам, обычно экспрессируемым в дендритных клетках (как измерено с помощью РНК-сек или масс-спектрометрии). Уровень экспрессии протеасомы и иммунопротеасомы в типичных активированных дендритных клетках (который может быть измерен с помощью РНК-сек, масс-спектрометрии, иммуногистохимии или других стандартных методик). Уровни экспрессии конкретной аллели ГКГС у данного индивидуума (например, измеренные с помощью РНК-сек или масс-спектрометрии), необязательно, измеряют конкретно в активированных дендритных клетках или других иммунных клетках. Вероятность презентации пептида конкретной аллелью ГКГС у других индивидуумов, которые экспрессируют конкретную аллель ГКГС, необязательно измеряют специфически в активированных дендритных клетках или других иммунных клетках. Вероятность презентации пептидов аллелями ГКГС в одном и том же семействе молекул (например, HLA-A, HLA-B, HLA-C, HLA-DQ, HLA-DR, HLA-DP) у других индивидуумов, необязательно измеряется конкретно у активированных дендритных клетках или других иммунных клетках.
[00230] Особенности падения иммунной толерантности могут включать в себя по меньшей мере одно из: Прямое измерение собственного пептидома с помощью белковой масс-спектрометрии, выполненной на одном или нескольких типах клеток. Оценка собственного пептидома путем объединения всех k-меров (например, 5-25) подстрок собственных белков. Оценка собственного пептидома с применением модели презентации, аналогичной модели презентации, описанной выше, применялась ко всем немутантным собственным белкам, необязательно учитывающим варианты зародышевой линии.
[00231] Ранжирование может быть выполнено с применением множества неоантигенов, предоставленных по меньшей мере одной моделью, основанной по меньшей мере частично на числовых вероятностях. После ранжирования может быть выполнен отбор для выбора подмножества ранжированных неоантигенов в соответствии с критериями отбора. После отбора подмножества ранжированных пептидов может быть предоставлено в качестве результата.
[00232] Количество набора выбранных неоантигенов может составлять 20.
[00233] Презентационная модель может представлять зависимость между: присутствием пары определенного одного из аллелей ГКГС и конкретной аминокислоты в определенном положении пептидной последовательности; и вероятность презентации на поверхности опухолевых клеток конкретным одним из аллелей ГКГС пары такой пептидной последовательности, содержащей определенную аминокислоту в определенном положении.
[00234] Описанный в данном документе способ может также включать в себя применение одной или более презентационных моделей к пептидной последовательности соответствующего неоантигена для получения показателя зависимости для каждой из одной или более аллелей ГКГС, указывающей, будет ли аллель ГКГС презентировать соответствующий неоантиген на основе, по меньшей мере, положения аминокислот пептидной последовательности соответствующего неоантигена.
[00235] Описанный в данном документе способ может также включать в себя преобразование показателей зависимости для создания соответствующей вероятности для каждой аллели, для каждой аллели ГКГС, что указывает на вероятность того, что соответствующая аллель ГКГС презентирует соответствующий неоантиген; и объединение вероятностей для каждой аллели с целью создания числовой вероятности.
[00236] Этап преобразования оценок зависимости может моделировать презентацию пептидной последовательности соответствующего неоантигена как взаимоисключающий.
[00237] Описанный в данном документе способ может также включать в себя преобразование комбинации оценок зависимости для создания числовой вероятности.
[00238] Этап трансформации сочетания оценок зависимости может моделировать презентацию пептидной последовательности соответствующего неоантигена как интерферирующую между аллелями ГКГС.
[00239] Набор числовых вероятностей может быть дополнительно идентифицирован, по меньшей мере, по не взаимодействующему с аллелью признаку, и способ, описанный в данном документе, может также включать в себя применение аллели, не взаимодействующей с одной из одной или более презентационными моделями, к не взаимодействующим с аллелью признакам для создания оценок зависимости для не взаимодействующих с аллелью признаков, указывающих, будет ли презентирована пептидная последовательность соответствующего неоантигена на основе не взаимодействующих с аллелью признаков.
[00240] Описанный в данном документе способ может также включать в себя объединение показателя зависимости для каждой аллели ГКГС в одной или более аллелях ГКГС с показателем зависимости для не взаимодействующего с аллелью признака; преобразование комбинированных оценок зависимостей для каждой аллели ГКГС с целью создания соответствующей вероятности для каждой аллели, для аллели ГКГС, что указывает на вероятность того, что соответствующая аллель ГКГС презентирует соответствующий неоантиген; и объединение вероятностей для каждой аллели с целью создания числовой вероятности.
[00241] Описанный в данном документе способ может также включать в себя преобразование комбинации оценок зависимости для признаков не взаимодействующих с аллелью с целью создания числовой вероятности.
[00242] Набор числовых параметров для презентационной модели может быть подготовлен на основе набора данных для обучения, включающего, по меньшей мере, набор пептидных последовательностей для обучения, идентифицированных как присутствующие во множестве образцов, и одна или более аллелей ГКГС, связанных с каждой последовательностью обучающего пептида, при этом последовательности пептидов для обучения идентифицируют с помощью масс-спектрометрии на выделенных пептидах, элюированных из аллелей ГКГС, полученных из множества образцов.
[00243] Образцы также могут включать в себя клеточные линии, сконструированные для экспрессии одной аллели ГКГС класса I или класса II.
[00244] Образцы также могут включать в себя клеточные линии, сконструированные для экспрессии множества аллелей ГКГС класса I или класса II.
[00245] Образцы также могут включать в себя клеточные линии человека, полученные или происходящие от множества пациентов.
[00246] Образцы также могут включать в себя образцы свежей или замороженной опухоли, полученные от множества пациентов.
[00247] Образцы также могут включать в себя образцы свежей или замороженной ткани, полученные от множества пациентов.
[00248] Образцы также могут включать в себя пептиды, идентифицированные с применением анализа Т-клеток.
[00249] Набор данных для обучения может дополнительно включать в себя данные, связанные с: количеством пептидов в наборе пептидов для обучения, присутствующих в образцах; длиной пептида из набора пептидов для обучения в образцах.
[00250] Набор данных для обучения может быть создан путем сравнения набора последовательностей пептидов для обучения путем выравнивания с базой данных, содержащей набор известных последовательностей белков, при этом набор последовательностей белков для обучения длиннее и включает в себя последовательности пептидов для обучения.
[00251] Набор данных для обучения может быть создан на основе выполнения или выполненного нуклеотидного сиквенирования на клеточной линии для получения по меньшей мере одного из данных сиквенирования экзома, транскриптома или целого генома из клеточной линии, причем данные сиквенирования включают, по меньшей мере, одну нуклеотидную последовательность, включающую изменения.
[00252] Набор данных для обучения может быть создан на основе получения по меньшей мере одного из данных сиквенирования нормальных нуклеотидов экзома, транскриптома и целого генома из образцов нормальной ткани.
[00253] Набор данных для обучения может дополнительно включать в себя данные, связанные с последовательностями протеома, связанными с образцами.
[00254] Набор данных для обучения может дополнительно включать в себя данные, связанные с последовательностями ГКГС пептидома, связанными с образцами.
[00255] Набор данных для обучения может дополнительно включать в себя данные, связанные с измерениями аффинности связывания пептид-ГКГС, по меньшей мере, для одного из выделенных пептидов.
[00256] Набор данных для обучения может дополнительно включать в себя данные, связанные с измерениями стабильности связывания пептид-ГКГС, по меньшей мере, для одного из выделенных пептидов.
[00257] Набор данных для обучения может дополнительно включать в себя данные, связанные с транскриптомами, связанными с образцами.
[00258] Набор данных для обучения может дополнительно включать в себя данные, связанные с геномами, связанными с образцами.
[00259] Последовательности пептидов для обучения могут иметь длину в диапазоне k-мер, где к составляет от 8 до 15, включительно для ГКГС класса I или от 6 до 30 включительно для ГКГС класса II.
[00260] Описанный в данном документе способ может также включать в себя кодирование пептидной последовательности с применением схемы прямого кодирования.
[00261] Описанный в данном документе способ может также включать в себя кодирование обучающих пептидных последовательностей с применением схемы прямого кодирования с левым отступом.
[00262] Способ лечения субъекта, имеющего опухоль, включающий выполнение этапов любого из описанных в данном документе способов идентификации неоантигенов и дополнительно включающий получение опухолевой вакцины, содержащей набор выбранных неоантигенов, и введение опухолевой вакцины субъекту.
[00263] Описанный в данном документе способ также может включать идентификацию одной или более Т-клеток, которые являются антиген-специфическими для по меньшей мере одного из неоантигенов в поднаборе. В некоторых вариантах реализации изобретения идентификация включает совместное культивирование одной или более Т-клеток с одним или более неоантигенами в поднаборе в условиях, которые позволяют увеличивать количество одной или более антиген-специфических Т-клеток. В дополнительных вариантах реализации изобретения идентификация включает приведение одной или более Т-клеток в контакт с тетрамером, содержащим один или более неоантигенов в поднаборе, в условиях, которые обеспечивают возможность связывания между Т-клеткой и тетрамером. В дополнительных вариантах реализации изобретения описанный в данном документе способ также может включать идентификацию одного или более Т-клеточных рецепторов (ТКР) одной или более идентифицированных Т-клеток. В определенных вариантах реализации изобретения идентификация одного или более Т-клеточных рецепторов включает сиквенирование последовательностей Т-клеточного рецептора одной или более идентифицированных Т-клеток. Описанный в данном документе способ может дополнительно включать генетическое конструирование некоторого количества Т-клеток для экспрессии по меньшей мере одного из одного или более идентифицированных Т-клеточных рецепторов; культивирование некоторого количества Т-клеток в условиях, которые позволяют увеличивать количество некоторого количества Т-клеток; и инфузию размноженных Т-клеток субъекту. В некоторых вариантах реализации изобретения генетическое конструирование некоторого количества Т-клеток для экспрессии по меньшей мере одного или более идентифицированных Т-клеточных рецепторов включает клонирование последовательностей Т-клеточных рецепторов одной или более идентифицированных Т-клеток в экспрессионный вектор; и трансфекцию каждой из некоторого количества Т-клеток с помощью экспрессионного вектора. В некоторых вариантах реализации изобретения описанный в данном документе способ дополнительно включает культивирование одной или более идентифицированных Т-клеток в условиях, которые позволяют увеличивать количество одной или более идентифицированных Т-клеток; и инфузию размноженных Т-клеток субъекту.
[00264] Также в данном документе описана выделенная Т-клетка, которая является антиген-специфической для по меньшей одного выбранного неоантигена в поднаборе.
[00265] Также в данном документе описаны способы изготовления противоопухолевой вакцины, включающие в себя этапы: получения по меньшей мере одних данных сиквенирования нуклеотидов опухоли экзома, транскриптома или цельного генома из опухолевой клетки субъекта, при этом данные сиквенирования нуклеотидов опухоли применяют для получения данных, представляющих пептидные последовательности каждого из набора неоантигенов, и при этом пептидная последовательность каждого неоантигена содержит по меньшей мере одно изменение, которое отличает его от соответствующей пептидной последовательности дикого типа; ввода пептидной последовательности каждого неоантигена в одну или более моделей презентации для генерации набора числовых вероятностей того, что каждый из неоантигенов представлен одним или более аллелями ГКГС на поверхности опухолевой клетки субъекта, при этом набор числовых вероятностей, идентифицируется, по меньшей мере, на основе полученных данных масс-спектрометрии; и выбора поднабора из набора неоантигенов на основе набора числовых вероятностей для генерирования набора выбранных неоантигенов; и производство или получение противоопухолевой вакцины, содержащей набор отобранных неоантигенов.
[00266] Также в данном документе описана противоопухолевая вакцина, включающая в себя набор отобранных неоантигенов, выбранных путем выполнения способа, включающего этапы: получения по меньшей мере одних данных сиквенирования нуклеотидов опухоли экзома, транскриптома или цельного генома из опухолевой клетки субъекта, при этом данные сиквенирования нуклеотидов опухоли применяют для получения данных, представляющих пептидные последовательности каждого из набора неоантигенов, и при этом пептидная последовательность каждого неоантигена содержит по меньшей мере одно изменение, которое отличает его от соответствующей пептидной последовательности дикого типа; ввода пептидной последовательности каждого неоантигена в одну или более моделей презентации для генерации набора числовых вероятностей того, что каждый из неоантигенов представлен одним или более аллелями ГКГС на поверхности опухолевой клетки субъекта, при этом набор числовых вероятностей, идентифицируется, по меньшей мере, на основе полученных данных масс-спектрометрии; и выбора поднабора из набора неоантигенов на основе набора числовых вероятностей для генерирования набора выбранных неоантигенов; и производство или получение противоопухолевой вакцины, содержащей набор отобранных неоантигенов.
[00267] Противоопухолевая вакцина может включать в себя одну или более нуклеотидных последовательностей, полипептидных последовательностей, РНК, ДНК, клетки, плазмиды или вектора.
[00268] Противоопухолевая вакцина может включать в себя один или более неоантигенов, презентированных на поверхности опухолевых клеток.
[00269] Противоопухолевая вакцина может включать в себя один или более неоантигенов, которые являются иммуногенными для субъекта.
[00270] Противоопухолевая вакцина может не включать в себя один или более неоантигенов, которые вызывают аутоиммунный ответ против нормальной ткани у субъекта.
[00271] Противоопухолевая вакцина может включать в себя вспомогательное вещество.
[00272] Противоопухолевая вакцина может включать в себя наполнитель.
[00273] Способ, описанный в данном документе, может также включать в себя отбор неоантигенов, которые имеют повышенную вероятность быть презентированными на поверхности опухолевых клеток по сравнению с неотобранными неоантигенами, на основе презентационной модели.
[00274] Способ, описанный в данном документе, может также включать в себя отбор неоантигенов, которые имеют повышенную вероятность того, что они способны индуцировать специфический для опухоли иммунный ответ у субъекта по сравнению с неотобранными неоантигенами на основе презентационной модели.
[00275] Способ, описанный в данном документе, может также включать в себя отбор неоантигенов, которые имеют повышенную вероятность того, что они могут быть презентированы наивным Т-клеткам специализированными антигенпрезентирующими клетками (АПК) по сравнению с неотобранными неоантигенами на основе презентационной модели, необязательно, при этом АПК представляет собой дендритную клетку (ДК).
[00276] Способ, описанный в данном документе, может также включать в себя отбор неоантигенов, которые имеют пониженную вероятность подвергнуться ингибированию посредством центральной или периферической толерантности по сравнению с неотобранными неоантигенами, на основе презентационной модели.
[00277] Способ, описанный в данном документе, может также включать в себя отбор неоантигенов, которые имеют пониженную вероятность того, что они способны индуцировать аутоиммунный ответ на нормальную ткань у субъекта по сравнению с неотобранными неоантигенами на основе презентационной модели.
[00278] Данные сиквенирования нуклеотидов экзома или транскриптома могут быть получены путем выполнения сиквенирования на опухолевой ткани.
[00279] Сиквенирование может быть сиквенированием следующего поколения (NGS - next generation sequencing) или любым подходом массового параллельного сиквенирования.
[00280] Набор числовых вероятностей может быть дополнительно идентифицирован по меньшей мере по признакам, взаимодействующим с ГКГС-аллелью, включающим в себя по меньшей мере одно из: предсказанную аффинность, с которой связываются аллель ГКГС и кодируемый неоантигеном пептид; предсказанную стабильность комплекса пептид-ГКГС, кодируемого неоантигеном; последовательность и длину пептида, кодируемого неоантигеном; вероятность презентации неоантиген-кодируемых пептидов с аналогичной последовательностью в клетках от других индивидуумов, экспрессирующих конкретную аллель ГКГС, по данным масс-спектрометрической протеомики или другими способами; уровни экспрессии конкретной аллели ГКГС у рассматриваемого субъекта (например, измеренные с помощью РНК-сек или масс-спектрометрии); общую неоантиген-кодируемую независимую от пептидной последовательности вероятность презентации конкретным аллелью ГКГС у других отдельных субъектов, которые экспрессируют конкретную аллель ГКГС; общую неоантиген-кодируемую независимую от пептидной последовательности вероятность презентации аллелями ГКГС в одном и том же семействе молекул (например, HLA-A, HLA-B, HLA-C, HLA-DQ, HLA-DR, HLA-DP) в других отдельных субъектов.
[00281] Набор числовых вероятностей дополнительно идентифицируется по меньшей мере по признакам, не взаимодействующим с ГКГС-аллелью, включающим в себя по меньшей мере одно из: С- и N-концевых последовательностей, фланкирующих пептид, кодируемый неоантигеном, в пределах последовательности его исходного белка; наличие мотивов расщепления протеазой в пептиде, кодируемом неоантигеном, необязательно взвешенным в соответствии с экспрессией соответствующих протеаз в опухолевых клетках (как измерено с помощью РНК-сек или масс-спектрометрии); скорость метаболизма исходного белка, измеренную в соответствующем типе клеток; длину исходного белка, необязательно учитывая специфические варианты сплайсинга ("изоформы"), наиболее сильно экспрессируемые в опухолевых клетках, как измерено с помощью РНК-сек или масс-спектрометрии протеома, или как предсказано по аннотации зародышевой линии или мутаций соматического сплайсинга, обнаруженных в данных о последовательности ДНК или РНК; уровень экспрессии протеасомы, иммунопротеасомы, тимопротеасомы или других протеаз в опухолевых клетках (который может быть измерен с помощью РНК-сек, масс-спектрометрии протеома или иммуногистохимии); экспрессию исходного гена пептида, кодируемого неоантигеном (например, измеренную с помощью РНК-сек или масс-спектрометрии); типичную тканеспецифическую экспрессию исходного гена пептида, кодируемого неоантигеном, на различных стадиях клеточного цикла; полный каталог признаков исходного белка и/или его доменов, который можно найти, например, в uniProt или PDB http://www.rcsb.org/pdb/home/home.do; признаки, описывающие свойства домена исходного белка, содержащего пептид, например: вторичная или третичная структура (например, альфа-спираль против бета-листа); альтернативный сплайсинг; вероятность презентации пептидов из исходного белка рассматриваемого пептида, кодируемого неоантигеном, у других отдельных субъектов; вероятность того, что пептид не будет обнаружен или чрезмерно представлен масс-спектрометрией из-за технических ошибок; экспрессию различных генных модулей/путей, измеренных с помощью РНК-сек (которые не обязательно должны содержать исходный белок пептида), которые информативны о состоянии опухолевых клеток, стромы или инфильтрирующих опухоль лимфоцитов (ИОЛ); число копий исходного гена пептида, кодируемого неоантигеном, в опухолевых клетках; вероятность того, что пептид связывается с ТАР, или измеренная или прогнозируемая аффинность связывания пептида с ТАР; уровень экспрессии ТАР в опухолевых клетках (который может быть измерен с помощью РНК-сек, масс-спектрометрии протеома, иммуногистохимии); наличие или отсутствие опухолевых мутаций, включая, но не ограничиваясь ими: драйверную мутацию в известных драйверных генах рака, таких как EGFR, KRAS, ALK, RET, ROS1, ТР53, CDKN2A, CDKN2B, NTRK1, NTRK2, NTRK3 и в генах, кодирующих белки, участвующие в механизме презентации антигена (например, В2М, HLA-A, HLA-B, HLA-С, ТАР-1, ТАР-2, ТАРВР, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOB, HLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQ А2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DR A, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5 или любой из генов, кодирующих компоненты протеасомы или иммунопротеасомы). Пептиды, презентация которых зависит от компонента механизма презентации антигена, который подвержен мутации потери функции в опухоли, имеют сниженную вероятность презентации; наличие или отсутствие функциональных полиморфизмов зародышевой линии, в том числе, но без ограничений: в генах, кодирующих белки, участвующие в механизме презентации антигена (например, В2М, HLA-A, HLA-B, HLA-C, ТАР-1, ТАР-2, ТАРВР, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOB, HLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5 или любой из генов, кодирующих компоненты протеасомы или иммунопротеасомы); тип опухоли (например, НМРЛ, меланома); клинический подтип опухоли (например, плоскоклеточный рак легкого по сравнению с неплоскоклеточным); анамнез курения; типичная экспрессия исходного гена пептида в соответствующем типе опухоли или клиническом подтипе, необязательно стратифицированного драйверной мутацией.
[00282] По меньшей мере одно изменение может представлять собой индел со смещением рамки считывания или без смещения рамки считывания, миссенс или нонсенс замену, изменение сайта сплайсинга, геномную перестройку или слияние генов, или любое изменение генома или экспрессии, приводящее к неоОРС.
[00283] Опухолевая клетка может быть выбрана из группы, состоящей из: рака легких, меланомы, рака молочной железы, рака яичников, рака простаты, рака почки, рака желудка, рака толстой кишки, рака яичка, рака головы и шеи, рака поджелудочной железы, рака мозга, В-клеточной лимфомы, острого миелогенного лейкоза, хронического миелогенного лейкоза, хронического лимфоцитарного лейкоза и Т-клеточного лимфоцитарного лейкоза, немелкоклеточного рака легкого и мелкоклеточного рака легкого.
[00284] Способ, описанный в данном документе, может также включать в себя получение противоопухолевой вакцины, содержащей набор выбранных неоантигенов или их подмножество, необязательно дополнительно включающий в себя введение противоопухолевой вакцины субъекту.
[00285] По меньшей мере один из неоантигенов в наборе выбранных неоантигенов, когда он находится в полипептидной форме, может включать по меньшей мере одно из: аффинность связывания с ГКГС со значением IC50 менее 1000 нМ для полипептидов ГКГС класса I длиной 8-15, 8, 9, 10, 11, 12, 13, 14 или 15 аминокислот, для полипептидов ГКГС класса II длиной 6-30, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 или 30 аминокислот, наличие мотивов последовательностей в пределах или вблизи полипептида в последовательности родительского белка, стимулирующих расщепление протеасомами, и наличие мотивов последовательностей, стимулирующих транспорт ТАР. В случае ГКГС класса II это наличие мотивов последовательностей в пределах или пептида, стимулирующих расщепление внеклеточными или лизосомальными протеазами (например, катепсинами) или катализируемое HLA-DM связывание HLA.
[00286] В данном документе также описаны способы получения модели для идентификации одного или более неоантигенов, которые могут быть презентированы на поверхности опухолевой клетки, включающие этапы: получения данных масс-спектрометрии, содержащих данные, связанные с множеством выделенных пептидов элюированных из главного комплекса гистосовместимости (ГКГС), полученного из множества образцов; получение набора данных для обучения, по меньшей мере, путем идентификации набора пептидных последовательностей для обучения, присутствующих в образцах, и одного или более ГКГС, связанных с каждой пептидной последовательностью для обучения; набор числовых параметров модели презентации для обучения с применением набора данных для обучения, включающего пептидные последовательности для обучения, причем презентационная модель обеспечивает множество числовых вероятностей того, что пептидные последовательности из опухолевой клетки презентированы одним или более аллелями ГКГС на поверхности опухолевой клетки.
[00287] Презентационная модель может представлять зависимость между: присутствием конкретной аминокислоты в определенном положении пептидной последовательности; и вероятностью презентации одним из аллелей ГКГС на опухолевой клетке пептидной последовательности, содержащей определенную аминокислоту в определенном положении.
[00288] Образцы также могут включать в себя клеточные линии, сконструированные для экспрессии одной аллели ГКГС класса I или класса II.
[00289] Образцы также могут включать в себя клеточные линии, сконструированные для экспрессии множества аллелей ГКГС класса I или класса II.
[00290] Образцы также могут включать в себя клеточные линии человека, полученные или происходящие от множества пациентов.
[00291] Образцы также могут включать в себя образцы свежей или замороженной опухоли, полученные от множества пациентов.
[00292] Образцы также могут включать в себя пептиды, идентифицированные с применением анализа Т-клеток.
[00293] Набор данных для обучения может дополнительно включать в себя данные, связанные с: количеством пептидов в наборе пептидов для обучения, присутствующих в образцах; длиной пептида из набора пептидов для обучения в образцах.
[00294] Описанный в данном документе способ может также включать в себя получение набора последовательностей белков для обучения на основе последовательностей пептидов для обучения путем выравнивания с базой данных, содержащей набор известных последовательностей белков, при этом набор последовательностей белков для обучения длиннее и включает в себя последовательности пептидов для обучения.
[00295] Описанный в данном документе способ может также включать в себя выполнение или проведение масс-спектрометрии на клеточной линии для получения по меньшей мере одних из данных сиквенирования нуклеотидов экзома, транскриптома или целого генома из клеточной линии, данные сиквенирования нуклеотида включают в себя, по меньшей мере, одну последовательность белка, включающую мутацию.
[00296] Описанный в данном документе способ может также включать в себя кодирование обучающих пептидных последовательностей с применением схемы прямого кодирования.
[00297] Описанный в данном документе способ может также включать в себя получение по меньшей мере одних из данных сиквенирования нормальных нуклеотидов экзома, транскриптома и целого генома из образцов нормальной ткани; и обучение набора параметров презентационной модели с применением данных нормального нуклеотидного сиквенирования.
[00298] Набор данных для обучения может дополнительно включать в себя данные, связанные с последовательностями протеома, связанными с образцами.
[00299] Набор данных для обучения может дополнительно включать в себя данные, связанные с последовательностями ГКГС пептидома, связанными с образцами.
[00300] Набор данных для обучения может дополнительно включать в себя данные, связанные с измерениями аффинности связывания пептид-ГКГС, по меньшей мере, для одного из выделенных пептидов.
[00301] Набор данных для обучения может дополнительно включать в себя данные, связанные с измерениями стабильности связывания пептид-ГКГС, по меньшей мере, для одного из выделенных пептидов.
[00302] Набор данных для обучения может дополнительно включать в себя данные, связанные с транскриптомами, связанными с образцами.
[00303] Набор данных для обучения может дополнительно включать в себя данные, связанные с геномами, связанными с образцами.
[00304] Описанный в данном документе способ может также включать в себя логистическую регрессию набора параметров.
[00305] Последовательности пептидов для обучения могут иметь длину в диапазоне k-мер, где k составляет от 8 до 15, включительно для ГКГС класса I или от 6 до 30 включительно для ГКГС класса II.
[00306] Описанный в данном документе способ может также включать в себя кодирование пептидных последовательностей для обучения с применением схемы прямого кодирования с левым отступом.
[00307] Описанный в данном документе способ может также включать в себя определение значений для набора параметров с применением алгоритма глубокого обучения.
[00308] В данном документе описаны способы идентификации одного или более неоантигенов, которые могут быть презентированы на поверхности опухолевой клетки, включающие в себя выполнение следующих этапов: получение данных масс-спектрометрии, содержащих данные, связанные с множеством выделенных пептидов, элюированных из главного комплекса гистосовместимости (ГКГС), полученного из множества свежих или замороженных образцов опухоли; получение набора данных для обучения, по меньшей мере, путем идентификации набора пептидных последовательностей для обучения, присутствующих в образцах опухоли и презентированных на одном или более аллелях ГКГС, связанных с каждой пептидной последовательностью для обучения; получение набора белковых последовательностей для обучения на основе пептидных последовательностей для обучения; и обучение набора числовых параметров презентационной модели с применением последовательностей белка для обучения и последовательностей пептида для обучения, причем презентационная модель обеспечивает множество числовых вероятностей того, что пептидные последовательности из опухолевой клетки представлены одним или более аллелями ГКГС на поверхности опухолевой клетки.
[00309] Презентационная модель может представлять зависимость между: присутствием пары определенного одного из аллелей ГКГС и конкретной аминокислоты в определенном положении пептидной последовательности; и вероятность презентации на поверхности опухолевых клеток конкретным одним из аллелей ГКГС пары такой пептидной последовательности, содержащей определенную аминокислоту в определенном положении.
[00310] Способ, описанный в данном документе, может также включать в себя отбор подмножества неоантигенов, при этом подмножество неоантигенов отобрано, поскольку каждый из них имеет повышенную вероятность того, что он презентирован на клеточной поверхности опухоли относительно одного или более различных опухолевых неоантигенов.
[00311] Способ, описанный в данном документе, может также включать в себя подмножество неоантигенов, при этом подмножество неоантигенов выбрано потому, что каждый имеет повышенную вероятность того, что он способен индуцировать специфический для опухоли иммунный ответ у субъекта по отношению к одному или более отдельным опухолевым неоантигенам.
[00312] Способ, описанный в данном документе, может также включать в себя отбор подмножества неоантигенов, при этом подмножество неоантигенов отобрано, поскольку каждый из них имеет повышенную вероятность того, что он может быть презентирован наивным Т-клеткам специфическими антигенпрезентирующими клетками (АПК) относительно одного или более различных опухолевых неоантигенов, необязательно, при этом АПК представляет собой дендритную клетку (ДК).
[00313] Способ, описанный в данном документе, может также включать в себя отбор подмножества неоантигенов, при этом подмножество неоантигенов отобрано, поскольку каждый из них имеет пониженную вероятность того, что он подвергается ингибированию через центральную или периферическую толерантность по отношению к одному или более отдельным опухолевым неоантигенам.
[00314] Способ, описанный в данном документе, может также включать в себя подмножество неоантигенов, при этом подмножество неоантигенов выбрано потому, что каждый имеет пониженную вероятность того, что он способен индуцировать аутоиммунный ответ на нормальную ткань у субъекта по отношению к одному или более отдельным опухолевым неоантигенам.
[00315] Способ, описанный в данном документе, может также включать в себя отбор подмножества неоантигенов, при этом отбор подмножества неоантигенов выбран, поскольку каждый из них имеет пониженную вероятность того, что он будет дифференцированно посттрансляционно модифицирован в опухолевых клетках по сравнению с АПК, необязательно, при этом АПК представляет собой дендритную клетку (ДК).
[00316] Если не указано иное, при практической реализации способов данного изобретения применяются традиционные методы химии белков, биохимии, технологии рекомбинантных ДНК и фармакологии, которые соответствуют данной области техники. Такие технологии подробно описаны в литературе. См., например, Т.Е. Creighton, Proteins: Structures and Molecular Properties (W.H. Freeman and Company, 1993); A.L. Lehninger, Biochemistry (Worth Publishers, Inc., с текущими добавлениями); Sambrook, et al., Molecular Cloning: A Laboratory Manual (2nd Edition, 1989); Methods In Enzymology (S. Colowick and N. Kaplan eds., Academic Press, Inc.); Remington's Pharmaceutical Sciences, 18th Edition (Easton, Pennsylvania: Mack Publishing Company, 1990); Carey and Sundberg Advanced Organic Chemistry 3rd Ed. (Plenum Press) тома А и B (1992).
III. Идентификация опухолеспецифических мутаций в неоантигенх
[00317] В данном документе также описаны способы идентификации определенных мутаций (например, вариантов или аллелей, которые присутствуют в раковых клетках). В частности, эти мутации могут присутствовать в геноме, транскриптоме, протеоме или экзоме раковых клеток субъекта, имеющего рак, но не в нормальной ткани субъекта.
[00318] Генетические мутации в опухолях можно считать полезными для иммунологического нацеливания опухолей, если они приводят к изменениям аминокислотной последовательности белка исключительно в опухоли. Полезные мутации включают в себя: (1) несинонимичные мутации, приводящие к различным аминокислотам в белке; (2) сквозные мутации, в которых стоп-кодон модифицирован или удален, что приводит к трансляции более длинного белка с новой опухолеспецифической последовательностью на С-конце; (3) мутации сайта сплайсинга, которые приводят к включению интрона в зрелую мРНК и, следовательно, уникальной опухолеспецифической последовательности белка; (4) хромосомные перестройки, которые приводят к химерному белку с опухолеспецифическими последовательностями на стыке 2 белков (то есть слияние генов); (5) мутации или делеции со сдвигом рамки считывания, которые приводят к новой открытой рамке считывания с новой опухолеспецифической белковой последовательностью. Мутации могут также включать в себя одно или более из следующего: индел со смещением рамки считывания или без смещения рамки считывания, миссенс или нонсенс замену, изменение сайта сплайсинга, геномную перестройку или слияние генов, или любое изменение генома или экспрессии, приводящее к неоОРС.
[00319] Пептиды с мутациями или мутированными полипептидами, возникающими, например, в результате мутации сайта сплайсинга, сдвига рамки считывания, повторного считывания или слияния генов в опухолевых клетках, можно идентифицировать путем сиквенирования ДНК, РНК или белка в опухоли по сравнению с нормальными клетками.
[00320] Также мутации могут включать в себя ранее идентифицированные опухолеспецифические мутации. Известные опухолевые мутации можно найти в базе данных каталога раковых соматических мутаций (COSMIC - Catalogue of Somatic Mutations in Cancer).
[00321] Доступно множество способов для обнаружения наличия конкретной мутации или аллели в ДНК или РНК индивидуума. Достижения в этой области обеспечили точное, простое и недорогое крупномасштабное генотипирование ОНП (однонуклеотидного полиморфизма). Например, было описано несколько методов, включая динамическую аллель-специфическую гибридизацию (DASH - dynamic allele-specific hybridization), микропланшетный диагональный электрофорез в геле (MADGE - microplate array diagonal gel electrophoresis), пиросиквенирование, олигонуклеотид-специфическое лигирование, систему TaqMan, а также различные технологии ДНК-чипов, такие как чипы Affymetrix SNP. Эти способы используют амплификацию целевой генетической области, обычно с помощью ПЦР. Еще другие способы, основанные на генерации малых сигнальных молекул путем инвазивного расщепления с последующей масс-спектрометрией или иммобилизованными замыкающими кольцо зондами и амплификацией по типу катящегося кольца. Некоторые из известных в данной области техники способов обнаружения специфических мутаций приведены ниже.
[00322] Средство обнаружения на основе ПЦР может включать в себя мультиплексную амплификацию множества маркеров одновременно. Например, в данной области техники хорошо известно, что выбираются праймеры для ПЦР для получения продуктов ПЦР, которые не перекрываются по размеру и могут быть проанализированы одновременно. В качестве альтернативы, можно амплифицировать разные маркеры с помощью праймеров, которые дифференцированно мечены и, таким образом, каждый из них может быть дифференцированно обнаружен. Конечно, средства обнаружения на основе гибридизации позволяют проводить дифференциальное обнаружение нескольких продуктов ПЦР в образце. В данной области техники известны другие методы, позволяющие проводить мультиплексный анализ множества маркеров.
[00323] Было разработано несколько способов для облегчения анализа однонуклеотидных полиморфизмов в геномной ДНК или клеточной РНК. Например, полиморфизм одного основания может быть обнаружен с применением специализированного резистентного к экзонуклеазе нуклеотида, как описано, например, в Mundy, С.R. (патент США. №4656127). Согласно этому способу, праймеру, комплементарному аллельной последовательности непосредственно 3' к полиморфному сайту, разрешается гибрид изо в аться с целевой молекулой, полученной от конкретного животного или человека. Если полиморфный сайт на целевой молекуле содержит нуклеотид, который комплементарен присутствующему конкретному устойчивому к экзонуклеазе производному нуклеотида, то это производное будет включено в конец гибридизованного праймера. Такое включение делает праймер устойчивым к экзонуклеазе и тем самым позволяет его обнаруживать. Поскольку идентичность экзонуклеазорезистентного производного образца известна, обнаружение того, что праймер стал устойчивым к экзонуклеазам, показывает, что нуклеотид(ы), присутствующий в полиморфном сайте целевой молекулы, является комплементарным производному нуклеотиду(ам), который применяется в реакции. Преимущество этого способа состоит в том, что он не требует определения большого количества данных посторонних последовательностей.
[00324] Способ на основе раствора может быть применен для определения идентичности нуклеотида полиморфного сайта. Cohen, D. et al. (French Patent 2,650,840; PCT Appln. № WO 91/02087). Как и в способе Mundy по патенту США. №4656127, используется праймер, который комплементарен аллельным последовательностям, непосредственно находящимся в 3' положении к полиморфному сайту. Этот способ позволяет определять идентичность нуклеотида этого сайта, используя меченые производные дидезоксинуклеотидов, которые, если они комплементарны нуклеотиду полиморфного сайта, будут включены в конец праймера.
[00325] Альтернативный способ, известный как анализ Genetic Bit Analysis или GBA, описан Goelet, P. et al. (Заявка PCT №92/15712). Способ Goelet, P. и соавт. применяет смеси меченых терминаторов и праймера, который комплементарен последовательности 3' к полиморфному сайту. Таким образом, меченый терминатор, который включен, определяется нуклеотидом, присутствующим в полиморфном сайте оцениваемой целевой молекулы, и комплементарен ему. В противоположность способу Cohen et al. (French Patent 2,650,840; PCT Appln. № WO 91/02087) способ Goelet, P. et al. может быть анализом гетерогенной фазы, в котором праймер или целевая молекула иммобилизованы в твердой фазе.
[00326] Было описано несколько процедур включения нуклеотидов под руководством праймера для анализа полиморфных сайтов в ДНК (Komher, J.S. и соавт., Nucl. Acids. Res. 17: 7779-7784 (1989); Sokolov, В.P., Nucl. Acids Res. 18: 3671 (1990); Syvanen, A.-C., et al., Genomics 8: 684-692 (1990); Kuppuswamy, M.N. et al., Proc. Natl. Acad. Sci. (U.S.A.) 88: 1143-1147 (1991); Prezant, T.R. et al., Hum. Mutat. 1: 159-164 (1992); Ugozzoli, L. et al., GATA 9: 107-112 (1992); Nyren, P. et al., Anal. Biochem. 208: 171-175 (1993)). Эти способы отличаются от GBA тем, что в них используется включение меченых дезоксинуклеотидов для различения оснований в полиморфном сайте. В таком формате, поскольку сигнал пропорционален количеству включенных дезоксинуклеотидов, полиморфизмы, возникающие при прогонах одного и того же нуклеотида, могут приводить к сигналам, пропорциональным длине прогона (Syvanen, А.-С. и соавт., Amer. J. Hum. Genet. 52: 46-59 (1993)).
[00327] Ряд инициатив позволяет получать информацию о последовательностях непосредственно от миллионов отдельных молекул ДНК или РНК параллельно. Технологии сиквенирования путем синтеза отдельных молекул в режиме реального времени основаны на обнаружении флуоресцентных нуклеотидов, так как они включены в растущую цепь ДНК, которая является комплементарной сиквенируемой матрице. В одном способе олигонуклеотиды длиной 30-50 оснований ковалентно закрепляются на 5'-конце на покровных стеклах. Эти заякоренные цепи выполняют две функции. Во-первых, они действуют как сайты захвата для целевых цепей матрицы, если матрицы сконфигурированы с хвостами захвата, комплементарными поверхностно-связанным олигонуклеотидам. Они также выступают в качестве праймеров для управляемого матрицей удлинения праймеров, которое составляет основу считывания последовательности. Захватывающие праймеры функционируют как сайт с фиксированным положением для определения последовательности с применением нескольких циклов синтеза, обнаружения и химического расщепления линкер-краситель красителя для удаления красителя. Каждый цикл состоит из добавления смеси полимераза/меченого нуклеотида, промывки, визуализации и расщепления красителя. В альтернативном способе полимераза модифицирована флуоресцентной донорной молекулой и иммобилизована на предметном стекле, в то время как каждый нуклеотид имеет цветовую кодировку с акцепторным флуоресцентным фрагментом, присоединенным к гамма-фосфату. Система обнаруживает взаимодействие между флуоресцентно меченой полимеразой и флуоресцентно модифицированным нуклеотидом, когда нуклеотид включается в цепь de novo. Существуют и другие технологии сиквенирования путем синтеза.
[00328] Любая подходящая платформа сиквенирования путем синтеза может быть применена для идентификации мутаций. Как описано выше, в настоящее время доступны четыре основные платформы для сиквенирования путем синтеза: Genome Sequencers от Roche/454 Life Sciences, 1G Analyzer от Illumina/Solexa, система SOLiD от Applied BioSystems и система Heliscope от Helicos Biosciences. Платформы сиквенирования путем синтезу также были описаны Pacific Biosciences и VisiGen Biotechnologies. В некоторых вариантах реализации изобретения множество молекул нуклеиновой кислоты, которые сиквенируют, связывают с подложкой (например, твердой подложкой). Для иммобилизации нуклеиновой кислоты на носителе, на 3' и/или 5' конце матрицы можно добавить последовательность захвата/универсальный праймирующий сайт. Нуклеиновые кислоты могут быть связаны с подложкой путем гибридизации последовательности захвата с комплементарной последовательностью, ковалентно присоединенной к подложке. Последовательность захвата (также называемая универсальной последовательностью захвата) представляет собой последовательность нуклеиновой кислоты, комплементарную последовательности, прикрепленной к подложке, которая может одновременно служить универсальным праймером.
[00329] В качестве альтернативы последовательности захвата член пары связывания (такой как, например, антитело/антиген, рецептор/лиганд или пара авидин-биотин, как описано, например, в заявке на патент США №2006/0252077) может быть связан с каждым фрагментом, подлежащим захвату на подложке, покрытой соответствующим вторым элементом этой пары связывания.
[00330] После захвата последовательность может быть проанализирована, например, путем обнаружения/сиквенирования одной молекулы, например, как описано в Примерах и в патенте США №7283337, включая матрично-зависимое сиквенирование путем синтеза. При сиквенировании путем синтеза связанная с поверхностью молекула подвергается воздействию множества меченых нуклеотидтрифосфатов в присутствии полимеразы. Последовательность матрицы определяется порядком меченых нуклеотидов, включенных в 3' конец растущей цепи. Это может быть сделано в режиме реального времени или в режиме последовательной шаговой мультипликации. Для анализа в реальном времени различные оптические метки для каждого нуклеотида могут быть включены, и несколько лазеров могут быть использованы для стимуляции включенных нуклеотидов.
[00331] Сиквенирование может также включать в себя другие методы и платформы массового параллельного сиквенирования или сиквенирования следующего поколения (NGS). Дополнительными примерами методов и платформ массового параллельного сиквенирования являются Illumina HiSeq или MiSeq, Thermo PGM или Proton, Рас Bio RS II или Sequel, Gene Reader от Qiagen и Oxford Nanopore MinION. Могут быть применены дополнительные аналогичные современные технологии массового параллельного сиквенирования, а также будущие поколения этих технологий.
[00332] Любой тип клеток или ткани можно использовать для получения образцов нуклеиновых кислот для применения в описанных в данном документе способах. Например, образец ДНК или РНК может быть получен из опухоли или жидкости организма, например, крови, полученных известными методами (например, венепункцией) или слюны. В альтернативном варианте, тесты на нуклеиновую кислоту можно проводить на сухих образцах (например, на волосах или коже). Кроме того, с целью сиквенирования образец может быть получен из опухоли, а другой образец для сиквенирования может быть получен из нормальной ткани, когда нормальная ткань имеет тот же тип ткани, что и опухоль. Образец может быть получен для сиквенирования из опухоли, а другой образец может быть получен из нормальной ткани для сиквенирования, когда нормальная ткань имеет другой тип ткани относительно опухоли.
[00333] Опухоли могут включать в себя одно или более из рака легкого, меланомы, рака молочной железы, рака яичника, рака предстательной железы, рака почки, рака желудка, рака толстой кишки, рака яичка, рака головы и шеи, рака поджелудочной железы, рака мозга, В-клеточной лимфомы, острого миелогенного лейкоза, хронического миелогенного лейкоза, хронического лимфоцитарного лейкоза и Т-клеточного лимфоцитарного лейкоза, немелкоклеточного рака легкого и мелкоклеточного рака легкого.
[00334] В альтернативном варианте белковая масс-спектрометрия может быть применена для идентификации или подтверждения наличия мутированных пептидов, связанных с белками ГКГС, на опухолевых клетках. Пептиды могут быть элюированы кислотой из опухолевых клеток или из молекул HLA, которые иммунопреципитированы из опухоли, а затем идентифицированы с помощью масс-спектрометрии.
IV. Неоантигены
[00335] Неоантигены могут включать в себя нуклеотиды или полипептиды. Например, неоантиген может представлять собой последовательность РНК, которая кодирует полипептидную последовательность. Следовательно, неоантигены, применяемые в вакцинах, могут включать нуклеотидные последовательности или полипептидные последовательности.
[00336] В данном документе описаны выделенные пептиды, которые содержат специфичные для опухоли мутации, идентифицированные способами, описанными в данном документе, пептиды, которые содержат известные специфичные для опухоли мутации, и мутантные полипептиды или их фрагменты, идентифицированные способами, описанные в данном документе. Пептиды неоантигенов могут быть описаны в контексте их кодирующей последовательности, где неоантиген включает в себя нуклеотидную последовательность (например, ДНК или РНК), которая кодирует соответствующую полипептидную последовательность.
[00337] Один или более полипептидов, кодируемых нуклеотидной последовательностью неоантигена, могут содержать по меньшей мере одно из: аффинности связывания с ГКГС со значением IC50 менее 1000 нМ, для пептидов ГКГС класса I длины 8-15, 8, 9, 10, 11, 12, 13, 14 или 15 аминокислот, наличия мотивов последовательности в пределах или вблизи пептида, способствующих расщеплению протеасомами, и наличия мотивов последовательности, способствующих транспорту ТАР. Для пептидов ГКГС класса II это длина 6-30, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 или 30 аминокислот, наличие мотивов последовательности в пределах или вблизи пептида, способствующих расщеплению внеклеточными или лизосомальными протеазами (например, катепсинами), или катализируемое HLA-DM связывание HLA.
[00338] Один или более неоантигенов могут быть презентированы на поверхности опухоли.
[00339] Один или более неоантигенов могут быть иммуногенными у субъекта, имеющего опухоль, например, способного вызывать Т-клеточный ответ или В-клеточный ответ у субъекта.
[00340] Один или более неоантигенов, которые вызывают аутоиммунный ответ у субъекта, могут быть исключены из рассмотрения в контексте создания вакцины для субъекта, имеющего опухоль.
[00341] Размер по меньшей мере одной неоантигенной пептидной молекулы может включать, но без ограничений, около 5, около 6, около 7, около 8, около 9, около 10, около 11, около 12, около 13, около 14, около 15 около 16, около 17, около 18, около 19, около 20, около 21, около 22, около 23, около 24, около 25, около 26, около 27, около 28, около 29, около 30, около 31, около 32, около 33, около 34, около 35, около 36, около 37, около 38, около 39, около 40, около 41, около 42, около 43, около 44, около 45, около 46, около 47, около 48, около 49, около 50, около 60, около 70, около 80, около 90, около 100, около 110, около 120 или более аминокислотных остатков и любой диапазон, выводимый из них. В конкретных вариантах реализации изобретения молекулы неоантигенного пептида имеют длину 50 или менее аминокислот.
[00342] Неоантигенные пептиды и полипептиды могут иметь длину: в случае ГКГС класса 1-15 остатков или менее и обычно состоят из от около 8 до около 11 остатков, в частности 9 или 10 остатков; в случае ГКГС класса II 6-30 остатков, включительно.
[00343] Если желательно, более длинный пептид может быть сконструирован несколькими способами. В одном случае, когда вероятности презентации пептидов на аллелях HLA предсказаны или известны, более длинный пептид может состоять из: (1) индивидуально презентированных пептидов с удлинениями от 2 до 5 аминокислот по направлению к N- и С-концу каждого соответствующего генного продукта; (2) конкатенации некоторых или всех представленных пептидов с расширенными последовательностями для каждого. В другом случае, когда сиквенирование выявляет длинную (>10 остатков) последовательность неоэпитопа, присутствующую в опухоли (например, из-за сдвига рамки считывания, сквозного прочитывания или включения интрона, которое приводит к новой пептидной последовательности), более длинный пептид будет состоять из: (3) весь отрезок новых опухолеспецифических аминокислот таким образом, обходя необходимость в вычислительном или in vitro отборе на основе самого сильного HLA-презентированного более короткого пептида. В обоих случаях применение более длинного пептида делает возможным эндогенный процессинг клетками пациента и может привести к более эффективной презентации антигена и индукции Т-клеточных ответов.
[00344] Неоантигенные пептиды и полипептиды могут быть презентированы на белке HLA. В некоторых аспектах неоантигенные пептиды и полипептиды презентированы на белке HLA с большей аффинностью, чем пептид дикого типа. В некоторых аспектах неоантигенный пептид или полипептид может иметь IC50 по меньшей мере менее 5000 нМ, по меньшей мере менее 1000 нМ, по меньшей мере менее 500 нМ, по меньшей мере менее 250 нМ, по меньшей мере менее 200 нМ, по меньшей мере менее 150 нМ, по меньшей мере менее 100 нМ, по меньшей мере менее 50 нМ или менее.
[00345] В некоторых аспектах неоантигенные пептиды и полипептиды не вызывают аутоиммунный ответ и/или вызывают иммунологическую толерантность в случае введения субъекту.
[00346] Также предоставлены композиции, содержащие по меньшей мере два или более неоантигенных пептида. В некоторых вариантах реализации изобретения композиция содержит, по меньшей мере, два разных пептида. По меньшей мере два разных пептида могут быть получены из одного и того же полипептида. Под разными полипептидами подразумевается, что пептид варьируется по длине, аминокислотной последовательности или по обеим характеристикам. Пептиды получены из любого полипептида, который, как известно, содержит мутацию, специфичную для опухоли. Подходящие полипептиды, из которых могут быть получены неоантигенные пептиды, можно найти, например, в базе данных COSMIC. COSMIC предоставляет исчерпывающую информацию о соматических мутациях при раке у человека. Пептид содержит опухолеспецифическую мутацию. В некоторых аспектах опухолеспецифическая мутация является драйверной мутацией для определенного типа рака.
[00347] Неоантигенные пептиды и полипептиды, имеющие желаемую активность или свойства, могут быть модифицированы для обеспечения определенных желательных свойств, например улучшенных фармакологических характеристик, при одновременном повышении или, по меньшей мере, сохранении практически всей биологической активности немодифицированного пептида для связывания желаемой молекулы ГКГС и активации соответствующей Т-клетки. Например, неоантигенный пептид и полипептиды могут подвергаться различным изменениям, таким как замены, либо консервативные, либо неконсервативные, где такие изменения могут обеспечить определенные преимущества при их применении, такие как улучшенное связывание ГКГС, стабильность или презентирование. Под консервативными заменами подразумевается замена аминокислотного остатка другим, который биологически и/или химически подобен, например, один гидрофобный остаток на другой или один полярный остаток на другой. Замены включают комбинации, такие как Gly, Ala; Val, Ile, Leu, Met; Asp, Glu; Asn, Gln; Ser, Thr; Lys, Arg; и Phe, Tyr. Эффект единичных аминокислотных замен также может быть исследован с применением D-аминокислот. Такие модификации можно осуществлять, используя хорошо известные процедуры синтеза, как описано, например, в Merrifield, Science 232: 341-347 (1986), Barany & Merrifield, The Peptides, Gross & Meienhofer, eds. (N.Y., Academic Press), pp. 1-284 (1979); и Stewart & Young, Solid Phase Peptide Synthesis, (Rockford, 111., Pierce), 2d Ed. (1984).
[00348] Модификации пептидов и полипептидов с помощью различных миметиков аминокислот или неприродных аминокислот могут быть особенно полезны для повышения стабильности пептида и полипептида in vivo. Стабильность может быть оценена несколькими способами. Например, пептидазы и различные биологические среды, такие как человеческая плазма и сыворотка, были применены для тестирования стабильности. Смотрите, например, Verhoef и соавт., Eur. J. Drug Metab Pharmacokin. 11: 291-302 (1986). Период полураспада пептидов может быть легко определен с применением анализа 25% человеческой сыворотки (об/об). Протокол, как правило, выглядит следующим образом. Объединенная человеческая сыворотка (тип АВ, не инактивированная нагреванием) перед применением центрифугируется. Затем сыворотку разбавляют до 25% средой для тканевых культур RPMI и применяется для тестирования стабильности пептида. Через заданные интервалы времени небольшое количество реакционного раствора удаляют и добавляют либо к 6% водной трихлоруксусной кислоте, либо к этанолу. Образец мутной реакции охлаждают (4 градуса С) в течение 15 минут и затем вращают для осаждения осажденных белков сыворотки. Присутствие пептидов затем определяют с помощью обращенно-фазовой ВЭЖХ с применением условий стабильно-специфической хроматографии.
[00349] Пептиды и полипептиды могут быть модифицированы для обеспечения желаемых признаков, отличных от улучшенного периода полужизни в сыворотке. Например, способность пептидов индуцировать активность ЦТЛ может быть улучшена путем связывания с последовательностью, которая содержит по меньшей мере один эпитоп, способный индуцировать ответ Т-хелперных клеток. Иммуногенные пептиды/Т-хелперные конъюгаты могут быть связаны молекулой спейсера. Спейсер обычно состоит из относительно небольших нейтральных молекул, таких как аминокислоты или аминокислотные миметики, которые практически не заряжены в физиологических условиях. Спейсеры обычно выбирают из, например, Ala, Gly или других нейтральных спейсеров неполярных аминокислот или нейтральных полярных аминокислот. Понятно, что необязательно присутствующий спейсер не обязательно должен состоять из одних и тех же остатков и, таким образом, может представлять собой гетеро- или гомоолигомер. В случае если он присутствует, спейсер обычно содержит по меньшей мере один или два остатка, более обычно три-шесть остатков. В альтернативном варианте пептид может быть связан с Т-хелперным пептидом без спейсера.
[00350] Неоантигенный пептид может быть связан с Т-хелперным пептидом либо напрямую, либо через спейсер на амино- или карбокси-конце пептида. N-конец либо неоантигенного пептида, либо пептида Т-хелпера может быть ацилирован. Типовые Т-хелперные пептиды включают столбнячный анатоксин 830-843, грипп 307-319, циркумспорозоит малярии 382-398 и 378-389.
[00351] Белки или пептиды могут быть получены любым способом, известным специалистам в данной области техники, включая экспрессию белков, полипептидов или пептидов с помощью стандартных молекулярно-биологических методов, выделение белков или пептидов из природных источников или химический синтез белков или пептидов. Нуклеотидные и белковые, полипептидные и пептидные последовательности, соответствующие различным генам, были описаны ранее, и их можно найти в компьютеризированных базах данных, известных специалистам в данной области техники. Одной из таких баз данных являются базы данных Genbank Национального центра биотехнологической информации и GenPept, находящиеся на веб-сайте Национального института здоровья. Кодирующие области для известных генов можно амплифицировать и/или экспрессировать, используя описанные в данном документе методики, или так, как известно специалистам в данной области техники. В альтернативном варианте специалистам в данной области техники известны различные коммерческие препараты белков, полипептидов и пептидов.
[00352] В дополнительном аспекте неоантиген включает в себя нуклеиновую кислоту (например, полинуклеотид), которая кодирует неоантигенный пептид или его часть. Полинуклеотид может представлять собой, например, ДНК, кДНК, ПНК, ЦНК (циркулирующие нуклеиновые кислоты), РНК (например, мРНК), либо одно- и/или двухцепочечные, либо нативные или стабилизированные формы полинуклеотидов, такие как, например, полинуклеотиды с фосфоротиатным остовом или их комбинации, и он может содержать или не содержать интроны. В еще одном аспекте представлен экспрессионный вектор, способный экспрессировать полипептид или его часть. Экспрессионные векторы для различных типов клеток хорошо известны в данной области техники и могут быть выбраны без чрезмерных экспериментов. Как правило, ДНК встраивается в экспрессионный вектор, такой как плазмида, в правильной ориентации и правильной рамке считывания для экспрессии. При необходимости ДНК может быть связана с соответствующими нуклеотидными последовательностями регуляторного транскрипционного и трансляционного контроля, распознаваемыми желаемым хозяином, хотя такие контроли обычно доступны в экспрессионном векторе. Вектор затем вводится в хозяина с помощью стандартных методик. Руководство можно найти, например, в Sambrook et al. (1989) Molecular Cloning, A Laboratory Manual, Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y.
V. Вакцинные композиции
[00353] В данном документе также раскрыта иммуногенная композиция, например, вакцинная композиция, способная вызывать специфический иммунный ответ, например, специфический для опухоли иммунный ответ. Вакцинные композиции обычно содержат множество неоантигенов, например, выбранных с применением способа, описанного в данном документе. Вакцинные композиции также могут называться вакцинами.
[00354] Вакцина может содержать от 1 до 30 пептидов, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 или 30 разных пептидов, 6, 7, 8, 9, 10 11, 12, 13 или 14 разных пептидов, или 12, 13 или 14 разных пептидов. Пептиды могут содержать посттрансляционные модификации. Вакцина может содержать от 1 до 100 или более нуклеотидных последовательностей, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,95, 96, 97, 98, 99, 100 или более разных нуклеотидных последовательностей, 6, 7, 8, 9, 10, 11, 12, 13 или 14 разных нуклеотидных последовательностей, или 12, 13 или 14 разных нуклеотидных последовательностей. Вакцина может содержать от 1 до 30 неоантигенных последовательностей, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,95, 96, 97, 98, 99, 100 или более разных неоантигенных последовательностей, 6, 7, 8, 9, 10 11, 12, 13 или 14 разных неоантигенных последовательностей или 12, 13 или 14 разных неоантигенных последовательностей.
[00355] В одном варианте реализации изобретения разные пептиды и/или полипептиды или нуклеотидные последовательности, кодирующие их, выбирают так, чтобы пептиды и/или полипептиды были способны связываться с разными молекулами ГКГС, такими как разные ГКГС класс I молекулы и/или разные ГКГС класс II молекулы. В некоторых аспектах одна вакцинная композиция содержит кодирующую последовательность для пептидов и/или полипептидов, способных связываться с наиболее часто встречающимися ГКГС класс I молекулами и/или разными ГКГС класс II молекулами. Следовательно, вакцинные композиции могут содержать различные фрагменты, способные связываться по меньшей мере с 2 предпочтительными, по меньшей мере 3 предпочтительными или по меньшей мере 4 предпочтительными ГКГС класс I молекулами и/или разными ГКГС класс II молекулами.
[00356] Вакцинная композиция может быть способна вызывать специфический ответ цитотоксических Т-клеток и/или специфический ответ хелперных Т-клеток.
[00357] Вакцинная композиция может дополнительно содержать вспомогательное вещество и/или носитель. Примеры полезных вспомогательных веществ и носителей приведены ниже. Композиция может быть ассоциирована с носителем, таким как, например, белок или антиген-презентирующая клетка, такая как, например, дендритная клетка (ДК), способная презентировать пептид Т-клетке.
[00358] Вспомогательные вещества представляют собой любые вещества, чья добавка в вакцинную композицию увеличивает или иным образом модифицирует иммунный ответ на неоантиген. Носителями могут быть каркасные структуры, например полипептид или полисахарид, с которым может быть связан неоантиген. Необязательно, вспомогательные вещества конъюгированы ковалентно или нековалентно.
[00359] Способность вспомогательного вещества усиливать иммунный ответ на антиген обычно проявляется в значительном или существенном усилении иммуноопосредованной реакции или уменьшении симптомов заболевания. Например, увеличение гуморального иммунитета обычно проявляется в значительном увеличении титра антител к антигену, а увеличение активности Т-клеток обычно проявляется в увеличении пролиферации клеток, или цитотоксичности клеток, или секреции цитокинов. Вспомогательное вещество также может изменять иммунный ответ, например, путем изменения преимущественно гуморального или Th-ответа на преимущественно клеточный или Th-ответ.
[00360] Подходящие вспомогательные вещества включают в себя, помимо прочего, 1018 ISS, алюм, соли алюминия, Amplivax, AS15, BCG, СР-870,893, CpG7909, СуаА, dSLIM, GM-CSF, IC30, IC31, Имиквимод, ImuFact IMP321, IS Patch, ISS, ISCOMATRIX, JuvImmune, LipoVac, MF59, монофосфориллипид А, Монтанид IMS 1312, Монтанид ISA 206, Монтанид ISA 50V, Монтанид ISA-51, OK-432, ОМ-174, OM-197-MP-EC, ONTAK, векторную систему Pep Tel, микрочастицы PLG, резиквимод, SRL172, Виросомы и другие вирусоподобные частицы, YF-17D, ловушку VEGF, R848, бета-глюкан, Pam3Cys, стимулон Aquila QS21 (Aquila Biotech, Вустер, штат Массачусетс, США), который получен из сапонина, микобактериальных экстрактов и синтетических бактериальных клеточных стенок, и других запатентованных вспомогательных веществ, таких как Детокс Риби. Quil или Superfos. Полезны такие вспомогательные вещества, как неполный адъювант Фрейнда или ГМКСФ. Несколько иммунологических вспомогательных веществ (например, MF59), специфических для дендритных клеток, и их получение, были описаны ранее (Dupuis М, et al., Cell Immunol. 1998; 186(1): 18-27; Allison A C; Dev Biol Stand. 1998 год; 92: 3-11). Также цитокины могут быть применены. Некоторые цитокины были напрямую связаны с влиянием на миграцию дендритных клеток в лимфоидные ткани (например, ФНО-альфа), ускоряя созревание дендритных клеток в эффективные антигенпрезентирующие клетки для Т-лимфоцитов (например, ГМКСФ, ИЛ-1 и ИЛ-4) (патент США №5849589, в полном объеме специально включенный в данное описание посредством ссылки) и действуя в качестве иммуноадъювантов (например, ИЛ-12) (Gabrilovich D I, et al., J Immunother Emphasis Tumor Immunol. 1996 (6): 414-418).
[00361] Сообщалось также, что иммуностимулирующие CpG-олигонуклеотиды усиливают действие вспомогательных веществ в условиях вакцинации. Другие TLR-связывающие молекулы, такие как РНК-связывающий TLR 7, TLR 8 и/или TLR 9, также могут быть применены.
[00362] Другие примеры полезных вспомогательных веществ включают в себя, но без ограничений, химически модифицированные CpG (например, CpR, Idera), Poly(I:С) (например, polyi:CI2U), бактериальную ДНК или РНК, не являющиеся CpG, а также иммуноактивные малые молекулы и антитела, такие как циклофосфамид, сунитиниб, бевацизумаб, целебрекс, NCX-4016, силденафил, тадалафил, варденафил, сорафиниб, XL-999, СР-547632, пазопаниб, ZD2171, AZD2171, ипилимумаб, тремелимумаб и SC58175, которые могут действовать терапевтически и/или в качестве вспомогательного вещества. Количества и концентрации вспомогательных веществ и добавок могут быть легко определены специалистом без чрезмерных экспериментов. Дополнительные вспомогательные вещества включают в себя колониестимулирующие факторы, такие как гранулоцитарный макрофагальный колонне стимулирующий фактор (ГМКСФ, сарграмостим).
[00363] Вакцинная композиция может содержать более одного другого вспомогательного вещества. Кроме того, терапевтическая композиция может содержать любое вспомогательное вещество, включая любое из вышеперечисленного или их комбинации. Также предполагается, что вакцину и вспомогательное вещество можно вводить вместе или раздельно в любой подходящей последовательности.
[00364] Носитель (или наполнитель) может присутствовать независимо от вспомогательного вещества. Функцией носителя может быть, например, увеличение молекулярной массы конкретного мутанта для повышения активности или иммуногенности, придания стабильности, увеличения биологической активности или увеличения периода полужизни в сыворотке. Кроме того, носитель может способствовать презентации пептидов Т-клеткам. Носителем может быть любой подходящий носитель, известный специалисту в данной области техники, например белок или антигенпрезентирующая клетка. Белком-носителем может быть, но без ограничений, гемоцианин лимфы улитки, сывороточные белки, такие как трансферрин, бычий сывороточный альбумин, человеческий сывороточный альбумин, тиреоглобулин или овальбумин, иммуноглобулины или гормоны, такие как инсулин или пальмитиновая кислота. Для иммунизации людей носитель обычно является физиологически приемлемым носителем, приемлемым для человека и безопасным. Однако столбнячный анатоксин и/или дифтерийный анатоксин являются подходящими носителями. В альтернативном варианте носителем может быть декстран, например сефароза.
[00365] Цитотоксические Т-клетки (ЦТЛ) распознают антиген в форме пептида, связанного с молекулой ГКГС, а не сам интактный чужеродный антиген. Сама молекула ГКГС расположена на клеточной поверхности антигенпрезентирующей клетки. Таким образом, активация ЦТЛ возможна, если присутствует тримерный комплекс пептидного антигена, молекулы ГКГС и АПК. Соответственно, он может усиливать иммунный ответ, если не только пептид применяется для активации ЦТЛ, но и если дополнительно добавляются АПК с соответствующей молекулой ГКГС. Следовательно, в некоторых некоторых вариантах реализации изобретения вакцинная композиция дополнительно содержит по меньшей мере одну антиген-презентирующую клетку.
[00366] Неоантигены также могут быть включены в вакцинные платформы на основе вирусного вектора, такие как коровья оспа, оспа, самореплицирующийся альфа-вирус, марабавирус, аденовирус (см., например, Tatsis et al., Adenoviruses, Molecular Therapy (2004) 10, 616-629), или лентивирус, включая, но без ограничений, лентивирус второго, третьего или гибридного второго/третьего поколения и рекомбинантный лентивирус любого поколения, предназначенный для нацеливания на конкретные типы клеток или рецепторы (см., например, Ни et al., Immunization Delivered by Lentiviral Vectors for Cancer and Infectious Diseases, Immunol Rev. (2011) 239(1): 45-61, Sakuma et al., Lentiviral vectors: basic to translational, Biochem J. (2012) 443(3): 603-18, Cooper et al., Rescue of splicing-mediated intron loss maximizes expression in lentiviral vectors containing the human ubiquitin С promoter, Nucl. Acids Res. (2015) 43 (1): 682-690, Zufferey et al., Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo Gene Delivery, J. Virol. (1998) 72 (12): 9873-9880). В зависимости от упаковочной способности вышеупомянутых вакцинных платформ на основе вирусного вектора этот подход может доставлять одну или более нуклеотидных последовательностей, которые кодируют один или более неоантигенных пептидов. Последовательности могут быть фланкированы немутантными последовательностями, могут быть разделены линкерами или им может предшествовать одна или более последовательностей, нацеленных на субклеточный компартмент (см., например., Gros et al., Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients, Nat Med. (2016) 22 (4): 433-8, Stronen et al., Targeting of cancer neoantigens with donor-derived T cell receptor repertoires, Science. (2016) 352 (6291): 1337-41, Lu et al., Efficient identification of mutated cancer antigens recognized by T cells associated with durable tumor regressions, Clin Cancer Res. (2014) 20(13): 3401-10). При введении в хозяина инфицированные клетки экспрессируют неоантигены и тем самым вызывают иммунный (например, ЦТЛ) ответ хозяина против пептида(ов). Вакцинные векторы и способы, применяемые в протоколах иммунизации, описаны, например, в патенте США №4722848. Другим вектором является БЦЖ (Бацилла Кальмета-Герена). BCG-векторы описаны в Stover et al. (Nature 351: 456-460 (1991)). Широкое разнообразие других вакцинных векторов, применяемых для терапевтического введения или иммунизации неоантигенов, например, векторы Salmonella typhi и тому подобное, будет очевидно для специалистов в данной области техники из описания, приведенного в данном документе.
V.A. Неоантигенная кассета
[00367] Способы, применяемые для выбора одного или более неоантигенов, клонирования и конструирования "кассеты" и ее вставки в вирусный вектор, известны специалистам в данной области техники с учетом представленных в данном документе идей. Термин "неоантигенная кассета" означает комбинацию выбранного неоантигена или множества неоантигенов и других регуляторных элементов, необходимых для транскрипции неоантигена(ов) и экспрессии транскрибированного продукта. Неоантиген или множество неоантигенов могут быть функционально связаны с регуляторными компонентами таким образом, который позволяет транскрипцию. Такие компоненты включают в себя обычные регуляторные элементы, которые могут управлять экспрессией неоантигена(ов) в клетке, трансфицированной вирусным вектором. Таким образом, неоантигенная кассета также может содержать выбранный промотор, который связан с неоантигеном(ами) и расположен вместе с другими необязательными регуляторными элементами в выбранных вирусных последовательностях рекомбинантного вектора.
[00368] Полезные промоторы могут быть конститутивными промоторами или регулируемыми (индуцибельными) промоторами, которые позволят контролировать количество экспрессируемого неоантигена(ов). Например, желательным промотором является промотор немедленно-ранний промотор/энхансер цитоме гало вируса [см., например, Boshart et al, Cell, 41: 521-530 (1985)]. Другой желательный промотор включает LTR промотор/энхансер вируса саркомы Рауса. Еще одна последовательность промотора/энхансера представляет собой цитоплазматический бета-актиновый промотор курицы [Т.A. Kost et al, Nucl. Acids Res., 11(23): 8287 (1983)]. Другие подходящие или необходимые промоторы могут быть выбраны специалистом в данной области техники.
[00369] Неоантигенная кассета также может включать в себя последовательности нуклеиновых кислот, гетерологичные последовательностям вирусного вектора, включая последовательности, обеспечивающие сигналы для эффективного полиаденилирования транскрипта (поли(А), поли-А или пА), и интроны с функциональными донорными и акцепторными сайтами сплайсинга. Обычной поли-А-последовательностью, которая используется в типичных векторах по данному изобретению, является та, которая получена из паповавируса SV-40. Поли-А-последовательность обычно может быть вставлена в кассету после последовательностей на основе неоантигена и перед последовательностями вирусного вектора. Общая последовательность интронов также может быть получена из SV-40 и называется Т-интронной последовательностью SV-40. Неоантигенная кассета также может содержать такой интрон, расположенный между последовательностью промотора/энхансера и неоантигеном(ами). Выбор этих и других общих векторных элементов является традиционным [см., например, Sambrook и соавт, "Molecular Cloning. A Laboratory Manual.", 2d edit., Cold Spring Harbor Laboratory, New York (1989) и цитируемые там ссылки] и многие такие последовательности доступны из коммерческих и промышленных источников, а также из Genbank.
[00370] Неоантигенная кассета может содержать один или более неоантигенов. Например, данная кассета может включать в себя 1-10, 1-20, 1-30, 10-20, 15-25, 15-20, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 или более неоантигенов. Неоантигены могут быть связаны непосредственно друг с другом. Неоантигены также могут быть связаны друг с другом линкерами. Неоантигены могут находиться в любой ориентации относительно друг друга, включая от N к С или от С к N.
[00371] Как указано выше, неоантигенная кассета может быть расположена в сайте любой выбранной делеции в вирусном векторе, таком как сайт делеции области гена Е1 или делеции области гена Е3, среди других, которые могут быть выбраны.
[00372] Неоантигенная кассета может быть описана с помощью формулы для описания упорядоченной последовательности каждого элемента от 5' к 3':
(Pa-(L5b-Nc-L3d)X)Z-(P2h-(G5e-Uf)Y)W-G3g
[00373] где Р и Р2 содержат нуклеотидные последовательности промоторов, N содержит последовательность нуклеиновой кислоты, кодирующую ГКГС класс I эпитоп, L5 содержит 5' линкерную последовательность, L3 содержит 3' линкер ную последовательность, G5 содержит последовательности нуклеиновых кислот, кодирующие аминокислотный линкер, G3 содержит одну из по меньшей мере одной последовательности нуклеиновой кислоты, кодирующей аминокислотный линкер, U содержит последовательность нуклеиновой кислоты, кодирующую ГКГС класс II антиген, где в случае каждого X соответствующий Nc представляет собой кодирующую эпитоп последовательность нуклеиновой кислоты, где в случае каждого Y соответствующий Uf представляет собой кодирующую антиген последовательность нуклеиновой кислоты. Композиция и упорядоченная последовательность могут быть дополнительно определены путем выбора числа присутствующих элементов, например, где а=0 или 1, где b=0 или 1, где с=1, где d=0 или 1, где е=0 или 1, где f=1, где g=0 или 1, где h=0 или 1, X=1-400, Y=0, 1, 2, 3, 4 или 5, Z=1-400, a W=0, 1, 2, 3, 4 или 5.
[00374] В одном примере присутствующие элементы включают случаи, когда а=0, b=1, d=1, е=1, g=1, h=0, X=10, Y=2, Z=1 и W=1, описывающие отсутствие дополнительного промотора (т.е. присутствует только нуклеотидная последовательность промотора, входящая в состав РНК-остова альфавируса), присутствие 20 эпитопов ГКГС класса I, присутствие 5' линкера в случае каждого N, присутствие 3' линкера в случае каждого N, присутствие 2 ГКГС класс II эпитопов, присутствие линкера, соединяющего два ГКГС класс II эпитопа, присутствие линкера, соединяющего 5' конец двух ГКГС класс II эпитопов с 3' линкером последнего ГКГС класс I эпитопа, и присутствие линкера, соединяющего 3' конец двух ГКГС класс II эпитопов с РНК-остовом альфавируса. Примеры связывания 3' конца неоантигенной кассеты с РНК-остовом альфавируса включают связывание непосредственно с 3' НТО элементами, входящими в состав РНК-остова альфавируса, такими как 3' 19-нт КЭП. Примеры связывания 5' конца неоантигенной кассеты с РНК-остовом альфавируса включают связывание непосредственно последовательностью промотора 26S, 5' НТО альфавируса, 51-нт КЭП или 24-нт КЭП.
[00375] Другие примеры включают: случаи, где а=1, описывающие случаи, где присутствует промотор, отличный от нуклеотидной последовательности промотора, входящей в состав РНК-остова альфавируса; случаи, где а=1 и Z больше 1, где присутствует некоторое количество промоторов, отличных от нуклеотидной последовательности промотора, входящей в состав РНК-остова альфавируса, причем каждый из них управляет экспрессией 1 или более разных кодирующих ГКГС класс I эпитопы последовательностей нуклеиновых кислот; случаи, где h=1, описывающие случаи, где присутствует отдельный промотор для управления экспрессией кодирующих ГКГС класс II антиген последовательностей нуклеиновых кислот; и случаи, где g=0, описывающие кодирующую ГКГС класс II антиген последовательность нуклеиновой кислоты, которая в случае присутствия напрямую связана с РНК-остовом альфавируса.
[00376] Другие примеры включают случаи, когда каждый присутствующий ГКГС класс I эпитоп может иметь 5' линкер, 3' линкер, ни один из них или оба. В примерах, где присутствует более одного ГКГС класс I эпитопа в одной неоантигенной кассете, некоторые ГКГС класс I эпитопы могут иметь как 5' линкер, так и 3' линкер, тогда как другие ГКГС класс I эпитопы могут иметь 5' линкер, 3' линкер или ни один из них. В других примерах, где присутствует более одного ГКГС класс I эпитопа в одной неоантигенной кассете, некоторые ГКГС класс I эпитопы могут иметь 5' линкер или 3' линкер, тогда как другие ГКГС класс I эпитопы могут иметь 5' линкер, 3' линкер или ни один из них.
[00377] В примерах, где присутствует более одного ГКГС класс II эпитопа в одной неоантигенной кассете, некоторые ГКГС класс II эпитопы могут иметь как 5' линкер, так и 3' линкер, тогда как другие ГКГС класс II эпитопы могут иметь 5' линкер, 3' линкер или ни один из них. В других примерах, где присутствует более одного ГКГС класс II эпитопа в одной неоантигенной кассете, некоторые ГКГС класс II эпитопы могут иметь 5' линкер или 3' линкер, тогда как другие ГКГС класс II эпитопы могут иметь 5' линкер, 3' линкер или ни один из них.
[00378] Нуклеотидные последовательности промоторов Р и/или Р2 могут быть такими же, как и нуклеотидная последовательность промотора, входящая в состав РНК-остова альфавируса. Например, последовательность промотора, входящая в состав РНК-остова альфавируса, Pn и Р2, каждая, может содержать субгеномный промотор 26S. Нуклеотидные последовательности промоторов Р и/или Р2 могут отличаться от нуклеотидной последовательности промотора, входящей в состав РНК-остова альфавируса, а также могут отличаться друг от друга.
[00379] 5' линкерная L5 может быть нативной последовательностью или неприродной последовательностью. Неприродная последовательность включает, но не ограничивается этим, AAY, RR и DPP. 3' линкерная L3 также может быть нативной последовательностью или неприродной последовательностью. Дополнительно, как L5, так и L3 могут обе быть нативными последовательностями, могут обе быть неприродными последовательностями, или одна может быть нативной, а другая неприродной. В случае каждого X аминокислотный линкер может иметь длину 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,95, 96, 97, 98, 99, 100 или более аминокислот. В случае каждого X аминокислотные линкеры также могут иметь длину по меньшей мере 3, по меньшей мере 4, по меньшей мере 5, по меньшей мере 6, по меньшей мере 7, по меньшей мере 8, по меньшей мере 9, по меньшей мере 10, по меньшей мере 11, по меньшей мере 12, по меньшей мере 13, по меньшей мере 14, по меньшей мере 15, по меньшей мере 16, по меньшей мере 17, по меньшей мере 18, по меньшей мере 19, по меньшей мере 20, по меньшей мере 21, по меньшей мере 22, по меньшей мере 23, по меньшей мере 24, по меньшей мере 25, по меньшей мере 26, по меньшей мере 27, по меньшей мере 28, по меньшей мере 29 или по меньшей мере 30 аминокислот.
[00380] Аминокислотный линкер G5 в случае каждого Y может иметь длину 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,95, 96, 97, 98, 99, 100 или более аминокислот. В случае каждого Y аминокислотные линкеры также могут иметь длину по меньшей мере 3, по меньшей мере 4, по меньшей мере 5, по меньшей мере 6, по меньшей мере 7, по меньшей мере 8, по меньшей мере 9, по меньшей мере 10, по меньшей мере 11, по меньшей мере 12, по меньшей мере 13, по меньшей мере 14, по меньшей мере 15, по меньшей мере 16, по меньшей мере 17, по меньшей мере 18, по меньшей мере 19, по меньшей мере 20, по меньшей мере 21, по меньшей мере 22, по меньшей мере 23, по меньшей мере 24, по меньшей мере 25, по меньшей мере 26, по меньшей мере 27, по меньшей мере 28, по меньшей мере 29 или по меньшей мере 30 аминокислот.
[00381] Аминокислотный линкер G3 может иметь длину 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,95, 96, 97, 98, 99, 100 или более аминокислот.G3 также может иметь длину по меньшей мере 3, по меньшей мере 4, по меньшей мере 5, по меньшей мере 6, по меньшей мере 7, по меньшей мере 8, по меньшей мере 9, по меньшей мере 10, по меньшей мере 11, по меньшей мере 12, по меньшей мере 13, по меньшей мере 14, по меньшей мере 15, по меньшей мере 16, по меньшей мере 17, по меньшей мере 18, по меньшей мере 19, по меньшей мере 20, по меньшей мере 21, по меньшей мере 22, по меньшей мере 23, по меньшей мере 24, по меньшей мере 25, по меньшей мере 26, по меньшей мере 27, по меньшей мере 28, по меньшей мере 29 или по меньшей мере 30 аминокислот.
[00382] В случае каждого X каждый N может кодировать ГКГС класс I эпитоп длиной 7-15 аминокислот. В случае каждого X каждый N также может кодировать ГКГС класс I эпитоп длиной 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 или 30 аминокислот. В случае каждого X каждый N также может кодировать ГКГС класс I эпитоп длиной по меньшей мере 5, по меньшей мере 6, по меньшей мере 7, по меньшей мере 8, по меньшей мере 9, по меньшей мере 10, по меньшей мере 11, по меньшей мере 12, по меньшей мере 13, по меньшей мере 14, по меньшей мере 15, по меньшей мере 16, по меньшей мере 17, по меньшей мере 18, по меньшей мере 19, по меньшей мере 20, по меньшей мере 21, по меньшей мере 22, по меньшей мере 23, по меньшей мере 24, по меньшей мере 25, по меньшей мере 26, по меньшей мере 27, по меньшей мере 28, по меньшей мере 29 или по меньшей мере 30 аминокислот.
V.B. Иммунные контрольные точки
[00383] Векторы, описанные в данном документе, такие как векторы С68, описанные в данном документе, или векторы альфавирусов, описанные в данном документе, могут содержать нуклеиновую кислоту, которая кодирует, по меньшей мере, один неоантиген, и тот же или отдельный вектор может содержать нуклеиновую кислоту, которая кодирует, по меньшей мере, один иммуномодулятор (например, антитело, такое как scFv), которое связывается и блокирует активность молекулы иммунной контрольной точки. Векторы могут содержать неоантигенную кассету и одну или более молекул нуклеиновой кислоты, кодирующих ингибитор контрольной точки.
[00384] Иллюстративные молекулы иммунной контрольной точки, которые могут быть нацелены на блокирование или ингибирование, включают, но без ограничений, CTLA-4, 4-1ВВ (CD137), 4-1BBL (CD137L), PDL1, PDL2, PD1, В7-Н3, В7-Н4, BTLA, HVEM, TIM3, GAL9, LAG3, TIM3, В7Н3, В7Н4, VISTA, KIR, 2В4 (принадлежит к семейству молекул CD2 и экспрессируется на всех NK, γδ, и CD8+ Т-клетках памяти (αβ)), CD160 также называемый BY55) и CGEN-15049. Ингибиторы иммунной контрольной точки включают в себя антитела или их антигенсвязывающие фрагменты или другие связывающие белки, которые связывают и блокируют или ингибируют активность одного или более из CTLA-4, PDL1, PDL2, PD1, В7-Н3, В7-Н4, BTLA, HVEM, TIM3, GAL9, LAG3, ТШЗ, В7Н3, В7Н4, VISTA, KIR, 2В4, CD 160 и CGEN-15049. Иллюстративные ингибиторы иммунной контрольной точки включают в себя Тремелимумаб (блокирующее антитело к CTLA-4), анти-ОХ40, моноклональное антитело PD-L1 (к В7-Н1; MEDI4736), ипилимумаб, МК-3475 (блокатор PD-1), ниволумамб (антитело к PD1), СТ-011 (антитело к PD1), моноклональное антитело BY55, АМР224 (антитело к PDL1), BMS-936559 (антитело к PDL1), MPLDL3280A (антитело к PDL1), MSB0010718C (антитело к PDL1) и ервой/ипилимумаб (анти-CTLA-4 ингибитор контрольной точки). Кодирующие антитела последовательности могут быть сконструированы в векторы, такие как С68, с применением обычных навыков в данной области техники. Типовый способ описан в Fang et al., Stable antibody expression at therapeutic levels using the 2A peptide. Nat Biotechnol. 2005 May; 23(5): 584-90. Epub 2005 Apr 17; включенной в данный документ посредством ссылки для всех целей.
V.C. Дополнительные соображения по разработке и изготовлению вакцин
V.C.I. Определение набора пептидов, которые охватывают все субклоны опухоли
[00385] Усеченные пептиды, то есть те, которые представлены всеми или большинством опухолевых субклонов, могут быть расставлены по приоритетам для включения в вакцину.53 Необязательно, если нет предсказанных для презентации усеченных пептидов, которые, как предсказано, презентированы и являются иммуногенными с высокой вероятностью, или если число усеченных пептидов, которые, как предсказано, будут презентированы и являются иммуногенными с высокой вероятностью, является достаточно малым для включения в вакцину дополнительных пептидов, затем дополнительные пептиды могут быть расставлены по приоритетам путем оценки количества и идентичности субклонов опухоли и выбора пептидов, с целью максимизации количества субклонов опухоли, охватываемых вакциной.54
V.C.2. Приоритезация неоантигенов
[00386] После применения всех вышеперечисленных неоантигенных фильтров для включения в вакцину может быть доступно больше потенциальных неоантигенов, чем может поддержать технология вакцины. Кроме того, может сохраняться неопределенность в отношении различных аспектов анализа неоантигена и могут существовать компромиссы между различными свойствами неоантигенов кандидатных вакцин. Таким образом, вместо предопределенных фильтров на каждом этапе процесса отбора можно рассмотреть интегрированную многомерную модель, которая помещает потенциальные неоантигены в пространство по меньшей мере с последующими осями и оптимизирует выбор с применением интегративного подхода.
1. Риск аутоиммунитета или толерантности (риск зародышевой линии) (обычно предпочтительнее более низкий риск аутоиммунитета)
2. Вероятность появления артефактной последовательности (обычно предпочтительна более низкая вероятность артефакта)
3. Вероятность иммуногенности (обычно предпочтительна более высокая вероятность иммуногенности)
4. Вероятность презентации (более высокая вероятность презентации обычно предпочтительна)
5. Экспрессия гена (обычно предпочтительна более высокая экспрессия)
6. Охват генами HLA (большее количество молекул HLA, участвующих в презентации набора неоантигенов, может снизить вероятность того, что опухоль уклонится от иммунной атаки посредством подавления или мутации молекул HLA)
7. Охват классами HLA (охват как HLA-I, так и HLA-II может повысить вероятность терапевтического ответа и снизить вероятность уклонения опухоли)
[00387] Дополнительно, необязательно, неоантигены можно исключать из числа приоритетных (например, исключать) для вакцинации, если они согласно предсказанию презентируются аллелями HLA, утерянными или инактивированными во всей или в части опухоли пациента. Утеря аллелей HLA может происходить посредством соматической мутации, утери гетерозиготности или устранения гомозиготно ста локуса. Способы обнаружения соматических мутаций аллелей HLA хорошо известны в данной области техники, например (Shukla et al., 2015). Аналогично, хорошо описаны способы обнаружения соматической LOH (утери гетерозиготности) и устранения гомозиготности (включая локус HLA). (Carter et al., 2012; McGranahan et al., 2017; Van Loo et al., 2010).
V.D. Альфавирус
V.D.I. Биология альфавируса
[00388] Альфа-вирусы являются членами семейства Togaviridae, и представляют собой одноцепочечные положительно-полярные РНК-вирусы. Альфавирусы также могут называться самореплицирующейся РНК или срРНК. Члены обычно классифицируют как вирусы Старого Света, такие как вирусы Синдбис, Росс-Ривер, Майяро, Чикунгунья и Лес Семлики, или Новый Свет, такие как восточный лошадиный энцефалит, Аура, Форт-Морган или вирус венесуэльского лошадиного энцефалита и его производный штамм ТС-83 (Strauss Microbrial Review 1994 год). Природный геном альфавируса обычно имеет длину около 12 килобайт, первые две трети из которых содержат гены, кодирующие неструктурные белки (nsP), которые образуют комплексы репликации РНК для саморепликации вирусного генома, а последняя треть содержит субгеномную экспрессионную кассету, кодирующую структурные белки для продукции вирионов (FrolovRNA 2001 год).
[00389] Модельный жизненный цикл альфавируса включает в себя несколько отдельных этапов (Strauss Microbrial Review 1994 год, Jose Future Microbiol 2009 год). После прикрепления вируса к клетке-хозяину вирион сливается с мембранами внутри эндоцитарных компартментов, что приводит к возможному выделению геномной РНК в цитозоль. Геномная РНК, которая имеет ориентацию плюс-цепь и содержит 5'-метилгуанилатный кэп и 3'-полиА хвост, транслируется для получения неструктурных белков nsPl-4, которые образуют репликационный комплекс. На ранней стадии инфекции плюс-цепь реплицируется комплексом в матрицу минус-цепи. В текущей модели репликационный комплекс далее обрабатывается по мере прогрессирования инфекции, в результате чего полученный процессированный комплекс переключается на транскрипцию минус-цепи в полноразмерную геномную РНК-положительную цепь, а также в субгеномную положительную 26S цепь РНК, содержащую структурные гены. Было идентифицировано несколько элементов консервативной последовательности (CSE conserved sequence element) альфавируса, которые потенциально могут играть роль на различных этапах репликации РНК, в том числе; комплемент 5' НТО в репликации РНК плюс-цепи из матрицы минус-цепи, 51-п.о. CSE в репликации синтеза минус-цепи из геномной матрицы, 24-п.о. CSE в области соединения между nsP и 26S РНК в транскрипции субгеномной РНК из минус-цепи, и 3' 19-п.о. CSE в синтезе минус-цепи из матрицы плюс-цепи.
[00390] После репликации различных видов РНК вирусные частицы обычно собираются в природном жизненном цикле вируса. РНК 26S транслируется, и полученные белки дополнительно процессируются для получения структурных белков, включая капсидный белок, гликопротеины Е1 и Е2 и два небольших полипептида ЕЗ и 6К (Strauss 1994). Происходит инкапсулирование вирусной РНК, причем капсидные белки обычно специфичны только для упакованной геномной РНК, после чего происходит сборка вириона и почкование на поверхности мембраны.
V.D.2. Альфавирус как вектор доставки
[00391] Альфавирусы ранее были сконструированы для применения в качестве систем экспрессионных векторов (Pushko 1997, Rheme 2004). Альфавирусы обладают рядом преимуществ, особенно в условиях вакцин, где желательна экспрессия гетерологичного антигена. Благодаря своей способности к саморепликации в цитозоле хозяина альфавирусные векторы обычно способны продуцировать большое число копий экспрессионной кассеты в клетке, что приводит к высокому уровню продукции гетерологичного антигена. Кроме того, векторы обычно являются временными, что приводит к улучшению биобезопасности, а также к снижению индукции иммунологической толерантности к вектору. Общественности, как правило, также не хватает ранее существовавшего иммунитета к альфавирусным векторам по сравнению с другими стандартными вирусными векторами, такими как человеческий аденовирус. Векторы на основе альфавируса, также обычно приводят к цитотоксическим реакциям на инфицированные клетки. Цитотоксичность, в определенной степени, может быть важна в условиях вакцинации для правильного подавления иммунного ответа на экспрессированный гетерологичный антиген. Однако степень желаемой цитотоксичности может быть уравновешивающим действием, и, таким образом, было разработано несколько ослабленных альфавирусов, включая штамм ТС-83 VEE. Таким образом, пример экспрессионного вектора неоантигена, описанный в данном документе, может использовать каркас альфавируса, который обеспечивает высокий уровень экспрессии неоантигена, вызывает устойчивый иммунный ответ на неоантиген, не вызывает иммунного ответа на сам вектор и может применяться безопасным образом. Кроме того, экспрессионная кассета неоантигена может быть сконструирована так, чтобы вызывать различные уровни иммунного ответа посредством оптимизации последовательности альфавируса, которую применяет вектор, включая, но без ограничений, последовательности, полученные из VEE или его ослабленного производного ТС-83.
[00392] Несколько стратегий конструирования экспрессионных векторов были разработаны с применением альфавирусных последовательностей (Pushko 1997). В одной стратегии, конструкция альфавирусного вектора включает в себя вставку второй копии элементов последовательности промотора 26S в 5'-3' направлении от генов структурного белка с последующим гетерологичным геном (Frolov 1993). Таким образом, в дополнение к природным неструктурным и структурным белкам продуцируется дополнительная субгеномная РНК, которая экспрессирует гетерологичный белок. В этой системе присутствуют все элементы для продукции инфекционных вирионов, и, следовательно, могут происходить повторные циклы заражения экспрессионного вектора в неинфицированных клетках.
[00393] В другой конструкции экспрессионного вектора применяются системы хелперного вируса (Pushko, 1997). В этой стратегии структурные белки заменены гетерологичным геном. Таким образом, после саморепликации вирусной РНК, опосредованной все еще интактными неструктурными генами, субгеномная РНК 26S обеспечивает экспрессию гетерологичного белка. Традиционно дополнительные векторы, которые экспрессируют структурные белки, затем поставляются in trans, например, путем совместной трансфекции клеточной линии, с целью продуцирования инфекционного вируса. Система подробно описана в USPN 8,093,021, который включен в данный документ посредством ссылки во всей своей полноте для любых целей. Система хелперного вектора обеспечивает преимущество ограничения возможности образования инфекционных частиц и, следовательно, повышает биобезопасность. Кроме того, система хелперного вектора уменьшает общую длину вектора, потенциально повышая эффективность репликации и экспрессии. Таким образом, пример экспрессионного вектора неоантигена, описанного в данном документе, может использовать альфавирусный каркас, при этом структурные белки заменены на кассету неоантигена, в результате чего оба вектора снижают проблемы биобезопасности, в то же время способствуя эффективной экспрессии из-за уменьшения общего размера экспрессионного вектора.
V.D.3. Производство альфавируса in vitro
[00394] Векторы доставки альфавируса, как правило, представляют собой полинуклеотиды положительно-полярной РНК. Удобной методикой, хорошо известной в данной области техники для получения РНК, является транскрипция IVT in vitro. В этом методе матрицу ДНК желаемого вектора сначала получают способами, хорошо известными специалистам в данной области техники, включая стандартные методы молекулярной биологии, такие как клонирование, рестрикционное расщепление, лигирование, синтез генов и полимеразную цепную реакцию (ПЦР). ДНК-матрица содержит промотор РНК-полимеразы на 5'-конце последовательности, которую необходимо транскрибировать в РНК. Промоторы включают, но без ограничений, промоторы бактериофаговой полимеразы, такие как Т3, Т7 или SP6. Затем ДНК-матрицу инкубируют с соответствующим ферментом РНК-полимеразы, буферными агентами и нуклеотидами (NTP). Получающийся в результате полинуклеотид РНК может быть дополнительно модифицирован, включая, но без ограничений, добавление структуры 5'-кэпа, такого как 7-метилгуанозин или подобную структуру, и, необязательно, модификацию 3'-конца для включения полиаденилатного (полиА) хвоста. Затем РНК может быть очищена с применением методик, хорошо известных в данной области техники, таких как экстракция фенол-хлороформом.
V.D.4. Доставка через лимитную наночастицу
[00395] Важным аспектом, который следует учитывать при конструировании вакцинного вектора, является иммунитет против самого вектора (Riley 2017). Это может быть в форме ранее существовавшего иммунитета к самому вектору, например, с определенными человеческими аденовирусными системами, или в форме развития иммунитета к вектору после введения вакцины. Последнее является важным фактором, если выполняется многократное введение одной и той же вакцины, например, отдельных примирующих и стимулирующих доз, или если одна и та же система вакцинного вектора должна применяться для доставки разных неоантигенных кассет.
[00396] В случае векторов альфавирусов стандартным способом доставки является ранее обсуждаемая система хелперных вирусов, которая обеспечивает капсидные, Е1 и Е2-белки в in trans положении для производства инфекционных вирусных частиц. Однако важно отметить, что белки Е1 и Е2 часто являются основными мишенями нейтрализующих антител (Strauss 1994). Таким образом, эффективность применения альфавирусных векторов для доставки неоантигенов, представляющих интерес для целевых клеток, может быть снижена, если на инфекционные частицы воздействуют нейтрализующие антитела.
[00397] Альтернативой опосредованной вирусными частицами доставке генов является применение наноматериалов для доставки экспрессионных векторов (Riley 2017). Важно, что носители из наноматериалов могут быть изготовлены из неиммуногенных материалов и, как правило, не вызывают иммунитета к самому вектору доставки. Эти материалы могут включать в себя, но без ограничений, липиды, неорганические наноматериалы и другие полимерные материалы. Липиды могут быть катионными, анионными или нейтральными. Материалы могут быть синтетическими или природными, а в некоторых случаях биоразлагаемыми. Липиды могут включать в себя жиры, холестерин, фосфолипиды, липидные конъюгаты, включая, но без ограничений, полиэтиленгликоль (ПЭГ) конъюгаты (ПЭГилированные липиды), воски, масла, глицериды и жирорастворимые витамины.
[00398] Липидные наночастицы (ЛНЧ) представляют собой подходящую систему доставки благодаря амфифильной природе липидов, позволяющей формировать мембраны и везикулярные структуры (Riley 2017). Как правило, эти везикулы доставляют экспрессионный вектор путем абсорбции в мембрану целевых клеток и высвобождения нуклеиновой кислоты в цитозоль. Кроме того, ЛНЧ могут быть дополнительно модифицированы или функционализированы для облегчения нацеливания на конкретные типы клеток. Другим соображением в конструкции ЛНЧ является баланс между эффективностью нацеливания и цитотоксичностью. Липидные композиции обычно включают в себя определенные смеси катионных, нейтральных, анионных и амфипатических липидов. В некоторых случаях специфические липиды включены для предотвращения агрегации ЛНЧ, предотвращения окисления липидов или обеспечения функциональных химических групп, которые облегчают присоединение дополнительных фрагментов. Липидная композиция может влиять на общий размер и стабильность ЛНЧ. В одном примере липидная композиция содержит динолейлметил-4-диметиламинобутират (МС3) или МС3-подобные молекулы. МС3 и МС3-подобные липидные композиции могут быть составлены так, чтобы включать в себя один или более других липидов, таких как ПЭГ или ПЭГ-конъюгированный липид, стерол или нейтральные липиды.
[00399] Векторы нуклеиновых кислот, такие как экспрессионные векторы, подвергнутые воздействию непосредственно сыворотки, могут иметь несколько нежелательных последствий, включая деградацию нуклеиновой кислоты сывороточными нуклеазами или нецелевую стимуляцию иммунной системы свободными нуклеиновыми кислотами. Следовательно, инкапсуляция альфавирусного вектора может быть применена для избежания деградации, а также избежания потенциальных нецелевых эффектов. В некоторых примерах альфавирусный вектор полностью инкапсулирован в носителе для доставки, например, внутри водного пространства ЛНЧ. Инкапсуляция альфавирусного вектора в ЛНЧ может быть осуществлена с помощью методик, хорошо известных специалистам в данной области техники, таких как микрожидкостное смешивание и генерирование капель на устройстве для генерирования микрожидкостных капель. Такие устройства включают в себя, но без ограничений, стандартные устройства с Т-образным переходом или устройства для фокусировки потока. В одном примере желаемая липидная композиция, такая как МС3 или МС3-подобные композиции, подается в устройство, генерирующее капли, параллельно с вектором доставки альфавируса и другими желаемыми агентами, так что вектор доставки и желаемые агенты полностью инкапсулируются во внутреннюю часть МС3 или МС3-подобных ЛНЧ. В одном примере устройство генерирования капель может управлять диапазоном размеров и распределением размеров производимых ЛНЧ. Например, ЛНЧ может иметь размер от 1 до 1000 нанометров в диаметре, например 1, 10, 50, 100, 500 или 1000 нанометров. После генерации капель средства доставки, инкапсулирующие экспрессионные векторы, могут быть дополнительно обработаны или модифицированы для подготовки их к введению.
V.E. Аденовирус шимпанзе (ChAd)
V.E.I. Вирусная доставка с аденовирусом шимпанзе
[00400] Вакцинные композиции для доставки одного или более неоантигенов (например, через неоантигенную кассету) могут быть созданы путем предоставления аденовирусных нуклеотидных последовательностей, происходящих из шимпанзе, множества новых векторов и клеточных линий, экспрессирующих гены аденовируса шимпанзе. Нуклеотидная последовательность аденовируса С68 шимпанзе (также называемого в данном документе ChAdV68) может быть применена в вакцинной композиции для доставки неоантигена (см. SEQ ID NO: 1). Применение векторов, полученных из аденовируса С68, более подробно описано в USPN 6,083,716, который включен в данный документе посредством ссылки во всей своей полноте для всех целей.
[00401] В дополнительном аспекте в данном документе представлен рекомбинантный аденовирус, содержащий последовательность ДНК аденовируса шимпанзе, такого как С68, и кассету неоантигена, функционально связанную с регуляторными последовательностями, направляющими его экспрессию. Рекомбинантный вирус способен инфицировать клетку млекопитающего, предпочтительно человека, и способен экспрессировать продукт неоантигенной кассеты в клетке. В этом векторе можно удалить нативный ген Е1 шимпанзе, и/или ген ЕЗ и/или ген Е4. Неоантигенная кассета может быть вставлена в любой из этих сайтов делеции гена. Неоантигенная кассета может включать в себя неоантиген, против которого желателен инициированный иммунный ответ.
[00402] В другом аспекте в данном документе представлена клетка млекопитающего, инфицированная аденовирусом шимпанзе, таким как С68.
[00403] В еще одном дополнительном аспекте предложена новая клеточная линия млекопитающих, которая экспрессирует ген аденовируса шимпанзе (например, из С68) или его функциональный фрагмент.
[00404] В еще одном дополнительном аспекте в данном документе предложен способ доставки неоантигенной кассеты в клетку млекопитающего, включающий в себя этап введения в клетку эффективного количества аденовируса шимпанзе, такого как С68, который был сконструирован для экспрессии неоантигенной кассеты.
[00405] Еще один аспект обеспечивает способ вызывания иммунного ответа у хозяина млекопитающего для лечения рака. Способ может включать в себя этап введения хозяину эффективного количеству рекомбинантного аденовируса шимпанзе, такого как С68, содержащего неоантигенную кассету, которая кодирует один или более неоантигенов из опухоли, против которых направлен иммунный ответ.
[00406] Также описана клетка млекопитающего не подобного на обезьяну, которая экспрессирует ген аденовируса шимпанзе, полученный из последовательности SEQ ID NO: 1. Ген может быть выбран из группы, состоящей из аденовируса Е1А, Е1В, Е2А, Е2 В, ЕЗ, Е4, LI, L2, L3, L4 и L5 из SEQ ID NO: 1.
[00407] Также описана молекула нуклеиновой кислоты, содержащая
последовательность ДНК аденовируса шимпанзе, содержащую ген, полученный из последовательности SEQ ID NO: 1. Ген может быть выбран из группы, состоящей из указанных генов аденовируса шимпанзе Е1А, Е1В, Е2А, Е2В, Е3, Е4, L1, L2, L3, L4 и L5 генов из SEQ ID NO: 1. В некоторых аспектах молекула нуклеиновой кислоты содержит SEQ ID NO: 1. В некоторых аспектах молекула нуклеиновой кислоты содержит последовательность SEQ ID NO: 1, где отсутствует по меньшей мере один ген, выбранный из группы, состоящей из генов Е1А, Е1В, Е2А, Е2В, Е3, Е4, LI, L2, L3, L4 и L5 из SEQ ID NO: 1.
[00408] Также описан вектор, содержащий последовательность ДНК аденовируса шимпанзе, полученную из SEQ ID NO: 1 и неоантигенную кассету, функционально связанную с одной или более регуляторными последовательностями, которые направляют экспрессию кассеты в гетерологичной клетке-хозяине, необязательно, при этом последовательность ДНК аденовируса шимпанзе содержит, по меньшей мере, cis-элементы, необходимые для репликации и капсидирования вириона, cis-элементы, фланкирующие неоантигенную кассету и регуляторные последовательности. В некоторых аспектах последовательность ДНК аденовируса шимпанзе содержит ген, выбранный из группы, состоящей из последовательностей генов Е1А, Е1В, Е2А, Е2В, Е3, Е4, LI, L2, L3, L4 и L5 из SEQ ID NO: 1. В некоторых аспектах в векторе может отсутствовать ген Е1А и/или Е1В.
[00409] Также в данном документе описана клетка-хозяин, трансфицированная описанным в данном документе вектором, таким как вектор С68, сконструированный для экспрессии неоантигенной кассеты. Также в данном документе описана клетка человека, которая экспрессирует выбранный ген, введенный в нее, путем введения вектора, описанного в данном документе, в клетку.
[00410] Также в данном документе описан способ доставки неоантигенной кассеты в клетку млекопитающего, включающий в себя введение в указанную клетку эффективного количества вектора, описанного в данном документе, такого как вектор С68, сконструированный для экспрессии неоантигенной кассеты.
[00411] Также в данном документе описан способ получения неоантигена, включающий в себя введение вектора, описанного в данном документе, в клетку млекопитающего, культивирование клетки в подходящих условиях и продуцирование неоантигена.
V.E.2. Комплементационные клеточные линии, экспрессирующие E1
[00412] Для создания рекомбинантных аденовирусов шимпанзе (Ad), удаленных в любом из описанных в данном документе генов, функция области удаленного гена, если она необходима для репликации и инфекционности вируса, может передаваться рекомбинантному вирусу хелперным вирусом или клеточной линией, то есть комплементационной или пакующей клеточной линией. Например, для создания репликативно-дефектного вектора аденовируса шимпанзе можно применять клеточную линию, которая экспрессирует продукты гена Е1 аденовируса человека или шимпанзе; такая клеточная линия может включать в себя HEK293 или ее варианты. Протокол для производства клеточных линий, экспрессирующих продукты гена Е1 шимпанзе (Примеры 3 и 4 из USPN 6083716) можно использовать для создания клеточной линии, которая экспрессирует любой выбранный ген аденовируса шимпанзе.
[00413] Анализ реакции AAV можно применять для идентификации линии клеток, экспрессирующих аденовирус Е1 шимпанзе. Этот анализ полезен для идентификации функции Е1 в клеточных линиях, полученных с применением генов Е1 других не охарактеризованных аденовирусов, например, от других видов. Этот анализ описан в Примере 4В из USPN 6083716.
[00414] Выбранный ген аденовируса шимпанзе, например, Е1, может находиться под контролем транскрипции промотора для экспрессии в выбранной родительской линии клеток. Для этой цели могут быть применены индуцибельные или конститутивные промоторы. В число индуцибельных промоторов входят промотор овечьего металлотионина, индуцируемый цинком, или промотор вируса опухоли молочной железы мыши (MMTV - mouse mammary tumor virus), индуцируемый глюкокортикоидом, в частности дексаметазоном. Другие индуцибельные промоторы, такие как те, которые определены в международной заявке на патент W095/13392, включенной в данный документе в качестве ссылки, также могут быть применены при производстве пакующих клеточных линий. Можно также применять конститутивные промоторы для контроля экспрессии гена аденовируса шимпанзе.
[00415] Родительская клетка может быть выбрана для генерации новой клеточной линии, экспрессирующей любой желаемый ген С68. Без ограничения, такой линией родительских клеток могут быть клетки HeLa [АТСС № доступа CCL 2], А549 [АТСС № доступа CCL 185], KB [CCL 17], Detroit [например, Detroit 510, CCL 72] и WI-38 [CCL 75]. Другие подходящие родительские клеточные линии могут быть получены из других источников. Родительские клеточные линии могут включать в себя СНО, HEK293 или ее варианты, 911, HeLa, А549, LP-293, PER.C6 или АЕ1-2а.
[00416] Клеточная линия, экспрессирующая Е1 может быть полезна для создания рекомбинантных векторов аденовируса шимпанзе с удаленным Е1. Клеточные линии, сконструированные с применением, по существу, тех же процедур, которые экспрессируют один или более других продуктов аденовирусного гена шимпанзе, полезны для создания рекомбинантных векторов аденовируса шимпанзе, с удаленными генами, которые кодируют эти продукты. Кроме того, клеточные линии, которые экспрессируют другие продукты гена Ad El человека, также полезны для создания рекомбинантных Ad шимпанзе.
V.E.3. Рекомбинантные вирусные частицы в качестве векторов
[00417] Композиции, описанные в данном документе, могут содержать вирусные векторы, которые доставляют по меньшей мере один неоантиген в клетки. Такие векторы содержат последовательность ДНК аденовируса шимпанзе, такую как С68, и неоантигенную кассету, функционально связанную с регуляторными последовательностями, которые направляют экспрессию кассеты. Вектор С68 способен экспрессировать кассету в инфицированной клетке млекопитающего. Вектор С68 может иметь функционально удаленный один или более вирусный ген. Неоантигенная кассета содержит по меньшей мере один неоантиген под контролем одной или более регуляторных последовательностей, таких как промотор. Необязательные хелперные вирусы и/или паковочные клеточные линии могут поставлять в вирусный вектор шимпанзе любые необходимые продукты удаленных аденовирусных генов.
[00418] Термин "функционально удаленный" означает, что достаточное количество области гена удалено или иным образом изменено, например, путем мутации или модификации, так что область гена больше не способна продуцировать один или более функциональных продуктов экспрессии гена. Мутации или модификации, результатом которых может быть функциональная делеция, включают, но не ограничиваются этим, несмысловые мутации, такие как внесение преждевременных стоп-кодонов и удаление канонических и неканонических стартовых кодонов, мутации, которые изменяют сплайсинг мРНК или другой транскрипционный процессинг, или их комбинации. При необходимости вся область гена может быть удалена.
[00419] Модификации последовательностей нуклеиновых кислот, образующих векторы, описанные в данном документе, в том числе делеции последовательностей, вставки и другие мутации, могут быть получены с применением стандартных молекулярно-биологических методов и входят в объем данного изобретения.
V.E.4. Конструирование вирусного плазмидного вектора
[00420] Векторы аденовируса шимпанзе С68, применяемые в данном изобретении, включают в себя рекомбинантные дефектные аденовирусы, то есть последовательности аденовируса шимпанзе, функционально удаленные по генам Е1а или E1b и необязательно несущие другие мутации, например, чувствительные к температуре мутации или делеции в других генах. Ожидается, что эти последовательности шимпанзе также полезны для образования гибридных векторов из других аденовирусных и/или аденоассоциированных вирусных последовательностей. Гомологичные аденовирусные векторы, полученные из человеческих аденовирусов, описаны в опубликованной литературе [см., например, Kozarsky I и II, цитированные выше, и ссылки, цитируемые в них, патент №5240846].
[00421] При конструировании полезных векторов С68 аденовируса шимпанзе для доставки неоантигенной кассеты в клетку человека (или другого млекопитающего) в векторах может быть применен ряд последовательностей нуклеиновой кислоты аденовируса. Вектор, содержащий минимальные последовательности аденовируса С68 шимпанзе, может применяться в сочетании с хелперным вирусом для получения частицы инфекционного рекомбинантного вируса. Хелперный вирус обеспечивает необходимые генные продукты, необходимые для вирусной инфекционности и репродукции минимального аденовирусного вектора шимпанзе. Когда только одна или более выбранных делеции генов аденовируса шимпанзе создаются в вирусном векторе, функционирующем иным образом, продукты удаленных генов могут поставляться в процессе производства вирусного вектора путем репликации вируса в выбранной пакующей клеточной линии, которая обеспечивает функции удаленных генов in trans.
V.E.5. Рекомбинантный минимальный аденовирус
[00422] Минимальный вирус Ad С68 шимпанзе представляет собой вирусную частицу, содержащую только cis-элементы аденовируса, необходимые для репликации и капсидирования вириона. Таким образом, вектор содержит cis-действующие 5' и 3' инвертированные концевые повторы (ITR - inverted terminal repeat) последовательностей аденовирусов (которые функционируют как источники репликации) и нативные 5' домены упаковки/энхансера (которые содержат последовательности, необходимые для упаковки линейных геномов Ad и энхансерных элементов для промотора Е1). См., например, методики, описанные для получения "минимального" человеческого вектора Ad в международной заявке на патент WO96/13597 и включенные в данный документ в качестве ссылки.
V.E.6. Другие дефектные аденовирусы
[00423] Рекомбинантные, дефектные по репликации аденовирусы могут также содержать не только минимальные последовательности аденовируса шимпанзе. Эти другие векторы Ad могут быть охарактеризованы делециями различных частей генных областей вируса и инфекционных вирусных частиц, образованных необязательным применением хелперных вирусов и/или пакующих клеточных линий.
[00424] В качестве одного примера, подходящие векторы могут быть сформированы путем удаления всего или достаточного участка аденовирусного немедленно-раннего гена E1a С68 и задержанно-раннего гена E1b с тем, чтобы устранить их нормальные биологические функции. Дефектные по репликации вирусы с делецией Е1 способны реплицироваться и продуцировать инфекционный вирус при выращивании на трансформированной аденовирусом шимпанзе комплементационной клеточной линии, содержащей функциональные гены аденовируса E1a и E1b, которые обеспечивают соответствующие генные продукты in trans. Исходя из гомологии с известными аденовирусными последовательностями, ожидается, что, как и в случае человеческих рекомбинантных аденовирусов с делецией Е1 в данной области техники, полученный рекомбинантный аденовирус шимпанзе способен инфицировать многие типы клеток и может экспрессировать неоантиген(ы), но не может реплицироваться в большинстве клеток, которые не несут ДНК области Е1 шимпанзе, если эта клетка не инфицирована при очень высокой множественности инфекции.
[00425] В качестве другого примера, весь или часть задержанно-раннего гена Е3 аденовируса С68 может быть удалена из последовательности аденовируса шимпанзе, которая является частью рекомбинантного вируса.
[00426] Векторы аденовируса шимпанзе С68 также могут быть сконструированы с делецией гена Е4. Еще один вектор может содержать делецию в задержанно-раннем гене Е2а.
[00427] Делеции также могут быть сделаны в любом из поздних генов с L1 по L5 генома аденовируса шимпанзе С68. Аналогичным образом, делеции в промежуточных генах IX и IVa2 могут быть полезны для некоторых целей. Другие делеции могут быть сделаны в других структурных или неструктурных генах аденовируса.
[00428] Вышеуказанные делеции могут быть применены отдельно, то есть последовательность аденовируса может содержать только делеции Е1. В альтернативном варианте, делеции целых генов или их частей, эффективных для разрушения или снижения их биологической активности, можно применять в любой комбинации. Например, в одном типовом векторе последовательность аденовируса С68 может иметь делеции генов Е1 и гена Е4 или генов Е1, Е2а и Е3, или генов Е1 и Е3, или генов Е1, Е2а и Е4 с или без удаления Е3 и так далее. Как обсуждалось выше, такие делеции можно применять в сочетании с другими мутациями, такими как чувствительные к температуре мутации, для достижения желаемого результата.
[00429] Кассета, содержащая неоантиген(ы), может быть вставлена в любую удаленную область вируса С68 Ad шимпанзе. В альтернативном варианте, кассета может быть вставлена в существующую область гена, чтобы при желании нарушить функцию этой области.
V.E.7. Хелперные вирусы
[00430] В зависимости от содержания гена аденовируса шимпанзе в вирусных векторах, используемых для переноса неоантигенной кассеты, можно применять хелперный аденовирусный или нереплицирующийся фрагмент вируса для получения достаточных последовательностей генов аденовируса шимпанзе с целью получения инфекционной рекомбинантной вирусной частицы, содержащей кассету.
[00431] Полезные хелперные вирусы содержат выбранные последовательности генов аденовируса, которые не присутствуют в векторной конструкции аденовируса и/или не экспрессируются пакующей клеточной линией, в которую вектор трансфицируется. Хелперный вирус может быть дефектным по репликации и содержать множество генов аденовируса в дополнение к последовательностям, описанным выше. Хелперный вирус можно применять в комбинации с клеточными линиями, экспрессирующими Е1, описанными в данном документе.
[00432] Для С68 "хелперный" вирус может быть фрагментом, образованным путем отсечения С-концевого конца генома С68 с помощью Sspl, который удаляет около 1300 п.о. из левого конца вируса. Этот обрезанный вирус затем ко-трансфицируют в клеточную линию, экспрессирующую Е1, с плазмидной ДНК, тем самым образуя рекомбинантный вирус путем гомологичной рекомбинации с последовательностями С68 в плазмиде.
[00433] Хелперные вирусы также могут быть превращены в поликатионные конъюгаты, как описано в Wu et al, J. Biol. Chem., 264:16985-16987 (1989); K.J. Fisher and J. M. Wilson, Biochem. J., 299:49 (Apr. 1, 1994). Хелперный вирус может дополнительно содержать репортерный ген. В данной области техники известно большое число таких репортерных генов. Присутствие репортерного гена в хелперном вирусе, который отличается от неоантигенной кассеты в аденовирусном векторе, позволяет независимо контролировать как вектор Ad, так и хелперный вирус. Этот второй репортер применяется для обеспечения разделения между полученным рекомбинантным вирусом и хелперным вирусом после очистки.
V.E.8. Сборка вирусных частиц и инфицирование клеточной линии
[00434] Сборка выбранных последовательностей ДНК аденовируса, неоантигенной кассеты и других векторных элементов в различные промежуточные плазмиды и челночные векторы, а также применением плазмид и векторов для получения рекомбинантной вирусной частицы могут быть достигнуты с применением обычных методов. Такие методы включают в себя традиционные методы клонирования кДНК, методы рекомбинации in vitro (например, сборка Гибсона), применением перекрывающихся олигонуклеотидных последовательностей геномов аденовируса, полимеразная цепная реакция и любой подходящий способ, который обеспечивает желаемую нуклеотидную последовательность. Используются стандартные методы трансфекции и котрансфекции, например, методы осаждения СаР04 или методы трансфекции, опосредуемой липосомами, такими как липофектамин. Другие применяемые общепринятые способы включают гомологичную рекомбинацию вирусных геномов, получение бляшек вирусов в верхнем слое агара, способы измерения генерации сигнала и тому подобное.
[00435] Например, после конструирования и сборки требуемого вирусного вектора, содержащего неоантигенную кассету, вектор можно трансфицировать in vitro в присутствии хелперного вируса в пакующую клеточную линию. Гомологичная рекомбинация происходит между хелперной и векторной последовательностями, что позволяет реплицировать последовательности аденовируса-неоантигена в векторе и упаковывать их в капсиды вириона, что приводит к образованию частиц рекомбинантного вирусного вектора.
[00436] Полученные в результате рекомбинантные аденовирусы шимпанзе С68 полезны для переноса неоантигенной кассеты в выбранную клетку. В экспериментах in vivo с рекомбинантным вирусом, выращенным в пакующих клеточных линиях, рекомбинантный аденовирус шимпанзе с делецией Е1 демонстрирует полезность при переносе кассеты в клетку, не шимпанзе, предпочтительно человеческую.
V.E.9. Применение рекомбинантных вирусных векторов
[00437] Таким образом, полученный рекомбинантный аденовирус С68 шимпанзе, содержащий неоантигенную кассету (полученную в результате взаимодействия аденовирусного вектора и хелперного вируса или аденовирусного вектора и пакующей линии клеток, как описано выше), таким образом, обеспечивает эффективное средство переноса гена, которое может доставлять неоантиген(ы) субъекту in vivo или ex vivo.
[00438] Описанные выше рекомбинантные векторы вводят людям согласно опубликованным способам генной терапии. Вирусный вектор шимпанзе, несущий неоантигенную кассету, можно вводить пациенту, предпочтительно суспендированный в биологически совместимом растворе или фармацевтически приемлемом носителе для доставки. Подходящий носитель включает в себя стерильный физиологический раствор. Для этой цели могут быть использованы другие водные и неводные изотонические стерильные инъекционные растворы и водные и неводные стерильные суспензии, известные как фармацевтически приемлемые носители и хорошо известные специалистам в данной области техники.
[00439] Аденовирусные векторы шимпанзе вводят в достаточных количествах для трансдукции клеток человека и для обеспечения достаточных уровней переноса и экспрессии неоантигена для обеспечения терапевтического эффекта без чрезмерных неблагоприятных или с физиологически приемлемыми физиологическими эффектами, которые могут определить специалисты в области медицины. Обычные и фармацевтически приемлемые пути введения включают в себя, но без ограничения, прямую доставку в печень, интраназальный, внутривенный, внутримышечный, подкожный, внутрикожный, пероральный и другие первичные пути введения. При необходимости пути введения могут быть объединены.
[00440] Дозировки вирусного вектора будут зависеть, прежде всего, от таких факторов, как состояние, подвергаемое лечению, возраст, вес и состояние здоровья пациента, и, таким образом, могут варьироваться среди пациентов. Дозировка будет подбираться таким образом, чтобы сбалансировать терапевтическую пользу с любыми побочными эффектами, и такие дозы могут варьироваться в зависимости от терапевтического применения, для которого используется рекомбинантный вектор. Уровни экспрессии неоантигена(ов) могут контролироваться для определения частоты введения дозы.
[00441] Рекомбинантные, дефектные по репликации аденовирусы можно вводить в "фармацевтически эффективном количестве", то есть в таком количестве рекомбинантного аденовируса, которое эффективно в пути введения для трансфекции желаемых клеток и обеспечения достаточных уровней экспрессии выбранного гена, с целью обеспечения вакцинного эффект, то есть некоторого измеримого уровня защитного иммунитета. Векторы С68, содержащие неоантигенную кассету, можно вводить совместно со вспомогательным веществом. Вспомогательное вещество может быть отделено от вектора (например, алюм) или кодировано внутри вектора, в частности, если вспомогательное вещество представляет собой белок. Вспомогательные вещества хорошо известны в данной области техники.
[00442] Обычные и фармацевтически приемлемые пути введения включают, но без ограничения, интраназальный, внутримышечный, интратрахеальный, подкожный, внутрикожный, ректальный, оральный и другие первичные пути введения. Пути введения могут быть объединены, если желательно, или скорректированы в зависимости от иммуногена или заболевания. Например, при профилактике бешенства предпочтительны подкожный, интратрахеальный и интраназальный пути. Путь введения в первую очередь будет зависеть от характера заболевания, подлежащего лечению.
[00443] Уровни иммунитета к неоантигену(ам) можно контролировать, с целью определения потребности в повторной иммунизации, если таковая имеется. После оценки титров антител в сыворотке, например, могут потребоваться дополнительные реиммунизации.
VI. Терапевтические и производственные способы
[00444] Также предоставлен способ индукции специфического для опухоли иммунного ответа у субъекта, вакцинация против опухоли, лечение и или облегчение симптома рака у субъекта путем введения субъекту одного или более неоантигенов, таких как множество неоантигенов, идентифицированных с применением способов, описанных в данном документе.
[00445] В некоторых аспектах у субъекта диагностирован рак или существует риск развития рака. Субъектом может быть человек, собака, кошка, лошадь или любое животное, у которого желателен специфический для опухоли иммунный ответ. Опухоль может представлять собой любую солидную опухоль, такую как опухоль молочной железы, яичника, предстательной железы, легкого, почки, желудка, толстой кишки, яичка, головы и шеи, поджелудочной железы, мозга, меланому и другие опухоли тканевых органов и гематологические опухоли, такие как лимфомы и лейкозы, включая острый миелогенный лейкоз, хронический миелогенный лейкоз, хронический лимфоцитарный лейкоз, Т-клеточный лимфоцитарный лейкоз и В-клеточные лимфомы.
[00446] Неоантиген можно вводить в количестве, достаточном для индукции ответа ЦТЛ.
[00447] Неоантиген можно вводить отдельно или в комбинации с другими терапевтическими агентами. Терапевтический агент представляет собой, например, химиотерапевтический агент, облучение или иммунотерапию. Может быть назначено любое подходящее терапевтическое лечение для конкретного рака.
[00448] Кроме того, субъекту может быть дополнительно введен антииммуносупрессивный/иммуностимулирующий агент, такой как ингибитор контрольной точки. Например, субъекту можно дополнительно вводить антитело к CTLA или к PD-1, или к PD-L1. Блокада CTLA-4 или PD-L1 антителами может усиливать иммунный ответ на раковые клетки у пациента. В частности, блокада CTLA-4 показала свою эффективность при соблюдении протокола вакцинации.
[00449] Может быть определено оптимальное количество каждого неоантигена, включаемого в вакцинную композицию, и оптимальный режим дозирования. Например, неоантиген или его вариант может быть приготовлен для внутривенной (В/В) инъекции, подкожной (П/К) инъекции, внутрикожной (В/К) инъекции, внутрибрюшинной (В/Б) инъекции, внутримышечной (В/М) инъекции. Способы инъекции включают П/К, В/К, В/Б, В/М и В/В. Способы инъекции ДНК или РНК включают В/К, В/М, П/К, В/Б и В/В. Специалистам в данной области техники известны другие способы введения вакцинной композиции.
[00450] Вакцина может быть составлена так, чтобы отбор, число и/или количество неоантигенов, присутствующих в композиции, было(и) тканеспецифичным, онкоспецифичным и/или специфичным для пациента. Например, точный отбор пептидов может руководствоваться профилями экспрессии исходных белков в данной ткани. Отбор может зависеть от конкретного типа рака, статуса заболевания, более ранних схем лечения, иммунного статуса пациента и, конечно, HLA-гаплотипа пациента. Кроме того, вакцина может содержать индивидуальные компоненты в соответствии с личными потребностями конкретного пациента. Примеры включают в себя варьирование выбора неоантигенов в соответствии с экспрессией неоантигена у конкретного пациента или корректировки для вторичного лечения после первого раунда или схемы лечения.
[00451] Для композиции, применяемой в качестве вакцины от рака, можно избежать неоантигенов с аналогичными нормальными аутопептидами, которые экспрессируются в больших количествах в нормальных тканях, или присутствуют в небольших количествах в композиции, описанной в данном документе. С другой стороны, если известно, что опухоль пациента экспрессирует большие количества определенного неоантигена, соответствующая фармацевтическая композиция для лечения этого рака может присутствовать в больших количествах и/или может быть включено более одного неоантигена, специфичного для этого конкретного неоантигена или пути этого неоантигена.
[00452] Композиции, содержащие неоантиген, можно вводить индивидууму, уже страдающему на рак. Для терапевтических целей композиции вводят пациенту в количестве, достаточном для того, чтобы вызвать эффективный ответ ЦТЛ на опухолевый антиген и вылечить или, по меньшей мере, частично остановить симптомы и/или осложнения. Количество, достаточное для достижения этой цели, определяется как "терапевтически эффективная доза". Количества, эффективные для этого применения, будут зависеть, например, от состава, способа введения, стадии и тяжести заболевания, подлежащего лечению, веса и общего состояния здоровья пациента и решения лечащего врача. Следует иметь в виду, что композиции, как правило, можно применять при серьезных стадиях заболевания, то есть в угрожающих жизни или потенциально угрожающих жизни ситуациях, особенно когда рак метастазирует. В таких случаях, принимая во внимание минимизацию посторонних веществ и относительную нетоксичную природу неоантигена, лечащий врач может и считает желательным вводить эти композиции в существенном избытке.
[00453] Для терапевтических целей введение можно начинать с обнаружения или хирургического удаления опухолей. Это сопровождается повышением дозы до тех пор, пока, по крайней мере, симптомы существенно не уменьшатся и в течение некоторого периода после этого.
[00454] Фармацевтические композиции (например, вакцинные композиции) для терапевтического лечения предназначены для парентерального, местного, назального, перорального или местного введения. Фармацевтические композиции можно вводить парентерально, например внутривенно, подкожно, внутрикожно или внутримышечно. Композиции можно вводить в месте хирургического вмешательства, с целью вызвать местный иммунный ответ на опухоль. В данном документе описаны композиции для парентерального введения, которые содержат раствор неоантигена, и вакцинные композиции растворенные или суспендированные в приемлемом носителе, например водном носителе. Могут быть применены различные водные носители, например вода, буферная вода, 0,9% физиологический раствор, 0,3% глицин, гиалуроновая кислота и тому подобное. Эти композиции могут быть стерилизованы обычными, хорошо известными методами стерилизации или могут быть подвергнуты стерилизующему фильтрованию. Полученные водные растворы могут быть упакованы для применения как есть, или лиофилизированными, при этом лиофилизированный препарат объединяют со стерильным раствором перед введением. Композиции могут содержать фармацевтически приемлемые вспомогательные вещества, необходимые для соответствия физиологическим условиям, такие как регулирующие рН и буферные средства, регулирующие тонус средства, смачивающие средства и тому подобное, например ацетат натрия, лактат натрия, хлорид натрия, хлорид калия, хлорид кальция, сорбитанмонолаурат, триэтаноламин олеат и тому подобное.
[00455] Неоантигены также можно вводить с помощью липосом, которые нацеливают их на определенную клеточную ткань, такую как лимфоидная ткань. Липосомы также полезны для увеличения времени полужизни. Липосомы включают в себя эмульсии, пены, мицеллы, нерастворимые монослои, жидкие кристаллы, дисперсии фосфолипидов, ламинарные слои и тому подобное. В этих препаратах доставляемый неоантиген включается как часть липосомы, отдельно или в сочетании с молекулой, которая связывается, например, с рецептором, преобладающим среди лимфоидных клеток, такой как моноклональные антитела, которые связываются с антигеном CD45, или с другими терапевтическими или иммуногенными композициями. Таким образом, липосомы, заполненные желаемым неоантигеном, могут быть направлены в сайт лимфоидных клеток, куда липосомы затем доставляют выбранные терапевтические/иммуногенные композиции. Липосомы могут быть образованы из стандартных везикулообразующих липидов, которые обычно включают в себя нейтральные и отрицательно заряженные фосфолипиды и стерол, такой как холестерин. Выбор липидов обычно основывается на, например, размере липосом, кислотной лабильности и стабильности липосом в кровотоке. Различные способы доступны для получения липосом, как описано, например, в Szoka и соавт., Ann. Rev. Biophys. Bioeng. 9; 467 (1980), патенты США №№4235871, 4501728, 4501728, 4837028 и 5019369.
[00456] Для нацеливания на иммунные клетки лиганд, который должен быть включен в липосому, может включать в себя, например, антитела или их фрагменты, специфичные для детерминант клеточной поверхности желаемых клеток иммунной системы. Суспензию липосом можно вводить внутривенно, локально, местно и тому подобное, в дозе, которая варьируется в зависимости, среди прочего, от способа введения, доставляемого пептида и стадии заболевания, которое лечат.
[00457] Для терапевтических целей или целей иммунизации пациенту также можно вводить нуклеиновые кислоты, кодирующие пептид и, необязательно, один или более пептидов, описанных в данном документе. Ряд способов удобно применять для доставки нуклеиновых кислот пациенту. Например, нуклеиновая кислота может быть доставлена напрямую, как "оголенная ДНК". Этот подход описан, например, в Wolff et al., Science 247: 1465-1468 (1990), а также в патентах США №№5580859 и 5589466. Нуклеиновые кислоты также можно вводить с применением баллистической доставки, как описано, например, в патенте США №5204253. Можно вводить частицы, состоящие исключительно из ДНК. В альтернативном варианте, ДНК может быть прикреплена к частицам, таким как частицы золота. Подходы для доставки последовательностей нуклеиновых кислот могут включать в себя вирусные векторы, векторы мРНК и векторы ДНК с электропорацией или без нее.
[00458] Нуклеиновые кислоты также могут быть доставлены в комплексе с катионными соединениями, такими как катионные липиды. Липид-опосредованные способы доставки генов описаны, например, в 9618372WOAWO 96/18372; 9324640WOAWO 93/24640; Mannino & Gould-Fogerite, BioTechniques 6(7): 682-691 (1988); патенте США №5279833 Rose патенте США №5279833; 9106309WOAWO 91/06309; и Feigner et al., Proc. Natl. Acad. Sci. USA 84: 7413-7414 (1987).
[00459] Неоантигены также могут быть включены в вакцинные платформы на основе вирусного вектора, такие как коровья оспа, оспа, самореплицирующийся альфа-вирус, марабавирус, аденовирус (см., например, Tatsis et al., Adenoviruses, Molecular Therapy (2004) 10, 616-629), или лентивирус, включая, но без ограничений, лентивирус второго, третьего или гибридного второго/третьего поколения и рекомбинантный лентивирус любого поколения, предназначенный для нацеливания на конкретные типы клеток или рецепторы (см., например, Ни et al., Immunization Delivered by Lentiviral Vectors for Cancer and Infectious Diseases, Immunol Rev. (2011) 239(1): 45-61, Sakuma et al., Lentiviral vectors: basic to translational, Biochem J. (2012) 443(3):603-18, Cooper et al., Rescue of splicing-mediated intron loss maximizes expression in lentiviral vectors containing the human ubiquitin С promoter, Nucl. Acids Res. (2015) 43 (1): 682-690, Zufferey et al., Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo Gene Delivery, J. Virol. (1998) 72 (12): 9873-9880). В зависимости от упаковочной способности вышеупомянутых вакцинных платформ на основе вирусного вектора этот подход может доставлять одну или более нуклеотидных последовательностей, которые кодируют один или более неоантигенных пептидов. Последовательности могут быть фланкированы немутантными последовательностями, могут быть разделены линкерами или им может предшествовать одна или более последовательностей, нацеленных на субклеточный компартмент (см., например., Gros et al., Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients, Nat Med. (2016) 22 (4):433-8, Stronen et al., Targeting of cancer neoantigens with donor-derived T cell receptor repertoires, Science. (2016) 352 (6291):1337-41, Lu et al., Efficient identification of mutated cancer antigens recognized by T cells associated with durable tumor regressions, Clin Cancer Res. (2014) 20(13):3401-10). При введении в хозяина инфицированные клетки экспрессируют неоантигены и тем самым вызывают иммунный (например, ЦТЛ) ответ хозяина против пептида(ов). Вакцинные векторы и способы, применяемые в протоколах иммунизации, описаны, например, в патенте США №4722848. Другим вектором является БЦЖ (Бацилла Кальмета-Герена). BCG-векторы описаны в Stover et al. (Nature 351:456-460 (1991)). Широкое разнообразие других вакцинных векторов, применяемых для терапевтического введения или иммунизации неоантигенов, например, векторы Salmonella typhi и тому подобное, будет очевидно для специалистов в данной области техники из описания, приведенного в данном документе.
[00460] Средство введения нуклеиновых кислот применяет минигенные конструкции, кодирующие один или более эпитопов. Чтобы создать последовательность ДНК, кодирующую выбранные эпитопы ЦТЛ (миниген) для экспрессии в клетках человека, аминокислотные последовательности эпитопов подвергают обратной трансляции. Таблица использования кодонов человека применяется для определения выбора кодонов для каждой аминокислоты. Эти последовательности ДНК, кодирующие эпитопы, непосредственно присоединяются, создавая непрерывную полипептидную последовательность. Чтобы оптимизировать экспрессию и/или иммуногенность, в конструкцию минигена могут быть включены дополнительные элементы. Примеры аминокислотной последовательности, которая может быть обратно транслирована и включена в минигенную последовательность, включают: хелперные Т-лимфоциты, эпитопы, лидерную (сигнальную) последовательность и сигнал удержания эндоплазматического ретикулума. Кроме того, презентация ГКГС эпитопов ЦТЛ может быть улучшена путем включения синтетических (например, полиаланина) или встречающихся в природе фланкирующих последовательностей, смежных с эпитопами ЦТЛ. Последовательность минигена превращается в ДНК путем сборки олигонуклеотидов, которые кодируют плюс и минус нити минигена. Перекрывающиеся олигонуклеотиды (длиной 30-100 оснований) синтезируют, фосфорилируют, очищают и ренатурируют в соответствующих условиях с применением хорошо известных методик. Концы олигонуклеотидов соединяются с применением ДНК-лигазы Т4. Этот синтетический миниген, кодирующий полипептид эпитопа ЦТЛ, затем может быть клонирован в нужный экспрессионный вектор.
[00461] Очищенная плазмидная ДНК может быть приготовлена для инъекции с применением различных составов. Самым простым из них является восстановление лиофилизированной ДНК в стерильном фосфатно-солевом буферном растворе (ФСБ). Различные способы были описаны, и новые методы могут стать доступными. Как отмечено выше, нуклеиновые кислоты удобно составлять с катионными липидами. Кроме того, гликолипиды, фузогенные липосомы, пептиды и соединения, которые в совокупности называют защитными, интерактивными, неконденсирующимися (PINC - protective, interactive, non-condensing), также могут быть включены в комплекс с очищенной плазмидной ДНК, с целью влияния на такие переменные, как стабильность, внутримышечная дисперсия или перенос в определенные органы или типы клеток.
[00462] Также описан способ изготовления противоопухолевой вакцины, включающий выполнение этапов способа, описанного в данном документе; и получение противоопухолевой вакцины, содержащей множество неоантигенов или подмножество множества неоантигенов.
[00463] Описанные в данном документе неоантигены можно получать, используя известные в данной области техники способы. Например, способ получения неоантигена или вектора (например, вектора, включающего в себя, по меньшей мере, одну последовательность, кодирующую один или более неоантигенов), описанного в данном документе, может включать в себя культивирование клетки-хозяина в условиях, подходящих для экспрессии неоантигена или вектора, при этом клетка-хозяин содержит по меньшей мере, один полинуклеотид, кодирующий неоантиген или вектор, и очищенный неоантиген или вектор. Стандартные способы очистки включают в себя хроматографические методы, электрофоретические методы, иммунологические методы, методы осаждения, диализа, фильтрации, концентрирования и хроматофокусирования.
[00464] Клетки-хозяева могут включать в себя клетку яичника китайского хомячка (СНО - Chinese Hamster Ovary), клетку NS0, дрожжи или клетку HEK293. Клетки-хозяева могут быть трансформированы одним или более полинуклеотидами, содержащими по меньшей мере одну последовательность нуклеиновой кислоты, которая кодирует неоантиген или вектор, описанный в данном документе, необязательно, при этом выделенный полинуклеотид дополнительно содержит промоторную последовательность, функционально связанную с по меньшей мере одной последовательностью нуклеиновой кислоты, которая кодирует неоантиген или вектор. В определенных вариантах реализации изобретения выделенный полинуклеотид может быть кДНК.
VII. Применение и введение неоантигенов
[00465] Протокол вакцинации может применяться для введения субъекту одного или более неоантигенов. Примирующая вакцина и стимулирующая вакцина могут быть применены для дозирования субъекта. Примирующая вакцина может быть основана на С68 (например, последовательности, показанные в SEQ ID NO: 1 или 2) или срРНК (например, последовательности, показанные в SEQ ID NO: 3 или 4), а стимулирующая вакцина может быть основана на С68 (например, последовательности, показанные в SEQ ID NO: 1 или 2) или срРНК (например, последовательности, показанные в SEQ ID NO: 3 или 4). Каждый вектор обычно включает в себя кассету, которая содержит неоантигены. Кассеты могут включать в себя около 20 неоантигенов, разделенных спейсерами, такими как природная последовательность, которая обычно окружает каждый антиген или другие неприродные спейсерные последовательности, такие как AAY. Кассеты могут также включать в себя антигены ГКГС II, такие как столбнячный анатоксин и антиген PADRE, которые можно считать универсальными класс II антигенами. Кассеты также могут включать в себя нацеливающую последовательность, такую как нацеливающая на убиквитин последовательность. Кроме того, каждая доза вакцины может быть введена субъекту совместно с (например, одновременно, до или после) ингибитором контрольной точки (ИКТ). ИКТ могут включать в себя те, которые ингибируют CTLA4, PD1 и/или PDL1, такие как антитела или их антигенсвязывающие части. Такие антитела могут включать в себя тремелимумаб или дурвалумаб.
[00466] Примирующая вакцина может быть введена (например, внутримышечно) субъекту. Могут применяться двусторонние инъекции на дозу. Например, можно применять одну или более инъекций ChAdV68 (С68) (например, общая доза 1×1012 вирусных частиц); можно применять одну или более инъекций самореплицирующейся РНК (срРНК) при низкой дозе вакцины, выбранной из диапазона от 0,001 до 1 мкг РНК, в частности 0,1 или 1 мкг; или можно применять одну или более инъекций срРНК при высокой дозе вакцины, выбранной из диапазона от 1 до 100 мкг РНК, в частности, 10 или 100 мкг.
[00467] Стимулирующая вакцина может быть введена (например, внутримышечно) после примирующей вакцинации. Стимулирующую вакцину можно вводить примерно каждые 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 недель, например, каждые 4 недели и/или 8 недель после стимулирования. Могут применяться двусторонние инъекции на дозу. Например, можно применять одну или более инъекций ChAdV68 (С68) (например, общая доза 1×1012 вирусных частиц); можно применять одну или более инъекций самореплицирующейся РНК (срРНК) при низкой дозе вакцины, выбранной из диапазона от 0,001 до 1 мкг РНК, в частности 0,1 или 1 мкг; или можно применять одну или более инъекций срРНК при высокой дозе вакцины, выбранной из диапазона от 1 до 100 мкг РНК, в частности, 10 или 100 мкг.
[00468] Анти-CTLA-4 (например, тремелимумаб) также можно вводить субъекту. Например, анти-CTLA4 можно вводить подкожно рядом с местом внутримышечной инъекции вакцины (примирующая доза ChAdV68 или низкие дозы срРНК), с целью обеспечения дренажа в том же лимфатическом узле. Тремелимумаб представляет собой селективный человеческий ингибитор мАт IgG2 CTLA-4. Целевая подкожная доза анти-CTLA-4 (тремелимумаба) обычно составляет 70-75 мг (в частности, 75 мг) с диапазоном доз, например, от 1 до 100 мг или от 5 до 420 мг.
[00469] В некоторых случаях может быть применено антитело к PD-L1, такое как дурвалумаб (MEDI 4736). Дурвалумаб представляет собой селективное высокоаффинное человеческое мАт IgG1, которое блокирует связывание PD-L1 с PD-1 и CD80. Дурвалумаб обычно вводят в дозе 20 мг/кг в/в каждые 4 недели.
[00470] Иммунологический контроль можно проводить до, во время и/или после введения вакцины. Такой контроль может информировать безопасность и эффективность, среди других параметров.
[00471] Для проведения иммунологического контроля обычно применяются МКПК. МКПК могут быть выделены до примированной вакцинации и после примированной вакцинации (например, 4 недели и 8 недель). МКПК могут быть собраны непосредственно перед стимулирующей вакцинацией и после каждой стимулирующей вакцинации (например, 4 недели и 8 недель).
[00472] Т-клеточные ответы могут быть оценены как часть протокола иммунологического контроля. Т-клеточные ответы могут быть измерены с применением одного или более способов, известных в данной области техники, таких как ELISpot, внутриклеточное окрашивание цитокинов, секреция цитокинов и захват клеточной поверхности, пролиферация Т-клеток, окрашивание мультимеров ГКГС или анализ цитотоксичности. Т-клеточные ответы на эпитопы, кодируемые в вакцинах, можно отслеживать с помощью МКПК путем измерения индукции цитокинов, таких как ИФН-гамма, с применением анализа ELISpot. Специфические ответы CD4 или CD8 Т-клеток на эпитопы, кодируемые в вакцинах, можно отслеживать с помощью МКПК путем измерения индукции цитокинов, захваченных внутриклеточно или внеклеточно, таких как ИФН-гамма, с применением проточной цитометрии. Специфические ответы CD4 или CD8 Т-клеток на эпитопы, кодируемые в вакцинах, можно отслеживать с помощью МКПК путем измерения популяций Т-клеток, экспрессирующих рецепторы Т-клеток, специфичных для комплексов эпитоп/ГКГС класса I, с применением окрашивания мультимеров ГКГС. Специфические ответы CD4 или CD8 Т-клеток на эпитопы, кодируемые в вакцинах, можно отслеживать с помощью МКПК путем измерения экспансии популяций Т-клеток ex vivo после включения 3Н-тимидина, бромодезоксиуридина и карбоксифлуоресцеин-диацетат-сукцинимидилового эфира (CFSE - bromodeoxyuridine and carboxyfluoresceine-diacetate succinimidylester). Способность распознавать антиген и литическую активность Т-клеток, полученных из МКПК, которые специфичны для эпитопов, кодируемых в вакцинах, можно оценить функционально с помощью анализа высвобождения хрома или альтернативных колориметрических анализов цитотоксичности.
VIII. Идентификация неоантигенов
VIII.А. Идентификация кандидатных неоантигенов
[00473] Способы исследования для анализа NGS опухоли и нормального экзома и транскриптомов были описаны и применены в области идентификации неоантигена.6,14,15 В приведенном ниже примере рассматриваются некоторые оптимизации для большей чувствительности и специфичности для идентификации неоантигена в клинических условиях. Эти оптимизации могут быть сгруппированы в две области: связанные с лабораторными процессами и связанные с анализом данных NGS.
VIII.А. 1. Оптимизация лабораторных процессов
[00474] Представленные здесь улучшения процесса направлены на решение проблем, связанных с высокоточным обнаружением неоантигена в клинических образцах с низким содержанием опухоли и небольшими объемами, путем расширения концепций, разработанных для надежной оценки драйверных генов рака в целевых панелях рака16, вплоть до настройки целого экзома и транскриптома, необходимых для идентификации неоантигена. В частности, эти улучшения включают в себя:
1. Ориентация на глубокое (>500х) уникальное среднее покрытие по экзому опухоли для выявления мутаций, присутствующих при низкой частоте мутантной аллели из-за низкого содержания опухоли или субклонального состояния.
2. Ориентация на равномерное покрытие опухолевого экзома с<5% оснований, покрытых при 100х, так что пропускается как можно меньше неоантигенов, например:
a. Использование зондов захвата на основе ДНК с отдельным зондом QC17
b. Включая дополнительные приманки для плохо покрытых областей
3. Ориентация на равномерный охват нормального экзома, где <5% оснований покрыты при 20х, так что наименьшее количество возможных неоантигенов остается неклассифицированным для статуса соматической/зародышевой линии (и, следовательно, не может применяться в качестве TSNA)
4. Чтобы минимизировать общее количество требуемого сиквенирования, будут сконструированы зонды захвата последовательности только для кодирующих областей генов, так как некодирующая РНК не может давать начало неоантигенам. Дополнительные оптимизации включают в себя:
a. дополнительные зонды для генов HLA, которые богаты GC и плохо захватываются стандартным сиквенированием экзома18
b. исключение генов, которые, предположительно, производят мало или вообще не производят потенциальных неоантигенов, из-за таких факторов, как недостаточная экспрессия, субоптимальное расщепление протеасомой или необычные особенности последовательности.
5. Опухолевая РНК также будет сиквенироваться с высокой степенью перекрытия (>100М считываний), с целью обеспечения возможности обнаружения вариантов, количественной оценки экспрессии генов и сплайс-вариантов ("изоформ"), а также обнаружение слияния. РНК из образцов FFPE будет извлечена с применением обогащения, на основе зондов19, с теми же или аналогичными зондами, которые применяются для захвата экзомов в ДНК.
VIII.A.2. Оптимизация анализа данных NGS
[00475] Усовершенствования в способах анализа касаются субоптимальной чувствительности и специфичности общих подходов к исследованию мутаций и, в частности, учитывают настройки, относящиеся к идентификации неоантигена в клинических условиях. Среди них:
1. Применение эталонного генома HG38 человека или более поздней версии для выравнивания, так как он содержит множество областей ГКГС, лучше отражающих полиморфизм популяции, в отличие от предыдущих версий генома.
2. Преодоление ограничений определения одиночных вариантов 20 путем объединения результатов из разных программ5
a. Однонуклеотидные варианты и инделы будут обнаружены в опухолевой ДНК, опухолевой РНК и нормальной ДНК с помощью набора инструментов, в том числе: программы, основанные на сравнении опухоли и нормальной ДНК, такие как Strelka21 и Mutect22; и программы, которые включают опухолевую ДНК, опухолевую РНК и нормальную ДНК, такие как UNCeqR, что особенно выгодно в образцах низкой чистоты23.
b. Инделы будут определены с помощью программ, которые выполняют локальную повторную сборку, таких как Strelka и ABRA24.
c. Структурные перестановки будут определены с помощью специальных инструментов, таких как Pindel25 или Breakseq26.
3. Чтобы обнаружить и предотвратить замену образцов, будут сравниваться определения вариантов из образцов для одного и того же пациента в выбранном количестве полиморфных участков.
4. Обширная фильтрация артефактных определений будет выполняться, например, с помощью:
a. Удаление вариантов, обнаруженных в нормальной ДНК, потенциально с ослабленными параметрами обнаружения в случаях низкого охвата и с разрешающим критерием близости в случае инделей.
b. Удаление вариантов из-за низкого качества картирования или низкого базового качества27.
c. Удаление вариантов, возникающих из повторяющихся артефактов сиквенирования, даже если они не наблюдаются в соответствующей норме27. Примеры включают в себя варианты, в основном обнаруженные на одной цепи.
d. Удаление вариантов, обнаруженных в несвязанном наборе контролей27
5. Точное определение HLA из нормального экзома с применением одного из seq2HLA28, ATHLATES29 или Optitype, а также комбинирование данных сиквенирования экзома и РНК28. Дополнительные потенциальные оптимизации включают в себя принятие специального анализа для типирования HLA, такого как сиквенирование ДНК с длительным считыванием30, или адаптацию способа соединения фрагментов РНК для сохранения непрерывности31.
6. Надежное обнаружение нео-ОРС, возникающих из опухолеспецифических вариантов сплайсинга, будет выполнено путем сборки транскриптов из данных РНК-сек с применением CLASS32, Bayesembler33, StringTie34 или аналогичной программы в режиме ориентирования на эталон (то есть с применением известных структур транскриптов, а не попыткой воссоздать транскрипты полностью из каждого эксперимента). Не смотря на то, что Cufflinks35 обычно применяются для этой цели, они часто создают неправдоподобно большое количество вариантов сплайсинга, многие из которых намного короче, чем полноразмерный ген, и не могут восстановить простые положительные контроли. Кодирующие последовательности и потенциал нонсенс-опосредованной деградации будут определены с помощью таких инструментов, как SpliceR36 и МАМВА37, с повторным введением мутантных последовательностей. Экспрессия гена будет определяться с помощью такого инструмента, как Cufflinks35 или Express (Roberts and Pachter, 2013 год). Количество и/или относительные уровни экспрессии, специфичные для дикого типа и мутантов, будут определены с помощью инструментов, разработанных для этих целей, таких как ASE38 или HTSeq39. Потенциальные этапы фильтрации включают в себя:
a. Удаление предполагаемых нео-ОРС, считающихся недостаточно экспрессированными.
b. Удаление предполагаемых нео-ОРС, которые, как полагается, запускают нонсенс-опосредованную деградацию (NMD - non-sense mediated decay).
7. Предполагаемые неоантигены, наблюдаемые только в РНК (например, неоОРС), которая не может быть непосредственно подтверждена как специфичная для опухоли, будут классифицированы как вероятно специфичные для опухоли в соответствии с дополнительными параметрами, например, с учетом:
а. Наличие поддерживающих только опухолевые ДНК cis-действующих сдвигов рамки считывания или мутаций сайта сплайсинга.
b. Наличие подтверждающей транс-действующей мутации только опухолевой ДНК в факторе сплайсинга. Например, в трех независимо опубликованных экспериментах с R625-мутантом SF3B1 гены, демонстрирующие наиболее дифференцированный сплайсинг, были конкордантными, хотя в одном эксперименте были исследованы пациенты с увеальной меланомой40, во втором - с клеточной линией увеальной меланомы41, и в третьем - пациенты с раком молочной железы42.
c. Для новых изоформ сплайсинга наличие подтверждающих "новых" границ сплайсинга считывается в данных РНКсек.
d. Для новых перестановок присутствие подтверждающего около-экзона считывается в опухолевой ДНК, которые отсутствуют в нормальной ДНК.
e. Отсутствие в компендиуме по экспрессии генов, таком как GTEx43 (то есть делает происхождение зародышевой линии менее вероятным)
8. Анализ комплемента на основе выравнивания эталонного генома, путем сравнения ДНК опухоли в собранном виде и нормальные считывания (или k-мер из таких считываний) напрямую, с целью избежания ошибок и артефактов на основе выравнивания и аннотации, (например, для соматических вариантов, возникающих рядом с вариантами зародышевой линии или с инделами повторения контекста)
[00476] В образцах с полиаденилированной РНК присутствие вирусной и микробной РНК в данных РНК-сек будет оцениваться с применением РНК CoMPASS44 или аналогичного способа для выявления дополнительных факторов, которые могут предсказать ответ пациента.
VIII.B. Выделение и обнаружение пептидов HLA
[00477] Выделение HLA-пептидных молекул проводили с применением классических способов иммунопреципитации (ИП) после лизиса и солюбилизации образца ткани (55-58). Осветленный лизат применяли для специфической ИП HLA.
[00478] Иммунопреципитацию проводили с применением антител, сопряженных с гранулами, где антитело специфично для молекул HLA. Для иммунопреципитации пан-класса I HLA применяется CR-антитело пан-класса I, для HLA-DR класса II - антитело HLA-DR. Антитело ковалентно связывается с гранулами NHS-сефарозы в течение ночной инкубации. После ковалентного прикрепления гранулы промывали и делили на аликвоты для ИП. (59, 60) Иммунопреципитацию также можно проводить с антителами, которые нековалентно присоединены к гранулам. Как правило это осуществляют, используя сефарозные или магнитные гранулы, покрытые протеином А и/или протеином G, для удержания антитела в колонке. Некоторые антитела, которые можно использовать для избирательного обогащения комплекса ГКГС/пептид, перечислены ниже.
[00479] Осветленный лизат ткани добавляют к гранулам антител для иммунопреципитации. После иммунопреципитации гранулы удаляют из лизата, а лизат хранят для дополнительных экспериментов, включая дополнительные ИП. Шарики ИП промывают для удаления неспецифического связывания, и комплекс HLA/пептид элюируют с гранул с применением стандартных методик. Белковые компоненты удаляют из пептидов, применяя спин-колонку молекулярного веса или фракционирование С18. Полученные пептиды высушивают испарением SpeedVac и в некоторых случаях хранят при -20°С до анализа МС.
[00480] Высушенные пептиды восстанавливают в буфере для ВЭЖХ, подходящем для хроматографии с обращенной фазой, и загружают в колонку для микрокапиллярной ВЭЖХ С-18 с целью градиентного элюирования в масс-спектрометре Fusion Lumos (Thermo). Спектры MSI массы/заряда пептида (м/з) собирали в детекторе Orbitrap с высоким разрешением, а затем сканировали в низком разрешении с помощью MS2, собранном в детекторе с ионной ловушкой после фрагментации HCD выбранного иона. Кроме того, спектры MS2 могут быть получены с применением либо способов фрагментации CID, либо ETD, либо любой комбинации трех методик для достижения большего покрытия аминокислот пептидом. Спектры MS2 также можно измерять с высокой точностью определения массы в детекторе Orbitrap.
[00481] Спектры MS2 из каждого анализа сравнивают с базой данных белков с применением Comet (61, 62), а идентификацию пептидов оценивают с применением Percolator (63-65). Дополнительное сиквенирование проводят, используя PEAKS studio (Bioinformatics Solutions Inc.), и можно применять другие поисковые системы или способы сиквенирования, включая спектральное соответствие и сиквенирование de novo (97).
VIII. B.1. Исследования предела обнаружения МС в поддержку комплексного сиквенирования пептидов HLA.
[00482] С помощью пептида YVYVADVAAK (SEQ ID NO: 59) было определено, каковы пределы обнаружения при применении разных количеств пептида, загруженного в колонку LC. Количества тестируемого пептида составляли 1 пмоль, 100 фмоль, 10 фмоль, 1 фмоль и 100 амоль. (Таблица 1) Результаты проиллюстрированы на Фигуре 1F. Эти результаты показывают, что самый низкий предел обнаружения (LoD - lowest limit of detection) находится в диапазоне атомолей (10-18), что динамический диапазон охватывает пять порядков и что отношение сигнала к помехе кажется достаточным для сиквенирования на низких диапазонах фемтомолей (10-15).
IX. Модель презентации
IX.A. Общий обзор
[00483] На Фиг. 2А проиллюстрирован обзор среды 100 для идентификации вероятности презентации пептида у пациентов в соответствии с вариантом реализации изобретения. Среда 100 предоставляет контекст для того, чтобы ввести систему 160 идентификации презентации, которая сама включает в себя хранилище 165 информации о презентации.
[00484] Система 160 идентификации презентации является одной из компьютерных моделей, реализованных в компьютерной системе, как обсуждается ниже в отношении Фиг. 14, которая получает пептидные последовательности, связанные с набором аллелей ГКГС и определяет вероятность того, что пептидные последовательности будут презентированы одним или более из набора связанных аллелей ГКГС. Систему 160 идентификации презентации можно применять в отношении аллелей ГКГС класса I и класса II. Это является полезным в разных контекстах. Один конкретный вариант применения системы идентификации презентации 160 заключается в том, что она может получать нуклеотидные последовательности потенциальных неоантигенов, ассоциированных с набором аллелей ГКГС, из опухолевых клеток пациента 110 и определять вероятность того, что потенциальные неоантигены будут презентированы одним или более ассоциированными аллелями ГКГС опухоли и/или индуцируют иммуногенные ответы в иммунной системе пациента 110. Те потенциальные неоантигены с высокой вероятностью, как определено системой 160, могут быть выбраны для включения в вакцину 118, и такой противоопухолевый иммунный ответ может быть вызван иммунной системой пациента ПО, имеющего опухолевые клетки.
[00485] Система 160 идентификации презентации определяет вероятность презентации посредством одной или более презентационных моделей. В частности, презентационные модели генерируют вероятности того, будут ли данные пептидные последовательности презентированы для набора ассоциированных аллелей ГКГС, и генерируются на основе информации презентации, хранящейся в хранилище 165. Например, презентационные модели могут генерировать вероятность того, будет ли презентирована пептидная последовательность "YVYVADVAAK" (SEQ ID NO: 59) для набора аллелей HLA-А*02:01, HLA- А*03:01, HLA-B*07:02, HLA-B*08:03, HLA-C*01:04, HLA-A*06:03, HLA-B*01:04 на клеточной поверхности образца. Информация презентации 165 содержит информацию о том, связываются ли пептиды с различными типами аллелей ГКГС, так что эти пептиды презентированы аллелями ГКГС, что в моделях определяется в зависимости от положений аминокислот в пептидных последовательностях. Презентационная модель может предсказать, будет ли нераспознанная пептидная последовательность презентирована в ассоциации с ассоциированным набором аллелей ГКГС на основании информации презентации 165. Как упоминалось ранее, модели презентации можно применять в отношении аллелей ГКГС класса I и класса II.
IX.B. Информация о презентации
[00486] На Фиг. 2 проиллюстрирован способ получения информации презентации в соответствии с вариантом реализации изобретения. Информация презентации 165 включает в себя две основные категории информации: информацию взаимодействия с аллелями, и информацию не взаимодействия с аллелями. Информация взаимодействия с аллелями включает в себя информацию, которая влияет на презентацию пептидных последовательностей, которые зависят от типа аллели ГКГС. Информация не взаимодействия с аллелями включает в себя информацию, которая влияет на презентацию пептидных последовательностей, которые не зависят от типа аллели ГКГС.
IX.B.1. Информация взаимодействия с аллелями
[00487] Информация взаимодействия с аллелями, в основном включает в себя идентифицированные пептидные последовательности, о которых известно, что они были презентированы одной или более идентифицированными молекулами ГКГС из людей, мышей и тому подобного. В частности, это может включать или не включать данные, полученные из образцов опухоли. Презентированные пептидные последовательности могут быть идентифицированы по клеткам, которые экспрессируют один аллель ГКГС. В этом случае презентированные пептидные последовательности обычно собирают из одноаллельных клеточных линий, которые сконструированы для экспрессии предварительно определенной аллели ГКГС и которые впоследствии подвергаются воздействию синтетического белка. Пептиды, презентированные на аллели ГКГС, выделяют такими методами, как кислотное элюирование, и идентифицируют с помощью масс-спектрометрии. На Фиг. 2В проиллюстрирован пример этого, где типовой пептид YEMFNDKS (SEQ ID NO: 60), презентированный на предопределенной аллели ГКГС HLA-A*01:01, выделен и идентифицирован с помощью масс-спектрометрии. На Фиг. 2D проиллюстрирован другой пример этого, в котором типовой пептид YEMFNDKSQRAPDDKMF (SEQ ID NO: 61), презентируемый на предопределенной аллели ГКГС HLA-DRB1* 12:01, выделяют и идентифицируют методом масс-спектрометрии. Так как в этих ситуациях пептиды идентифицируют за счет клеток, сконструированных для экспрессии одного предопределенного белка ГКГС, однозначно известна прямая связь между презентированным пептидом и белком ГКГС, с которым он был связан.
[00488] Презентированные пептидные последовательности также могут быть собраны из клеток, которые экспрессируют множественные аллели ГКГС. Как правило, у человека в клетке экспрессируются 6 разных типов молекул ГКГС-I и до 12 разных типов молекул ГКГС-II. Такие презентированные пептидные последовательности могут быть идентифицированы по множественным аллельным клеточным линиям, которые сконструированы для экспрессии множества предопределенных аллелей ГКГС. Такие презентированные пептидные последовательности также могут быть идентифицированы из образцов ткани, либо из образцов нормальной ткани, либо из образцов опухолевой ткани. В этом случае, в частности, молекулы ГКГС могут быть иммунопреципитированы из нормальной или опухолевой ткани. Пептиды, презентированные на множественных аллелях ГКГС, также могут быть выделенными такими методами, как кислотное элюирование, и идентифицируют с помощью масс-спектрометрии. На Фиг. 2С проиллюстрирован пример этого, где шесть типовых пептидов, YEMFNDKSF (SEQ ID NO: 62), HROEIFSHDFJ (SEQ ID NO: 63), FJIEJFOESS (SEQ ID NO: 64), NEIOREIREI (SEQ ID NO: 65), JFKSIFEMMSJDSSU (SEQ ID NO: 66) и KNFLENFIESOFI (SEQ ID NO: 67), презентированы на идентифицированных аллелях ГКГС HLA-A*01:01, HLA-A*02:01, HLA-B*07:02, HLA-B*08:01, HLA-C*01:03 и HLA-C*01:04 и выделены и идентифицированы с помощью масс-спектрометрии. В другом примере на Фиг. 2С проиллюстрирован случай, где шесть типовых пептидов, YEMFNDKSF (SEQ ID NO: 62), HROEIFSHDFJ (SEQ ID NO: 63), FJIEJFOESS (SEQ ID NO: 64), NEIOREIREI (SEQ ID NO: 65), JFKSIFEMMSJDSSUIFLKSJFIEIFJ (SEQ ID NO: 68) и KNFLENFIESOFI (SEQ ID NO: 67), презентируются на идентифицированных аллелях ГКГС класса I HLA-A*01:01, HLA-А*02:01, HLA-B*07:02, HLA-B*08:01 и аллелях ГКГС класса II HLA-DRB1* 10:01, HLA-DRB1:11:01, а выделение и идентификация проводятся методом масс-спектрометрии. В отличие от одноаллельных клеточных линий, в этих примерах прямая связь между презентированным пептидом и белком ГКГС, с которым он был связан, может быть неизвестна, поскольку связанные пептиды выделяют из молекул ГКГС перед их идентификацией.
[00489] Информация взаимодействия с аллелями, может также включать в себя масс-спектрометрический ионный ток, который зависит как от концентрации комплексов пептид-молекула ГКГС, так и от эффективности ионизации пептидов. Эффективность ионизации варьируется от пептида к пептиду в зависимости от последовательности. Как правило, эффективность ионизации варьируется от пептида к пептиду приблизительно на два порядка, тогда как концентрация комплексов пептид-ГКГС варьируется в более широком диапазоне.
[00490] Информация взаимодействия с аллелями может также включать в себя измерения или прогнозирования аффинности связывания между данной аллелью ГКГС и данным пептидом (94, 95, 96). Одна или более моделей аффинности могут производить такие прогнозы. Например, возвращаясь к примеру, проиллюстрированному на Фиг. 1D, информация презентации 165 может включать в себя прогнозирование аффинности связывания 1000 нМ между пептидом YEMFNDKSF (SEQ ID NO: 62) и аллелью HLA-А*01:01 класса I. ГКГС представляет небольшое количество пептидов с IC50>1000 нМ, а более низкие значения IC50 увеличивают вероятность презентации. Информация презентации 165 может включать в себя прогнозирование аффинности связывания между пептидом KNFLENFIESOFI (SEQ ID NO: 67) и аллелью HLA-DRB1:11:01 класса II.
[00491] Информация взаимодействия с аллелями может также включать в себя измерения или прогнозирования стабильности комплекса ГКГС.Одна или более моделей устойчивости, которые могут производить такие прогнозы. Более стабильные комплексы пептид-ГКГС (то есть комплексы с более длительным периодом полураспада) с большей вероятностью будут присутствовать при большом количестве копий на опухолевых клетках и на антигенпрезентирующих клетках, которые взаимодействуют с вакцинным антигеном. Например, возвращаясь к примеру, проиллюстрированному на Фиг. 2С, информация презентации 165 может включать предсказание стабильности времени полужизни 1 ч для молекулы HLA-A*01:01 класса I. Информация презентации 165 также может включать предсказание стабильности времени полужизни для молекулы HLA-DRB1:11:01 класса II.
[00492] Информация взаимодействия с аллелями может также включать в себя измеренную или прогнозируемую скорость реакции образования комплекса пептид-ГКГС. Комплексы, которые образуются с более высокой скоростью, более вероятно, будут презентированы на поверхности клетки в высокой концентрации.
[00493] Информация взаимодействия с аллелями может также включать в себя последовательность и длину пептида. Молекулы ГКГС класса I обычно предпочитают презентировать пептиды длиной от 8 до 15 пептидов. 60-80% презентированных пептидов имеют длину 9. Гистограммы презентированных пептидных длин от нескольких клеточных линий проиллюстрированы на Фиг. 5. Молекулы ГКГС класса II обычно предпочитают презентировать пептиды длиной от 6-30 пептидов.
[00494] Информация взаимодействия с аллелями может также включать в себя присутствие мотивов последовательности киназы на пептиде, кодируемом неоантигеном, и отсутствие или присутствие специфических посттрансляционных модификаций на кодированном неоантигеном пептиде. Присутствие киназных мотивов влияет на вероятность посттрансляционной модификации, которая может усиливать или мешать связыванию ГКГС.
[00495] Информация взаимодействия с аллелями может также включать в себя уровни экспрессии или активности белков, вовлеченных в процесс посттрансляционной модификации, например, киназы (как измерено или предсказано с помощью последовательности РНК, масс-спектрометрии или других способов).
[00496] Информация взаимодействия с аллелями может также включать в себя вероятность презентации пептидов с аналогичной последовательностью в клетках от других индивидуумов, экспрессирующих конкретную аллель ГКГС, как оценивают с помощью масс-спектрометрии протеомики или другими способами.
[00497] Информация взаимодействия с аллелями также может включать в себя уровни экспрессии конкретной аллели ГКГС у данного индивидуума (например, при измерении с помощью РНК-сек или масс-спектрометрии). Пептиды, которые наиболее сильно связываются с аллелью ГКГС, которая экспрессируется на высоких уровнях, будут презентированы с большей вероятностью, чем пептиды, которые наиболее сильно связываются с аллелью ГКГС, которая экспрессируется на низком уровне.
[00498] Информация взаимодействия с аллелями может также включать в себя общую кодирующуюся неоантигеном пептидную последовательность, независимую от вероятности презентации конкретной аллелью ГКГС у других индивидуумов, которые экспрессируют конкретную аллель ГКГС.
[00499] Информация взаимодействия с аллелями может также включать в себя общую кодирующуюся неоантигеном пептидную последовательность, независимую от вероятности презентации аллелями ГКГС в одном семействе молекул (например, HLA-A, HLA-B, HLA-C, HLA-DQ, HLA-DR, HLA-DP) у других индивидуумов. Например, молекулы HLA-C обычно экспрессируются на более низких уровнях, чем молекулы HLA-А или HLA-B, и, следовательно, презентация пептида HLA-C априори менее вероятна, чем презентация HLA-A или HLA-B. В случае другого примера HLA-DP обычно экспрессируется на более низких уровнях, чем HLA-DR или HLA-DQ; следовательно, презентация пептида HLA-DP априори менее вероятна, чем презентация HLA-DR или HLA-DQ.
[00500] Информация взаимодействия с аллелями может также включать в себя последовательность белка конкретной аллели ГКГС.
[00501] Любая информация не взаимодействия с аллелью ГКГС, перечисленная в следующем разделе, также может быть смоделирована как информация взаимодействия с аллелью ГКГС.
IX.B.2. Информация не взаимодействия с аллелями
[00502] Информация не взаимодействия с аллелями может включать в себя С-концевые последовательности, фланкирующие пептид, кодируемый неоантигеном, в пределах его последовательности исходного белка. В случае ГКГС-I С-концевые фланкирующие последовательности могут влиять на протеасомальный процессинг пептидов. Однако С-концевая фланкирующая последовательность отщепляется от пептида протеасомой до того, как пептид транспортируется в эндоплазматический ретикулум и взаимодействует с аллелями ГКГС на поверхностях клеток. Следовательно, молекулы ГКГС не получают информации о С-концевой фланкирующей последовательности, и, следовательно, эффект С-концевой фланкирующей последовательности не может варьироваться в зависимости от типа аллели ГКГС. Например, возвращаясь к примеру, проиллюстрированному на Фиг. 2С, информация презентации 165 может включать в себя С-концевую фланкирующую последовательность FOEIFNDKSLDKFJI (SEQ ID NO: 69) презентированного пептида FJIEJFOESS (SEQ ID NO: 64), идентифицированную из исходного белка пептида.
[00503] Информация не взаимодействия с аллелями также может включать в себя количественные измерения мРНК. Например, данные количественного определения мРНК могут быть получены для тех же самых образцов, которые предоставляют обучающие данные масс-спектрометрии. Как будет описано ниже со ссылкой на Фиг. 13Н, экспрессия РНК была идентифицирована как сильный параметр предсказания презентации пептида. В одном варианте реализации изобретения количественные измерения мРНК идентифицируют с помощью программного средства RSEM. Подробную информацию о внедрении программного обеспечения RSEM можно найти в Во Li and Colin N. Dewey. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics, 12:323, August 2011. В одном варианте реализации изобретения количественная оценка мРНК измеряется в единицах фрагментов на тысячу пар основ транскрипта на миллион отображенных считываний (FPKM - fragments per kilobase of transcript per Million mapped reads).
[00504] Информация не взаимодействия с аллелями может также включать в себя N-концевые последовательности, фланкирующие пептид в пределах его последовательности исходного белка.
[00505] Информация не взаимодействия с аллелями может также включать исходный ген пептидной последовательности. Исходный ген может быть определен как семейство белков Ensembl пептидной последовательности. В других примерах исходный ген может быть определен как исходная ДНК или исходная РНК пептидной последовательности. Исходный ген может, например, повторно презентироваться в виде участка нуклеотидов, которые кодируют белок, или, в альтернативном варианте, может более однозначно повторно презентироваться на основании указанного набора известных последовательностей ДНК или РНК, которые, как известно, кодируют конкретные белки. В другом примере информация не взаимодействия с аллелями может также включать исходные транскрипт или изоформу, или набор потенциальных исходных транскриптов или изоформ пептидной последовательности, полученные из базы данных, такой как Ensembl или RefSeq.
[00506] Информация не взаимодействия с аллелями может также включать в себя присутствие мотивов расщепления протеазой в пептиде, необязательно оцененных в соответствии с экспрессией соответствующих протеаз в опухолевых клетках (как измерено с помощью РНК-сек или масс-спектрометрии). Пептиды, которые содержат мотивы расщепления протеазой, менее вероятно, будут презентированы, потому что они будут более легко расщепляться протеазами и, следовательно, будут менее стабильными в клетке.
[00507] Информация не взаимодействия с аллелями может также включать в себя скорость метаболизма исходного белка, измеренную в соответствующем типе клеток. Более высокая скорость метаболизма (то есть, более низкий период полураспада) увеличивает вероятность презентации; тем не менее, предсказательная сила этой функции является низкой, при измерении в различных типах клеток.
[00508] Информация не взаимодействия с аллелями может также включать в себя длину исходного белка, необязательно с учетом конкретных вариантов сплайсинга ("изоформ"), экспрессируемых на наиболее высоком уровне в опухолевых клетках, как измерено с помощью РНК-сек или масс-спектрометрии протеома, или как предсказано из аннотации мутации зародышевой линии или соматического сплайсинга, обнаруженные в данных последовательности ДНК или РНК.
[00509] Информация не взаимодействия с аллелями может также включать в себя уровень экспрессии протеасомы, иммунопротеасомы, тимопротеасомы или других протеаз в опухолевых клетках (что может быть измерено с помощью РНК-сек, масс-спектрометрии протеома или иммуногистохимии). Различные протеасомы имеют разные предпочтения сайта расщепления. Больше веса будет уделено предпочтениям расщепления каждого типа протеасомы пропорционально уровню ее экспрессии.
[00510] Информация не взаимодействия с аллелями может также включать в себя экспрессию исходного гена пептида (например, измеренную с помощью РНК-сек или масс-спектрометрии). Возможные оптимизации включают в себя корректировку измеренной экспрессии для учета присутствия стромальных клеток и инфильтрирующих опухоль лимфоцитов в образце опухоли. Пептиды из экспрессируемых на наиболее высоком уровне генов будут презентированы с большей вероятностью. Пептиды из генов с неопределяемыми уровнями экспрессии могут быть исключены из рассмотрения.
[00511] Информация не взаимодействия с аллелями может также включать в себя вероятность того, что исходная мРНК пептида, кодируемого неоантигеном, будет подвергаться нонсенс-опосредованной деградации, как предсказывает модель нонсенс-опосредованной деградации, например, модель из Rivas и соавт, Science 2015 год.
[00512] Информация не взаимодействия с аллелями может также включать в себя типичную тканеспецифическую экспрессию исходного гена пептида на различных стадиях клеточного цикла. Гены, которые экспрессируются на низком уровне в целом (как измерено с помощью РНК-сек или масс-спектрометрии протеомики), но которые, как известно, экспрессируются на высоком уровне во время определенных стадий клеточного цикла, вероятно, продуцируют больше презентированных пептидов, чем гены, которые являются стабильно экспрессированными на очень низких уровнях.
[00513] Информация не взаимодействия с аллелями может также включать в себя полный каталог характеристик исходного белка, как указано, например, в uniProt или PDB http://www.rcsb.org/pdb/home/home.do. Эти особенности могут включать, среди прочего: вторичную и третичную структуры белка, субклеточную локализацию 11, термины Генной онтологии (ГО). В частности, эта информация может содержать аннотации, которые действуют на уровне белка, например, длину 5'-НТО, и аннотации, которые действуют на уровне конкретных остатков, например, мотив спирали между остатками 300 и 310. Эти функции также могут включать в себя мотивы поворота, мотивы листа и неупорядоченные остатки.
[00514] Информация не взаимодействия с аллелями может также включать в себя признаки, описывающие свойства домена исходного белка, содержащего пептид, например: вторичную или третичную структуру (например, альфа-спираль против бета-листа); Альтернативный сплайсинг.
[00515] Информация не взаимодействия с аллелями может также включать в себя признаки, описывающие наличие или отсутствие активной точки презентации в положении пептида в исходном белке пептида.
[00516] Информация не взаимодействия с аллелями может также включать в себя вероятность презентации пептидов из исходного белка рассматриваемого пептида у других индивидуумов (после корректировки уровня экспрессии исходного белка у этих индивидуумов и влияния различных типов HLA у этих индивидуумов).
[00517] Информация не взаимодействия с аллелями может также включать в себя вероятность того, что пептид не будет обнаружен или чрезмерно презентирован с использованием масс-спектрометрии из-за технических ошибок.
[00518] Экспрессия различных генных модулей/путей, измеренная с помощью анализа экспрессии генов, такого как РНКсек, микрочип(ы), целевая панель(и), такая как Nanostring, или одиночные/мультигенные представители генных модулей, измеренные с помощью анализов, таких как ОТ-ПЦР (которые не обязательно должны содержать исходный белок пептида), которые информативны о состоянии опухолевых клеток, стромы или инфильтрирующих опухоль лимфоцитов (ИОЛ).
[00519] Информация не взаимодействия с аллелями может также включать в себя номер копии исходного гена пептида в опухолевых клетках. Например, пептидам из генов, которые подвергаются гомозиготной делеции в опухолевых клетках, может быть присвоена нулевая вероятность презентации.
[00520] Информация не взаимодействия с аллелями может также включать в себя вероятность того, что пептид связывается с ТАР, или измеренную или прогнозируемую аффинность связывания пептида с ТАР. Пептиды, которые с большей вероятностью связываются с ТАР, или пептиды, которые связываются с ТАР с более высокой аффинностью, с большей вероятностью будут презентированы ГКГС-I.
[00521] Информация не взаимодействия с аллелями может также включать в себя уровень экспрессии ТАР в опухолевых клетках (который может быть измерен с помощью РНК-сек, масс-спектрометрии протеома, иммуногистохимии). В случае ГКГС-I более высокие уровни экспрессии ТАР увеличивают вероятность презентации всех пептидов.
[00522] Информация не взаимодействия с аллелями может также включать в себя наличие или отсутствие опухолевых мутаций, в том числе, но без ограничений:
i. Драйверные мутации в известных драйверных генах рака, таких как EGFR, KRAS, ALK, RET, ROS1, ТР53, CDKN2A, CDKN2B, NTRK1, NTRK2, NTRK3.
ii. В генах, кодирующих белки, вовлеченные в механизм презентации антигена (например, В2М, HLA-A, HLA-B, HLA-C, ТАР-1, ТАР-2, ТАРВР, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOB, HLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5 или любой из генов, кодирующих компоненты протеасомы или иммунопротеасомы). Пептиды, презентации которых зависит от компонента механизма презентации антигена, который подвержен мутации потери функции в опухоли, имеют сниженную вероятность презентации.
[00523] Наличие или отсутствие функциональных полиморфизмов зародышевой линии, включает в себя, но без ограничений:
i. В генах, кодирующих белки, вовлеченные в механизм презентации антигена (например, В2М, HLA-A, HLA-B, HLA-C, ТАР-1, ТАР-2, ТАРВР, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOB, HLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5 или любой из генов, кодирующих компоненты протеасомы или иммунопротеасомы).
[00524] Информация не взаимодействия с аллелями также может включать в себя тип опухоли (например, НМРЛ, меланому).
[00525] Информация не взаимодействия с аллелями также может включать в себя известную функциональность аллелей HLA, о чем свидетельствуют, например, суффиксы аллелей HLA. Например, суффикс N в названии аллели HLA-A*24:09N указывает на нулевая аллель, которая не экспрессируется и, следовательно, вряд ли презентирует эпитопы; полная номенклатура суффиксов аллелей HLA описана по адресу https://www.ebi.ac.uk/ipd/imgt/hla/nomenclature/suffixes.html.
[00526] Информация не взаимодействия с аллелями также может включать в себя клинический подтип опухоли (например, плоскоклеточный рак легкого по сравнению с неплоскоклеточным).
[00527] Информация не взаимодействия с аллелями также может включать в себя анамнез курения.
[00528] Информация не взаимодействия с аллелями также может включать в себя историю анамнез ожогов, солнечного облучения или воздействия других мутагенов.
[00529] Информация не взаимодействия с аллелями может также включать в себя типичную экспрессию исходного гена пептида в соответствующем типе опухоли или клиническом подтипе, необязательно стратифицированном драйверной мутацией. Гены, которые обычно экспрессируются на высоких уровнях в соответствующем типе опухоли, более вероятно, будут презентированы.
[00530] Информация не взаимодействия с аллелями может также включать в себя частоту мутаций во всех опухолях, или в опухолях одного типа, или в опухолях от индивидуумов с по меньшей мере одной общей аллелью ГКГС, или в опухолях того же типа у индивидуумов с по меньшей мере одной общей аллелью ГКГС.
[00531] В случае мутантного опухолеспецифического пептида список признаков, применяемых для прогнозирования вероятности презентации, может также включать в себя аннотацию мутации (например, миссенс, сквозного прочитывания, смещения рамки считывания, слияние и тому подобного) или то, предсказано ли, что мутация приведет к нонсенс-опосредованной деградации (NMD -nonsense-mediated decay). Например, пептидам из сегментов белка, которые не транслируются в опухолевых клетках из-за гомозиготных мутаций с ранней остановкой считывания, может быть назначена нулевая вероятность появления. NMD приводит к снижению трансляции мРНК, что уменьшает вероятность презентации.
IX.C. Система идентификации презентации
[00532] На Фиг. 3 проиллюстрирована высокоуровневая блок-схема, иллюстрирующая компоненты компьютерной логики системы идентификации презентации 160 согласно одному варианту реализации изобретения. В этом примерном варианте реализации изобретения система идентификации презентации 160 включает в себя модуль управления данными 312, модуль кодирования 314, модуль обучения 316 и модуль прогнозирования 320. Система идентификации презентации 160 также состоит из хранилища данных обучения 170 и хранилища моделей презентации 175. Некоторые варианты реализации системы управления моделями 160 имеют модули, отличные от описанных в данном документе. Точно так же функции могут быть распределены между модулями иначе, чем описано в данном документе.
IX.C.1. Модуль управления данными
[00533] Модуль управления данными 312 генерирует наборы данных для обучения 170 из информации презентации 165. Каждый набор данных для обучения содержит множество экземпляров данных, в которых каждый экземпляр данных i содержит набор независимых переменных zi которые включают в себя по меньшей мере презентированную или не презентированную пептидную последовательность pi, одну или более ассоциированных аллелей ГКГС a i связанных с пептидной последовательностью pi, и зависимую переменную yi которая представляет информацию, которую система идентификации презентации 160 заинтересована в прогнозировании новых значений независимых переменных.
[00534] В одной конкретной реализации, упомянутой на протяжении оставшейся части спецификации, зависимая переменная yi представляет собой двоичную метку, указывающую, был ли пептид pi презентирован одним или более ассоциированными аллелями ГКГС a i. Однако следует понимать, что в других реализациях зависимая переменная yi может представлять любой другой вид информации, который система идентификации презентации 160 заинтересована в прогнозировании в зависимости от независимых переменных zi. Например, в другом варианте осуществления зависимая переменная yi также может быть числовым значением, указывающим масс-спектрометрический ионный ток, идентифицированный для экземпляра данных.
[00535] Пептидная последовательность pi для экземпляра данных i представляет собой последовательность ki аминокислот, в которой ki может варьироваться между экземплярами данных i в пределах диапазона. Например, этот диапазон может быть 8-15 для ГКГС класса I или 6-30 для ГКГС класса II. В одной конкретной реализации системы 160 все пептидные последовательности pi наборе данных для обучения могут иметь одинаковую длину, например 9. Количество аминокислот в пептидной последовательности может варьироваться в зависимости от типа аллелей ГКГС (например, аллелей ГКГС у людей и тому подобного). Аллели ГКГС a i для экземпляра данных i указывают, какие аллели ГКГС присутствовали в связи с соответствующей пептидной последовательностью pi.
[00536] Модуль управления данными 312 может также включать в себя дополнительные аллель-взаимодействующие переменные, такие как предсказания аффинности связывания bi и стабильности si в сочетании с пептидными последовательностями, pi и ассоциированными аллелями ГКГС a i содержащимися в данных для обучения 170. Например, данные для обучения 170 могут содержать прогнозы аффинности связывания bi между пептидом pi и каждой из связанных молекул ГКГС, указанных в a i. В качестве другого примера, данные для обучения 170 могут содержать прогнозы стабильности si для каждого из аллелей ГКГС, указанных в a i.
[00537] Модуль управления данными 312 может также включать в себя дополнительные не взаимодействующие с аллелью переменные wi, такие как С-концевые фланкирующие последовательности и количественные измерения мРНК в сочетании с пептидными последовательностями pi.
[00538] Модуль управления данными 312 также идентифицирует пептидные последовательности, которые не презентированы аллелями ГКГС, для генерирования данных для обучения 170. Обычно это включает в себя идентификацию "более длинных" последовательностей исходного белка, которые включают в себя презентированные пептидные последовательности до презентации. Когда информация презентации содержит сконструированные клеточные линии, модуль управления данными 312 идентифицирует серию пептидных последовательностей в синтетическом белке, которым подвергались клетки, которые не были презентированы на аллелях ГКГС клеток. Когда информация презентации содержит образцы ткани, модуль управления данными 312 идентифицирует исходные белки, из которых были получены презентированные пептидные последовательности, и идентифицирует серию пептидных последовательностей в исходном белке, которые не были презентированы на аллелях ГКГС клеток образца ткани.
[00539] Модуль управления данными 312 может также искусственно генерировать пептиды со случайными последовательностями аминокислот и идентифицировать сгенерированные последовательности как пептиды, не презентированные на аллелях ГКГС. Это может быть достигнуто путем случайного генерирования пептидных последовательностей, что позволяет модулю управления данными 312 легко генерировать большие объемы синтетических данных для пептидов, не презентированных на аллелях ГКГС. Поскольку в действительности небольшой процент пептидных последовательностей презентирован аллелями ГКГС, синтетически сгенерированные пептидные последовательности, скорее всего, не были презентированы аллелями ГКГС, даже если они были включены в белки, процессированные клетками.
[00540] На Фиг. 4А проиллюстрирован примерный набор обучающих данных 170А в соответствии с одним вариантом реализации изобретения. В частности, первые 3 экземпляра данных в данных для обучения 170А указывают информацию о презентации пептида из одной аллельной клеточной линии, включающей аллельные последовательности HLA-C*01:03 и три пептида QCEIOWARE (SEQ ID NO: 70), FIEUHFWI (SEQ ID NO: 71) и FEWRHRJTRUJR (SEQ ID NO: 72). Четвертый экземпляр данных в данных для обучения 170А указывает информацию о пептиде из многоаллельной клеточной линии, включающей аллели HLA-B*07:02, HLA-C*01:03, HLA-A*01:01 и пептидную последовательность QIEJOEIJE (SEQ ID NO: 73). Первый экземпляр данных указывает, что пептидная последовательность QCEIOWARE (SEQ ID NO: 70) не была презентирована аллелью HLA-C*01:03. Как обсуждалось в предыдущих двух параграфах, пептидная последовательность может быть случайным образом сгенерирована модулем управления данными 312 или идентифицирована из исходного белка презентированных пептидов. Данные для обучения 170А также включают в себя предсказание аффинности связывания 1000 нМ и предсказание стабильности периода полураспада 1 ч для пары пептидная последовательность-аллель. Данные для обучения 170А также включают в себя не взаимодействующие с аллелью переменные, такие как С-концевая фланкирующая последовательность пептида FJELFISBOSJFIE (SEQ ID NO: 74), и количественное измерение мРНК 10*2 ТРМ. Четвертый пример данных указывает, что пептидная последовательность QIEJOEIJE (SEQ ID NO: 73) была презентирована одним из аллелей HLA-B*07:02, HLA-C*01:03 или HLA-A*01:01. Данные для обучения 170А также включают в себя предсказания аффинности связывания и предсказания стабильности для каждого из аллелей, а также С-концевую фланкирующую последовательность пептида и количественное определение мРНК для пептида.
[00541] На Фиг. 4А проиллюстрирован другой примерный набор обучающих данных 170А в соответствии с одним вариантом реализации изобретения. В частности, в первых примерах данных в обучающих данных 170А указана информация презентации пептида из одноаллельной клеточной линии, содержащей аллель класса II HLA-DRB3:01:01 и пептидную последовательность QCEIOWAREFLKEIGJ (SEQ ID NO: 75). В первом примере данных указано, что пептидная последовательность QCEIOWAREFLKEIGJ (SEQ ID NO: 75) не была презентирована аллелью HLA-DRB3:01:01.
IX.C.2. Модуль кодирования
[00542] Модуль кодирования 314 кодирует информацию, содержащуюся в данных для обучения 170, в числовое представление, которое можно применять для генерации одной или более моделей презентации. В одной реализации модуль кодирования 314 с одним активным состоянием кодирует последовательности (например, пептидные последовательности или С-концевые фланкирующие последовательности) по заранее определенному 20-буквенному алфавиту аминокислот. Конкретно, пептидная последовательность с аминокислотами ki представлена в виде вектора-строки из 20-ki элементов, где один элемент среди pi 20⋅(j-1)+1, pi 20⋅(j-1)+2, …, pi 20⋅j который соответствует алфавиту аминокислоты в позиции j-th пептидной последовательности, имеет значение 1. В противном случае остальные элементы имеют значение 0. Например, для данного алфавита {А, С, D, Е, F, G, Н, I, K, L, М, N, Р, Q, R, S, Т, V, W, Y}, пептидная последовательность EAF из 3 аминокислот для экземпляра данных i может быть представлена вектором строк из 60 элементов С-концевая фланкирующая последовательность ci может кодироваться аналогичным образом, как описано выше, также как и последовательность белка dh для аллелей ГКГС и другие данные последовательности в информации презентации.
[00543] Когда данные для обучения 170 содержат последовательности аминокислот различной длины, модуль кодирования 314 может дополнительно кодировать пептиды в векторы равной длины путем добавления символа PAD с целью расширения заранее определенного алфавита. Например, это может быть выполнено путем дополнения левой стороны пептидных последовательностей символом PAD до тех пор, пока длина пептидной последовательности не достигнет пептидной последовательности с наибольшей длиной в данных для обучения 170. Таким образом, когда пептидная последовательность с наибольшей длиной имеет kmax аминокислот, модуль кодирования 314 численно представляет каждую последовательность как вектор-строка из (20+1)⋅kmax элементов. Например, для расширенного алфавита {PAD, А, С, D, Е, F, G, Н, I, K, L, М, N, Р, Q, R, S, Т, V, W, Y} и максимальной длины аминокислоты kmax=5, тот же пример пептидной последовательности EAF из 3 аминокислот может быть представлен вектором-строкой из 105 элементов С-концевая фланкирующая последовательность ci или другие данные последовательности могут кодироваться аналогичным образом, как описано выше. Таким образом, каждая независимая переменная или колонка в пептидной последовательности pi или ci представляет собой наличие конкретной аминокислоты в определенном положении последовательности.
[00544] Хотя вышеупомянутый способ кодирования данных последовательности был описан со ссылкой на последовательности, имеющие аминокислотные последовательности, способ аналогичным образом может быть распространен на другие типы данных последовательности, такие как данные последовательности ДНК или РНК и тому подобное.
[00545] Модуль кодирования 314 также кодирует одну или более аллелей ГКГС a i для экземпляра данных i как вектор строки из m элементов, в котором каждый элемент h=1, 2, …, m соответствует уникальной идентифицированной аллели ГКГС. Элементы, соответствующие аллелям ГКГС, идентифицированным для экземпляра данных i имеют значение 1. В противном случае остальные элементы имеют значение 0. В качестве примера, аллели HLA-B*07:02 и HLA-C*01:03 для экземпляра данных i соответствующего многоаллельной клеточной линии среди m=4 уникально идентифицированных типов аллелей ГКГС {HLA-A*01:01, HLA-C*01:08, HLA-B*07:02, HLA-C*01:03} может быть представлен вектором строк из 4 элементов a i=[0 0 1 1], в котором a 3 i=1 and a 4 i=1. В качестве другого примера элементы, соответствующие аллелям ГКГС, идентифицированным для экземпляра данных i имеют значение 1. В противном случае остальные элементы имеют значение 0. В качестве примера, аллели HLA-B*07:02 и HLA-DRB1*10:01 для примера данных i, соответствующего многоаллельной клеточной линии среди m=4 однозначно идентифицированных типов аллелей ГКГС {HLA-A*01:01, HLA-С*01:08, HLA-B*07:02, HLA-DRB1*10:01}, могут быть представлены вектором строки из 4 элементов a i=[0 0 1 1], в котором a 3 i=1 и a 4 i=1. Хотя здесь описаны примеры с 4 идентифицированными типами аллелей ГКГС, количество типов аллелей ГКГС на практике может составлять сотни или тысячи. Как обсуждалось ранее, каждый пример данных i обычно содержит не более 6 разных типов аллелей ГКГС класса I в ассоциации с пептидной последовательностью pi, и/или не более 4 разных типов аллелей ГКГС класса II DR в ассоциации с пептидной последовательностью pi, и/или не более 12 разных типов ГКГС аллелей II в ассоциации с пептидной последовательностью pi.
[00546] Модуль кодирования 314 также кодирует метку yi для каждого экземпляра данных i как двоичную переменную, имеющую значения из набора {0, 1}, в которой значение 1 указывает, что пептид xi был презентирован одной из ассоциированных ГКГС аллелей a i, а значение 0 указывает, что пептид не был презентирован ни одной из ассоциированных аллелей a i. Когда зависимая переменная yi представляет ионный ток масс-спектрометрии, модуль кодирования 314 может дополнительно масштабировать значения, применяя различные функции, такие как логарифмическая функция, имеющая диапазон [-∞, ∞] для значений ионного тока между [0, ∞].
[00547] Модуль кодирования 314 может представлять пару аллель-взаимодействующих переменных xh i для пептида pi и ассоциированной аллели h в виде вектора строк, в котором числовые представления переменных, взаимодействующих с аллелями, сцеплены одна за другой. Например, модуль кодирования 314 может представлять xh i как вектор строки, равный [pi], [pi bh i], [pi sh i], или [pi bh i sh i], где bh i представляет собой прогноз аффинности связывания для пептида pi и связанной с ним аллели ГКГС h, и аналогично для sh i для стабильности. В альтернативном варианте, одна или более комбинаций аллель-взаимодействующих переменных могут храниться индивидуально (например, в виде отдельных векторов или матриц).
[00548] В одном случае модуль кодирования 314 представляет информацию об аффинности связывания путем включения измеренных или предсказанных значений аффинности связывания в аллель-взаимодействующие переменные xh i.
[00549] В одном случае модуль кодирования 314 представляет информацию об устойчивости связывания путем включения измеренных или предсказанных значений стабильности связывания в аллель-взаимодействующие переменные xh i.
[00550] В одном случае модуль кодирования 314 представляет информацию о скорости связывания путем включения измеренных или прогнозируемых значений скорости связывания в аллель-взаимодействующие переменные xh i.
[00551] В одном случае для пептидов, презентируемых ГКГС класс I молекулами, модуль кодирования 314 представляет длину пептида как вектор Tk=[1(Lk=8) 1(Lk=9) 1(Lk=10) 1(Lk=11) 1(Lk=12) 1(Lk=13) 1(Lk=14) 1(Lk=15)], где представляет собой индикаторную функцию, a,Lk обозначает длину пептида pk. Вектор Tk может быть включен в аллель-взаимодействующие переменные xh i. В другом случае для пептидов, презентируемых ГКГС класс II молекулами, модуль кодирования 314 представляет длину пептида как вектор Tk=[1(Lk=6) 1(Lk=7) 1(Lk=8) 1(Lk=9) 1(Lk=10) 1(Lk=11) 1(Lk=12) 1(Lk=13) 1(Lk=14) 1(Lk=15) 1(Lk=16) 1(Lk=17) 1(Lk=18) 1(Lk=19) 1{Lk=20) 1(Lk=21) 1(Lk=22) 1(Lk=23) 1(Lk=24) 1(Lk=25) 1(Lk=26) 1(Lk=27) 1(Lk=28) 1(Lk=29) 1(Lk=30)], где представляет собой индикаторную функцию, a Lk обозначает длину пептида pk. Вектор Tk может быть включен в аллель-взаимодействующие переменные xh i.
[00552] В одном случае модуль кодирования 314 представляет информацию об экспрессии РНК аллелей ГКГС путем включения уровней экспрессии аллелей ГКГС на основе РНК-сек в аллель-взаимодействующие переменные xh i.
[00553] Аналогичным образом, модуль кодирования 314 может представлять не взаимодействующие с аллелью переменные wi в виде вектора строки, в котором числовые представления не взаимодействующих с аллелями переменных объединяются одна за другой. Например wi может быть вектором строки, равным [ci] или [ci mi wi], в которой wi представляет собой вектор-строку, представляющий любые другие не взаимодействующие с аллелью переменные в дополнение к С-концевой фланкирующей последовательности пептида pi и количественное определение мРНК mi связанное с пептидом. В альтернативном варианте, одна или более комбинаций не взаимодействующих с аллелью переменных могут храниться индивидуально (например, в виде отдельных векторов или матриц).
[00554] В одном случае модуль кодирования 314 представляет скорость метаболизма исходного белка для пептидной последовательности, включая скорость метаболизма или период полураспада в не взаимодействующих с аллелью переменных wi.
[00555] В одном случае модуль кодирования 314 представляет длину исходного белка или изоформы путем включения длины белка в не взаимодействующие с аллелью переменные wi.
[00556] В одном случае модуль кодирования 314 представляет активацию иммунопротеасомы путем включения средней экспрессии иммунопротеасом-специфичных протеасомных субъединиц, включая субъединицы β1i, β2i, β5i в не взаимодействующих с аллелью переменных wi.
[00557] В одном случае модуль кодирования 314 представляет изобилие РНК-сек исходного белка пептида или гена или транскрипта пептида (количественно в единицах FPKM, TPM с помощью методов, таких как RSEM), может включать обилие исходного белка в не взаимодействующих с аллелью переменных wi.
[00558] В одном случае модуль кодирования 314 представляет вероятность того, что транскрипт происхождения пептида подвергнется нонсенс-опосредованной деградации (NMD), как оценивается моделью, например, в Rivas et. al. Science, 2015, путем включения этой вероятности в не взаимодействующие с аллелью переменные wi.
[00559] В одном случае, модуль кодирования 314 представляет собой состояние активации модуля гена или пути оцененный с помощью РНК-сек, например, количественная оценка экспрессии генов в пути в единицах ТРМ с применением, например, RSEM для каждого из генов в пути, затем вычисляя итоговую статистику, например среднее значение, по генам в пути. Среднее может быть включено в не взаимодействующие с аллелью переменные wi.
[00560] В одном случае модуль кодирования 314 представляет номер копии исходного гена путем включения номера копии в не взаимодействующие с аллелью переменные wi.
[00561] В одном случае модуль кодирования 314 представляет аффинность связывания ТАР путем включения измеренной или прогнозируемой аффинности связывания ТАР (например, в наномолярных единицах) в не взаимодействующие с аллелью переменные wi.
[00562] В одном случае модуль кодирования 314 представляет уровни экспрессии ТАР, включая уровни экспрессии ТАР, измеренные с помощью РНК-сек (и количественно измеренные в единицах ТРМ, например, RSEM) в не взаимодействующие с аллелью переменные wi.
[00563] В одном случае модуль кодирования 314 представляет мутации опухоли как вектор индикаторных переменных (то есть, dk=1, если пептид pk происходит из образца с мутацией KRAS G12D и 0 в противном случае) в не взаимодействующих с аллелью переменных wi.
[00564] В одном случае модуль кодирования 314 представляет полиморфизмы зародышевой линии в генах презентации антигена в качестве вектора индикаторных переменных (то есть, dk=1, если пептид pk происходит из образца со специфическим полиморфизмом зародышевой линии в ТАР). Эти индикаторные переменные могут быть включены в не взаимодействующие с аллелью переменные wi.
[00565] В одном случае модуль кодирования 314 представляет тип опухоли в виде кодированного вектора с одной длиной и одним активным состоянием в алфавите типов опухолей (например, НМРЛ, меланома, колоректальный рак и тому подобное). Эти кодированные с одним активным состоянием переменные могут быть включены в не взаимодействующие с аллелью переменные wi.
[00566] В одном случае модуль кодирования 314 представляет суффиксы аллелей ГКГС путем обработки 4-значных аллелей HLA различными суффиксами. Например, HLA-A*24:09N считается отличной аллелью от HLA-A*24:09 для целей модели. В альтернативном варианте, вероятность презентации аллелью ГКГС с N-суффиксом может быть установлена равной нулю для всех пептидов, поскольку аллели HLA, оканчивающиеся на N-суффикс, не экспрессируются.
[00567] В одном случае модуль кодирования 314 представляет подтип опухоли в виде закодированного вектора с одной длиной и одним активным состоянием в алфавите подтипов опухоли (например, аденокарцинома легкого, плоскоклеточный рак легкого и тому подобное). Эти кодированные с одним активным состоянием переменные могут быть включены в не взаимодействующие с аллелью переменные wi.
[00568] В одном случае модуль кодирования 314 представляет анамнез курения в виде двоичной индикаторной переменной (dk=1, если у пациента есть анамнез курения, и 0 в противном случае), которая может быть включена в не взаимодействующие с аллелью переменные wi. В альтернативном варианте, анамнез курения может быть закодирован как переменная с одной длиной и одним активным состоянием по алфавиту серьезности курения. Например, статус курения может быть оценен по шкале от 1 до 5, где 1 указывает на некурящих, а 5 указывает на заядлых курильщиков. Поскольку анамнез курения в первую очередь относится к опухолям легких, при обучении модели множественным типам опухолей эта переменная также может быть определена равной 1, если у пациента в анамнезе курение, а типом опухоли являются опухоли легкого и ноль в противном случае.
[00569] В одном случае модуль кодирования 314 представляет историю солнечных ожогов в виде двоичной индикаторной переменной (dk=1, если у пациента есть история сильного солнечного ожога, и 0 в противном случае), которая может быть включена в не взаимодействующие с аллелью переменные wi. Поскольку сильный солнечный ожог в первую очередь относится к меланомам, при обучении модели множественным типам опухолей эта переменная также может быть определена равной 1, если у пациента в анамнезе тяжелый солнечный ожог, а типом опухоли является меланома и ноль в противном случае.
[00570] В одном случае модуль кодирования 314 представляет распределение уровней экспрессии определенного гена или транскрипта для каждого гена или транскрипта в геноме человека в виде сводной статистики (например, среднее значение, медиана) распределения уровней экспрессии с применением справочных баз данных, таких как TCGA. В частности, для пептида pk в образце с меланомой опухолевого типа можно включать не только измеренный уровень экспрессии гена или транскрипта гена или транскрипта точки начала пептида pk в не взаимодействующих с аллелью переменных wi, но также среднюю и/или медианную экспрессию гена или транскрипта гена или транскрипта точки начала пептида pk в меланомах, как измерено TCGA.
[00571] В одном случае модуль кодирования 314 представляет тип мутации в виде переменной с одной длиной и одним активным состоянием в алфавите типов мутаций (например, миссенс, сдвиг рамки считывания, NMD-индуцирование и тому подобное). Эти кодированные с одним активным состоянием переменные могут быть включены в не взаимодействующие с аллелью переменные wi.
[00572] В одном случае модуль кодирования 314 представляет особенности белка на белковом уровне в качестве значения аннотации (например, длины 5'-НТО) исходного белка в переменных, не взаимодействующих с аллелью wi. В другом случае модуль кодирования 314 представляет аннотации на уровне остатка исходного белка для пептида pi посредством включения индикаторной переменной, которая равна 1, если пептид pi если пептид перекрывается мотивом спирали, и 0 в противном случае, или равна 1, если пептид pi если пептид полностью содержится внутри мотива спирали в не взаимодействующих с аллелью переменных wi. В другом случае признак, представляющий долю остатков в пептиде pi, которые содержатся в аннотации мотива спирали, может быть включен в не взаимодействующие с аллелью переменные wi.
[00573] В одном случае модуль кодирования 314 представляет тип белков или изоформ в протеоме человека в качестве индикаторного вектора ok, длина которого равна числу белков или изоформ в протеоме человека, а соответствующий элемент ok, равен 1, если пептид pk происходит из белка i и равен 0 в противном случае.
[00574] В одном случае модуль кодирования 314 представляет исходный ген G=gene(pi) пептида pi в виде категориальной переменной с L возможными категориями, где L обозначает верхнюю границу числа пронумерованных исходных генов 1, 2, …, L.
[00575] Модуль кодирования 314 также может представлять общий набор переменных zi для пептида pi и ассоциированной аллели ГКГС h в виде вектора строки, в котором числовые представления взаимодействующих с аллелью переменных xi и не взаимодействующих с аллелью переменных wi, связаны одна за другой. Например, модуль кодирования 314 может представлять zh i как вектор строки, равный [xh i wi] или [wi xh i].
X. Обучающий модуль
[00576] Обучающий модуль 316 создает одну или более презентационных моделей, которые генерируют вероятность того, будут ли пептидные последовательности презентированы аллелями ГКГС, связанными с пептидными последовательностями. В частности, учитывая пептидную последовательность pk и набор аллелей a k, связанных с пептидной последовательностью pk, каждая презентационная модель генерирует оценку uk указывающую вероятность того, что пептидная последовательность pk будет презентирована одним или более из ассоциированные аллели ГКГС a k.
Х.А. Обзор
[00577] Обучающий модуль 316 создает еще одну презентационную модель на основе наборов данных для обучения, хранящихся в хранилище 170, сгенерированных из информации презентации, сохраненной в 165. Как правило, независимо от конкретного типа презентационной модели, все презентационные модели фиксируют зависимость между независимыми переменными и зависимыми переменными в данных для обучения 170, так что функция потерь минимизирована. В частности, функция потерь (yi∈s, uis; θ) представляет несоответствия между значениями зависимых переменных yi∈s для одного или более экземпляров данных S в данных для обучения 170 и оценочными вероятностями ui∈s для экземпляров данных S сгенерированных презентационной моделью. В одной конкретной реализации, упомянутой в оставшейся части описания, функция потерь (yi∈s; θ) является функцией отрицательного логарифмического правдоподобия, определяемой уравнением (1а), следующим образом:
Однако на практике может применяться другая функция потерь. Например, когда делаются предсказания для масс-спектрометрического ионного тока, функция потерь представляет собой среднеквадратичные потери, определяемые уравнением 1b, следующим образом:
[00578] Презентационная модель может быть параметрической моделью, в которой один или более параметров в математически определяют зависимость между независимой переменной и зависимой переменным. Как правило, различные параметры презентационных моделей параметрического типа, которые минимизируют функцию потерь (yi∈s, ui∈s; θ) определяются с помощью алгоритмов численной оптимизации на основе градиента, таких как алгоритмы пакетного градиента, алгоритмы стохастического градиента и тому подобное. В альтернативном варианте, презентационная модель может быть непараметрической моделью, в которой структура модели определяется из данных для обучения 170 и не строго основана на фиксированном наборе параметров.
Х.В. Модели по аллели
[00579] Обучающий модуль 316 может создавать презентационные модели для прогнозирования вероятности презентации пептидов на основе каждой аллели. В этом случае модуль для обучения 316 может обучать презентационные модели на основе экземпляров данных S в данных для обучения 170, сгенерированных из ячеек, экспрессирующих отдельные аллели ГКГС.
[00580] В одной реализации модуль для обучения 316 моделирует предполагаемую вероятность презентации uk для пептида pk для конкретной аллели h путем:
где пептидная последовательность xh k обозначает закодированные взаимодействующие с аллелью переменные для пептида pk и соответствующая ГКГС-аллель h, ƒ(⋅) представляет собой любую функцию, и в данном документе она упоминается как функция преобразования для удобства описания. Далее, gh(⋅) представляет собой любую функцию, в данном документе она называется функцией зависимости для удобства описания и генерирует оценки зависимостей для взаимодействующих с аллелью переменных xh k на основе набора параметров θh определяемых для аллели ГКГС h. Значения для набора параметров θh для каждой аллели ГКГС h может быть определены путем минимизации функции потерь по отношению к θh, причем i представляет собой каждый экземпляр в подмножестве S данных для обучения 170, сгенерированных из клеток, экспрессирующих одну аллель ГКГС h.
[00581] Выходные данные функции зависимости gh(xh kh) представляют показатель зависимости для аллели ГКГС h указывающий, будет ли аллель ГКГС h представлять соответствующий неоантиген, основываясь, по крайней мере, на особенностях взаимодействия с аллелью xh k, и, в частности, исходя из положений аминокислот пептидной последовательности пептида pk. Например, показатель зависимости для аллели ГКГС h может иметь высокое значение, если аллель ГКГС h is может презентировать пептид pk, и может иметь низкое значение, если презентация маловероятна. Функция преобразования ƒ(⋅) преобразует входные данные и, более конкретно, преобразует показатель зависимости, сгенерированный gh(xh kh) в этом случае, в соответствующее значение, чтобы указать вероятность того, что пептид pk будет презентирован аллелью ГКГС.
[00582] В одной конкретной реализации, упомянутой в остальной части описания, ƒ(⋅) представляет собой функцию, имеющую диапазон в пределах [0, 1] для соответствующего диапазона доменов. В одном примере, ƒ(⋅) представляет собой экспит функцию (expit function, обратную логит-функцию), определяемую как:
(4)
В качестве другого примера, ƒ(⋅) также может быть гиперболической касательной функцией, определяемой как:
когда значения для домена z равны или превышают 0. В качестве альтернативы, когда сделаны предсказания для масс-спектрометрического ионного тока, значения которого находятся за пределами диапазона [0, 1], ƒ(⋅) может быть любой функцией, такой как тождественная функция, экспоненциальная функция, функция логарифма и тому подобное.
[00583] Таким образом, вероятность на аллель, что пептидная последовательность pk будет презентирована аллелью h может быть получена путем применения функции зависимости gh(⋅) для аллели ГКГС h к кодированной версии пептидной последовательности pk для генерации соответствующего показателя зависимости. Оценка зависимость может быть преобразована с помощью функции преобразования ƒ(⋅) для генерации вероятности для каждой аллели, что пептидная последовательность pk будет презентирована аллелью ГКГС h.
Х.В.1 Функции зависимостей для взаимодействующих с аллелью переменных
[00584] В одной конкретной реализации, упомянутой в описании, функция зависимости gh{⋅) является аффинной функцией, задаваемой:
что линейно объединяет каждую взаимодействующую с аллелью переменную в xh k с соответствующим параметром в наборе параметров θh определено для ассоциированной аллели ГКГС h.
[00585] В другой конкретной реализации, упомянутой в описании, функция зависимости gh(⋅) представляет собой сетевую функцию, определяемую как:
представлена сетевой моделью NNh(⋅)), имеющей ряд узлов, расположенных в одном или более слоях. Узел может быть соединен с другими узлами через соединения, каждое из которых имеет связанный параметр в наборе параметров θh. Значение в одном конкретном узле может быть представлено как сумма значений узлов, соединенных с конкретным узлом, взвешенных с помощью соответствующего параметра, отображаемого функцией активации, связанной с конкретным узлом. В отличие от линейной функции, сетевые модели выгодны, поскольку презентационная модель может включать в себя нелинейность и данные процесса, имеющие разные длины аминокислотных последовательностей. В частности, с помощью нелинейного моделирования сетевые модели могут фиксировать взаимодействие между аминокислотами в разных положениях пептидной последовательности и то, как это взаимодействие влияет на презентацию пептида.
[00586] В общем, сетевые модели NNh(⋅) могут быть структурированы как сети прямой связи, такие как искусственные нейронные сети (ANN - artificial neural network), сверточные нейронные сети (CNN - convolutional neural network), глубокие нейронные сети (DNN - deep neural network) и/или рекуррентные сети, такие как сети долгой краткосрочной памяти (LSTM - long short-term memory network), двунаправленные рекуррентные сети, глубокие двунаправленные рекуррентные сети и тому подобное.
[00587] В одном случае, упомянутом в оставшейся части описания, каждая аллель ГКГС в h=1, 2, …, m связана с отдельной сетевой моделью, a NNh{⋅) обозначает выходные данные из сетевой модели, связанной с аллелью h.
[00588] На Фиг. 5 проиллюстрирован пример сетевой модели NN3(⋅) в сочетании с произвольной аллелью h=3. Как проиллюстрировано на Фиг. 5, сетевая модель NN3(⋅) для аллели ГКГС h=3 включает в себя три входных узла на уровне четыре узла на уровне два узла на уровне и один выходной узел на уровне Сетевая модель NN3(⋅) связана с набором из десяти параметров θ3(1), θ3(2), …, θ3(10). Сетевая модель NN3(⋅) получает входные значения (отдельные экземпляры данных, включая данные кодированной полипептидной последовательности и любые другие данные, применяемые для обучения) для трех взаимодействующих с аллелью переменных x3 k(1), x3 k(2) и x3 k(3) для аллели ГКГС h=3 и выводит значение NN3(x3 k). Сетевая функция также может включать одну или более сетевых моделей, в каждой из которых используются разные не взаимодействующие с аллелью переменные в качестве вводных данных.
[00589] В другом случае идентифицированные аллели ГКГС h=1, 2, …, m связаны с единой сетевой моделью NNH(⋅), a NNh(⋅) обозначает один или более выходов единой сетевой модели, связанной с аллелью ГКГС h. В таком случае набор параметров может соответствовать набору параметров для единой сетевой модели и, таким образом, набор параметров θh может быть общим для всех аллелей ГКГС.
[00590] На Фиг. 6А проиллюстрирован пример сетевой модели NNH(⋅), общей для аллелей ГКГС h=1, 2, …, m. Как проиллюстрировано на Фиг. 6А, сетевая модель NNH(⋅) включает в себя m выходных узлов, каждый из которых соответствует аллели ГКГС. Сетевая модель NN3(⋅) получает взаимодействующие с аллелью переменные x3 k для аллели ГКГС h=3 и выводит значения m, включая значение NN3(x3 k), соответствующее аллели ГКГС h=3.
[00591] В еще одном случае единая сетевая модель NNH(⋅) может быть сетевой моделью, которая выводит оценку зависимости, учитывая переменные, взаимодействующие с аллелью, xh k и кодированной последовательностью белка dh аллели ГКГС h. В таком случае набор параметров θh, может снова соответствовать набору параметров для единой сетевой модели и, таким образом, набор параметров может быть общим для всех аллелей ГКГС. В таком случае NNh(⋅) может обозначать выходные данные модели одиночной сети NNH(⋅) с заданными входами [xh k dh] для единой сетевой модели. Такая сетевая модель является выгодной, поскольку вероятности презентации пептидов для аллелей ГКГС, которые были неизвестны в данных для обучения, можно предсказать только путем идентификации их белковой последовательности.
[00592] На Фиг. 6В проиллюстрирован пример сетевой модели NNH(⋅), общей для аллелей ГКГС. Как проиллюстрировано на Фиг. 6 В, сетевая модель NNH(⋅) принимает переменные, взаимодействующие с аллелью, а последовательность белка аллели ГКГС h=3 в качестве входных данных и выводит показатель зависимости NN3(x3 k), соответствующий аллели ГКГС h=3.
[00593] В еще одном случае функцию зависимости gh(⋅) можно выразить как:
где g'h(xh k;θ'h) представляет собой аффинную функцию с набором параметров θ'h, сетевую функцию или тому подобное, с параметром смещения θh*0 в наборе параметров для переменных, взаимодействующих с аллелью для аллели ГКГС, что представляет собой базовую вероятность презентации аллели ГКГС h.
[00594] В другой реализации, параметр смещения θh 0 может быть общим в соответствии с семейством генов аллели ГКГС h. То есть, параметр смещения θh 0 для аллели ГКГС h может быть равен θгена(h) 0, причем ген(h) представляет собой семейство генов аллели ГКГС h. Например, аллели ГКГС класс I HLA-A*02:01, HLA-A*02:02 и HLA-A*02:03 могут быть отнесены к семейству генов "HLA-A", а параметры смещения θh 0 для каждой из этих аллелей ГКГС могут быть общими. В качестве другого примера аллели ГКГС класса II HLA-DRB1:10:01, HLA-DRB1:11:01 и HLA-DRB3:01:01 могут быть отнесены к семейству генов "HLA-DRB", а параметр смещения θh 0 для каждой из этих аллелей ГКГС может быть общим.
[00595] Возвращаясь к уравнению (2), в качестве примера приведена вероятность того, что пептид pk будет презентирован аллелью ГКГС h=3, среди m=4 различных идентифицированных аллелей ГКГС, применяющих функцию аффинной зависимости gh{⋅), могут быть получены путем:
где x3 k представляет собой идентифицированные взаимодействующие с аллелью переменные для аллели ГКГС h=3,, а θ3 представляет собой набор параметров, определенных для аллели ГКГС h=3 путем минимизации функции потерь.
[00596] В качестве другого примера можно привести вероятность того, что пептид pk будет презентирован аллелью ГКГС h=3, среди m=4 различных идентифицированных аллелей ГКГС с применением отдельных функций трансформации сети gh(⋅), может быть сгенерирован:
где x3 k представляет собой идентифицированные взаимодействующие с аллелью переменные для аллели ГКГС h=3,, а θ3 представляет собой набор параметров, определенных для сетевой модели NN3(⋅), связанной с аллелью ГКГС h=3.
[00597] На Фиг. 7 проиллюстрирована генерация вероятности презентации для пептида pk связанной с аллелью ГКГС h=3 с применением примера сетевой модели NN3(⋅). Как проиллюстрировано на Фиг. 7, Сетевая модель NN3(⋅) получает взаимодействующие с аллелью переменные x3 k для аллели ГКГС h=3 и формирует выход NN3(x3 k). Выход отображается с помощью функции ƒ(⋅) для генерации оценочной вероятности презентации uk.
Х.В.2. Каждая аллель с не взаимодействующими с аллелью переменными
[00598] В одном варианте реализации, модуль обучения 316 включает не взаимодействующие с аллелью переменные и модели оценочной вероятности презентации uk для пептида pk с помощью:
где wk обозначает кодированные не взаимодействующие с аллелью переменные для пептида pk, gw(⋅) представляет собой функцию для не взаимодействующих с аллелью переменных на основе набора параметров θw определяется для не взаимодействующих с аллелью переменных. Конкретно, значения для набора параметров θh для каждой аллели ГКГС h и набор параметров θw для не взаимодействующих с аллелью переменных можно определить минимизацию функции потерь по отношению к θh и θw, где i представляет собой каждый экземпляр в подмножестве S данных для обучения 170, сгенерированных из клеток, экспрессирующих отдельные аллели ГКГС.
[00599] Вывод функции зависимости gw(wkw) представляет показатель зависимости для не взаимодействующих с аллелью переменных, указывающий, является ли пептид pk презентирован одной или более аллелями ГКГС, основанными на влиянии не взаимодействующих с аллелью переменных. Например, показатель зависимости для не взаимодействующих с аллелью переменных может иметь высокое значение, если пептид pk связан с С-концевой фланкирующей последовательностью, которая, как известно, положительно влияет на презентацию пептида pk, и может иметь низкое значение, если пептид pk связан с С-концевой фланкирующей последовательностью, которая, как известно, негативно влияет на презентацию пептида pk.
[00600] Согласно уравнению (8), для каждой аллели существует вероятность того, что пептидная последовательность pk будет презентирована аллелью ГКГС h может быть создан путем применения функции gh(⋅) для аллели ГКГС h к кодированной версии пептидной последовательности pk с целью создания соответствующего показателя зависимости для взаимодействующих с аллелью переменных. Функция gw(⋅) для не взаимодействующих с аллелью переменных также применяется к кодированной версии не взаимодействующих с аллелью переменных с целью генерации показателя зависимости для не взаимодействующих с аллелью переменных. Обе оценки объединяются, и объединенная оценка преобразуется функцией преобразования ƒ(⋅) для генерации вероятности для каждой аллели, что пептидная последовательность pk будет презентирована аллелью ГКГС h.
[00601] В альтернативном варианте, обучающий модуль 316 может включать в не взаимодействующие с аллелью переменные в предсказание путем добавления не взаимодействующих с аллелью переменных к переменным, взаимодействующим с аллелями xh k в уравнении (2). Таким образом, вероятность презентации может быть определена:
Х.В.3 Функции зависимостей для не взаимодействующих с аллелью переменных
[00602] Аналогично функции зависимости gh(⋅) для взаимодействующих с аллелью переменных функция зависимости gw(⋅) для не взаимодействующих с аллелью переменных может быть аффинной функцией или сетевой функцией, в которой отдельная сетевая модель связана с не взаимодействующими с аллелью переменными wk.
[00603] В частности, функция зависимости gw(⋅) является аффинной функцией, определяемой как:
gw(wkw)=wk⋅θw.
которая линейно объединяет не взаимодействующие с аллелью переменные в с соответствующим параметром в наборе параметров θw.
[00604] Функция зависимости gw(⋅) также может быть сетевой функцией, определяемой как:
gh(wkw)=NNw(wkw).
и представлена сетевой моделью NNw(⋅) имеющей связанный параметр в наборе параметров θw. Сетевая функция также может включать одну или более сетевых моделей, в каждой из которых используются разные не взаимодействующие с аллелью переменные в качестве вводных данных.
[00605] В другом случае функция зависимости для не взаимодействующих с аллелью переменных может быть задана как:
где g'w(wk;θ'w) представляет собой аффинную функцию, сетевую функцию с набором не взаимодействующих с аллелью параметров θ'w, или тому подобное, mk представляет собой количественное измерение мРНК для пептида pk, h(⋅) представляет собой функцию, преобразующую количественное измерение, и θw m представляет собой параметр в наборе параметров для не взаимодействующих с аллелью переменных, который комбинируется с измерением количественной оценки мРНК для генерации показателя зависимости с целью количественного измерения мРНК. В одном конкретном варианте реализации изобретения, упомянутом в оставшейся части описания, h(⋅) представляет собой логарифмическую функцию, однако на практике h(⋅) может быть любой из множества различных функций.
[00606] В другом случае функция зависимость gw(⋅) для не взаимодействующих с аллелью переменных может быть задана как:
где g'w(wk;θ'w) представляет собой аффинную функция, сетевую функцию с набором не взаимодействующих с аллелью параметров θ'w, или тому подобное, ok представляет собой индикаторный вектор, описанный выше, представляющий белки и изоформы в протеоме человека для пептида pk, и θw 0 представляет собой набор параметров в наборе параметров для не взаимодействующих с аллелью переменных, который комбинируется с индикаторным вектором. В одном варианте, когда размерность ok и набор параметров θw 0 являются значительно высокими, термин регуляризации параметра, такой как где представляет собой норму L1, норму L2, комбинацию или тому подобное, могут быть добавлены к функции потерь при определении значения параметров. Оптимальное значение гиперпараметра λ можно определить с помощью соответствующих способов.
[00607] В другом случае функция зависимость gw(⋅) для не взаимодействующих с аллелью переменных может быть задана как:
где g'w(wk;θ'w) представляет собой аффинную функцию, сетевая функцию с набором не взаимодействующих с аллелью параметров θ'w, и т.п. представляет собой индикаторную функцию, которая равна 1, если пептид pk получен из исходного гена , как описано выше в отношении не взаимодействующих с аллелью переменных, a является параметром, указывающим "антигенность" исходного гена В одном варианте, когда L является достаточно высоким и, следовательно число параметров является достаточно высоким, член регуляризации параметра, такой как где представляет собой норму L1, норму L2, комбинацию или тому подобное, может быть добавлен к функции потерь при определении значения параметров. Оптимальное значение гипер параметра λ можно определить с помощью соответствующих способов.
[00608] На практике дополнительные члены любого из уравнений (10), (11) и (12) можно комбинировать для генерации функции зависимости gw{⋅) для не взаимодействующих с аллелью переменных. Например, член h(⋅), описывающий количественное определение мРНК в уравнении (10), и член, описывающий антигенность исходного гена в уравнении (12), можно суммировать вместе наряду с любой другой аффинной или сетевой функцией для генерации функции зависимости для не взаимодействующих с аллелью переменных.
[00609] Возвращаясь к уравнению (8), в качестве примера приведена вероятность того, что пептид pk будет презентирован аллелью ГКГС h=3, среди m=4 различных идентифицированных аллелей ГКГС с применением функции аффинного преобразования gh(⋅), gw(⋅), могут быть созданы с помощью:
где wk представляет собой идентифицированные не взаимодействующие с аллелью переменные для пептида pk,, a θw представляет собой набор параметров, определенных для не взаимодействующих с аллелью переменных.
[00610] В качестве другого примера можно привести вероятность того, что пептид pk будет презентирован аллелью ГКГС h=3, среди m=4 различных идентифицированных аллелей ГКГС с применением функции преобразования сети gh(⋅), gw(⋅), могут быть созданы с помощью:
где wk представляет собой идентифицированные взаимодействующие с аллелью переменные для пептида pk,, a θw представляет собой набор параметров, определенных для не взаимодействующих с аллелью переменных.
[00611] На Фиг. 8 проиллюстрирована генерация вероятности презентации для пептида pk в связи с аллелью ГКГС h=3 с применением типовых сетевых моделей NN3(⋅) и NNw(⋅). Как проиллюстрировано на Фиг. 8, Сетевая модель NN3(⋅) получает взаимодействующие с аллелью переменные x3 k для аллели ГКГС h=3 и формирует выход NN3(x3 k). Сетевая модель NNw(⋅) получает не взаимодействующие с аллелью переменные wk для пептида pk и генерирует выход NNw(wk). Выходы объединяются и отображаются с помощью функции ƒ(⋅) для генерации оценочной вероятности презентации uk.
Х.С. Модели множественных аллелей
[00612] Обучающий модуль 316 также может создавать модели презентации для прогнозирования вероятности презентации пептидов в условиях множественных аллелей, где присутствуют две или более аллели ГКГС. В этом случае обучающий модуль 316 может обучать модели презентации на основе экземпляров данных S в данных для обучения 170, сгенерированных из клеток, экспрессирующих отдельные аллели ГКГС, клеток, экспрессирующих множественные аллели ГКГС, или их комбинации.
Х.С.1. Пример 1: Максимум моделей по аллели
[00613] В одной реализации обучающий модуль 316 моделирует предполагаемую вероятность презентации uk для пептида pk в сочетании с набором множественных аллелей ГКГС Н как функцию вероятностей презентации uk h∈H определяемой для каждой из аллелей ГКГС h в наборе Н определенном на основе клеток, экспрессирующих одиночные аллели, как описано выше в сочетании с уравнениями (2)-(11). В частности, вероятность презентации uk может быть любой функцией uk h∈H. В одной реализации, как показано в уравнении (12), функция является функцией максимума, а вероятность презентации uk может быть определена как максимум вероятностей презентации для каждой аллели ГКГС h в наборе Н.
Х.С.2. Пример 2.1: модели с функциями сумм
[00614] В одной реализации модуль для обучения 316 моделирует предполагаемую вероятность презентации uk для пептида pk посредством:
где элементы a h k равны 1 для множественных аллелей ГКГС Н связанных с пептидной последовательностью pk и xh k обозначает закодированные взаимодействующие с аллелью переменные для пептида pk и соответствующие аллели ГКГС. Значения для набора параметров θh для каждой аллели ГКГС h может быть определено путем минимизации функции потерь по отношению к θh, где i представляет собой каждый случай в подмножестве S данных для обучения 170, сгенерированных из клеток, экспрессирующих отдельные аллели ГКГС, и/или клеток, экспрессирующих множественные аллели ГКГС. Функция зависимости может быть в форме любой из функций зависимости представленных выше в разделах Х.В.1.
[00615] Согласно уравнению (13) представление вероятности того, что пептидная последовательность pk будет презентирована одной или более аллелями ГКГС h которые могут быть созданы путем применения функции зависимости gh(⋅) к кодированной версии пептидной последовательности pk для каждой из аллелей ГКГС Н для создание соответствующей оценки для взаимодействующих с аллелью переменных. Оценки для каждой ГКГС аллели h объединяли и трансформировали с помощью функции преобразования ƒ(⋅) для создания представления вероятности того, что последовательность пептида pk будет презентирована набором аллели ГКГС Н.
[00616] Презентационная модель уравнения (13) отличается от модели уравнения (2) на аллель тем, что количество ассоциированных аллелей для каждого пептида pk может быть больше 1. Другими словами, более одного элемента в a h k может иметь значение 1 для множественных аллелей ГКГС Н связанных с пептидной последовательностью pk.
[00617] В качестве примера приведена вероятность того, что пептид pk будет презентирован аллелями ГКГС h=2, h=3, среди m=4 различных идентифицированных аллелей ГКГС с применением функции аффинного преобразования gh(⋅), можно сгенерировать с помощью:
где x2 k, x3 k представляют собой идентифицированные взаимодействующие с аллелью переменные для аллелей ГКГС h=2, h=3,, a θ2, θ3 представляют собой набор параметров, определенных для аллели ГКГС h=2, h=3.
[00618] В качестве другого примера можно привести вероятность того, что пептид pk будет презентирован аллелями ГКГС h=2, h=3, среди m=4 различных идентифицированных аллелей ГКГС с применением сетевых функций преобразования gh(⋅), gw(⋅), могут быть созданы с помощью:
где NN2(⋅), NN3(⋅) представляют собой идентифицированные сетевые модели для аллелей ГКГС h=2, h=3, а θ2, θ3 представляют собой набор параметров, определенных для аллелей ГКГС h=2, h=3.
[00619] На Фиг. 9 проиллюстрирована генерация вероятности презентации для пептида pk в связи с аллелями ГКГС h=2, h=3 с применением типовых сетевых моделей NN2(⋅) и NN3(⋅). Как проиллюстрировано на Фиг. 9, сетевая модель NN2{⋅) получает взаимодействующие с аллелью переменные x2 k для аллели ГКГС h=2 и генерирует выход NN2(x2 k), а сетевая модель NN3(⋅) получает взаимодействующие с аллелью переменные x3 k для аллели ГКГС h=3 и генерирует выход NN3{x3 k). Выходы объединяются и отображаются с помощью функции ƒ(⋅) для генерации оценочной вероятности презентации uk.
Х.С.3. Пример 2.2: модели функции сумм с не взаимодействующими с аллелью переменными
[00620] В одном варианте реализации, модуль обучения 316 включает не взаимодействующие с аллелью переменные и модели оценочной вероятности презентации uk для пептида pk с помощью:
где wk обозначает кодированные не взаимодействующие с аллелью переменные для пептида pk. Конкретно, значения для набора параметров θh для каждой аллели ГКГС h и набора параметров θw для не взаимодействующих с аллелью переменных можно определить минимизацию функции потерь по отношению к θh и θw, где i представляет собой каждый случай в подмножестве S данных для обучения 170, сгенерированных из клеток, экспрессирующих отдельные аллели ГКГС, и/или клеток, экспрессирующих множество аллелей ГКГС. Функция зависимости gw может быть в форме любой из функций зависимости gw, представленных выше в разделах Х.В.3.
[00621] Таким образом, согласно уравнению (14), вероятность презентации того, что пептидная последовательность pk будет презентироваться одной или более аллелями ГКГС Н может быть сгенерирована путем применения функции gh(⋅) к кодированной версии пептидной последовательности pk для каждой из аллелей ГКГС Н с целью генерации соответствующего показателя зависимости для взаимодействующих с аллелью переменных для каждой аллели ГКГС h. Функцию gw(⋅) для не взаимодействующих с аллелью переменных также применяется к кодированной версии не взаимодействующих с аллелью переменных с целью генерации показателя зависимости для не взаимодействующих с аллелью переменных. Оценки объединяются и объединенная оценка преобразуется с помощью функции преобразования ƒ(⋅) для создания представления вероятности того, что последовательность пептида pk будет презентирована аллелями ГКГС Н.
[00622] В презентационной модели уравнения (14) число ассоциированных аллелей для каждого пептида pk может быть больше 1. Другими словами, более одного элемента в a h k может иметь значение 1 для множественных аллелей ГКГС Н связанных с пептидной последовательностью pk.
[00623] В качестве примера приведена вероятность того, что пептид pk будет презентирован аллелями ГКГС h=2, h=3, среди m=4 различных идентифицированных аллелей ГКГС с применением функций аффинного преобразования gh(⋅), gw(⋅), можно сгенерировать с помощью:
где представляет собой идентифицированные не взаимодействующие с аллелью переменные для пептида pk,, a θw представляет собой набор параметров, определенных для не взаимодействующих с аллелью переменных.
[00624] В качестве другого примера можно привести вероятность того, что пептид pk будет презентирован аллелями ГКГС h=2, h=3, среди m=4 различных идентифицированных аллелей ГКГС с применением сетевых функций преобразования gh(⋅), gw(⋅), могут быть созданы с помощью:
где wk представляет собой идентифицированные взаимодействующие с аллелью переменные для пептида pk,, a θw представляет собой набор параметров, определенных для не взаимодействующих с аллелью переменных.
[00625] На Фиг. 10 проиллюстрирована генерация вероятности презентации для пептида pk в связи с аллелями ГКГС h=2, h=3 с применением типовых сетевых моделей NN2(⋅), NN3(⋅) и NNw(⋅). Как проиллюстрировано на Фиг. 10, Сетевая модель NN2(⋅) получает взаимодействующие с аллелью переменные x2 k для аллели ГКГС h=2 и формирует выход NN2(x2 k). Сетевая модель NN3(⋅) получает взаимодействующие с аллелью переменные x3 k для аллели ГКГС h=3 и формирует выход NN3(x3 k). Сетевая модель NNw(⋅) получает не взаимодействующие с аллелью переменные для пептида pk и генерирует выход NNw(wk). Выходы объединяются и отображаются с помощью функции ƒ(⋅) для генерации оценочной вероятности презентации uk.
[00626] В альтернативном варианте, обучающий модуль 316 может включать в себя прогноз предсказания не взаимодействующих с аллелью переменных путем добавления не взаимодействующих с аллелью переменных wk к переменным, взаимодействующим с аллелями xh k в уравнении (15). Таким образом, вероятность презентации может быть определена:
Х.С.4. Пример 3.1: модели применяющие неявные вероятности для каждой аллели
[00627] В другом варианте реализации обучающий модуль 316 моделирует предполагаемую вероятность презентации uk для пептида pk посредством:
где элементы a h k равны 1 для множественных аллелей ГКГС h∈H связанных с пептидной последовательностью pk, u'k h представляет собой неявную вероятность презентации аллели для аллели ГКГС h, вектор v представляет собой вектор, в котором элемент Vh соответствует a h k⋅u'k h, s(⋅) представляет собой функцию, отображающую элементы v, и r(⋅) представляет собой функцию отсечения, которая отсекает значение ввода в заданном диапазоне. Как описано ниже более подробно, s(⋅) может быть функцией суммирования или функцией второго порядка, но следует понимать, что в других вариантах реализации изобретения, s(⋅) может быть любой функцией, такой как функция максимума. Значения для набора параметров в для неявных вероятностей для каждой аллели могут быть определены путем минимизации функции потерь по отношению к θ, где i представляет собой каждый случай в подмножестве S данных для обучения 170, сгенерированных из клеток, экспрессирующих отдельные аллели ГКГС, и/или клеток, экспрессирующих множественные аллели ГКГС.
[00628] Вероятность презентации в презентационной модели уравнения (17) моделируется как функция неявных вероятностей презентации на аллель u'k h каждая из которых соответствует вероятному пептиду pk будет презентирована отдельной аллелью ГКГС h. Неявная вероятность на аллель отличается от вероятности презентации на аллель секции Х.В тем, что параметры неявной вероятности на аллель можно узнать из настроек множественных аллелей, в которых прямая связь между презентированным пептидом и соответствующей аллелью ГКГС является неизвестной, в дополнение к настройкам одной аллели. Таким образом, в настройке множественных аллелей презентационная модель может оценить не только то, будет ли пептид pk презентирован набором аллелей ГКГС Н в целом, но также может обеспечить индивидуальные вероятности u'k h∈H, которые указывают на то, что аллель ГКГС h наиболее вероятно презентирована пептидом pk. Преимущество этого состоит в том, что презентационная модель может генерировать неявные вероятности без данных для обучения для клеток, экспрессирующих отдельные аллели ГКГС.
[00629] В одной конкретной реализации, упомянутой в остальной части описания, r(⋅) представляет собой функцию, имеющую диапазон [0, 1]. Например, r(⋅) может быть функцией усечения: r(z)=min(max(z, 0),1),
где минимальное значение между z и 1 выбрано в качестве вероятности презентации uk. В другой реализации, r(⋅) представляет собой гиперболическую тангенсную функцию, определяемую как:
r(z)=tanh(z)
когда значения для домена z равны или превышают 0.
Х.С.5. Пример 3.2: Модель суммы функций
[00630] В одной конкретной реализации s(⋅) представляет собой функцию суммирования, а вероятность презентации дается суммированием неявных вероятностей презентации для каждой аллели:
[00631] В одной реализации неявная вероятность презентации аллели для аллели ГКГС h генерируется с помощью:
так, что вероятность презентации оценивается по:
[00632] Согласно уравнению (19), вероятность презентации того, что пептидная последовательность pk будет презентирована одной или более аллелями ГКГС Н, можно сгенерировать, применив функцию gh(⋅) к кодированной версии пептидной последовательности pk для каждой из аллелей ГКГС Н с целью создания соответствующего показателя зависимости для аллели взаимодействующих переменных. Каждый показатель зависимости сначала трансформируется функцией ƒ(⋅) для генерации неявных вероятностей презентации каждой аллели u'k h. Одноаллельные вероятности u'k h объединяются, и к объединенным вероятностям может применяться функция отсечения с целью отсечения значений в диапазоне [0, 1] для генерации вероятности презентации, что пептидная последовательность pk будет презентироваться набором аллелей ГКГС Н. Функция зависимости gh может быть в форме любой из функций зависимости gh, представленных выше в разделах Х.В.1.
[00633] В качестве примера приведена вероятность того, что пептид pk будет презентирован аллелями ГКГС h=2, h=3, среди m=4 различных идентифицированных аллелей ГКГС с применением функции аффинного преобразования gh(⋅), можно сгенерировать с помощью:
где X2 k, X3 k представляют собой идентифицированные взаимодействующие с аллелью переменные для аллелей ГКГС h=2, h=3,, a θ2, θ3 представляют собой набор параметров, определенных для аллели ГКГС h=2, h=3.
[00634] В качестве другого примера можно привести вероятность того, что пептид pk будет презентирован аллелями ГКГС h=2, h=3, среди m=4 различных идентифицированных аллелей ГКГС с применением сетевых функций преобразования gh(⋅), gw(⋅), могут быть созданы с помощью:
где NN2(⋅), NN3(⋅) представляют собой идентифицированные сетевые модели для аллелей ГКГС h=2, h=3, а θ2, θ3 представляют собой набор параметров, определенных для аллелей ГКГС h=2, h=3.
[00635] На Фиг. 11 проиллюстрирована генерация вероятности презентации для пептида pk в связи с аллелями ГКГС h=2, h=3 с применением типовых сетевых моделей NN2(⋅) и NN3(⋅). Как проиллюстрировано на Фиг. 9, сетевая модель NN2(⋅) получает взаимодействующие с аллелью переменные x2 k для аллели ГКГС h=2 и генерирует выход NN2(x2 k), а сетевая модель NN3(⋅) получает взаимодействующие с аллелью переменные x3 k для аллели ГКГС h=3 и генерирует выход NN3(x3 k). Каждый выход отображается функцией ƒ(⋅) и объединяется для генерации оценочной вероятности презентации uk.
[00636] В другом варианте реализации, когда делаются предсказания для log масс-спектрометрического ионного тока, r(⋅) является логарифмической функцией, а ƒ(⋅) является экспоненциальной функцией.
Х.С.6. Пример 3.3: модели суммы функций с не взаимодействующими с аллелью переменными
[00637] В одной реализации неявная вероятность презентации аллели для аллели ГКГС h генерируется с помощью:
так что вероятность презентации генерируется с помощью:
с целью включения влияние не взаимодействующих с аллелью переменных на презентацию пептида.
[00638] Согласно уравнению (21), представление вероятности того, что пептидная последовательность будет презентирована одной или более аллелями ГКГС Н, может быть сгенерировано путем применения функции gh(⋅) к кодированной версии пептидной последовательности pk для каждой из аллелей ГКГС Н с целью генерации соответствующего показателя зависимости для взаимодействующих с аллелью переменных для каждой аллели ГКГС h. Функция gw(⋅) для не взаимодействующих с аллелью переменных также применяется к кодированной версии не взаимодействующих с аллелью переменных с целью генерации показателя зависимости для не взаимодействующих с аллелью переменных. Оценка для не взаимодействующих с аллелью переменных объединяется с каждой оценкой зависимости для переменных, взаимодействующих с аллелью. Каждая из комбинированных оценок преобразуется функцией ƒ(⋅) для генерации неявных вероятностей презентации для каждой аллели. Неявные вероятности объединяются, и к объединенным выходам может применяться функция отсечения, с целью отсечения значения в диапазоне [0,1], для генерации вероятности презентации, что пептидная последовательность pk будет презентирована аллелями ГКГС Н. Функция зависимости gw может быть в форме любой из функций зависимости gw представленных выше в разделах Х.В.3.
[00639] В качестве примера приведена вероятность того, что пептид pk будет презентирован аллелями ГКГС h=2, h=3, среди m=4 различных идентифицированных аллелей ГКГС с применением функций аффинного преобразования gh(⋅), gw(⋅), можно сгенерировать с помощью:
где представляет собой идентифицированные не взаимодействующие с аллелью переменные для пептида pk,, a θw представляет собой набор параметров, определенных для не взаимодействующих с аллелью переменных.
[00640] В качестве другого примера можно привести вероятность того, что пептид pk будет презентирован аллелями ГКГС h=2, h=3, среди m=4 различных идентифицированных аллелей ГКГС с применением сетевых функций преобразования gh(⋅), gw(⋅) могут быть созданы с помощью:
где wk представляет собой идентифицированные взаимодействующие с аллелью переменные для пептида pk,, a θw представляет собой набор параметров, определенных для не взаимодействующих с аллелью переменных.
[00641] На Фиг. 12 проиллюстрирована генерация вероятности презентации для пептида pk в связи с аллелями ГКГС h=2, h=3 с применением типовых сетевых моделей NN2(⋅), NN3(⋅) и NNw(⋅). Как проиллюстрировано на Фиг. 12, Сетевая модель NN2(⋅) получает взаимодействующие с аллелью переменные x2 k для аллели ГКГС h=2 и формирует выход NN2(x2 k). Сетевая модель NNw(⋅) получает не взаимодействующие с аллелью переменные для пептида pk и генерирует выход NNw(wk). Выходы объединяются и отображаются с помощью функции ƒ(⋅). Сетевая модель NN3(⋅) получает взаимодействующие с аллелью переменные x3 k для аллели ГКГС h=3 и генерирует выход NN3(x3 k), который снова объединяется с выходом NNw(wk) той же сетевой модели NNw(⋅) и отображается функцией ƒ(⋅). Оба выхода объединяются для генерации оценочной вероятности презентации uk.
[00642] В другой реализации неявная вероятность презентации аллели для аллели ГКГС h генерируется с помощью:
так что вероятность презентации генерируется с помощью:
Х.С.7. Пример 4: модели второго порядка
[00643] В одной реализации, s(⋅) представляет собой функцию второго порядка, а предполагаемая вероятность презентации uk для пептида pk определяется как:
где u'k h представляет собой неявную вероятность презентации на аллель для аллели ГКГС h. Значения для набора параметров θ для неявных вероятностей для каждой аллели могут быть определены путем минимизации функции потерь по отношению к θ, причем i представляет собой каждый случай в подмножестве S данных для обучения 170, сгенерированных из клеток, экспрессирующих отдельные аллели ГКГС, и/или клеток, экспрессирующих множественные аллели ГКГС Неявные вероятности презентации для каждой аллели могут быть в любой форме, показанной в уравнениях (18), (20) и (22), описанных выше.
[00644] В одном аспекте модель уравнения (23) может подразумевать, что существует вероятность того, что пептид pk будет презентирован двумя аллелями ГКГС одновременно, в которой презентация двумя аллелями HLA является статистически независимой.
[00645] Согласно уравнению (23), вероятность презентации того, что пептидная последовательность pk будет презентирована одной или более аллелями ГКГС Н, может быть сгенерирована путем объединения неявных вероятностей презентации на аллель и вычитания вероятности того, что каждая пара аллелей ГКГС будет одновременно презентировать пептид pk из суммирования для представления вероятности презентации того, что последовательность пептида pk будет презентирована аллелями ГКГС Н.
[00646] В качестве примера приведена вероятность того, что пептид pk будет презентирован аллелями HLA h=2, h=3, среди m=4 различных идентифицированных аллелей HLA с применением функции аффинного преобразования gh{⋅), можно сгенерировать с помощью:
где x2 k, x3 k представляют собой идентифицированные взаимодействующие с аллелью переменные для аллелей HLA h=2, h=3,, а θ2, θ3 представляют собой набор параметров, определенных для аллели HLA h=2, h=3.
[00647] В качестве другого примера можно привести вероятность того, что пептид pk будет презентирован аллелями HLA h=2, h=3, среди m=4 различных идентифицированных аллелей HLA с применением сетевых функций преобразования gh(⋅), gw(⋅), могут быть созданы с помощью:
где NN2(⋅), NN3(⋅) представляют собой идентифицированные сетевые модели для аллелей HLA h=2, h=3, а θ2, θ3 представляют собой набор параметров, определенных для аллелей HLA h=2, h=3.
XI.А Пример 5: Модуль прогнозирования
[00648] Модуль прогнозирования 320 принимает данные последовательности и выбирает потенциальные неоантигены в данных последовательности с применением презентационных моделей. Конкретно, данные последовательности могут быть последовательностями ДНК, последовательностями РНК и/или белковыми последовательностями, выделенными из клеток опухолевой ткани пациентов. Модуль прогнозирования 320 обрабатывает данные последовательности во множество пептидных последовательностей pk, имеющих 8-15 аминокислот в случае ГКГС-I или 6-30 аминокислот в случае ГКГС-II. Например, модуль прогнозирования 320 может обрабатывать данную последовательность "IEFROEIFJEF" (SEQ ID NO: 76) в три пептидные последовательности, имеющие 9 аминокислот "IEFROEIFJ" (SEQ ID NO: 77), "EFROEIFJE" (SEQ ID NO: 78) и "FROEIFJEF" (SEQ ID NO: 79). В одном варианте реализации изобретения модуль прогнозирования 320 может идентифицировать кандидаты-неоантигены, которые представляют собой мутированные пептидные последовательности путем сравнения данных о последовательностях, выделенных из клеток нормальной ткани пациента, с данными о последовательностях, выделенных из клеток опухолевой ткани пациента, с целью идентификации частей, содержащих одну или более мутаций.
[00649] Модуль презентации 320 применяет одну или более моделей презентации к обработанным пептидным последовательностям для оценки вероятности презентации пептидных последовательностей. В частности, модуль прогнозирования 320 может выбирать одну или более потенциальных пептидных последовательностей неоантигена, которые, вероятно, будут презентированы на молекулах HLA опухоли, путем применения моделей презентации к потенциальным неоантигенам. В одной реализации модуль презентации 320 выбирает возможные неоантигенные последовательности, которые имеют оценочные вероятности презентации выше предварительно определенного порогового значения. В другой реализации, презентационная модель выбирает N последовательностей неоантигенных кандидатов, которые имеют наивысшие оценочные вероятности презентации (где N представляет собой, как правило, максимальное количество эпитопов, которые могут быть доставлены в вакцине). Вакцину, включающую выбранные кандидатные неоантигены для данного пациента, можно инъецировать пациенту для индукции иммунных реакций.
XI.B. Пример 6: Модуль конструкции кассеты
XI.B.1 Обзор
[00650] Модуль конструкция кассеты 324 формирует последовательность вакцины кассеты на основе ν выбранных пептидных кандидатов для инъекции пациенту. Конкретно, для набора выбранных пептидов pk, k=1, 2, …, ν для включения в вакцину с емкостью ν, последовательность кассет получается путем конкатенации серии последовательностей терапевтических эпитопов р'k, k=1, 2, …, ν каждый из которых включает в себя последовательность соответствующего пептида pk. В одном варианте реализации изобретения модуль конструкции кассеты 324 может объединять эпитопы, непосредственно примыкающие друг к другу. Например, вакцинная кассета С может быть представлена как:
где р'ti обозначает i-й эпитоп кассеты. Таким образом, ti соответствует индексу k=1, 2, …, ν для выбранного пептида в i-м положении кассеты. В другом варианте реализации изобретения модуль конструкции кассеты 324 может объединять эпитопы с одной или более необязательными линкерными последовательностями между соседними эпитопами. Например, вакцинная кассета С может быть представлена как:
где обозначает линкерную последовательность, помещенную между i-м эпитопом р'ti и j=i+1-м эпитопом p'*j=i+1 кассеты. Модуль конструкции кассеты 324 определяет, какие из выбранных эпитопов р'k, k=1, 2, …, ν расположены в разных положениях кассеты, а также любые линкерные последовательности, расположенные между эпитопами. Кассетная последовательность С может быть внесена в качестве вакцины на основе любого из способов, описанных в данном документе.
[00651] В одном варианте реализации изобретения набор терапевтических эпитопов может быть создан на основе выбранных пептидов, определенных модулем прогнозирования 320, связанных с вероятностями презентации выше предварительно определенного порога, где вероятности презентации определяются моделями презентации. Однако понятно, что в других вариантах реализации изобретения набор терапевтических эпитопов может быть создан на основе любого одного или более из ряда способов (по отдельности или в комбинации), например, на основе аффинности связывания или прогнозируемой аффинности связывания с аллелями HLA класса I или класса II пациента, стабильности связывания или прогнозируемой стабильности связывания с аллелями HLA класса I или класса пациента, случайной выборки и тому подобного.
[00652] В одном варианте реализации изобретения терапевтические эпитопы р'k могут соответствовать выбранным пептидам pk сами по себе. В другом варианте реализации изобретения терапевтические эпитопы р'k могут также включать в себя С-и/или N-концевые фланкирующие последовательности в дополнение к выбранным пептидам. Например, эпитоп р'k включенный в кассету, может быть представлен в виде последовательности [nk pk ck] где ck представляет собой С-концевую фланкирующую последовательность, присоединенную к С-концу выбранного пептида pk, а nk
представляет собой N-концевую фланкирующую последовательность, присоединенную к N-концу выбранного пептида pk. В одном случае, упомянутом в оставшейся части описания, N- и С-концевые фланкирующие последовательности являются нативными N-и С-концевыми фланкирующими последовательностями эпитопа терапевтической вакцины в контексте его исходного белка. В одном случае, упомянутом в оставшейся части описания, терапевтический эпитоп р'k представляет собой эпитоп фиксированной длины. В другом случае, терапевтический эпитоп р'k может представлять собой эпитоп переменной длины, в котором длину эпитопа можно варьировать в зависимости от, например, длины С- или N-фланкирующей последовательности. Например, С-концевая фланкирующая последовательность ck и N-концевая фланкирующая последовательность nk могут иметь различную длину от 2 до 5 остатков, что дает 16 возможных вариантов для эпитопа р'k.
[00653] В одном варианте реализации изобретения модуль конструкции кассеты 324 генерирует последовательности кассеты с учетом презентации соединительных эпитопов, которые охватывают соединение между парой терапевтических эпитопов в кассете. Соединительные эпитопы представляют собой новые несамостоятельные, но нерелевантные последовательности эпитопов, которые возникают в кассете вследствие процесса сцепления терапевтических эпитопов и линкерных последовательностей в кассете. Новые последовательности соединительных эпитопов отличаются от терапевтических эпитопов самой кассеты. Соединительные эпитопы, охватывающие эпитопы р'ti и р'tj могут включать в себя любую последовательность эпитопа, которая перекрывается как с р'ti так и с р'tj что отличается от последовательностей самих терапевтических эпитопов р'ti и p'tj. Конкретно, каждое соединение между эпитопом р'ti и соседним эпитопом p'tj кассеты с или без необязательной линкерной последовательности может быть связано с n(ti,tj) соединительными эпитопами en (ti,tj), n=1, 2, …, n(ti,tj). Соединительные эпитопы могут быть последовательностями, которые, по меньшей мере, частично перекрываются обоими эпитопами р'ti и p'tj, или могут быть последовательностями, которые, по меньшей мере, частично перекрываются с линкерными последовательностями, расположенными между эпитопами р'ti и р'tj. Соединительные эпитопы могут быть презентированы ГКГС класса I, ГКГС класса II или обоими.
[00654] На Фиг. 38 проиллюстрированы две типовые последовательности кассет: кассета 1 (C1) и кассета 2 (С2). Каждая кассета имеет вакцинную емкость ν=2 и включает в себя терапевтические эпитопы 't11=SINFEKL (SEQ ID NO: 80) и р't22=LLLLLVVVV (SEQ ID NO: 81), и линкерную последовательность между двумя эпитопами. В частности, последовательность кассеты C1 задается как а последовательность кассеты С2 задается как Типовые соединительные эпитопы en (1,2) кассеты C1 могут быть последовательностями, такими как EKLAAYLLL (SEQ ID NO: 82), KLAAYLLLLL (SEQ ID NO: 83) и FEKLAAYL (SEQ ID NO: 84), которые охватывают оба эпитопа р'1 и р'2 в кассете, и могут быть последовательностями, такими как AAYLLLLL (SEQ ID NO: 85) и YLLLLLVVV (SEQ ID NO: 86) которые охватывают последовательность линкера и один выбранный эпитоп в кассете. Аналогично, типовые соединительные эпитопы em (2,1) кассеты С2 могут быть последовательностями, такими как VVVVAAYSIN (SEQ ID NO: 87), VVVVAAY (SEQ ID NO: 88) и AYSINFEK (SEQ ID NO: 89). Хотя обе кассеты включают один и тот же набор последовательностей р1, и р2, множество соединительных эпитопов, которые идентифицированы отличаются в зависимости от упорядоченной последовательности терапевтических эпитопов в кассете.
[00655] В одном варианте реализации изобретения модуль конструкции кассеты 324 генерирует последовательность кассеты, которая уменьшает вероятность того, что соединительные эпитопы презентированы у пациента. В частности, в случае если кассету вводят пациенту, соединительные эпитопы могут быть презентированы аллелями HLA класса I или HLA класса II пациента и могут стимулировать ответ Т-клеток CD8 или CD4, соответственно. Такие реакции часто нежелательны, поскольку Т-клетки, реагирующие на соединительные эпитопы, не имеют терапевтического эффекта и могут ослаблять иммунный ответ на выбранные терапевтические эпитопы в кассете из-за антигенной конкуренции.76
[00656] В одном варианте реализации изобретения модуль конструкции кассеты 324 выполняет итерации по одной или более кассетам-кандидатам и определяет последовательность кассет, для которой оценка презентации эпитопов соединения, связанных с этой последовательностью кассет, ниже числового порога. Показатель презентации соединительного эпитопа представляет собой величину, связанную с вероятностью презентации соединительных эпитопов в кассете, а более высокое значение показателя презентации соединительного эпитопа указывает на более высокую вероятность того, что соединительные эпитопы кассеты будут презентированы классом HLA I или классом HLA II или обоими.
[00657] В одном варианте реализации изобретения модуль конструкции кассеты 324 может определять последовательность кассет, связанную с наименьшим показателем презентации соединительного эпитопа, среди последовательностей кассет-кандидатов. В одном случае оценка презентации для данной последовательности кассеты С определяется на основе набора метрик расстояния d(en (ti,tj), n=1, 2, …, n(ti,tj))=d(ti,tj), каждый из которых связан с соединением в кассете С. В частности, метрика расстояния d(ti,tj) определяет вероятность того, что один или более соединительных эпитопов, охватывающих пару соседних терапевтических эпитопов р'ti и р'tj будут презентированы. Оценка презентации соединительного эпитопа для кассеты С затем может быть определена путем применения функции (например, суммирования, статистической функции) к набору метрик расстояния для кассеты С. Математически оценка презентации подается в виде:
где h(⋅) представляет собой некоторую функцию, отображающую метрики расстояния каждого соединения в оценку. В одном конкретном случае, упомянутом в оставшейся части описания, функция h(⋅) является суммированием по метрикам расстояния кассеты.
[00658] Модуль конструкции кассеты 324 может выполнять итерацию одной или более последовательностей-кандидатов кассет, определяя оценку презентации соединительного эпитопа для кассет-кандидатов и определяя оптимальную последовательность кассеты, связанную с оценкой презентации соединительного эпитопа ниже порогового значения. В одном конкретном варианте реализации изобретения, упомянутом в оставшейся части описания, метрика расстояния d(⋅) для данного соединения может быть задана суммой вероятностей презентации или ожидаемого числа презентированных соединительных эпитопов, как определено презентационными моделями, описанными в разделах VII и VIII спецификации. Однако следует понимать, что в других вариантах реализации изобретения метрика расстояния может быть получена из других факторов отдельно или в комбинации с моделями, подобными приведенной выше в качестве примера, где эти другие факторы могут включать в себя получение метрики расстояния из любого одного или более из (отдельно или в комбинации): измерения или прогноза аффинности или стабильности HLA для HLA класса I или HLA класса II, а также презентационной модели или иммуногенности, обученных на основе данных масс-спектрометрии HLA или эпитопа Т-клеток, для HLA класса I или класса HLA II. В одном варианте реализации изобретения метрика расстояния может объединять информацию о презентации HLA класса I и презентации HLA класса II. Например, метрикой расстояния может быть число соединительных эпитопов, которые, по прогнозам, связывают любой из аллелей HLA класса I или HLA класса II пациента с аффинностью связывания ниже порогового значения. В другом примере метрикой расстояния может быть ожидаемое количество эпитопов, которые, по прогнозам, будут презентированы любым из аллелей HLA класса I или HLA класса II пациента.
[00659] Модуль конструкции кассеты 324 может дополнительно проверять одну или более последовательностей кассет-кандидатов, с целью идентификации того факта, являются ли какие-либо соединительные эпитопы в последовательностях кассет-кандидатов
аутоэпитопами для данного пациента, для которого разрабатывается вакцина. Для этого модуль конструкции кассеты 324 проверяет соединительные эпитопы по известной базе данных, такой как BLAST. В одном варианте реализации изобретения модуль конструкции кассеты может быть выполнен с возможностью конструировать кассеты, которые избегают соединительных аутоэпитопов, путем установки метрики расстояния d(ti,tj) на очень большое значение (например, 100) для пар эпитопов ti,tj где связывание эпитопа ti с N-концом эпитопа tj приводит к образованию соединительного аутоэпитопа.
[00660] Возвращаясь к примеру на Фиг. 38, модуль конструкции кассеты 324 определяет (например) метрику расстояния d(t1,t2)=d(1,2)=0,39 для одиночного соединения (t1,t2) в кассете C1 суммой вероятностей презентации всех возможных соединительных эпитопов en (t1,t2)=en (1,2), имеющих длины, например, от 8 до 15 аминокислот для ГКГС класса I или 6-30 аминокислот для ГКГС класса II. Так как никакие другие соединения не присутствуют в кассете С1, показатель презентации соединительного эпитопа, который представляет собой суммирование по метрикам расстояния для кассеты C1, также задается 0,39. Модуль конструкции кассеты 324 также определяет метрику расстояния d(t1,t2)=d(2,1)=0,068 для одиночного соединения в кассете С2 суммой вероятностей презентации всех возможных соединительных эпитопов en (t1,t2)=en (2,1), имеющих длины от 8 до 15 для ГКГС класса I или 9-30 аминокислот для ГКГС класса II. В этом примере оценка презентации соединительного эпитопа для кассеты С2 также дается метрикой расстояния одиночного соединения 0,068. Модуль конструкции кассеты 324 выводит последовательность кассеты С2 в качестве оптимальной кассеты, так как оценка презентации соединительного эпитопа ниже, чем последовательность кассеты C1.
[00661] В некоторых случаях модуль конструкции кассеты 324 может выполнять метод перебора и выполнять итерацию всех или наиболее возможных последовательностей кассет-кандидатов для выбора последовательности с наименьшим показателем презентации соединительного эпитопа. Однако количество таких кассет-кандидатов может быть чрезмерно большим по мере увеличения емкости вакцины ν. Например, для емкости вакцины с ν=20 эпитопами модуль конструкции кассеты 324 должен выполнить итерацию по ~1018 возможным кассетам-кандидатам, с целью определения кассеты с самым низким показателем презентации соединительного эпитопа. Это определение может быть обременительным в вычислительном отношении (с точки зрения требуемых ресурсов вычислительной обработки) и иногда трудным для выполнения модулем конструкции кассеты 324 в течение разумного периода времени для создания вакцины для пациента. Более того, учет возможных соединительных эпитопов для каждой кассеты-кандидата может быть еще более обременительным. Таким образом, модуль конструкции кассеты 324 может выбирать последовательность кассет на основе способов итерации ряда возможных последовательностей кассет, которые значительно меньше, чем число возможных последовательностей кассет для подхода с применением метода перебора.
[00662] В одном варианте реализации изобретения модуль конструкции кассеты 324 генерирует подмножество случайно сгенерированных или по меньшей мере сгенерированных псевдослучайным образом кассет-кандидатов и выбирает кассету-кандидат, связанную с оценкой презентации соединительного эпитопа ниже заданного порога, в качестве последовательности кассеты. Кроме того, модуль конструкции кассеты 324 может выбрать кассету-кандидата из подмножества с наименьшим показателем презентации соединительного эпитопа в качестве последовательности кассеты. Например, модуль конструкции кассеты 324 может генерировать подмножество ~1 миллиона кассет-кандидатов для набора из ν=20 выбранных эпитопов и выбирать кассету-кандидата с наименьшим счетом презентации соединительных эпитопов. Хотя генерация подмножества случайных последовательностей кассет и выбор последовательности кассет с низким показателем презентации эпитопа с низким переходом из подмножества могут быть неоптимальными по сравнению с методом перебора, это требует значительно меньших вычислительных ресурсов, что делает его реализацию технически осуществимой. Кроме того, выполнение метода перебора в противоположность этому более эффективному способу может привести лишь к незначительному или даже несущественному улучшению оценки презентации соединительного эпитопа, что делает его не стоящим с точки зрения распределения ресурсов.
[00663] В другом варианте реализации изобретения модуль конструкции кассеты 324 определяет улучшенную конфигурацию кассеты путем создания последовательности эпитопов для кассеты в качестве асимметричной задачи коммивояжера (TSP - traveling salesman problem). Учитывая список узлов и расстояния между каждой парой узлов, TSP определяет последовательность узлов, связанных с кратчайшим общим расстоянием, чтобы посетить каждый узел ровно один раз и вернуться к исходному узлу. Например, для заданных городов А, В и С с известными расстояниями между собой решение TSP генерирует замкнутую последовательность городов, для которой общее расстояние, пройденное для посещения каждого города ровно один раз, является наименьшим из возможных маршрутов. Асимметричная версия TSP определяет оптимальную последовательность узлов, когда расстояние между парой узлов асимметрично. Например, "расстояние" для перемещения от узла А к узлу В может отличаться от "расстояния" для перемещения от узла В к узлу А.
[00664] Модуль конструкции кассеты 324 определяет улучшенную последовательность кассеты путем решения асимметричной TSP, в которой каждый узел соответствует терапевтическому эпитопу р'k. Расстояние от узла, соответствующего эпитопу р'k до другого узла, соответствующего эпитопу р'm задается метрикой расстояния соединительного эпитопа d(k,m), тогда как расстояние от узла, соответствующего эпитопу р'm до узла, соответствующего эпитопу р'k задается метрикой расстояния d(m,k) которая может отличаться от метрики расстояния d(k,m). Решая проблему улучшенной оптимальной кассеты с применением асимметричной TSP, модуль конструкции кассеты 324 может находить последовательность кассет, которая приводит к уменьшенному количеству презентаций в местах соединения между эпитопами кассеты. Решение асимметричной TSP указывает на последовательность терапевтических эпитопов, которые соответствуют порядку, в котором эпитопы должны быть соединены в кассете, с целью минимизации оценки презентации соединительного эпитопа через соединения кассеты. В частности, учитывая набор терапевтических эпитопов k=1, 2, …, ν, модуль конструкции кассеты 324 определяет метрики расстояния d(k,m), k,m=1, 2, …, ν для каждой возможной упорядоченной пары терапевтических эпитопов в кассете. Другими словами, для данной пары эпитопов k, m, определяют как метрику расстояния d(k,m) для конкатенации терапевтического эпитопа р'm после эпитопа р'k, так и метрику расстояния d(m,k) для конкатенации терапевтического эпитопа p'k после эпитопа р'm, поскольку эти метрики расстояния могут отличаться друг от друга.
[00665] В одном варианте реализации изобретения модуль конструкции кассеты 324 решает асимметричную TSP посредством задачи целочисленного линейного программирования. В частности, модуль конструкции кассеты 324 генерирует матрицу пути Р следующим образом:
Матрица ν×ν D является асимметричной матрицей расстояний, причем каждый элемент D(k, m), k=1, 2, ν; m=1, 2, …, ν соответствует метрике расстояния для соединения от эпитопа р'k к эпитопу р'm. Строки k=2, …, ν из Р соответствуют узлам исходных эпитопов, в то время как строка 1 и столбец 1 соответствуют "призрачному узлу", который находится на нулевом расстоянии от всех других узлов. Добавление "призрачного узла" к матрице кодирует представление о том, что вакцинная кассета является линейной, а не круглой, поэтому между первым и последним эпитопами нет точки соединения. Другими словами, последовательность не является круговой, и не предполагается, что первый эпитоп сцепляется после последнего эпитопа в последовательности. Пусть xkm обозначает двоичную переменную, значение которой равно 1, если существует определенный путь (то есть соединение эпитоп-эпитоп в кассете), где эпитоп p'k соединен с N-концом эпитопа р'm и 0 в противном случае. Кроме того, пусть Е обозначает набор всех ν терапевтических эпитопов вакцины, и пусть S⊂E обозначает подмножество эпитопов. Для любого такого подмножества S, через (S) обозначают количество соединений типа эпитоп-эпитоп xkm=1, где к представляет собой эпитоп в S, а m представляет собой эпитоп в E\S. Учитывая известную матрицу пути Р, модуль конструкции кассеты 324 находит матрицу пути X которая решает следующую задачу целочисленного линейного программирования:
в которой Pkm обозначает элемент P(k,m) матрицы пути Р, с учетом следующих ограничений:
Первые два ограничения гарантируют, что каждый эпитоп появляется в кассете ровно один раз. Последнее ограничение гарантирует, что кассета соединена. Последнее ограничение гарантирует, что кассета соединена х является соединенной линейной последовательностью белка.
[00666] Решения для xkm, k,m=1, 2, …, ν+1 in в задаче целочисленного линейного программирования уравнения (27) указывают замкнутую последовательность узлов и "призрачных узлов", которые можно применять для вывода одной или более последовательностей терапевтических эпитопов для кассеты, которые снижают показатель презентации соединительных эпитопов. В частности, значение xkm=1 указывает, что существует "путь" от узла к к узлу m, или, другими словами, что терапевтический эпитоп р'm или, другими словами, что терапевтический эпитоп р'k в улучшенной последовательности кассеты. Решение xkm=0 указывает на то, что такого пути не существует, или, другими словами, что терапевтический эпитоп р'm не должен соединяться после терапевтического эпитопа р'k в улучшенной последовательности кассеты. В совокупности значения xkm в задаче целочисленного программирования уравнения (27) представляют собой последовательность узлов и "призрачного узла", в который путь входит и существует каждый узел ровно один раз. Так, например, значения хпризрачный,1=1, х13=1, x32=1 и х2,призрачный=1 (0 в противном случае) может указывать на последовательность призрачный→1→3→2→призрачный узлов и "призрачных узлов".
[00667] Как только последовательность была определена, призрачные узлы удаляются из последовательности, чтобы сгенерировать уточненную последовательность только с исходными узлами, соответствующими терапевтическим эпитопам в кассете. Уточненная последовательность указывает порядок, в котором выбранные эпитопы должны соединяться в кассете для улучшения показателя презентации. Например, продолжая с примера в предыдущем абзаце, «призрачный узел» может быть удален, с целью генерации уточненной последовательности 1→3→2. Уточненная последовательность указывает на один из возможных путей соединения эпитопов в кассете, а именно р1→р3→р2.
[00668] random sampling approach р'k are представляют собой эпитопы переменной длины, модуль конструкции кассеты 324 определяет предположительные метрики расстояния, соответствующие разным длинам терапевтических эпитопов р'k и р'm, и идентифицирует метрику расстояния d(k,m) и идентифицирует метрику расстояния. Например, эпитопы р'k=[nk pk ck] and р'm=[nm pm cm] могут каждый включать соответствующую N- и С-концевую фланкирующую последовательность, которая может варьировать (в одном варианте реализации изобретения) от 2 до 5 аминокислот. Таким образом, соединение между эпитопами р'k и р'm связано с 16 различными наборами соединительных эпитопов на основе 4 возможных значений длины nk и 4 возможных значения длины cm которые размещены в соединении. Модуль конструкции кассеты 324 может определять подходящие метрики расстояния для каждого набора соединительных эпитопов и определять метрику расстояния d(k,m) в качестве наименьшего значения.
Модуль конструкции кассеты 324 может затем построить матрицу пути Р и решить задачу целочисленного линейного программирования в уравнении (27), с целью определения последовательность кассеты.
[00669] По сравнению с методом случайной выборки решение для последовательности кассет с применением задачи целочисленного программирования требует определения метрик расстояния ν х (ν-1) каждая из которых соответствует паре терапевтических эпитопов в вакцине. Последовательность кассет, определенная с помощью этого подхода, может привести к последовательности со значительно меньшей презентацией соединительных эпитопов, хотя потенциально может потребовать значительно меньше вычислительных ресурсов, чем подход случайной выборки, особенно когда число сгенерированных последовательностей кассет-кандидатов велико.
XI.B.2. Сравнение презентации соединительного эпитопа для кассетных последовательностей, генерируемых методом случайной выборки, с асимметричной TSP
[00670] Две последовательности кассет, включая ν=20 терапевтических эпитопов, были получены путем случайной выборки 1000000 перестановок (кассетная последовательность C1), и путем решения задачи целочисленного линейного программирования в уравнении (27) (кассетная последовательность С2). Метрики расстояния и, таким образом, показатель презентации определяли на основе презентационной модели, описанной в уравнении (14), в которой ƒ представляет собой сигмовидную функцию, xh i представляет собой последовательность пептида pi, gh(⋅) представляет собой функцию нейронной сети, w включает в себя фланкирующую последовательность, log-транскрипты на миллион килобаз (ТРМ - transcripts per kilobase million) пептида pi, антигенность белка пептида pi, и ID образца происхождения пептида pi, a gw(⋅) фланкирующей последовательности и log ТРМ являются функциями нейронной сети, соответственно. Каждая из функций нейронной сети для gh(⋅) включала в себя один узел вывода многослойного персептрона (MLP - multilayer perceptron) с одним скрытым слоем с входными размерами 231 (11 остатков × 21 символ на остаток, включая знаки-заполнители), ширина 256, активации блоков линейной ректификации (ReLU - rectified linear unit) в скрытом слое, линейные активации в выходном слое и один узел выхода на аллель HLA в наборе данных для обучения. Функцией нейронной сети для фланкирующей последовательности была MLP с одним скрытым слоем с размером входа 210 (5 остатков фланкирующей последовательности на N-конце +5 остатков фланкирующей последовательности на С-конце ×21 символ на остаток, включая знаки-заполнители), ширина 32, активация ReLU в скрытом слое и линейная активация в выходном слое. Функция нейронной сети для log ТРМ РНК представляла собой MLP с одним скрытым слоем с входным измерением 1, шириной 16, активациями ReLU в скрытом слое и линейной активацией в выходном слое. Презентационные модели были сконструированы для аллелей HLA-A*02:04, HLA-A*02:07, HLA-B*40:01, HLA-B*40:02, HLA-C*16:02 и HLA-C*16:04. Сравнивались показатели презентации, указывающие ожидаемое количество презентированных соединительных эпитопов двух последовательностей кассеты. Результаты показали, что показатель презентации последовательности кассет, сгенерированный путем решения уравнения (27), был связан с улучшением в ~4 раза по сравнению с показателем презентации последовательности кассет, сгенерированным случайной выборкой.
[00671] В частности, эпитопы ν=20 были определены как:
В первом примере 1000000 различных последовательностей кассет-кандидатов были случайно сгенерированы с 20 терапевтическими эпитопами. Показатель презентации был сгенерирован для каждой из последовательностей кассет-кандидатов. Последовательность кассет-кандидатов, идентифицированная как имеющая самый низкий балл презентации, имела вид:
с показателем презентации 6,1 ожидаемого количества презентированных соединительных эпитопов. Медианный показатель презентации 1000000 случайных последовательностей составил 18,3. Эксперимент показывает, что ожидаемое количество презентированных соединительных эпитопов может быть значительно уменьшено путем идентификации последовательности кассет среди случайно выбранных кассет.
[00672] Во втором примере последовательность кассеты С2 была идентифицирована путем решения задачи целочисленного линейного программирования в уравнении (27). В частности, была определена метрика расстояния каждого потенциального соединения между парой терапевтических эпитопов. Метрики расстояния применялись для решения задачи целочисленного программирования. Кассетная последовательность, идентифицированная этим подходом, имела вид:
с показателем презентации 1,7. Показатель презентации кассетной последовательности С2 показал ~ 4-кратное улучшение по сравнению с показателем презентации последовательности кассеты C1 и ~ 11-кратное улучшение по сравнению со средней оценкой 1000000 случайно сгенерированных кассет-кандидатов. Время генерации кассеты C1 составляло 20 секунд на одном потоке процессора Intel Xeon Е5-2650 с частотой 2,30 ГГц. Время работы для генерации кассеты С2 составляло 1 секунду на одном потоке того же процессора. Таким образом, в этом примере последовательность кассет, идентифицированная путем решения задачи целочисленного программирования уравнения (27), дает ~ 4-кратное лучшее решение при 20-кратном снижении вычислительных затрат.
[00673] Результаты показывают, что задача целочисленного программирования может потенциально обеспечить кассетную последовательность с меньшим числом презентированных соединительных эпитопов, чем у идентифицированных из случайной выборки, потенциально с меньшими вычислительными ресурсами.
XI.B.3. Сравнение презентации соединительного эпитопа для выбора последовательности кассеты, созданной с помощью MHCflurry, и презентационной модели
[00674] В этом примере кассетные последовательности, включающие v=20 терапевтических эпитопов, были выбраны на основе сиквенирования опухолевого/нормального экзома, сиквенирования опухолевого транскриптома и HLA-типирования образца рака легкого было создано путем случайной выборки 1000000 перестановок и путем решения целочисленной линейной проблемы программирования в уравнении (27). Эти показатели расстояния, и, таким образом, показатель презентации были определены на основе количества соединительных эпитопов, предсказанного с помощью MHCflurry, с предсказанием аффинности связывания HLA-пептид, для связывания HLA пациента с аффинностью ниже различным пороговых значений (например, 50-1000 нМ или выше или ниже). В этом примере, 20 несинонимических соматических мутаций, выбранных в качестве терапевтических эпитопов, были выбраны из 98 соматических мутаций, идентифицированных в образце опухоли, путем ранжирования мутаций в соответствии с презентационной моделью в разделе XI. В выше. Однако следует понимать, что в других вариантах реализации изобретения терапевтические эпитопы могут быть выбраны на основе других критериев; таких как на основе стабильности или комбинации критериев, таких как показатель презентации, аффинность и тому подобное. Кроме того, следует понимать, что критерии, применяемые для определения приоритетов терапевтических эпитопов для включения в вакцину, не должны совпадать с критериями, используемыми для определения метрики расстояния D(k, m) применяемой в модуле конструкции кассеты 324.
[00675] Аллели HLA класса I пациента представляли собой HLA-A*01:01, HLA-А*03:01, HLA-B*07:02, HLA-B*35:03, HLA-C*07:02, HLA-C*14:02.
[00676] Конкретно в этом примере v=20 терапевтических эпитопов были
[00677] Результаты этого примера в таблице ниже сравнивают количество соединительных эпитопов, предсказанных с помощью MHCflurry, с целью связывания HLA пациента с аффинностью ниже значения в пороговом столбце (где нМ обозначает наноМолярный), как было найдено с помощью трех способов примеров. Для первого способа, оптимальная кассета была найдена с помощью описанной выше формулировки задачи коммивояжера (ATSP) с временем выполнения 1 с. Для второго способа оптимальная кассета определяется путем отбора лучшей кассеты, найденной после 1 миллиона случайных выборок. Для третьего метода среднее число соединительных эпитопов было найдено в 1 млн случайных выборок.
[00678] Результаты этого примера иллюстрируют, что любой из ряда критериев может применяться для определения того, соответствует ли данная конструкция кассеты требованиям конструкции. В частности, как продемонстрировали предыдущие примеры, выбранная последовательность кассет из множества кандидатов может быть указана последовательностью кассет, имеющей наименьший показатель презентации соединительного эпитопа или, по меньшей мере, такой показатель ниже идентифицированного порога. Этот пример показывает, что другой критерий, такой как аффинность связывания, может применяться для указания того, соответствует ли данная конструкция кассеты требованиям конструкции. Для этого критерия может быть установлена пороговая аффинность связывания (например, 50-1000 или выше или ниже), указывающая, что последовательность конструкции кассеты должна иметь меньше, чем некоторое пороговое количество соединительных эпитопов выше порога (например, 0), и может применяться любой один из нескольких способов (например, способы с первого по третий, показанные в таблице), с целью определения, удовлетворяет ли данная последовательность кассет-кандидатов данные требования. Эти типовые способы дополнительно иллюстрируют, что в зависимости от применяемого способа пороговые значения, возможно, должны быть установлены по-разному. Могут быть предусмотрены другие критерии, такие как основанные на стабильности, или комбинации критериев, такие как показатель презентации, аффинность и тому подобное.
[00679] В другом примере те же кассеты были созданы с применением того же типа HLA и 20 терапевтических эпитопов из ранее в этом разделе (XI.С), но вместо применения метрик расстояния, основанных на прогнозировании аффинности связывания, метрика расстояния для эпитопов m, k представляла собой число пептидов, охватывающих соединение от m до k, которые, как было предсказано, презентированы аллелями HLA класса I пациента с вероятностью презентации выше ряда пороговых значений (между вероятностью 0,005 и 0,5, или выше, или ниже), где вероятностями презентации были определены презентационной моделью в разделе XI.B выше. Этот пример дополнительно иллюстрирует ширину критериев, которые могут учитываться при определении того, соответствует ли данная последовательность кассеты-кандидата требованиям конструкции для применения в вакцине.
[00680] Приведенные выше примеры определяют, что критерии для определения того, может ли последовательность кассеты-кандидата быть разной, зависят от реализации. Каждый из этих примеров иллюстрирует, что подсчет числа соединительных эпитопов, попадающих выше или ниже критериев, может быть подсчетом, применяемым при определении, соответствует ли последовательность кассет-кандидатов этому критерию. Например, если критерием является количество эпитопов, соответствующих или превышающих пороговую аффинность связывания для HLA, то, тот факт является ли последовательность кассет-кандидатов больше или меньше этого числа, может определить, соответствует ли последовательность кассет-кандидатов критериям для применения в качестве выбранной кассеты для вакцины. Аналогично, если критерием является количество соединительных эпитопов, превышающее пороговое значение вероятности презентации.
[00681] Однако в других вариантах реализации изобретения могут выполняться вычисления, отличные от подсчета, с целью определения, соответствует ли последовательность кассеты-кандидата критериям конструкции. Например, вместо количества эпитопов, превышающих/падающих ниже некоторого порога, может быть определено, какая доля соединительных эпитопов превышает или падает ниже порогового значения, например, имеет ли верхний X % соединительных эпитопов вероятность презентации выше некоторого порогового значения Y, или X % процентов соединительных эпитопов имеют аффинность связывания HLA меньше чем или больше чем Z нМ. Это всего лишь примеры, как правило, критерии могут быть основаны на любом атрибуте отдельных соединительных эпитопов или статистических данных, полученных на основе агрегации некоторых или всех соединительных эпитопов. Здесь, X обычно может быть любым числом от 0 до 100% (например, 75% или менее), a Y может быть любым значением от 0 до 1 и Z может быть любым числом, подходящим для рассматриваемых критериев. Эти значения могут быть определены опытным путем и зависят от применяемых моделей и критериев, а также от качества применяемых данных для обучения.
[00682] По существу, в определенных аспектах соединительные эпитопы с высокой вероятностью презентации могут быть удалены; соединительные эпитопы с низкой вероятностью презентации могут быть сохранены; соединительные эпитопы, которые прочно связываются, то есть соединительные эпитопы с аффинностью связывания ниже 1000 нМ или 500 нМ или некоторым другим порогом могут быть удалены; и/или соединительные эпитопы, которые слабо связываются, то есть соединительные эпитопы с аффинностью связывания выше 1000 нМ или 500 нМ или некоторым другим порогом могут быть сохранены.
[00683] Хотя в приведенных выше примерах идентифицированы последовательности-кандидаты, применяющие реализацию презентационной модели, описанной выше, эти принципы в равной степени применимы к реализации, в которой эпитопы для размещения в последовательностях кассет идентифицируются также на основе моделей других типов, таких как модели, основанные на аффинности, стабильности и тому подобном.
XII. Пример 7: Экспериментальные результаты, показывающие эффективность типовой презентационной модели
[00684] Достоверность различных презентационных моделей, описанных выше, была проверена на тестовых данных Т которые были подмножествами данных для обучения 170, которые не применяются для обучения презентационных моделей или отдельного набора данных из данных для обучения 170, которые имеют переменные и структуры данных, аналогичные данным для обучения 170.
[00685] Соответствующая метрика, указывающая эффективность презентационных моделей:
которая указывает на отношение числа экземпляров пептидов, которые были правильно предсказаны, как те, что презентуются на связанных аллелях HLA, к количеству экземпляров пептидов, которые были предсказаны, как те, что презентуются на аллелях HLA. В одной реализации предсказывалось, что пептид pi в тестовых данных Т презентирован на одной или более ассоциированных аллелях HLA, если соответствующая оценка вероятности ui больше или равна заданному пороговому значению t. Еще одна соответствующая метрика, указывающая эффективность презентационных моделей:
которая указывает на отношение числа экземпляров пептидов, которые были правильно предсказаны, как те, что презентуются на связанных аллелях HLA, к количеству экземпляров пептидов, которые, как известно, презентуются на аллелях HLA. Еще одна важная метрика, указывающая на эффективность презентационных моделей, представляет собой площадь под кривой (ППК) рабочей характеристики приемника (ROC). ROC отображает отзыв против относительного числа ложно позитивных заключений (FPR-false positive rate), который определяется как:
XII.A. Сравнение характеристик презентационной модели данных масс-спектрометрии с современной моделью
[00686] На Фиг. 13А проиллюстрировано сравнение результатов эффективности типовой презентационной модели, как представлено в данном документе, с современной моделью для прогнозирования презентации пептида по данным масс-спектрометрии с множественными аллелями. Результаты показали, что типовая презентационная модель работала значительно лучше при прогнозировании презентации пептидов, чем современные модели, основанные на предсказаниях аффинности и стабильности.
[00687] В частности, типовая презентационная модель, проиллюстрированная на Фиг. 13А как "MS" представляла собой максимум презентационной модели для аллелей, показанной в уравнении (12), с применением функции аффинной зависимости gh(⋅) и функцию экспит Типовая презентационная модель была обучена на основе подмножества одноаллельных HLA-A*02:01 данных масс-спектрометрии из набора данных IEDB (набор данных "D1") (данные можно найти по адресу http://www.iedb.org/doc/mhc_ligand_full.zip) и подмножества одноаллельной HLA-B*07:02 масс-спектрометрии из набора данных IEDB (набор данных "D2") (данные можно найти по адресу http://www.iedb.org/doc/mhc_ligand_full.zip). Все пептиды из исходного белка, которые содержат презентированные пептиды в тестовом наборе, были исключены из данных для обучения, так что типовая презентационная модель просто не могла запомнить последовательности презентированных антигенов.
[00688] Модель, проиллюстрированная на Фиг. 13А как "Аффинность", представляет собой модель, аналогичную текущей современной модели, которая предсказывает презентацию пептидов на основе предсказаний аффинности NETMHCpan. Реализация NETMHCpan подробно описана по адресу http://www.cbs.dtu.dk/services/NetMHCpan/. Модель, проиллюстрированная на Фиг. 13А как "Стабильность" представляет собой модель, аналогичную текущей современной модели, которая предсказывает презентацию пептидов на основе предсказаний стабильности NETMHCstab. Реализация NETMHCstab подробно описана по адресу http://www.cbs.dtu.dk/services/NetMHCstab-1.0/. Тестовые данные, представляющие собой подмножество данных масс-спектрометрии HLA-A*02:01 и HLA-B*07:02 из мульти-аллельных клеток JY из набора данных Bassani-Sternberg (набор данных "D3") (данные могут можно найти по адресу www.ebi.ac.uk/pride/archive/projects/PXD000394). Планки погрешностей (как показано сплошными линиями) показывают 95% доверительные интервалы.
[00689] Как проиллюстрировано в результатах на Фиг. 13А, типовая презентационная модель, обученная на данных масс-спектрометрии, имела значительно более высокое значение PPV при 10% частоте повторного вызова по сравнению с современными моделями, которые предсказывают презентацию пептида на основе прогнозов аффинности связывания ГКГС или прогнозов стабильности связывания ГКГС. В частности, типовая презентационная модель имела приблизительно на 14% более высокое PPV, чем модель, основанная на прогнозах аффинности, и имела приблизительно на 12% более высокое PPV, чем модель, основанная на прогнозах стабильности.
[00690] Эти результаты демонстрируют, что типовая презентационная модель имела значительно лучшую эффективность, чем современные модели, которые предсказывают презентацию пептида на основе предсказаний аффинности связывания ГКГС или стабильности связывания ГКГС, даже если типовая презентационная модель не была обучена на основе последовательностей белка, которые содержали презентированные пептиды.
XII.B. Сравнение характеристик презентационной модели с данными по T-клеточному эпитопу с современными моделями
[00691] На Фиг. 13В проиллюстрировано сравнение результатов эффективности другой типовой презентационной модели, как представлено в данном документе, с современной моделью для прогнозирования презентации пептида на основе данных эпитопа Т-клеток. Данные эпитопа Т-клеток содержат пептидные последовательности, которые были презентированы аллелями ГКГС на клеточной поверхности и распознавались Т-клетками. Результаты показали, что, хотя типовая презентационная модель обучается на основе данных масс-спектрометрии, типовая презентационная модель работала значительно лучше при прогнозировании Т-клеточных эпитопов, чем современные модели, основанные на предсказаниях аффинности и стабильности. Другими словами, результаты на Фиг. 13В показывают, что не только типовая презентационная модель работала лучше, чем современные модели при прогнозировании презентации пептида по тестовым данным масс-спектрометрии, но и типовая презентационная модель также работала значительно лучше, чем современные модели при предсказании эпитопов, которые были фактически распознаны Т-клетками. Это указывает на то, что разнообразие представленных в данном документе презентационных моделей может обеспечить улучшенную идентификацию антигенов, которые могут вызывать иммуногенные ответы в иммунной системе.
[00692] В частности, типовая презентационная модель, проиллюстрированная на Фиг. 13 В как "MS" представляла собой презентационную модель для каждой аллели, показанную в уравнении (2), с применением функции аффинной трансформации gh(⋅) и экспит функции ƒ(⋅)которая была обучена на основе подмножества набора данных D1. Все пептиды из исходного белка, которые содержат презентированные пептиды в тестовом наборе, были исключены из данных для обучения, так что презентационная модель просто не могла запомнить последовательности презентированных антигенов.
[00693] Каждая из моделей была применена к тестовым данным, которые представляют собой подмножество данных масс-спектрометрии на данных HLA-A*02:01 эпитопа Т-клеток (набор данных "D4") (данные можно найти по адресу www.iedb.org/doc/tcell full v3.zip). Модель, проиллюстрированная на Фиг. 13В как "Аффинность", представляет собой модель, аналогичную текущей современной модели, которая предсказывает презентацию пептидов на основе предсказаний аффинности NETMHCpan, а модель, проиллюстрированная на Фиг. 13В как "Стабильность" представляет собой модель, аналогичную текущей современной модели, которая предсказывает презентацию пептидов на основе предсказаний стабильности NETMHCstab. Планки погрешностей (как показано сплошными линиями) показывают 95% доверительные интервалы.
[00694] Как проиллюстрировано в результатах на Фиг. 13А, презентационная модель на аллель, обученная на данных масс-спектрометрии, имела значительно более высокое значение PPV при частоте повторного вызова 10%, чем современные модели, которые предсказывают презентацию пептида на основе прогнозов аффинности связывания ГКГС или прогнозов стабильности связывания ГКГС, даже если презентационная модель не была обучена на основе белковых последовательностей, которые содержали презентированные пептиды. В частности, презентационная модель на аллель имела приблизительно на 9% более высокое PPV, чем модель, основанная на прогнозах аффинности, и имела приблизительно на 8% более высокое PPV, чем модель, основанная на прогнозах стабильности.
[00695] Эти результаты продемонстрировали, что типовая презентационная модель, обученная на данных масс-спектрометрии, показала значительно лучшие результаты, чем современные модели прогнозирования эпитопов, которые были распознаны Т-клетками.
XII.C. Сравнение различных характеристик презентационной модели по данным масс-спектрометрии
[00696] На Фиг. 13С проиллюстрировано сравнение результатов эффективности для типовой модели функции суммы (уравнение (13)), типовой модели суммы функций (уравнение (19)) и типовой модели второго порядка (уравнение (23)) для предсказания презентации пептида по данным масс-спектрометрии с множественными аллелями. Результаты показали, что модель суммы функций и модель второго порядка работали лучше, чем модель функции сумм. Это связано с тем, что модель функции сумм подразумевает, что аллели в множественных аллелях могут мешать друг другу в презентации пептидов, тогда как в действительности презентация пептидов является фактически независимой.
[00697] В частности, типовая презентационная модель, проиллюстрированная на Фиг. 13С как "сумма сигмоидов" представляла собой модель функции сумм, с применением функции сетевой зависимости gh(⋅), функции тождества ƒ(⋅) и экспит функции r(⋅). Типовая модель, проиллюстрированная как "сумма сигмоидов", представляет собой модель функции сумм в уравнении (19) с функцией сетевой зависимости gh(⋅), экспит функцией ƒ(⋅), и функцией тождества r(⋅). Типовая модель, проиллюстрированная как "гиперболический тангенс", представляет собой модель функции сумм в уравнении (19) с функцией сетевой зависимости gh(⋅), экспит функцией ƒ(⋅), и гиперболической тангенсной функцией r(⋅). Типовая модель, помеченная как "второй порядок", представляла собой модель второго порядка в уравнении (23) с применением неявной формы вероятности презентации для каждой аллели, показанной в уравнении (18), с функцией сетевой зависимости gh(⋅) и экспит функцией ƒ(⋅). Каждая модель была обучена на основе подмножества набора данных D1, D2 и D3. Типовые презентационные модели были применены к тестовым данным, которые являются случайным подмножеством набора данных D3, который не перекрывался с данными для обучения.
[00698] Как проиллюстрировано на Фиг. 13С, первый столбец относится к ППК ROC, в случае если каждая презентационная модель была применена к тестовому набору, второй столбец относится к значению потери отрицательного логарифмического правдоподобия, а третий столбец относится к PPV при частоте повторного вызова 10%. Как проиллюстрировано на Фиг. 13С, эффективность презентационных моделей "сумма сигмоидов", "гиперболического тангенса" и "второго порядка" были примерно связаны при приблизительно 15-16% PPV при 10%-ом отзыве, в то время как эффективность модели "сигмоиды суммы" был немного ниже, примерно на 11%.
[00699] Как обсуждалось ранее в разделе Х.С.4., результаты показали, что презентационные модели "сумма сигмоидов", "гиперболический тангенс" и "второй порядок" имеют высокие значения PPV по сравнению с моделью "сигмоиды суммы" потому что модели правильно учитывают, как пептиды презентированы независимо каждой аллелью ГКГС в среде множественных аллелей.
XII.D. Сравнение характеристик презентационной модели с обучением и без обучения по данным одноаллельной масс-спектрометрии
[00700] На Фиг. 13D проиллюстрировано сравнение результатов эффективности для двух типовых презентационных моделей, которые обучают с данными и без данных одноаллельной масс-спектрометрии по прогнозированию презентации пептидов для данных масс-спектрометрии с множественными аллелями. Результаты показали, что типовые презентационные модели, которые обучаются без данных по одной аллели, достигают сравнимой эффективности с теми типовыми презентационными моделями, которые обучаются с данными по одной аллели.
[00701] Типовая модель "с данными об одной аллели А2/В7" представляла собой презентационную модель «сумма сигмоидов» в уравнении (19) с функцией сетевой зависимости gh(⋅), функцией экспита ƒ(⋅) и функцией идентичности r(⋅). Модель была обучена на основе подмножества набора данных D3 и данных масс-спектрометрии с одной аллелью для различных аллелей ГКГС из базы данных IEDB (данные можно найти по адресу: http://www.iedb.org/doc/mhc_ligand_full.zip). Типовая модель "без данных по одной аллели А2/В7" была той же моделью, но обучалась на основе подмножества набора данных по множественным аллелям D3 без данных по одноаллельной масс-спектрометрии для аллелей HLA-A*02:01 и HLA-B*07:02, но с данными одноаллельной масс-спектрометрии для других аллелей. В данных для обучения множественных аллелей клеточная линия НСС1937 экспрессировала HLA-B*07:02, но не HLA-A*02:01, а клеточная линия НСТ116 экспрессировала HLA-A*02:01, но не HLA-B*07:02. Типовые презентационные модели были применены к тестовым данным, которые являлись случайным подмножеством набора данных D3 и не перекрывались с данными для обучения.
[00702] Как проиллюстрировано на Фиг. 13D, прогнозы, основанные на неявной вероятности презентации на аллель для аллели ГКГС HLA-A*02:01, выполняются значительно лучше по одноаллельным тестовым данным ГКГС HLA-A*02:01, чем для аллели ГКГС HLA-B*07:02. Аналогичные результаты проиллюстрированы для аллели ГКГС HLA-B*07:02.
[00703] Эти результаты показывают, что неявные вероятности презентации на аллель презентационной модели могут правильно прогнозировать и различить мотивы связывания с отдельными аллелями ГКГС, даже если прямая связь между пептидами и каждой отдельной аллелью ГКГС не была известна в данных для обучения.
XII.Е. Сравнение эффективности прогнозирования по аллели без обучения по данным одноаллельной масс-спектрометрии
[00704] На Фиг. 13Е проиллюстрирована эффективность для типовых моделей "без данных по одной аллели А2/В7" и "с данными по одной аллели для А2/В7", проиллюстрированных на Фиг. 13D на данных одноаллельной масс-спектрометрии для аллелей HLA-A*02:01 и HLA-B*07:02, которые были проведены в анализе, проиллюстрированном на Фиг. 13D. Результаты показывают, что даже если типовая презентационная модель обучается без данных масс-спектрометрии с одной аллелью для этих двух аллелей, модель способна выучить мотивы связывания для каждой аллели ГКГС.
[00705] Столбец "Корреляция" относится к корреляции между фактическими метками, которые указывают, был ли пептид презентирован на соответствующем аллеле в тестовых данных, и меткой для прогнозирования. Как проиллюстрировано на Фиг. 13Е, "модель А2, прогнозирующая В7" указывает на эффективность модели, когда презентация пептида предсказывается для данных одной аллели HLA-B*07:02 на основе неявной оценки вероятности презентации каждой аллели для аллели ГКГС HLA-A*02:01. Подобным образом "модель А2, прогнозирующая А2" указывает на эффективность модели, когда презентация пептида предсказывается для данных одной аллели HLA-A*02:01 на основе неявной оценки вероятности презентации каждой аллели для аллели ГКГС HLA-A*02:01. "Модель В7, прогнозирующая В7" указывает на эффективность модели, когда презентация пептида предсказывается для данных одной аллели HLA-B*07:02 на основе неявной оценки вероятности презентации каждой аллели для аллели ГКГС HLA-B*07:02. "Модель В7, прогнозирующая А2" указывает на эффективность модели, когда презентация пептида предсказывается для данных одной аллели HLA-A*02:01 на основе неявной оценки вероятности презентации каждой аллели для аллели ГКГС HLA-B*07:02.
[00706] Как проиллюстрировано на Фиг. 13Е, прогнозирующая способность неявных вероятностей на аллель для аллели HLA значительно выше для предполагаемой аллели и значительно ниже для другой аллели HLA. Аналогично результатам, проиллюстрированным на Фиг. 13D, типовые презентационные модели, правильно выученные для дифференциации презентации пептидов отдельными аллелями HLA-А*02:01 и HLA-B*07:02, даже при том, что прямая связь между презентацией пептида и этими аллелями не присутствовала в данных для обучения множественных аллелей.
XII.F. Часто возникающие якорные остатки в прогнозах на аллель соответствуют известным каноническим якорным мотивам
[00707] На Фиг. 13F проиллюстрированы общие якорные остатки в положениях 2 и 9 среди нонамеров (полимеров из 9 нуклеотидов), предсказанных с помощью типовой модели "без данных по одной аллели А2/В7", проиллюстрированной на Фиг. 13D. 13D. Было спрогнозировано, что пептиды будут презентированы, если предполагаемая вероятность была выше 5%. Результаты показывают, что наиболее распространенные якорные остатки в пептидах, идентифицированных для презентации на аллелях ГКГС HLA-A*02:01 и HLA-B*07:02, соответствовали ранее известным якорным мотивам для этих аллелей ГКГС. Это указывает на то, что типовые презентационные модели правильно изученного пептидного связывания основаны на конкретных положениях аминокислот пептидных последовательностей, как и ожидалось.
[00708] Как проиллюстрировано на Фиг. 13F, аминокислоты L/M в положении 2 и аминокислоты V/L в положении 9, как было известно, являются каноническими мотивами якорного остатка (как показано в Таблице 4 из https://link.springer.com/article/10.1186/1745-7580-4-2) для HLA-A*02:01, а аминокислота Р в положении 2 и аминокислоты L/V в положении 9 была известна как канонический мотив якорного остатка для HLA-B*07:02. Наиболее распространенные мотивы якорного остатка в положениях 2 и 9 для пептидов идентифицировали модель, соответствующую известным каноническим мотивам якорного остатка для обоих аллелей HLA.
XII.G. Сравнение характеристик презентационной модели с и без не взаимодействующих с аллелью переменных
[00709] На Фиг. 13G проиллюстрировано сравнение результатов эффективности между типовой презентационной моделью, которая включала С- и N-концевые фланкирующие последовательности в качестве взаимодействующих с аллелью переменных, и типовой презентационной моделью, которая включала С- и N-концевые фланкирующие последовательности в качестве не взаимодействующих с аллелью переменных. Результаты показали, что включение С- и N-концевых фланкирующих последовательностей в качестве не взаимодействующих с аллелью переменных значительно улучшило эффективность модели. Более конкретно, важно идентифицировать подходящие признаки для презентации пептидов, которые являются общими для разных аллелей ГКГС, и смоделировать их таким образом, чтобы статистическая сила для этих не взаимодействующих с аллелью переменных была общей для аллелей ГКГС с целью улучшения эффективности презентационной модели.
[00710] Примером "взаимодействующей с аллелью" модели была модель суммы функций, применяющая форму неявных вероятностей презентации каждой аллели в уравнении (22), которая включала С- и N-концевые фланкирующие последовательности в качестве взаимодействующих с аллелью переменных с функцией сетевой зависимости gh(⋅) и функцией экспита ƒ(⋅). Примером "не взаимодействующей с аллелью" модели была модель суммы функций, показанная в уравнении (21), которая включала С- и N-концевые фланкирующие последовательности в качестве не взаимодействующих с аллелью переменных, с функцией сетевой зависимости gh(⋅) и функцией экспита ƒ(⋅). Не взаимодействующие с аллелью переменные моделировались с помощью отдельной функции сетевой зависимости gw(⋅). Обе модели были обучены на подмножестве набора данных D3 и данных масс-спектрометрии с одной аллелью для различных аллелей ГКГС из базы данных IEDB (данные можно найти по адресу: http://www.iedb.org/doc/mhc_ligand_full.zip). Каждая из презентационных моделей была применена к набору тестовых данных, которые являются случайным подмножеством набора данных D3, который не перекрывался с данными для обучения.
[00711] Как проиллюстрировано на Фиг. 13G проиллюстрировано включение С- и N-концевых фланкирующих последовательностей в типовую презентационную модель в качестве переменных, не взаимодействующих с аллелью, которое привело к улучшению приблизительно на 3% значения PPV по сравнению с моделированием их в качестве переменных, взаимодействующих с аллелью. Это связано с тем, что, в общем, типовая презентационная "не взаимодействующая с аллелями" модель была в состоянии разделить статистическую силу не взаимодействующих с аллелью переменных по аллелям ГКГС путем моделирования эффекта с помощью отдельной функции сетевой зависимости с очень небольшим добавлением вычислительной мощности.
XII.Н. Зависимость между презентированными пептидами и количественной оценкой мРНК
[00712] На Фиг. 13Н проиллюстрирована зависимость между численностью мРНК и частотой пептидов, презентируемых на опухолевых клетках, по определению методом масс-спектрометрии. Результаты показывают, что существует сильная зависимость между экспрессией мРНК и презентацией пептида.
[00713] В частности, горизонтальная ось на Фиг. 13Н указывает на экспрессию мРНК в пересчете на транскрипты на миллион (ТРМ - transcripts per million) квартилей. Вертикальная ось на Фиг. 13Н обозначает долю презентированных эпитопов от генов в соответствующих квартилях экспрессии мРНК. Каждая сплошная линия представляет собой график, относящийся к двум измерениям из образца опухоли, который связан с соответствующими данными масс-спектрометрии и измерениями экспрессии мРНК. Как проиллюстрировано на Фиг. 13Н, существует сильная положительная корреляция между экспрессией мРНК и долей пептидов в соответствующем гене. В частности, пептиды из генов в верхнем квартиле экспрессии РНК презентируются более чем в 20 раз чаще, чем в нижнем квартиле. Кроме того, по существу 0 пептидов презентированы из генов, которые не обнаруживаются с помощью РНК.
[00714] Результаты показывают, что эффективность презентационной модели можно значительно улучшить, включив измерения количественной оценки мРНК, поскольку эти измерения строго предсказывают презентацию пептидов.
XII.I. Сравнение эффективности презентационной модели с включением данных количественной оценки РНК
[00715] На Фиг. 131 проиллюстрирована эффективность двух типовых презентационных моделей, одна из которых обучается на основе данных масс-спектрометрии опухолевых клеток, а другая включает данные количественного определения мРНК и данные масс-спектрометрии опухолевых клеток. Как и ожидается из иллюстраций на Фиг. 13Н, результаты показывают, что существует значительное улучшение в эффективности путем включения количественных измерений мРНК в типовую презентационную модель, поскольку экспрессия мРНК является сильным индикатором презентации пептида.
[00716] "MHCflurry+РНК-фильтр" представляют собой модель, аналогичную текущей современной модели, которая предсказывает презентацию пептидов на основе предсказаний аффинности. Он был реализован с применением MHCflurry вместе со стандартным фильтром экспрессии генов, который удалял все пептиды из белков с количественными измерениями мРНК, которые были менее 3,2 FPKM. Реализация MHCflurry подробно представлена на https://github.com/harnmerlab/rnhcflurry/ и на http://biorxiv.org/content/early/2016/05/22/054775. Модель "типовая модель, без РНК" была типовой презентационной моделью "сумма сигмоидов", показанной в уравнении (21) с функцией сетевой зависимости gh(⋅), функцией сетевой зависимости gw(⋅) и функцией экспита ƒ(⋅). Модель "Типовая модель, без РНК" включала фланкирующие С-концевые последовательности в качестве не взаимодействующих с аллелью переменных через функцию сетевой зависимости gw(⋅).
[00717] Модель "типовая модель, с РНК" была презентационной моделью "сумма сигмоидов", показанной в уравнении (19) с функцией сетевой зависимости gh(⋅), функцией сетевой зависимости gw(⋅) в уравнении (10), включающем данные количественного определения мРНК через функцию логарифма, и функцией экспита ƒ(⋅). Модель "типовая модель, с РНК" включала фланкирующие С-концевые последовательности в качестве не взаимодействующих с аллелью переменных через функции сетевой зависимости gw(⋅) и включала количественные измерения мРНК через логарифмическую функцию.
[00718] Каждую модель обучали на комбинации данных одноаллельной масс-спектрометрии из набора данных IEDB, 7 клеточных линий из данных масс-спектрометрии с множественными аллелями данных Bassani-Sternberg и 20 масс-спектрометрических образцов опухолей. Каждую модель применяли к тестовому набору, включающему 5000 выделенных белков из 7 образцов опухолей, которые составляли 9 830 презентированных пептидов из 52 526 840 пептидов.
[00719] Как показано на первых двух гистограммах на Фиг. 13I, модель "типовая модель, без РНК" имеет значение PPV на уровне 20% повторных вызовов из 21%, в то время как у современной модели примерно 3%. Это указывает на начальное улучшение эффективности на 18% в значении PPV, даже без учета количественных измерений мРНК. Как показано на третьей гистограмме на Фиг. 131, модель "типовая модель, с РНК", которая включает данные количественного определения мРНК в презентационную модель, показывает значение PPV приблизительно 30%, что почти на 10% больше по сравнению с типовой презентационной моделью без количественных измерений мРНК.
[00720] Таким образом, результаты показывают, что, как и ожидалось из результатов на Фиг. 13Н, экспрессия мРНК действительно является сильным параметром, используемым для получения прогноза предсказания пептидов, что позволяет значительно улучшить эффективность презентационной модели с очень небольшим добавлением вычислительной сложности.
XII.J. Пример параметров, определенных для аллели ГКГС HLA-С*16:04
[00721] На Фиг. 13J проиллюстрировано сравнение вероятности презентации пептида для разных длин пептида между результатами, сгенерированными презентационной моделью "типовая модель, с РНК", описанной со ссылкой на Фиг. 131, и предсказание результатов с помощью современных моделей, которые не учитывают длину пептида при прогнозировании презентации пептида. Результаты показали, что типовая презентационная модель "типовая модель, с РНК" из Фиг. 131 фиксирует различия в вероятностях по пептидам разной длины.
[00722] По горизонтальной оси обозначены образцы пептидов длиной 8, 9, 10 и 11. Вертикальная ось обозначает вероятность презентации пептида, обусловленную длиной пептида. График "Истина (данные слепого испытания)" показал долю презентированных пептидов в зависимости от длины пептида в наборе тестовых данных образца. Вероятность презентации варьировалась в зависимости от длины пептида. Например, как проиллюстрировано на Фиг. 13J, 10-мерный пептид с каноническими L/V-якорными мотивами HLA-A2 был примерно в 3 раза менее вероятным, чем 9-мерный с теми же якорными остатками. График "Модели без учета длины" указывает прогнозируемые измерения, если современные модели, которые игнорируют длину пептида, должны применяться к одному и тому же набору тестовых данных для прогнозирования презентации. Эти модели могут быть версиями NetMHC до версии 4,0, версиями NetMHCpan до версии 3,0 и MHCflurry, которые не учитывают изменение презентации пептида в зависимости от длины пептида. Как проиллюстрировано на Фиг. 13J, доля презентированных пептидов будет постоянной для разных значений длины пептида, что указывает на то, что эти модели не смогут уловить изменение презентации пептида в зависимости от длины. График "Типовая модель, с РНК" показывает измерения, полученные на основе презентационной модели "Типовая модель, с РНК". Как проиллюстрировано на Фиг. 13J, измерения, полученные с помощью модели "Типовая модель с РНК", точно следовали измерениям, показанным в "Истина (данные слепого испытания)", и правильно учитывали различные степени презентации пептидов для длин 8, 9, 10 и 11.
[00723] Таким образом, результаты показали, что типовые презентационные модели, представленные в данном документе, генерировали улучшенные прогнозы не только для 9-мерных пептидов, но также и для пептидов другой длины от 8 до 15, которые составляют до 40% презентированных пептидов в аллелях HLA класса I.
ХП.К. Пример параметров, определенных для аллели ГКГС HLA-С*16:04
[00724] Ниже показан набор параметров, определенных для вариации презентационной модели на аллель (уравнение (2)) для аллели ГКГС HLA-C* 16:04, обозначенного как h:
где relu(⋅) представляет собой функцию блока линейной ректификации (RELU - rectified linear unit) и набор параметров θ, определенных для модели.
Переменные взаимодействующие с аллелью состоят из пептидных последовательностей. Размеры составляют (231 × 256), размеры (1 × 256), размеры составляют (256 × 1), а представляет собой скаляр. В демонстрационных целях значения подробно описаны в публикации РСТ WO2017106638, включенной в данный документ посредством ссылки для всего, чему оно учит.
XII.L. ГКГС II, Пример 1
[00725] Способы определения неоантигенов ГКГС класса II более подробно описаны в международной заявке PCT/US2018/028438, включенной в данный документ посредством ссылки в отношении всего изложенного материала.
[00726] На Фиг. 13K представлена гистограмма длин пептидов, элюированных из аллелей ГКГС класса II на человеческих опухолевых клетках и инфильтрирующих опухоль лимфоцитах (ИОЛ) с помощью масс-спектрометрии. В частности, масс-спектрометрическую пептидомику проводили для гомозиготных аллелей HLA-DRB1*12:01 ("Набор данных 1") и многоаллельных образцов HLA-DRB1*12:01, HLA-DRB1*10:01 ("Набор данных 2"). Результаты показывают, что длины пептидов, элюированных из аллелей ГКГС класса II находятся в диапазоне 6-30 аминокислот. Частота распределения, проиллюстрированная на Фиг. 13K, сходна с частотой для длин пептидов, элюированных из аллелей ГКГС класса II с помощью современных методов масс-спектрометрии, как проиллюстрировано на Фиг. 1С в ссылке 91.
[00727] На Фиг. 13L проиллюстрирована зависимость между количественным определением мРНК и презентированными пептидами на остаток для Набора данных 1 и Набора данных 2. Результаты показывают, что существует сильная зависимость между экспрессией мРНК и презентацией пептида для аллелей ГКГС класса II.
[00728] В частности, по горизонтальной оси на Фиг. 13В указана экспрессия мРНК в пересчете на log10 транскриптов на миллион (ТРМ) бинов. По вертикальной оси на Фиг. 13L указана презентация пептидов на остаток в виде кратного значения для наименьшего бина, соответствующего экспрессии мРНК 10-2<log10TPM<10-1. Одна сплошная линия представляет график количественного определения мРНК и презентации пептидов для Набора данных 1, а другая для Набора данных 2. Как проиллюстрировано на Фиг. 13L, существует сильная положительная корреляция между экспрессией мРНК и презентацией пептидов на остаток в соответствующем гене. В частности, пептиды из генов в диапазоне экспрессии РНК 101<log10TPM<102 презентируются с более чем в 5 раз большей вероятностью, чем в нижнем бине.
[00729] Результаты показывают, что эффективность презентационной модели можно значительно улучшить, включив измерения количественного определения мРНК, поскольку эти измерения строго предсказывают презентацию пептидов.
[00730] На Фиг. 13М представлено сравнение результатов эффективности для типовых презентационных моделей, обученных и протестированных с применением Набора данных 1 и Набора данных 2. В случае каждого набора характеристик модели типовых презентационных моделей на Фиг. 13М проиллюстрировано значение PPV при 10% повторного вызова, когда характеристики в наборе характеристик модели классифицированы как взаимодействующие с аллелью характеристики, и, в альтернативном варианте, когда характеристики в наборе характеристик модели классифицированы как не взаимодействующие с аллелью переменные. Как видно на Фиг. 13М, для каждого набора характеристик модели типовых презентационных моделей значение PPV при 10% повторного вызова, которое было определено, когда характеристики в наборе характеристик модели были классифицированы как взаимодействующие с аллелью характеристики, приведено с левой стороны, а значение PPV при 10% повторного вызова, которое было определено, когда характеристики в наборе характеристик модели были классифицированы как не взаимодействующие с аллелью характеристики, приведено с правой стороны. Следует отметить, что характеристику пептидной последовательности всегда классифицировали как взаимодействующую с аллелью характеристику в целях Фиг. 13М. Результаты показали, что презентационные модели достигали значения PPV при 10% повторного вызова, варьирующегося от 14% до 29%, что существенно (приблизительно в 500 раз) выше, чем PPV для случайного предсказания.
[00731] В этом эксперименте учитывали пептидные последовательности длиной 9-20. Данные разбивали на обучающие, валидационные и тестовые наборы. Блоки пептидов из блоков из 50 остатков из Набора данных 1 и Набора данных 2 относили к обучающему и тестовому наборам. Пептиды, которые дублировались где-либо в протеоме, удаляли, гарантируя, что ни одна из пептидных последовательностей не появляется как в обучающем, так и в тестовом наборе. Распространенность пептидной презентации в обучающем и тестовом наборе была увеличена в 50 раз за счет удаления не презентируемых пептидов. Это связано с тем, что Набор данных 1 и Набор данных 2 получены из образцов опухоли человека, в которых только часть клеток относятся к аллелям HLA класса II, что приводит к выходу пептидов, примерно в 10 раз меньшему, чем в чистых образцах аллелей HLA класса II, что также остается недооцененным из-за неидеальной чувствительности масс-спектрометрии. Обучающий набор содержал 1064 презентируемых и 3810070 не презентируемых пептидов. Тестовый набор содержал 314 презентируемых и 807400 не презентируемых пептидов.
[00732] Типовая модель 1 представляла собой модель функции сумм в уравнении (22) с применением функции сетевой зависимости gh(⋅), функции экспита ƒ(⋅) и функции идентичности r(⋅). Функция сетевой зависимости gh(⋅) была структурирована в виде многослоевого перцептрона (МСП) с 256 скрытыми узлами и активацией блоков линейной ректификации (ReLU). В дополнение к пептидной последовательности взаимодействующие с аллелью переменные w содержали прямо закодированную С-концевую и N-концевую фланкирующие последовательности, категориальную переменную, указывающую индекс исходного гена G=gene(pi) пептида pi, и переменную, указывающую измерение количественного определения мРНК. Типовая модель 2 была идентична типовой модели 1, за исключением того, что С-концевая и N-концевая фланкирующие последовательности были исключены из взаимодействующих с аллелью переменных. Типовая модель 3 была идентична типовой модели 1, за исключением того, что исходный ген был исключен из взаимодействующих с аллелью переменных. Типовая модель 4 была идентична типовой модели 1, за исключением того, что измерение количественного определения мРНК было исключено из взаимодействующих с аллелью переменных.
[00733] Типовая модель 5 представляла собой модель функции сумм в уравнении (20) с функцией сетевой зависимости gh(⋅), функцией экспита ƒ(⋅), функцией идентичности r(⋅) и функцией зависимости gw(⋅) уравнения (12). Функция зависимости gw(⋅) также включала сетевую модель, в которой в качестве вводных данных использовалось измерение количественного определения мРНК, структурированную в виде МСП с 16 скрытыми узлами и активациями ReLU, и сетевую модель, в которой в качестве вводных данных использовалась С-фланкирующая последовательность, структурированную в виде МСП с 32 скрытыми узлами и активациями ReLU. Функция сетевой зависимости gh(⋅) была структурирована в виде многослоевого перцептрона с 256 скрытыми узлами и активацией блоков линейной ректификации (ReLU). Типовая модель 6 была идентична типовой модели 5, за исключением того, что сетевая модель для С-концевой и N-концевой фланкирующих последовательностей была исключена. Типовая модель 7 была идентична типовой модели 5, за исключением того, что индекс исходного гена был исключен из не взаимодействующих с аллелью переменных. Типовая модель 8 была идентична типовой модели 5, за исключением того, что сетевая модель для измерения количественного определения мРНК была исключена.
[00734] Распространенность презентируемых пептидов в тестовом наборе составляла приблизительно 1/2400 и, следовательно, PPV случайного предсказания также было бы равным 1/2400=0,00042. Как проиллюстрировано на Фиг. 13М, в презентационной модели с наилучшей эффективностью было достигнуто значение PPV приблизительно 29%, что примерно в 500 раз лучше, чем значение PPV случайного предсказания.
XII.M. ГКГС II. Пример 2
[00735] На Фиг. 13N представлена гистограмма, которая иллюстрирует количество пептидов, сиквенированных с помощью масс-спектрометрии, для каждого образца из всего 39 образцов, содержащих молекулы HLA класса II. Кроме того, в случае каждого из некоторого количества образцов, гистограмма, приведенная на Фиг. 13N, иллюстрирует количество пептидов, сиквенированных с помощью масс-спектрометрии, при разных пороговых значениях q. В частности, в случае каждого из некоторого количества образцов Фиг. 13N иллюстрирует количество пептидов, сиквенированных с помощью масс-спектрометрии, с q-значением менее 0,01, с q-значением менее 0,05и с q-значением менее 0,2.
[00736] Как указано выше, каждый образец из 39 образцов на Фиг. 13N содержал молекулы HLA класса II. В частности, каждый образец из 39 образцов на Фиг. 13N содержал молекулы HLA-DR. Молекула HLA-DR представляет один из типов молекул HLA класса II. Конкретнее, каждый образец из 39 образцов на Фиг. 13N содержал молекулы HLA-DRB1, молекулы HLA-DRB3, молекулы HLA-DRB4 и/или молекулы HLA-DRB5. Молекулы HLA-DRB1, молекулы HLA-DRB3, молекулы HLA-DRB4 и молекулы HLA-DRB5 представляют типы молекулы HLA-DR.
[00737] Хотя этот конкретный эксперимент проводили, используя образцы, содержащие молекулы HLA-DR, и, в частности, молекулы HLA-DRB1, молекулы HLA-DRB3, молекулы HLA-DRB4 и молекулы HLA-DRB5, в альтернативных вариантах реализации изобретения этот эксперимент можно проводить, используя образцы, содержащие одну или более молекул любого типа HLA класса II. Например, в альтернативных вариантах реализации изобретения можно проводить идентичные эксперименты, используя образцы, содержащие молекулы HLA-DP и/или HLA-DQ. Эта возможность моделировать любые типы ГКГС класс II молекул, используя одинаковые методики, и получать при этом достоверные результаты, хорошо известна специалистам в данной области техники. Например, Jensen, Kamilla Kjaergaard, et al.76 является одним из примеров недавних научных статей, где используются идентичные способы для моделирования аффинности связывания для молекул HLA-DR, а также для молекул HLA-DQ и HLA-DP. Следовательно, специалисту в данной области техники понятно, что описанные в данном документе эксперименты и модели можно использовать для отдельного или одновременного моделирования не только молекул HLA-DR, но и любой другой ГКГС класс II молекулы, и получать при этом достоверные результаты.
[00738] Чтобы сиквенировать пептиды из каждого образца из всего 39 образцов, проводили масс-спектрометрию для каждого образца. Затем проводили поиск полученного в результате масс-спектра с помощью Comet и оценивали с помощью Percolator для сиквенирования пептидов. Затем количество сиквенированных пептидов в образце идентифицировали для некоторого количества разных пороговых q-значений Percolator. В частности, для образца определяли количество пептидов, сиквенированных с q-значением Percolator менее 0,01, с q-значением Percolator менее 0,05 и с q-значением Percolator менее 0,2.
[00739] Для каждого образца из 39 образцов количество пептидов, сиквенированных при каждом отличном пороговом q-значении Percolator, проиллюстрировано на Фиг. 13N. Например, как видно на Фиг. 13N, для первого образцы методом масс-спектрометрии было сиквенировано приблизительно 4000 с q-значением менее 0,2, методом масс-спектрометрии было сиквенировано приблизительно 2800 с q-значением менее 0,05 и методом масс-спектрометрии было сиквенировано приблизительно 2300 с q-значением менее 0,01.
[00740] В целом, Фиг. 13N демонстрирует возможность применения масс-спектрометрии для сиквенирования большого количества пептидов из образцов, содержащих ГКГС класс II молекулы, при низких q-значениях. Другими словами, данные, проиллюстрированные на Фиг. 13N, демонстрируют возможность достоверного сиквенирования пептидов, которые могут презентироваться ГКГС класс II молекулами, используя масс-спектрометрию.
[00741] На Фиг. 130 представлена гистограмма, которая иллюстрирует количество образцов, в которых была идентифицирована конкретная аллель ГКГС класс II молекулы. В частности, всего для 39 образцов, содержащих молекулы HLA класса II, Фиг. 130 иллюстрирует количество образцов, в которых были идентифицированы определенные аллели ГКГС класс II молекул.
[00742] Как обсуждалось выше в отношении Фиг. 13N, каждый образец из 39 образцов на Фиг. 13N содержал молекулы HLA-DRB1, молекулы HLA-DRB3, молекулы HLA-DRB4 и/или молекулы HLA-DRB5. Следовательно, Фиг. 130 иллюстрирует количество образцов, в которых были идентифицированы определенные аллели для молекул HLA-DRB1, HLA-DRB3, HLA-DRB4 и HLA-DRB5. Чтобы идентифицировать аллели HLA, присутствующие в образце, для образца проводили типирование DR HLA класса II. Затем, чтобы определить количество образцов, в которых была идентифицирована конкретная аллель HLA, число образцов, в которых была идентифицирована аллель HLA с помощью типирования DR HLA класса II, просто суммировали. Например, как проиллюстрировано на Фиг. 130, 19 образцов из всего 39 образцов содержали аллель молекул HLA класса II HLA-DRB4*01:03. Другими словами, 19 образцов из всего 39 образцов содержали аллель HLA-DRB4*01:03 для молекулы HLA-DRB4. В целом, Фиг. 130 проиллюстрирована возможность идентифицировать широкий диапазон аллелей молекул HLA класса II из 39 образцов, содержащих молекулы HLA класса II.
[00743] На Фиг. 13Р представлена гистограмма, которая иллюстрирует относительное количество пептидов, презентированных ГКГС класс II молекулами всего в 39 образцах, для каждой длины пептида из некоторого диапазона длин пептидов. Чтобы определить длину каждого пептида в каждом образце всего в 39 образцах, каждый пептид сиквенировали, используя масс-спектрометрию, как обсуждалось выше в отношении Фиг. 13N, а затем просто подсчитывали число остатков в сиквенированном пептиде.
[00744] Как указано выше, ГКГС класс II молекулы обычно презентируют пептиды длиной 9-20 аминокислот. Соответственно, на Фиг. 13Р проиллюстрировано относительное количество пептидов, презентированных ГКГС класс II молекулами всего в 39 образцах, для каждой длины пептида в диапазоне 9-20 аминокислот включительно. Например, как проиллюстрировано на Фиг. 13Р, приблизительно 22% пептидов, презентированных ГКГС класс II молекулами всего в 39 образцах, имели длину 14 аминокислот.
[00745] На основании данных, проиллюстрированных на Фиг. 13Р, модальные длины пептидов, презентированных ГКГС класс II молекулами всего в 39 образцах, по определению составляли 14 и 15 аминокислот. Эти модальные длины, определенные для пептидов, презентированных ГКГС класс II молекулами всего в 39 образцах, согласуются с предыдущими данными по модальным длинам пептидов, презентированных ГКГС класс II молекулами. Кроме того, что также согласуется с предыдущими данными, данные Фиг. 13Р показывают, что более 60% пептидов, презентированных ГКГС класс II молекулами всего в 39 образцах, имели длину, отличную от 14 и 15 аминокислот. Другими словами, Фиг. 13Р показывает, что хотя пептиды, презентированные ГКГС класс II молекулами, чаще всего имеют длину 14 и 15 аминокислот, большая часть пептидов, презентированных ГКГС класс II молекулами, не имеют длину 14 и 15 аминокислот. Соответственно, предположение, что пептиды всех длин имеют одинаковые вероятности презентации ГКГС класс II молекулами, или что только пептиды, имеющие длину 14 и 15 аминокислот презентируются ГКГС класс II молекулами, является неверным. Как подробно обсуждается ниже в отношении Фиг. 13Т, эти ложные предположения на сегодняшний день используются во многих современных моделях для предсказания презентации пептидов ГКГС класс II молекулами и, следовательно, вероятности презентации, предсказанные этими моделями, являются недостоверными.
[00746] На Фиг. 13Q представлен линейный график, который иллюстрирует взаимосвязь между генной экспрессией и распространенностью презентации продукта генной экспрессии ГКГС класс II молекулой для генов, присутствующих в 39 образцах. Конкретнее, на Фиг. 13Q проиллюстрирована взаимосвязь между генной экспрессией и относительным количеством остатков в результате генной экспрессии, которые образуют N-конец пептида, презентируемого ГКГС класс II молекулой. Чтобы количественно оценить генную экспрессию в каждом образце из всего 39 образцов, проводили сиквенирование РНК, РНК содержащейся в каждом образце. На Фиг. 13Q генная экспрессия определена путем сиквенирования РНК в единицах числа транскриптов на миллион (ТРМ). Чтобы определить распространенность презентации продуктов генной экспрессии для каждого образца из 39 образцов, для каждого образца проводили определение пептидомных данных DR HLA класса II.
[00747] Как проиллюстрировано на Фиг. 13Q, для 39 образцов наблюдается сильная корреляция между уровнем генной экспрессии и презентацией остатков экспрессированного генного продукта ГКГС класс II молекулой. В частности, как проиллюстрировано на Фиг. 13Q, пептиды, полученные в результате экспрессии наименее экспрессированных генов, имеют более чем в 100 раз большую вероятность презентации ГКГС класс II молекулой, чем пептиды, полученные в результате экспрессии наиболее экспрессированных генов. Проще говоря, продукты генов с более высокой экспрессией чаще презентируются ГКГС класс II молекулами.
[00748] На Фиг. 13H-J представлены линейные графики, которые сравнивают эффективность различных презентационных моделей при предсказании вероятности, что пептиды в тестовом наборе данных пептидов будут презентироваться по меньшей мере одной ГКГС класс II молекулой, присутствующей в тестовом наборе данных. Как проиллюстрировано на Фиг. 13H-J, эффективность модели при предсказании вероятности, что пептид будет презентироваться по меньшей мере одной ГКГС класс II молекулой, присутствующей в тестовом наборе данных, определяют путем определения отношения истинно-положительного уровня и ложно-положительного уровня для каждого предсказания, сделанного моделью. Эти отношения, определенные для заданной модели, можно визуализировать в виде кривой ROC (операционные характеристики приемника) на линейном графике, где по оси х отложен истинно-положительный уровень, а по оси у отложен ложно-положительный уровень. Площадь под кривой (ППК) используют для количественного определения эффективности модели. В частности, модель с большей ППК имеет более высокую эффективность (т.е. большую точность) по сравнению с моделью с меньшей ППК. На Фиг. 13H-J черной пунктирной линией с наклоном 1 (т.е. отношение истинно-положительного уровня и ложно-положительно го уровня 1) проиллюстрирована ожидаемая кривая для случайно определенных вероятностей презентации пептидов. ППК для пунктирной линии составляет 0,5. Кривые ROC и метрик ППК подробно обсуждаются в связи с верхней частью секции XII. выше.
[00749] На Фиг. 13R представлен линейный график, который сравнивает эффективность пяти типовых презентационных моделей при предсказании вероятности, что пептиды в тестовом наборе данных пептидов будут презентироваться ГКГС класс II молекулой, с заданными наборами взаимодействующих с аллелью и не взаимодействующих с аллелью переменных. Другими словами, на Фиг. 13R оценена относительная важность различных взаимодействующих с аллелью и не взаимодействующих с аллелью переменных для предсказания вероятности того, что пептид будет презентироваться ГКГС класс II молекулой.
[00750] Архитектура модели каждой типовой презентационной модели из пяти типовых презентационных моделей, которую использовали для генерации кривых ROC линейного графика с Фиг. 13R, содержала набор из пяти моделей "сумма сигмоидов". Каждую модель "сумма сигмоидов" в наборе конфигурировали для моделирования презентации пептидов для до пяти уникальных аллелей HLA-DR на образец. Кроме того, каждую модель "сумма сигмоидов" в наборе конфигурировали для предсказания вероятности презентации пептидов на основании следующих взаимодействующих с аллелью и не взаимодействующих с аллелью переменных: пептидная последовательность, фланкирующая последовательность, экспрессия РНК в единицах ТРМ, идентификатор гена и идентификатор образца. Взаимодействующий с аллелью компонент каждой модели "сумма сигмоидов" в наборе представлял собой один скрытый уровень MLP с активацией ReLu в виде 256 скрытых единиц.
[00751] Перед применением типовых моделей для предсказания вероятности, что пептиды в тестовом наборе данных пептидов будут презентироваться ГКГС класс II молекулой, проводили обучение и валидацию типовых моделей. Для обучения, валидации и, наконец, тестирования типовых моделей данные, приведенные выше для 39 образцов, разбивали на обучающий, валидационный и тестовый наборы данных.
[00752] Чтобы гарантировать, что ни один пептид не появляется более чем в одном из обучающего, валидационного и тестового наборов данных, проводили следующую процедуру. Сначала удаляли все пептиды из всего 39 образцов, которые появлялись в более чем одной локации в протеоме. Затем пептиды из всего 39 образцов разделяли на блоки из 10 смежных пептидов. Каждый блок пептидов из всего 39 образцов однозначно относили к обучающему набору данных, валидационному набору данных или тестовому набору данных. Таким образом, ни один пептид не появлялся более чем в одном из обучающего, валидационного и тестового наборов данных.
[00753] Из 28081944 пептидов из всего 39 образцов обучающий набор данных содержал 21077 пептидов, презентируемых ГКГС класс II молекулами, из 38 из 39 образцов. 21077 пептидов, включенных в обучающий набор данных, имели длину от 9 до 20 аминокислот включительно. Типовые модели, используемые для генерации кривых ROC на Фиг. 13R, обучали на обучающем наборе данных, используя оптимизатор ADAM и обучение с блокированием.
[00754] Валидационный набор данных состоял из 2346 пептидов, презентируемых ГКГС класс II молекулами, из тех же 38 образцов, используемых в обучающем наборе данных. Валидационный набор использовали только для обучения с блокированием.
[00755] Тестовый набор данных содержал пептиды, презентируемые ГКГС класс II молекулами, которые были идентифицированы из образца опухоли с помощью масс-спектрометрии. В частности, тестовый набор данных содержал 203 пептидов, презентируемых ГКГС класс II молекулами, именно молекулы HLA-DRB1*07:01, HLA-DRB1*15:01, HLA-DRB4*01:03 и HLA-DRB5*01:01, которые были идентифицированы из образца опухоли. Пептиды, включенные в тестовый набор данных, были исключены из обучающего набора данных, описанного выше.
[00756] Как указано выше, на Фиг. 13R оценена относительная важность различных взаимодействующих с аллелью переменных и не взаимодействующих с аллелью переменных для предсказания вероятности того, что пептид будет презентироваться ГКГС класс II молекулой. Также, как указано выше, типовые модели, используемые для генерации кривых ROC линейного графика с Фиг. 13R, были сконфигурированы для предсказания вероятности презентации пептидов на основании следующих взаимодействующих с аллелью и не взаимодействующих с аллелью переменных: пептидная последовательность, фланкирующая последовательность, экспрессия РНК в единицах ТРМ, идентификатор гена и идентификатор образца. Чтобы оценить относительную важность четырех из этих пяти переменных (пептидная последовательность, фланкирующая последовательность, экспрессия РНК и идентификатор гена) для предсказания вероятности того, что пептид будет презентироваться ГКГС класс II молекулой, исследовали каждую типовую модель из пяти типовых моделей, используя данные из обучающего набора данных с разными комбинациями четырех переменных. В частности, в случае каждого пептида из обучающего набора данных типовая модель 1 генерировала предсказания вероятности презентации пептидов на основании пептидной последовательности, фланкирующей последовательности, идентификатора гена и идентификатора образца, но не экспрессии РНК. Аналогично, в случае каждого пептида из обучающего набора данных типовая модель 2 генерировала предсказания вероятности презентации пептидов на основании пептидной последовательности, экспрессии РНК, идентификатора гена и идентификатора образца, но не фланкирующей последовательности. Аналогично, в случае каждого пептида из обучающего набора данных типовая модель 3 генерировала предсказания вероятности презентации пептидов на основании фланкирующей последовательности, экспрессии РНК, идентификатора гена и идентификатора образца, но не пептидной последовательности. Аналогично, в случае каждого пептида из обучающего набора данных типовая модель 4 генерировала предсказания вероятности презентации пептидов на основании фланкирующей последовательности, экспрессии РНК, пептидной последовательности и идентификатора образца, но не идентификатора гена. И наконец, в случае каждого пептида из обучающего набора данных типовая модель 5 генерировала предсказания вероятности презентации пептидов на основании всех пяти переменных из фланкирующей последовательности, экспрессии РНК, пептидной последовательности, идентификатора образца и идентификатора гена.
[00757] Эффективность каждой из этих пяти типовых моделей проиллюстрирована на линейном графике на Фиг. 13R. В частности, каждая из пяти типовых моделей связана с кривой ROC, которая иллюстрирует отношение истинно-положительного уровня и ложно-положительного уровня для каждого предсказания, сделанного моделью. Например, на Фиг. 13R проиллюстрирована кривая для типовой модели 1, которая генерировала предсказания вероятности презентации пептидов на основании пептидной последовательности, фланкирующей последовательности, идентификатора гена и идентификатора образца, но не экспрессии РНК. На Фиг. 13R проиллюстрирована кривая для типовой модели 2, которая генерировала предсказания вероятности презентации пептидов на основании пептидной последовательности, экспрессии РНК, идентификатора гена и идентификатора образца, но не фланкирующей последовательности. На Фиг. 13R также проиллюстрирована кривая для типовой модели 3, которая генерировала предсказания вероятности презентации пептидов на основании фланкирующей последовательности, экспрессии РНК, идентификатора гена и идентификатора образца, но не пептидной последовательности. На Фиг. 13R также проиллюстрирована кривая для типовой модели 4, которая генерировала предсказания вероятности презентации пептидов на основании фланкирующей последовательности, экспрессии РНК, пептидной последовательности и идентификатора образца, но не идентификатора гена. И наконец на Фиг. 13R проиллюстрирована кривая для типовой модели 5, которая генерировала предсказания вероятности презентации пептидов на основании всех пяти переменных из фланкирующей последовательности, экспрессии РНК, пептидной последовательности, идентификатора образца и идентификатора гена.
[00758] Как указано выше, эффективность модели при предсказании вероятности, что пептид будет презентироваться ГКГС класс II молекулой, определяют путем определения ППК для кривой ROC, которая иллюстрирует отношение истинно-положительного уровня и ложно-положительного уровня для каждого предсказания, сделанного моделью. Модель с большей ППК имеет более высокую эффективность (т.е. большую точность) по сравнению с моделью с меньшей ППК. Как проиллюстрировано на Фиг. 13R, кривая для типовой модели 5, которая генерировала предсказания вероятности презентации пептидов на основании всех пяти переменных из фланкирующей последовательности, экспрессии РНК, пептидной последовательности, идентификатора образца и идентификатора гена, имела наибольшую ППК, составляющую 0,98. Следовательно, типовая модель 5, в которой использовались все пять переменных для генерации предсказания презентации пептидов, имела наилучшую эффективность. Кривая для типовой модели 2, которая генерировала предсказания вероятности презентации пептидов на основании пептидной последовательности, экспрессии РНК, идентификатора гена и идентификатора образца, но не фланкирующей последовательности, имела вторую по величине ППК, составляющую 0,97. Следовательно, фланкирующая последовательность может быть определена, как наименее важная переменная для предсказания вероятности того, что пептид будет презентироваться ГКГС класс II молекулой. Кривая для типовой модели 4, которая генерировала предсказания вероятности презентации пептидов на основании фланкирующей последовательности, экспрессии РНК, пептидной последовательности и идентификатора образца, но не идентификатора гена, имела третью по величине ППК, составляющую 0,96. Следовательно, идентификатор гена может быть определен, как вторая наименее важная переменная для предсказания вероятности того, что пептид будет презентироваться ГКГС класс II молекулой. Кривая для типовой модели 3, которая генерировала предсказания вероятности презентации пептидов на основании фланкирующей последовательности, экспрессии РНК, идентификатора гена и идентификатора образца, но не пептидной последовательности, имела наименьшую ППК, составляющую 0,88. Следовательно, пептидная последовательность может быть определена, как наиболее важная переменная для предсказания вероятности того, что пептид будет презентироваться ГКГС класс II молекулой. Кривая для типовой модели 1, которая генерировала предсказания вероятности презентации пептидов на основании пептидной последовательности, фланкирующей последовательности, идентификатора гена и идентификатора образца, но не экспрессии РНК, имела вторую наименьшую ППК, составляющую 0,95. Следовательно, экспрессия РНК может быть определена, как вторая наиболее важная переменная для предсказания вероятности того, что пептид будет презентироваться ГКГС класс II молекулой.
[00759] На Фиг. 13S представлен линейный график, который сравнивает эффективность четырех разных моделей при предсказании вероятности, что пептиды в тестовом наборе данных пептидов будут презентироваться ГКГС класс II молекулой.
[00760] Первая модель, которую исследовали на Фиг. 13S, называется в данном документе "полностью не взаимодействующей моделью". Полностью не взаимодействующая модель представляет собой один вариант реализации презентационных моделей, описанный выше, в котором не взаимодействующие с аллелью переменные и взаимодействующие с аллелью переменные вводят в отдельные функции зависимости, такие как, например, нейронная сеть, а затем суммируют выходные данные этих отдельных функций зависимости. В частности, полностью не взаимодействующая модель представляет собой один вариант реализации презентационных моделей, описанный выше, в котором не взаимодействующие с аллелью переменные wk вводят в функцию зависимости gw, взаимодействующие с аллелью переменные вводят в функцию зависимости gh, а выходные данные функции зависимости gw и функции зависимости gh суммируют вместе. Следовательно, в некоторых вариантах реализации изобретения полностью не взаимодействующая модель определяет вероятность презентации пептидов, используя уравнение 8, приведенное выше. Кроме того, варианты реализации полностью не взаимодействующей модели, в которых не взаимодействующие с аллелью переменные вводят в функцию зависимости gw взаимодействующие с аллелью переменные вводят в отдельную функцию зависимости gh, а выходные данные функции зависимости gw и функции зависимости gh суммируют, подробно обсуждаются выше в связи с верхней частью секции Х.В.2., нижней частью секции Х.В.3., верхней частью секции Х.С.3. и верхней частью секции Х.С.6.
[00761] Вторая модель, которую исследовали на Фиг. 13S, называется в данном документе "полностью взаимодействующей моделью". Полностью взаимодействующая модель представляет собой один вариант реализации презентационных моделей, описанный выше, в котором не взаимодействующие с аллелью переменные wk связывают напрямую с взаимодействующими с аллелью переменными перед введением в функцию зависимости, такую как, например, нейронная сеть. Следовательно, в некоторых вариантах реализации изобретения полностью взаимодействующая модель определяет вероятность презентации пептидов, используя уравнение 9, приведенное выше. Кроме того, варианты реализации полностью взаимодействующей модели, в которых не взаимодействующие с аллелью переменные wk связывают с взаимодействующими с аллелью переменными перед введением переменных в функцию зависимости, подробно обсуждаются выше в связи с нижней частью секции Х.В.2., нижней частью секции Х.С.2. и нижней частью секции Х.С.5.
[00762] Третья модель, которую исследовали на Фиг. 13S, называется в данном документе "моделью CNN". Модель CNN представляет собой сверточную нейронную сеть и аналогична полностью не взаимодействующей модели, описанной выше. Однако слои сверточной нейронной сети модели CNN отличаются от слоев нейронной сети в полностью не взаимодействующей модели. В частности, входной слой сверточной нейронной сети модели CNN принимает 20-мерный пептидный участок и впоследствии встраивает 20-мерный пептидный участок в виде тензора (n, 20, 21). Следующие слои сверточной нейронной сети модели CNN содержат 1-D сверточный центральный слой размера 5 с шагом 1, слой глобальной подвыборки с определением максимального значения, слой прореживания с р=0,2 и, наконец, плотный 34-узловой слой с активацией ReLu.
[00763] Четвертая и последняя модель, которую исследовали на Фиг. 13S, называется в данном документе "моделью LSTM". Модель LSTM содержит нейронную сеть с долгой краткосрочной памятью. Входной слой нейронной сети с долгой краткосрочной памятью модели LSTM принимает 20-мерный пептидный участок и впоследствии встраивает 20-мерный пептидный участок в виде тензора (n, 20, 21). Следующие слои нейронной сети с долгой краткосрочной памятью модели LSTM содержат слой долгой краткосрочной памяти с 128 узлами, слой прореживания с р=0,2 и, наконец, плотный 34-узловой слой с активацией ReLu.
[00764] Перед применением каждой из четырех моделей на Фиг. 13S для предсказания вероятности того, что пептиды в тестовом наборе данных будут презентироваться ГКГС класс II молекулой, модели обучали, используя обучающий набор данных на основе 38 образцов, описанные выше, и валидировали, используя валидационный набор данных, описанный выше. После обучения и валидации моделей каждую из четырех моделей тестировали, используя тестовый набор данных с исключенным 39-ым образцом, описанный выше. В частности, в случае каждой из четырех моделей каждый пептид из тестового набора данных вводили в модель, а модель после этого давала на выходе вероятность презентации для пептида.
[00765] Эффективность каждой из четырех моделей проиллюстрирована на линейном графике на Фиг. 13S. В частности, каждая из четырех моделей связана с кривой ROC, которая иллюстрирует отношение истинно-положительного уровня и ложно-положительного уровня для каждого предсказания, сделанного моделью. Например, на Фиг.13S проиллюстрирована кривая ROC для модели CNN, кривая ROC для полностью взаимодействующей модели, кривая ROC для модели LSTM и кривая ROC для полностью не взаимодействующей модели.
[00766] Как указано выше, эффективность модели при предсказании вероятности, что пептид будет презентироваться ГКГС класс II молекулой, определяют путем определения ППК для кривой ROC, которая иллюстрирует отношение истинно-положительного уровня и ложно-положительного уровня для каждого предсказания, сделанного моделью. Модель с большей ППК имеет более высокую эффективность (т.е. большую точность) по сравнению с моделью с меньшей ППК. Как проиллюстрировано на Фиг. 13S, кривая для полностью взаимодействующей модели имела наибольшую ППК, составляющую 0,982. Следовательно, полностью взаимодействующая модель имела наилучшую эффективность. Кривая для полностью не взаимодействующей модели имела вторую по величине ППК, составляющую 0,977. Следовательно, полностью не взаимодействующая модель имела вторую наилучшую эффективность. Кривая для модели CNN имела наименьшую ППК, составляющую 0,947. Следовательно, модель CNN имела наихудшую эффективность. Кривая для модели LSTM имела вторую наименьшую ППК, составляющую 0,952. Следовательно, модель LSTM имела вторую наихудшую эффективность. При этом следует отметить, что все модели, исследуемые на Фиг. 13S, имеют ППК больше 0,9. Соответственно, несмотря на архитектурные вариации между ними, что все модели, исследуемые на Фиг. 13S, способны обеспечивать относительно точные предсказания презентации пептидов.
[00767] На Фиг. 13Т представлен линейный график, который сравнивает эффективность двух лучших в своей категории моделей существующего уровня техники с учетом двух разных критериев и двух типовых презентационных моделей, с учетом двух разных наборов взаимодействующих с аллелью и не взаимодействующих с аллелью переменных при предсказании вероятности, что пептиды в тестовом наборе данных пептидов будут презентироваться ГКГС класс II молекулой. В частности, на Фиг. 13Т представлен линейный график, который сравнивает эффективность типовой лучшей в своей категории модели существующего уровня техники, в которой используется минимальная предсказанная NetMHCII 2.3 аффинность связывания в качестве критерия для генерации предсказаний (типовая модель 1), типовой лучшей в своей категории модели существующего уровня техники, в которой используется минимальная предсказанная NetMHCII 2.3 степень связывания в качестве критерия для генерации предсказаний (типовая модель 2), типовой презентационной модели, которая генерирует предсказания вероятности презентации пептидов на основании типа ГКГС класс II молекулы и пептидной последовательности (типовая модель 4), и типовой презентационной модели, которая генерирует предсказания вероятности презентации пептидов на основании типа ГКГС класс II молекулы, пептидной последовательности, экспрессии РНК, идентификатора гена и фланкирующей последовательности (типовая модель 3).
[00768] Лучшая в своей категории модель существующего уровня техники, используемая как типовая модель 1 и типовая модель 2 на Фиг. 13Т, представляет собой модель NetMHCII 2.3. Модель NetMHCII 2.3 генерирует предсказания вероятности презентации пептидов на основании типа ГКГС класс II молекулы и пептидной последовательности. Модель NetMHCII 2.3 тестировали, используя данные с вебстраницы NetMHCII 2.3 (www.cbs.dtu.dk/services/NetMHCII/, PMID 29315598)76.
[00769] Как указано выше, модель NetMHCII 2.3 тестировали в соответствии с двумя разными критериями. В частности, типовая модель 1 генерировала предсказания вероятности презентации пептидов в соответствии с минимальной предсказанной NetMHCII 2.3 аффинностью связывания, а типовая модель 2 генерировала предсказания вероятности презентации пептидов в соответствии с минимальной предсказанной NetMHCII 2.3 степенью связывания.
[00770] Презентационная модель, используемая в качестве типовой модели 3 и типовой модели 4, представляет собой вариант реализации презентационной модели, описанный в данном документе, который обучали, используя данные, полученные с помощью масс-спектрометрии. Как указано выше, эта презентационная модель генерировала предсказания вероятности презентации пептидов на основании двух разных наборов взаимодействующих с аллелью и не взаимодействующих с аллелью переменных. В частности, типовая модель 4 генерировала предсказания вероятности презентации пептидов на основании типа ГКГС класс II молекулы и пептидной последовательности (та же переменная, которая используется в модели NetMHCII 2.3), а типовая модель 3 генерировала предсказания вероятности презентации пептидов на основании типа ГКГС класс II молекулы, пептидной последовательности, экспрессии РНК, идентификатора гена и фланкирующей последовательности.
[00771] Перед применением типовых моделей на Фиг. 13Т для предсказания вероятности, что пептиды в тестовом наборе данных пептидов будут презентироваться ГКГС класс II молекулой, проводили обучение и валидацию моделей. Модель NetMHCII 2.3 (типовую модель 1 и типовую модель 2) обучали и валидировали, используя ее собственные обучающие и валидационные наборы данных на основании анализа аффинности связывания HLA-пептидов, находящиеся в базе данных по иммунным эпитопам (IEDB, www.iedb.org). Известно, что обучающий набор данных, используемый для обучения модели NetMHCII 2.3, содержит практически исключительно 15-мерные пептиды. С другой стороны, типовые модели 3 и 4 обучали, используя обучающий набор данных, описанный выше в связи с Фиг. 13R, и валидировали, используя валидационный набор данных, описанный выше в связи с Фиг. 13R.
[00772] После обучения и валидации моделей каждую из моделей тестировали, используя тестовый набор данных. Как указано выше, модель NetMHCII 2.3 обучали на наборе данных, содержащем практически исключительно 15-мерные пептиды, что означает, что NetMHCII 3.2 не имеет возможности приписывать разный приоритет пептидам разной массы, что тем самым снижает предсказательную эффективность для NetMHCII 3.2 в отношении масс-спектрометрических данные по презентации HLA класса II, содержащих пептиды всех длин. Следовательно, чтобы обеспечить справедливое сравнение между моделями без влияния вариабельной длины пептидов, тестовый набор данных содержал исключительно 15-мерные пептиды. В частности, тестовый набор данных содержал 933 15-мерных пептидов. 40 из 933 пептидов в тестовом наборе данных презентировались ГКГС класс II молекулами, а именно молекулами HLA-DRB1*07:01, HLA-DRB1*15:01, HLA-DRB4*01:03 и HLA-DRB5*01:01. Пептиды, включенные в тестовый набор данных, были исключены из обучающих наборов данных, описанных выше.
[00773] Чтобы протестировать типовые модели, используя тестовый набор данных, в случае каждой из типовых моделей для каждого пептида из 933 пептидов в тестовом наборе данных модель генерировала предсказание вероятности презентации для пептида. В частности, для каждого пептида в тестовом наборе данных типовая модель 1 генерировала оценку презентации для пептида ГКГС класс II молекулами, используя типы ГКГС класс II молекул и пептидную последовательность, путем упорядочения пептида по минимальной предсказанной NetMHCII 2.3 аффинности связывания среди четырех аллелей DR HLA класса II в тестовом наборе данных. Аналогично, для каждого пептида в тестовом наборе данных типовая модель 2 генерировала оценку презентации для пептида ГКГС класс II молекулами, используя типы ГКГС класс II молекул и пептидную последовательность, путем упорядочения пептида по минимальной предсказанной NetMHCII 2.3 степени связывания (т.е. нормализованной к квартилю аффинности связывания) среди четырех аллелей DR HLA класса II в тестовом наборе данных. Для каждого пептида в тестовом наборе данных типовая модель 4 генерировала вероятность презентации для пептида ГКГС класс II молекулами на основании типа ГКГС класс II молекул и пептидной последовательности. Аналогично, для каждого пептида в тестовом наборе данных типовая модель 3 генерировала вероятность презентации для пептида ГКГС класс II молекулами на основании типа ГКГС класс II молекул, пептидной последовательности, экспрессии РНК, идентификатора гена и фланкирующей по следовательности.
[00774] Эффективность каждой из четырех типовых моделей проиллюстрирована на линейном графике на Фиг. 13Т. В частности, каждая из четырех типовых моделей связана с кривой ROC, которая иллюстрирует отношение истинно-положительного уровня и ложно-положительного уровня для каждого предсказания, сделанного моделью. Например, на Фиг. 13Т проиллюстрирована кривая ROC для типовой модели 1, в которой использовалась минимальная предсказанная NetMHCII 2.3 аффинность связывания для генерации предсказаний, кривая ROC для типовой модели 2, в которой использовалась минимальная предсказанная NetMHCII 2.3 степень связывания для генерации предсказаний, кривая ROC для типовой модели 4, которая генерировала вероятности презентации пептидов на основании типа ГКГС класс II молекулы и пептидной последовательности, и кривая ROC для типовой модели 3, которая генерировала вероятности презентации пептидов на основании типа ГКГС класс II молекулы, пептидной последовательности, экспрессии РНК, идентификатора гена и фланкирующей по следовательности.
[00775] Как указано выше, эффективность модели при предсказании вероятности, что пептид будет презентироваться ГКГС класс II молекулой, определяют путем определения ППК для кривой ROC, которая иллюстрирует отношение истинно-положительного уровня и ложно-положительного уровня для каждого предсказания, сделанного моделью. Модель с большей ППК имеет более высокую эффективность (т.е. большую точность) по сравнению с моделью с меньшей ППК. Как проиллюстрировано на Фиг. 13Т, кривая для типовой модели 3, которая генерировала вероятности презентации пептидов на основании типа ГКГС класс II молекулы, пептидной последовательности, экспрессии РНК, идентификатора гена и фланкирующей последовательности, имела наибольшую ППК, составляющую 0,95. Следовательно, типовая модель 3, которая генерировала вероятности презентации пептидов на основании типа ГКГС класс II молекулы, пептидной последовательности, экспрессии РНК, идентификатора гена и фланкирующей последовательности, имела наилучшую эффективность. Кривая для типовой модели 4, которая генерировала вероятности презентации пептидов на основании типа ГКГС класс II молекулы и пептидной последовательности, имела вторую по величине ППК, составляющую 0,91. Следовательно, типовая модель 4, которая генерировала вероятности презентации пептидов на основании типа ГКГС класс II молекулы и пептидной последовательности, имела вторую наилучшую эффективность. Кривая для типовой модели 1, в которой использовалась минимальная предсказанная NetMHCII 2.3 аффинность связывания для генерации предсказаний, имела наименьшую ППК, составляющую 0,75. Следовательно, типовая модель 1, в которой использовалась минимальная предсказанная NetMHCII 2.3 аффинность связывания для генерации предсказаний, имела наихудшую эффективность. Кривая для типовой модели 2, в которой использовалась минимальная предсказанная NetMHCII 2.3 степень связывания для генерации предсказаний, имела вторую наименьшую ППК, составляющую 0,76. Следовательно, типовая модель 2, в которой использовалась минимальная предсказанная NetMHCII 2.3 степень связывания для генерации предсказаний, имела вторую наихудшую эффективность.
[00776] Как проиллюстрировано на Фиг. 13Т, расхождение в эффективности между типовыми моделями 1 и 2 и типовыми моделями 3 и 4 является большой. В частности, эффективность модели NetMHCII 2.3 (в которой используется критерий минимальной предсказанной NetMHCII 2.3 аффинности связывания или минимальной предсказанной NetMHCII 2.3 степени связывания), практически на 25% ниже, чем эффективность презентационной модели, описнной в данном документе (которая генерирует вероятности презентации пептидов на основании типа ГКГС класс II молекулы и пептидной последовательности или на основании типа ГКГС класс II молекулы, пептидной последовательности, экспрессии РНК, идентификатора гена и фланкирующей последовательности). Следовательно, Фиг. 13Т демонстрирует, что описанные в данном документе презентационные модели способны обеспечивать намного более точные предсказания презентации, чем современная лучшая в своей категории модель существующего уровня техники, модель NetMHCII 2.3.
[00777] Даже более, как обсуждается выше, модель NetMHCII 2.3 обучали на обучающем наборе данных, который содержит практически исключительно 15-мерные пептиды. В результате модель NetMHCII 2.3 не обучена запоминать, пептиды какой длины имеют большую вероятность презентации ГКГС класс II молекулами. Следовательно, модель NetMHCII 2.3 не осуществляет взвешивание своих предсказаний вероятности презентации пептидов ГКГС класс II молекулами в соответствии с длиной пептидов. Другими словами, модель NetMHCII 2.3 не осуществляет модификации своих предсказаний вероятности презентации пептидов ГКГС класс II молекулами для пептидов, которые имеют длину за рамками модальной длины пептида в 15 аминокислот. В результате модель NetMHCII 2.3 завышает вероятность презентации пептидов длиной больше или меньше, чем 15 аминокислот.
[00778] С другой стороны, описанные в данном документе презентационные модели обучены с применением пептидных данных, полученных с помощью масс-спектрометрии, и, следовательно, могут быть обучены на обучающем наборе данных, который содержит пептиды разной длины. В результате описанные в данном документе презентационные модели способны запоминать, пептиды какой длины имеют большую вероятность презентации ГКГС класс II молекулами. Следовательно, описанные в данном документе презентационные модели могут осуществлять взвешивание предсказаний вероятности презентации пептидов ГКГС класс II молекулами в соответствии с длиной пептидов. Другими словами, описанные в данном документе презентационные модели способны осуществлять модификации своих предсказаний вероятности презентации пептидов ГКГС класс II молекулами для пептидов, которые имеют длину за рамками модальной длины пептида в 15 аминокислот. В результате описанные в данном документе презентационные модели способны обеспечивать намного более точные предсказания презентации для пептидов длиной больше или меньше чем 15 аминокислот, чем современная лучшая в своей категории модель существующего уровня техники, модель NetMHCII 2.3. Это одно из преимуществ применения описанных в данном документе презентационных моделей для предсказания вероятности презентации пептидов ГКГС класс II молекулами
XII.N. Пример параметров, определенных для аллелей ГКГС класса II
[00779] Далее приведен набор параметров, определенных для вариации многоаллельной презентационной модели (уравнение (16)), генерирующей неявные рассчитанные на аллель вероятности презентации для аллелей ГКГС класса II HLA-DRB1*12:01 и HLA-DRB1*10:01:
где relu(⋅) представляет собой функцию блока линейной ректификации (RELU), w1, b1, w2 и b2 представляют набор параметров в, определенных для модели. Взаимодействующие с аллелью переменные X содержатся в 1 × 399 матрице, состоящей из 1 строки прямо закодированных и средне-заполненных пептидных последовательностей на вводный пептид. Размеры w1 составляют (399×256), размеры b1(1×256), размеры w2 составляют (256×1), a b2 представляет собой (1×2). В первой колонке выходных данных указана неявная рассчитанная на аллель вероятность презентации для пептидной последовательности аллелью HLA-DRB1*12:01, а во второй колонке выходных данных указана неявная рассчитанная на аллель вероятность презентации для пептидной последовательности аллелью HLA-DRB1*10:01. В целях демонстрации значения для w1, b1, w2 и b2 подробно описаны в международной заявке PCT/US2018/028438, включенной в данный документ посредством ссылки в отношении всего изложенного материала.
XIII. Типовой компьютер
[00780] На Фиг. 14 проиллюстрирован типовой компьютер 1400 для реализации элементов, проиллюстрированных на Фиг. 1 и 3. Компьютер 1400 включает в себя, по меньшей мере, один процессор 1402, связанный с набором микросхем 1404. Чипсет 1404 включает в себя концентратор контроллера памяти 1420 и контроллер-концентратор 1422 ввода-вывода (I/O - input/output). Адаптер памяти 1406 и графический адаптер 1412 связаны с концентратором контроллера памяти 1420, а дисплей 1418 связан с графическим адаптером 1412. Запоминающее устройство 1408, устройство ввода 1414 и сетевой адаптер 1416 подключены к контроллер-концентратору 1422 I/O. Другие варианты реализации изобретения компьютера 1400 имеют разные архитектуры.
[00781] Запоминающее устройство 1408 представляет собой постоянный машиночитаемый носитель данных, такой как жесткий диск, компактный оптический диск (CD-ROM - compact disk read-only memory), DVD или твердотельное запоминающее устройство. Запоминающее устройство 1406 хранит команды и данные, используемые процессором 1402. Входной интерфейс 1414 представляет собой интерфейс с сенсорным экраном, мышь, трекбол или указательное устройство другого типа, клавиатуру или некоторую их комбинацию и применяется для ввода данных в компьютер 1400. В некоторых вариантах реализации изобретения компьютер 1400 может быть сконфигурирован для приема ввода (например, команд) от входного интерфейса 1414 посредством жестов от пользователя. Графический адаптер 1412 отображает изображения и другую информацию на дисплее 1418. Сетевой адаптер 1416 соединяет компьютер 1400 с одной или более компьютерными сетями.
[00782] Компьютер 1400 применяется для выполнения компьютерных программных модулей для обеспечения функциональных возможностей, описанных в данном документе. В данном контексте термин "модуль" относится к логике компьютерной программы, применяемой для обеспечения установленной функциональности. Таким образом, модуль может быть реализован в аппаратном обеспечении, встроенном программном обеспечении и/или программном обеспечении. В одном варианте реализации изобретения программные модули хранятся на устройстве хранения данных 1408, загружаются в запоминающее устройство 1406 и выполняется процессором 1402.
[00783] Типы компьютеров 1400, применяемых объектами по Фиг. 1 могут варьироваться в зависимости от варианта реализации изобретения и вычислительной мощности, требуемой объектом. Например, система идентификации презентации 160 может работать на одном компьютере 1400 или на нескольких компьютерах 1400, взаимодействующих друг с другом через сеть, например, в ферме серверов. В компьютерах 1400 могут отсутствовать некоторые из компонентов, описанных выше, таких как графические адаптеры 1412 и дисплеи 1418.
XIV. Пример вектора доставки неоантигена
[00784] Ниже рассматриваются конкретные варианты реализации данного изобретения. Примеры приводятся исключительно в иллюстративных целях и никоим образом не направлены на ограничение объема данного изобретения. Были предприняты усилия для того, чтобы обеспечить точность в отношении использованных чисел (например, количеств, температур и тому подобного), однако, безусловно, необходимо делать поправку на некоторые экспериментальные ошибки и отклонения.
[00785] Если не указано иное, при практической реализации данного изобретения применяются традиционные методы химии белков, биохимии, технологии рекомбинантных ДНК и фармакологии, которые соответствуют данной области техники. Такие технологии подробно описаны в литературе. См., например, Т.Е. Creighton, Proteins: Structures and Molecular Properties (W.H. Freeman and Company, 1993); A.L. Lehninger, Biochemistry (Worth Publishers, Inc., с текущими добавлениями); Sambrook, et al., Molecular Cloning: A Laboratory Manual (2nd Edition, 1989); Methods In Enzymology (S. Colowick and N. Kaplan eds., Academic Press, Inc.); Remington's Pharmaceutical Sciences, 18th Edition (Easton, Pennsylvania: Mack Publishing Company, 1990); Carey and Sundberg Advanced Organic Chemistry 3rd Ed. (Plenum Press) тома А и B(1992).
XIV.A. Конструкция неоантигенной кассеты
[00786] Посредством вакцинации могут быть доставлены множественные опухолеспецифические неоантигены (TSNA - tumor-specific neoantigen), ограниченные по ГКГС класса I, которые стимулируют соответствующий клеточный иммунный ответ(ы). В одном примере вакцинная кассета была сконструирована для кодирования нескольких эпитопов в виде одного генного продукта, где эпитопы были либо встроены в их природную окружающую пептидную последовательность, либо расположены с определенными интервалами с помощью неприродных линкерных последовательностей. Были определены несколько параметров конструкции, которые могли бы потенциально повлиять на процессинг и презентацию антигена и, следовательно, на величину и широту TSNA-специфических ответов CD8 Т-клеток. В данном примере несколько модельных кассет были сконструированы и изготовлены для оценки: (1) могут ли устойчивые Т-клеточные ответы генерироваться для нескольких эпитопов, включенных в одну экспрессионную кассету; (2) что делает оптимальный линкер, помещенный между TSNA внутри экспрессионной кассеты, что приводит к оптимальному процессингу и презентации всех эпитопов; (3) влияет ли относительное положение эпитопов в кассете на ответы Т-клеток; (4) влияет ли количество эпитопов в кассете на величину или качество ответов Т-клеток на отдельные эпитопы; (5) улучшает ли добавление последовательностей клеточного нацеливания ответы Т-клеток.
[00787] Было разработано два индикатора для оценки презентации антигена и ответов Т-клеток, специфичных для маркерных эпитопов в модельных кассетах: (1) скрининг на основе in vitro, который позволил оценить презентацию антигена, измеренную по активации специально сконструированных репортерных Т-клеток (Aarnoudse et al., 2002; Nagai et al., 2012); и (2) анализ in vivo, в котором использовали трансгенных мышей HLA-А2 (Vitiello et al., 1991) для оценки поствакцинальной иммуногенности эпитопов человеческого происхождения, полученных из кассет, по их соответствующим эпитоп-специфическим Т-клеточным ответам (Comet et al., 2006; Depla et al., 2008; Ishioka et al., 1999).
XIV.B. Оценка конструкции неоантигенной кассеты XIV.В.1. Способы и материалы РТК и конструкция и клонирование кассеты
[00788] Выбранные РТК распознают пептиды NLVPMVATV (SEQ ID NO: 132) (PDB# 5D2N), CLGGLLTMV (SEQ ID NO: 133) (PDB#3REV), GILGFVFTL (SEQ ID NO: 134) (PDB#10GA) LLFGYPVYV (SEQ ID NO: 135) (PDB#1A07), в случае если они презентированы с помощью А*0201. Были сконструированы векторы переноса, которые содержат 2А пептидсвязанные субъединицы РТК (бета, сопровождаемые альфа), EMCV IRES и 2А-связанные субъединицы CD8 (бета, сопровождаемые альфа и геном устойчивости к пуромицину). Последовательности открытых рамок считывания были кодон-оптимизированы и синтезированы с помощью GeneArt.
Генерация клеточных линий для процессинга эпитопа in vitro и презентационных исследований
[00789] Пептиды были приобретены у ProImmune или Genscript, разведены до 10 мг/мл 10 мМ Трис (2-карбоксиэтил) фосфином (ТСЕР - tris(2-carboxyethyl)phosphine) в воде/ДМСО (2:8, об/об). Среда для культивирования клеток и добавки, если не указано иное, были от Gibco. Инактивированная с помощью тепла эмбриональная бычья сыворотка (FBShi - fetal bovine serum) была от Seradigm. QUANTI-Luc субстрат, зеоцин и пуромицин были от InvivoGen. Клетки Jurkat-Lucia NFAT (InvivoGen) поддерживали в RPMI 1640 с добавлением 10% FBShi, пирувата натрия и 100 мкг/мл зеоцина. После трансдукции эти клетки дополнительно получали 0,3 мкг/мл пуромицина. Клетки Т2 (АТСС CRL-1992) культивировали в среде Пскова (IMDM) плюс 20% FBShi. Клетки U-87 MG (АТСС НТВ-14) содержали в среде MEM Eagles, дополненной 10% FBShi.
[00790] Клетки Jurkat-Lucia NFAT содержат индуцируемую NFAT репортерную конструкцию Lucia. Ген Lucia, будучи активированным путем вовлечения рецептора Т-клеток (РТК), вызывает секрецию коэлентеразин-утилизирующей люциферазы в культуральную среду. Эта люцифераза может быть измерена с применением реагента для определения люциферазы QUANTI-Luc. Клетки Jurkat-Lucia были трансдуцированы лентивирусом для экспрессии антиген-специфических РТК. Вектор переноса лентивируса, полученный из ВИЧ, был получен от GeneCopoeia, а плазмиды, поддерживающие лентивирус, экспрессирующие VSV-G (pCMV-VsvG), Rev (pRSV-Rev) и Gag-pol (pCgpV), были получены от Cell Design Labs.
[00791] Лентивирус был получен путем трансфекции 50-80% конфлюэнтных Т75-колб клеток HEK293 с Lipofectamine 2000 (Thermo Fisher) с применением 40 мкл липофектамина и 20 мкг смеси ДНК (4:2:1:1 по массе плазмида переноса:pCgpV:pRSV-Rev:pCMV-VsvG). 8-10 мл вирусосодержащей среды концентрировали с применением системы Lenti-X (Clontech) и вирус ресуспендировали в 100-200 мкл свежей среды. Этот объем применяли для наложения равного объема клеток Jurkat-Lucia (клетки 5х10Е4-1х10Е6 применяли в различных экспериментах). После культивирования в среде, содержащей пуромицин, 0,3 мкг/мл, клетки сортировали для получения клональности. Эти РТК-клоны Jurkat-Lucia были протестированы на активность и селективность с применением нагруженных пептидом клеток Т2.
In vitro процессинг эпитопа и анализ презентации
[00792] Клетки Т2 обычно применяются для изучения распознавания антигена РТК. Т2-клетки не имеют пептидного транспортера для процессинга антигена (дефицит ТАР) и не могут загружать эндогенные пептиды в эндоплазматический ретикулум для презентации на ГКГС. Однако клетки Т2 могут быть легко загружены экзогенными пептидами. Пять маркерных пептидов (NLVPMVATV (SEQ ID NO: 132), CLGGLLTMV (SEQ ID NO: 133), GLCTLVAML (SEQ ID NO: 136), LLFGYPVYV (SEQ ID NO: 135), GILGFVFTL (SEQ ID NO: 134)) и два нерелевантных пептида (WLSLLVPFV (SEQ ID NO: 137), FLLTRICT (SEQ ID NO: 138)) были загружены в клетки Т2. Вкратце, клетки Т2 подсчитывали и разбавляли до 1 × 106 клеток/мл с помощью IMDM плюс 1% FBShi. Пептиды были добавлены для получения 10 мкг пептида/1 × 106 клеток. Затем клетки инкубировали при 37°С в течение 90 минут. Клетки дважды промывали IMDM плюс 20% FBShi, разбавляли до 5 × 105 клеток/мл и высевали по 100 мкл в 96-луночный планшет для культивирования тканей Costar. Клоны Jurkat-Lucia РТК подсчитывали и разбавляли до 5 × 105 клеток/мл в RPMI 1640 плюс 10% FBShi и 100 мкл, добавленных к клеткам Т2. Планшеты инкубировали в течение ночи при температуре 37°С, 5% СО2. Планшеты затем центрифугировали при 400 g в течение 3 минут и 20 мкл супернатанта переносили на белые плоскодонные планшеты Greiner. Субстрат QUANTI-Luc готовили в соответствии с инструкциями и добавляли 50 мкл/лунка. Экспрессия люциферазы была прочитана на Molecular Devices SpectraMax iE3x.
[00793] Для тестирования презентации маркерного эпитопа аденовирусными кассетами клетки U-87 MG применяли в качестве суррогатных антигенпрезентирующих клеток (АПК) и трансдуцировали аденовирусными векторами. Клетки MG U-87 собирали и высевали в культуральную среду в виде 5 × 105 клеток/100 мкл в 96-луночный планшет для культивирования тканей Costar. Планшеты инкубировали в течение приблизительно 2 часов при 37°С. Аденовирусные кассеты разбавляли MEM плюс 10% FBShi до MOI 100, 50, 10, 5, 1 и 0 и добавляли к клеткам MG U-87 в виде 5 мкл/лунка. Планшеты снова инкубировали в течение приблизительно 2 часов при 37°С. Клоны Jurkat-Lucia РТК подсчитывали и разбавляли до 5 × 105 клеток/мл в RPMI плюс 10% FBShi и добавляли к клеткам MG U-87 как 100 мкл/лунка. Планшеты затем инкубировали в течение приблизительно 24 часов при 37°С, 5% СО2. Планшеты центрифугировали при 400 g в течение 3 минут и 20 мкл супернатанта переносили на белые плоскодонные планшеты Greiner. Субстрат QUANTI-Luc готовили в соответствии с инструкциями и добавляли 50 мкл/лунка. Экспрессия люциферазы была прочитана на Molecular Devices SpectraMax iE3x.
Линии мышей для исследований иммуногенности
[00794] Трансгенные мыши HLA-A2. 1 (HLA-A2 Tg) были получены от Taconic Labs, Inc. Эти мыши несут трансген, состоящий из химерной молекулы класса I, состоящей из лидерной последовательности HLA-A2.1 человека, доменов α1 и α2 и мышиного α3 Н2-Kb, транс мембранного и цитоплазматического доменов (Vitiello et al., 1991). Мышами, использованными для этих исследований, были дети первого поколения (F1) самок дикого типа BALB/cAnNTac и гомозиготных самцов HLA-A2.1 Tg на фоне С57В1/6.
Иммунизации аденовирусным вектором (Ad5v)
[00795] Мыши HLA-A2 Tg были иммунизированы вирусными частицами аденовирусных векторов от 1 × 1010 до 1 × 106 путем билатеральной внутримышечной инъекции в переднюю болыпеберцовую мыщцу. Иммунные ответы измеряли через 12 дней после иммунизации. Выделение лимфоцитов
[00796] Лимфоциты выделяли из недавно собранной селезенки и лимфатических узлов иммунизированных мышей. Ткани диссоциировали в RPMI, содержащей 10% эмбриональную бычью сыворотку с пенициллином и стрептомицином (полное RPMI), с применением тканевого диссоциатора GentleMACS в соответствии с инструкциями производителя.
Ex vivo анализ с применением метода иммуноферментных пятен (ELISPOT)
[00797] Анализ ELISPOT проводили в соответствии с рекомендациями по унификации ELISPOT (Janetzki и соавт., 2015 год) с применением набора ИФHg ELISpotPLUS мыши (МАВТЕСН). 1 × 105 спленоцитов инкубировали с 10 мкМ указанных пептидов в течение 16 часов в 96-луночных планшетах, покрытых антителами ИФHg. Пятна были разработаны с применением щелочной фосфатазы. Реакцию проводили в течение 10 минут и гасили, подставляя планшет под водопроводную воду. Пятна подсчитывали с применением AID vSpot Reader Spectrum. Для анализа ELISPOT лунки с насыщенностью >50% были зарегистрированы как "слишком многочисленные для подсчета". Образцы с отклонением повторяющихся лунок >10% были исключены из анализа. Затем количество пятен было скорректировано для слияния лунок по формуле: количество пятен +2 × (количество пятен × %confluence /[100% - %confluence]). Отрицательный фон корректировали путем вычитания количества пятен в лунках с отрицательной пептидной стимуляцией из лунок, стимулированных антигеном. Наконец, лунки, помеченные как слишком многочисленные для подсчета, были установлены на самое высокое наблюдаемое исправленное значение, округленное до ближайшей сотни.
Ex vivo внутриклеточное окрашивание цитокинов (ICS) и анализ методом проточной цитометрии
[00798] Свеже выделенные лимфоциты с плотностью 2-5 × 106 клеток/мл инкубировали с 10 мкМ указанных пептидов в течение 2 часов. Через два часа добавляли брефельдин А до концентрации 5 мкг/мл и клетки инкубировали со стимулятором в течение дополнительных 4 часов. После стимуляции жизнеспособные клетки метили исправляемым красителем жизнеспособности eFluor780 в соответствии с протоколом производителя и окрашивали анти-CD8 АПК (клон 53-6,7, BioLegend) в разведении 1:400. AHTH-ИФHg РЕ (клон XMG1.2, BioLegend) применяли в 1:100 для внутриклеточного окрашивания. Образцы собирали на проточном цитометре Attune NxT (Thermo Scientific). Данные проточной цитометрии наносили на график и анализировали с применением FlowJo. Чтобы оценить степень антигенспецифического ответа, рассчитывали как процент ИФHg + клеток CD8 +, так и общее число клеток ИФHg+/1x106 живых клеток в ответ на каждый пептидный стимулятор.
XIV.B.2. In Vitro оценка конструкций неоантигенных кассет
[00799] В качестве примера оценки конструкции неоантигенных кассет был разработан анализ на основе клеток in vitro для оценки наличия экспрессии или процессинрования, или презентации выбранных человеческих эпитопов антигенпрезентирующими клетками в модельных кассетах вакцин (Фиг. 15). После распознавания репортерные Т-клетки Jurkat-Lucia, которые были сконструированы для экспрессии одного из пяти РТК, специфичных для хорошо охарактеризованных комбинаций пептид-HLA, становятся активированными и транслоцируют ядерный фактор активированных Т-клеток (NFAT -nuclear factor of activated Τ cell) в ядро, что приводит к транскрипционной активации репортерного гена люциферазы. Антигенную стимуляцию отдельных репортерных CD8 Т-клеточных линий количественно определяли по биолюминесценции.
[00800] Отдельные репортерные линии Jurkat-Lucia были модифицированы лентивирусной трансдукцией с помощью экспрессионной конструкции, которая включает антигенспецифическую РТК-бета и РТК-альфа-цепь, разделенную рибосомальной последовательностью ухода Р2А, чтобы обеспечить эквимолярные количества транслируемого продукта (Banu и соавт., 2014 год). Добавление второго альфа-элемента CD8 6eTa-P2A-CD8 к лентивирусной конструкции обеспечивало экспрессию корецептора CD8, в котором отсутствует линия родительских репортерных клеток, так как CD8 на поверхности клетки имеет решающее значение для аффинности связывания с целевыми молекулами рМНС и усиливает передачу сигналов посредством вовлечения его цитоплазматического хвоста (Lyons и соавт., 2006 год; Yachi и соавт., 2006 год).
[00801] После лентивирусной трансдукции репортеры Jurkat-Lucia были подвергнуты размножению при отборе с применением пуромицина, подвергнуты сортировке с помощью одноклеточной флуоресценции (FACS - fluorescence assisted cell sorting), a моноклональные популяции были протестированы на наличие экспрессии люциферазы. Это дало стабильно трансдуциро ванные репортерные клеточные линии для специфических пептидных антигенов 1, 2, 4 и 5 с функциональными клеточными ответами. (Таблица 2).
[00802] В другом примере, серия коротких кассет, все маркерные эпитопы были включены в одно и то же положение (Фиг. 16А), и варьировались только линкеры, разделяющие эпитопы, ограниченные по HLA-A*0201 (Фиг. 16В). Репортерные Т-клетки индивидуально смешивали с антигенпрезентирующими клетками U-87 (АПК), которые были инфицированы аденовирусными конструкциями, экспрессирующими эти короткие кассеты, а экспрессию люциферазы измеряли относительно неинфицированных контролен. Все четыре антигена в модельных кассетах были идентифицированы путем сопоставления репортерных Т-клеток, демонстрируя эффективный процессинг и презентацию множественных антигенов. Значение ответов Т-клеток следует в основном сходным тенденциям для естественных и AAY-линкеров. Антигены, высвобождаемые из кассеты на основе RR-линкера, демонстрируют более низкие индукции люциферазы (Таблица 3). DPP-линкер, предназначенный для нарушения процессинга антигена, продуцировал вакцинную кассету, которая приводила к недостаточной презентации эпитопа (Таблица 3).
[00803] В другом примере была сконструирована дополнительная серия коротких кассет, которые, помимо эпитопов человека и мыши, содержали нацеливающие последовательности, такие как сигнальные пептиды (СП) убиквитина (Уб), ГКГС и Ig-каппа и/или трансмембранные мотивы (ТМ) ГКГС, расположенные на N- или С-конце кассеты. (Фиг. 17). При доставке в АРС U-87 аденовирусным вектором репортерные Т-клетки снова продемонстрировали эффективный процессинг и презентацию множественных кассетных антигенов. Однако, различные характеристики нацеливания не оказывали существенного влияния на величину ответов Т-клеток (Таблица 4).
XIV. В.3. In Vivo оценка конструкций неоантигенных кассет
[00804] В качестве другого примера оценки конструкции неоантигенных кассет, вакцинные кассеты были сконструированы так, чтобы содержать 5 хорошо охарактеризованных человеческих эпитопов ГКГС класса I, которые, как известно, стимулируют CD8 Т-клетки ограниченным способом HLA-A*02:01 (Фиг. 16А, 17, 19А). Для оценки их иммуногенности in vivo вакцинные кассеты, содержащие эти маркерные эпитопы, были включены в аденовирусные векторы и применены с целью заражения трансгенных мышей HLA-A2 (Фиг. 18). Эта мышиная модель несет трансген, состоящий частично из человеческого HLA-A*0201 и мышиного Н2-Kb, таким образом, кодирующий химерную молекулу ГКГС класса I, состоящую из лидерной последовательности HLA-А2.1 человека, доменов α1 и α2, лигированных с α3, трансмембранному и цитоплазматическому доменам Н2-Kb мыши (Vitiello et al., 1991). Химерная молекула обеспечивает HLA-А*02:01-ограниченную презентацию антигена, в то же время поддерживая совместимое с видами взаимодействие корецептора CD8 с доменом α3 на ГКГС.
[00805] Для коротких кассет все маркерные эпитопы вызывали сильный Т-клеточный ответ, как определено с помощью ИФН-гамма ELISPOT, который был примерно в 10-50 раз сильнее, чем обычно сообщалось (Comet et al., 2006; Depla et al., 2008; Ishioka et al., 1999). Из всех оцененных линкеров конкатамер из 25-мерных последовательностей, каждая из которых содержит минимальный эпитоп, фланкированный их природными аминокислотными последовательностями, вызывал самый большой и широкий ответ Т-клеток (Таблица 5). Внутриклеточное окрашивание цитокинов (ICS - Intracellular cytokine staining) и анализ проточной цитометрией показали, что антигенспецифические Т-клеточные ответы происходят от CD8 Т-клеток.
[00806] В другом примере была сконструирована серия длинных вакцинных кассет, которые были включены в аденовирусные векторы, которые, помимо первоначальных 5 маркерных эпитопов, содержали дополнительные 16 HLA-A*02:01, А*03:01 и В*44:05 эпитопов с известной реактивностью CD8 Т-клеток (Фиг. 19А, В). Размер этих длинных кассет близко имитировал окончательную конструкцию клинической кассеты, и варьировалось только положение эпитопов относительно друг друга. Т-клеточные ответы CD8 были сопоставимы по величине и объему как для длинных, так и для коротких вакцинных кассет, демонстрируя, что (а) добавление большего количества эпитопов практически не влияло на величину иммунного ответа на исходный набор эпитопов, и (b) положение эпитопа в кассете практически не влияло на последующую реакцию Т-клеток на нее (Таблица 6).
XIV.B.4. Конструкция неоантигенной кассеты для исследований иммуногенности и токсикологии
[00807] Таким образом, результаты оценок модельных кассет (Фиг. 16-19, Таблицы 2-6) продемонстрировали, что для модельных вакцинных кассет была достигнута сильная иммуногенность, когда был применен подход "нити бус", который кодирует около 20 эпитопов в контексте вектора на основе аденовируса. Эпитопы лучше всего собирали путем конкатенации 25-мерных последовательностей, каждая из которых встраивала минимальный эпитоп Т-клеток CD8 (например, 9 аминокислотных остатков), которые были фланкированы с обеих сторон его природной окружающей пептидной последовательностью (например, 8 аминокислотных остатков с каждой стороны). Как применяется в данном документе, термин "естественная" или "нативная" фланкирующая последовательность относится к N- и/или С-концевой фланкирующей последовательности данного эпитопа в контексте естественного происхождения этого эпитопа в его исходном белке. Например, HCMV рр65 ГКГС I эпитоп NLVPMVATV (SEQ ID NO: 132) фланкирован на своем 5'-конце нативной 5'-последовательностью WQAGILAR (SEQ ID NO: 139), а на его 3'-конце нативной З'-последовательностью QGQNLKYQ (SEQ ID NO: 140), таким образом генерируя пептид WQAGILARNLVPMVATVQGQNLKYQ (SEQ ID NO: 141) 25-мерного белка, обнаруженного в исходном белке HCMV рр65. Природная или нативная последовательность также может относиться к нуклеотидной последовательности, которая кодирует эпитоп, фланкированный нативной фланкирующей последовательностью(ями). Каждая 25-мерная последовательность напрямую связана со следующей 25-мерной последовательностью. В случаях, когда минимальный эпитоп Т-клеток CD8 больше или меньше чем 9 аминокислот, фланкирующую длину пептида можно регулировать так, чтобы общая длина все еще составляла 25-мерную пептидную последовательность. Например, эпитоп CD8 Т-клеток из 10 аминокислот может быть фланкирован последовательностью из 8 аминокислот и из 7 аминокислот. За конкатамером последовали два универсальных ГКГС класс II эпитопа, которые были включены для стимуляции CD4 Т-хелперных клеток и улучшения общей иммуногенности вакцинных кассетных антигенов in vivo. (Alexander et al., 1994; Panina-Bordignon et al., 1989) Эпитопы класса II были связаны с конечным эпитопом класса I аминокислотным линкером GPGPG (SEQ ID NO: 56). Два эпитопа класса II также были связаны друг с другом аминокислотным линкером GPGPG (SEQ ID NO: 56), а также фланкированы на С-конце аминокислотным линкером GPGPG (SEQ ID NO: 56). Ни положение, ни количество эпитопов не оказали существенного влияния на распознавание или ответ Т-клеток. Последовательности нацеливания также, по-видимому, не оказывали существенного влияния на иммуногенность антигенов, происходящих из кассеты.
[00808] В качестве еще одного примера, на основе данных in vitro и in vivo, полученных с модельными кассетами (Фиг. 16-19,Таблицы 2-6), была создана конструкция кассеты, которая чередует хорошо охарактеризованные Т-клеточные эпитопы, которые, как известно, являются иммуногенными для отличных от человека приматов (ОЧП), мышей и людей. За 20 эпитопами, встроенными в их природные 25-мерные последовательности, следуют два универсальных ГКГС класс II эпитопа, которые присутствовали во всех оцененных модельных кассетах (Фиг. 20). Эта конструкция кассеты применялась для изучения иммуногенности, а также фармакологических и токсикологических исследований у нескольких видов.
XV. Вектор доставки неоантигенных кассет ChAd
XV.A. Конструирование вектора доставки неоантигенных кассет ChAd
[00809] В одном примере аденовирус шимпанзе (ChAd - Chimpanzee adenovirus) был сконструирован как вектор доставки для неоантигенных кассет. В дополнительном примере был синтезирован полноразмерный вектор ChAdV68 на основе АС_000011.1 (последовательность 2 из патента США 6083716) с удаленными последовательностями Е1 (нуклеотиды 457-3014) и ЕЗ (нуклеотиды 27 816-31 332). Репортерные гены под контролем промотора/энхансера CMV вставляли вместо удаленных последовательностей Е1. Трансфекция этого клона в клетки HEK293 не давала инфекционного вируса. Для подтверждения последовательности вируса С68 дикого типа изолят VR-594 был получен из АТСС, пересеян и затем независимо сиквенирован (SEQ ID NO: 10). При сравнении последовательности АС 000011.1 с последовательностью АТСС VR-594 (SEQ ID NO: 10) вируса ChAdV68 дикого типа были выявлены 6 нуклеотидных различий. В одном примере модифицированный вектор ChAdV68 был сгенерирован на основе АС_000011.1 с соответствующими нуклеотидами АТСС VR-594, замещенными в пяти положениях (ChAdV68.5WTnt SEQ ID NO: 1).
[00810] В другом примере модифицированный вектор ChAdV68 был сгенерирован на основе АС_000011.1 с удаленными последовательностями Е1 (нуклеотиды 577-3403) и Е3 (нуклеотиды от 27816-31332), а соответствующие нуклеотиды АТСС VR-594 замещены в четырех положениях. ЗФБ-репортерную (ChAdV68.4WTnt.GFP; SEQ ID NO: 11) или модельную неоантигенную кассету (ChAdV68.4WTnt.MAG25mer; SEQ ID NO: 12) под управлением промотора/энхансера CMV вставляли вместо удаленных последовательностей Е1.
[00811] В другом примере модифицированный вектор ChAdV68 был сгенерирован на основе АС_000011.1 с удаленными последовательностями Е1 (нуклеотиды 577-3403) и ЕЗ (нуклеотиды от 27125-31825), а соответствующие нуклеотиды АТСС VR-594 замещены в пяти положениях. ЗФБ-репортерную (ChAdV68.5WTnt.GFP; SEQ ID NO: 13) или модельную неоантигенную кассету (ChAdV68.5WTnt.MAG25mer; SEQ ID NO: 2) под управлением промотора/энхансера CMV вставляли вместо удаленных последовательностей Е1.
XV. В. Испытание вектора доставки неоантигенных кассет ChAd
XV. В. 1. Способы и материалы оценки вектора ChAd
Трансфекция клеток HEK293A с применением липофектамина
[00812] ДНК для конструкций ChAdV68 (ChAdV68.4WTnt.GFP, ChAdV68.5WTnt.GFP, ChAdV68.4WTnt.MAG25mer и ChAdV68.5WTnt.MAG25mer) получали и трансфицировали в клетки HEK293A с применением следующего протокола.
[00813] 10 мкг плазмидной ДНК расщепляли с помощью Pad для высвобождения вирусного генома. Затем ДНК очищали с применением микро-колонок для очистки ДНК GeneJet (Thermo Fisher) в соответствии с инструкциями производителя для длинных фрагментов ДНК и элюировали в 20 мкл предварительно нагретой воды; колонки оставляли при 37 градусах на 0,5-1 час до этапа элюции.
[00814] Клетки HEK293A вводили в 6-луночные планшеты при плотности клеток 106 клеток/лунка за 14-18 часов до трансфекции. Клетки покрывали 1 мл свежей среды (DMEM-10% инФСБ с пенициллином/стрептомицином и глутаматом) на лунку. 1-2 мкг очищенной ДНК применяли на лунку при трансфекции с двойным объемом (2-4 мкл) Lipofectamine2000 в соответствии с протоколом производителя. 0,5 мл среды OPTI-MEM, содержащей смесь для трансфекции, добавляли к 1 мл нормальной среды для выращивания в каждую лунку и оставляли на клетках на ночь.
[00815] Трансфицированные клеточные культуры инкубировали при 37°С в течение не менее 5-7 дней. Если вирусные бляшки не были видны к 7 дню после трансфекции, клетки разделяли 1:4 или 1:6 и инкубировали при 37°С для мониторинга развития бляшек. В альтернативном варианте, трансфицированные клетки собирали и подвергали 3 циклам замораживания и оттаивания, и клеточные лизаты перименяли для инфицирования клеток НЕК293А, а клетки инкубировали до тех пор, пока не наблюдались вирусные бляшки. Трансфекции векторов ChAdV68 в клетки HEK293A с применением фосфата кальция и генерация третичного вирусного стока
[00816] ДНК для конструкций ChAdV68 (ChAdV68.4WTnt.GFP, ChAdV68.5WTnt.GFP, ChAdV68.4WTnt.MAG25mer, ChAdV68.5WTnt.MAG25mer) получали и трансфицировали в клетки HEK293A с применением следующего протокола.
[00817] Клетки HEK293A высевали за один день до трансфекции в 106 клеток/лунка 6-луночного планшета в 5% BS/DMEM/1XP/S, IX глутамакса. Для каждой трансфекции необходимы две лунки. За два-четыре часа до трансфекции среду заменяли на свежую. Плазмиду ChAdV68.4WTnt.GFP линеаризуют с помощью Pad. Затем линеаризованную ДНК экстрагировали фенольным хлороформом и осаждали, применяя один десятый объем 3 М ацетата натрия, рН 5,3 и два объема 100% этанола. Осажденную ДНК осаждали центрифугированием при 12000 × g в течение 5 минут, затем промывали 1 раз 70% этанолом. Осадок сушили на воздухе и ресуспендировали в 50 мкл стерильной воды. Концентрацию ДНК определяли с использованием NanoDrop™ (ThermoFisher), а объем доводили до 5 мкг ДНК/50 мкл.
[00818] 169 мкл стерильной воды добавляли в микроцентрифужную пробирку. Затем в воду добавляли 5 мкл 2 М CaCl2 и осторожно перемешивали пипетированием. 50 мкл ДНК добавляли по каплям в водный раствор CaCl2. Затем добавляли двадцать шесть мкл 2 М CaCl2 и осторожно дважды перемешивали пипетированием с помощью микропипетки. Этот окончательный раствор должен состоять из 5 мкг ДНК в 250 мкл 0,25 М CaCl2. Затем готовили вторую пробирку, содержащую 250 мкл 2 X HBS (буферный раствор Hepes). С применением 2 мл стерильной пипетки, прикрепленной к Pipet-Aid, воздух медленно барботировали через раствор 2 X HBS. В то же время раствор ДНК в 0,25 М растворе CaCl2 добавляли по каплям. Барботирование продолжали в течение приблизительно 5 секунд после добавления последней капли ДНК. Затем раствор инкубировали при комнатной температуре в течение до 20 минут перед добавлением к клеткам 293А. 250 мкл раствора ДНК/фосфата кальция добавляли по каплям в монослой клеток 293А, которые были посеяны за одни сутки до этого в концентрации 106 клеток на лунку 6-луночного планшета. Клетки возвращали в инкубатор и инкубировали в течение ночи. Среды были изменены 24 часа спустя. Через 72 часа клетки разделяли 1:6 в 6-луночный планшет. Монослои ежедневно контролировали с помощью световой микроскопии для подтверждения цитопатического эффекта (CPE - cytopathic effect). Через 7-10 дней после трансфекции наблюдали вирусные бляшки и монослой собирали пипетированием среды в лунках для подъема клеток. Собранные клетки и среду переносили в центрифужную пробирку на 50 мл с последующими тремя циклами замораживания и размораживания (при -80°С и 37°С). Последующий лизат, называемый первичным стоком вируса, был очищен центрифугированием на полной скорости на настольной центрифуге (4300 × g), и часть лизата, составляющую 10-50%, применяли для заражения клеток 293А в колбе Т25. Инфицированные клетки инкубировали в течение 48 часов перед сбором клеток и сред при полном СРЕ. Клетки снова собирали, замораживали-оттаивали и осветляли перед применением этого вторичного вирусного стока для заражения колбы Т150, засеянной в 1,5 × 107 клеток на колбу. После того, как через 72 часа был достигнут полный СРЕ, среду и клетки собирали и обрабатывали, как с более ранними вирусными запасами, для получения третичного стока. Продукция в клетках 293F
[00819] Продукию вируса ChAd V68 проводили в клетках 293F, выращенных в среде 293 FreeStyleTM (Thermo Fisher) в инкубаторе при 8% CO2. В день инфецирования клетки разводили до 10б клеток на мл при жизнеспособности 98% и 400 мл применяли на производственный цикл во встряхиваемых колбах объемом 1 л (Corning). На одно инфецирование применяли 4 мл третичного вирусного стока с целевым MOI>3,3. Клетки инкубировали в течение 48-72 ч до тех пор, пока жизнеспособность не составила <70%, как измерено с помощью трипанового синего. Затем инфицированные клетки собирали центрифугированием, на полноскоростной настольной центрифуге и промывали в 1 X ФСБ, повторно центрифугировали и затем повторно суспендировали в 20 мл 10 мМ Трис, рН 7,4. Клеточный осадок лизировали путем замораживания-оттаивания 3 раза и очищали центрифугированием при 4300 × g в течение 5 минут.
Очистка центрифугированием CsCl
[00820] Вирусную ДНК очищали центрифугированием CsCl. Было выполнено два прерывистых градиентных прогона. Первый для очистки вируса от клеточных компонентов, а второй для дальнейшего улучшения отделения от клеточных компонентов и отделения дефектных от инфекционных частиц.
[00821] 10 мл 1,2 (26,8 г CsCl, растворенного в 92 мл 10 мМ Трис, рН 8,0) CsCl добавляли в пробирки из полиалломера. Затем осторожно добавляли 8 мл 1,4 CsCl (53 г CsCl, растворенного в 87 мл 10 мМ Трис, рН 8,0) с применением пипетки, достающей до дна пробирки. Осветленный вирус осторожно наслаивали поверх слоя 1.2. При необходимости добавляли еще 10 мМ Трис для уравновешивания пробирок. Затем пробирки помещали в ротор SW-32Ti и центрифугировали в течение 2 ч 30 мин при 10°С. Затем пробирку извлекали в шкаф с ламинарным потоком и полоску вируса вытягивали с помощью иглы 18 калибра и 10 мл шприца. Были предприняты меры, с целью оставить ДНК и белок загрязняющие клетки-хозяина. Затем полоску разбавляли, по меньшей мере, в 2 раза с 10 мМ Трис, рН 8,0, и наслаивали, как раньше, с прерывистым градиентом, как описано выше. Прогон выполняли, как описано ранее, за исключением того, что на этот раз прогон выполняли в течение ночи. На следующий день полоска была осторожно вытянута, чтобы не вытянуть полоску дефектных частиц. Затем вирус диализовали с применением кассеты Slide-a-LyzerTM (Pierce) против буфера ARM (20 мМ Трис, рН 8,0, 25 мМ NaCl, 2,5% глицерина). Это было выполнено три раза, 1 час на замену буфера. Затем вирус разделяли на аликвоты для хранения при -80°С. Вирусный анализ
[00822] Концентрацию VP проводили с применением анализа ОП 260, основанного на коэффициенте экстинкции 1,1×1012 вирусных частиц (VP - viral particle), эквивалентном значению поглощения 1 при ОП 260 нм. Два разведения (1:5 и 1:10) аденовируса делали в буфере для лизиса вируса (0,1% ДСН, 10 мМ Трис, рН 7,4, 1 мМ ЭДТК). ОП измеряли в двух повторностях при обоих разведениях, а концентрацию VP/мл измеряли путем умножения значения X ОП 260 на коэффициент разбавления X 1,1×1012VP.
[00823] Титр инфекционной единицы (Ш - infectious unit) рассчитывали с помощью анализа с ограниченным разведением вирусного стока. Вирус изначально разбавляли в 100 раз в DMEM/5% NS/1X PS, а затем последовательно разбавляли, применяя 10-кратные разведения, до 1×10-7. Затем 100 мкл этих разведений добавляли к клеткам 293 А, которые высевали по меньшей мере за час до этого при 3е5 клеток/лунка 24-луночного планшета. Это было выполнено в двух экземплярах. Планшеты инкубировали в течение 48 ч в CO2 (5%) инкубаторе при 37°С. Затем клетки промывали 1 X ФСБ и затем фиксировали 100% холодным метанолом (-20°С). Затем планшеты инкубировали при -20°С в течение минимум 20 минут. Лунки промывали 1 X ФСБ, затем блокировали в 1 X ФСБ/0,1% БСА в течение 1 часа при комнатной температуре. Кроличье антитело к Ad (Abeam, Кембридж, штат Массачусетс) добавляли в разведении 1:8000 в блокирующем буфере (0,25 мл на лунку) и инкубировали в течение 1 часа при комнатной температуре. Лунки промывали 4 раза 0,5 мл ФСБ на лунку. Конъюгированное с HRP (пероксидазой хрена) козлиное антитело к кролику (Bethyl Labs, Монтгомери, штат Техас), разведенное в 1000 раз, добавляли на лунку и инкубировали в течение 1 часа перед последним циклом промывки. Было выполнено 5 промывок ФСБ и планшеты были разработаны с применением субстрата DAB (диаминобензидин тетрагидрохлорид) в трис-буферном солевом растворе (0,67 мг/мл DAB в 50 мМ Трис рН 7,5, 150 мМ NaCl) с 0,01% H2O2. Лунки были разработаны за 5 мин до подсчета. Клетки подсчитывали при 10-кратном увеличении с применением разведения, которое давало от 4 до 40 окрашенных клеток на поле зрения. В качестве поля зрения применялась сетка 0,32 мм2 эквивалентная 625 на поле зрения на 24-луночном планшете. Количество инфекционных вирусов/мл может быть определено по количеству окрашенных клеток на сетку, умноженному на количество сеток на поле зрения, умноженное на коэффициент разбавления 10. Аналогично, при работе с экспрессирующими ЗФБ клетками можно применять флуоресцентные, а не капсидные окрашивания, чтобы определить количество экспрессирующих ЗФБ вирионов на мл.
Иммунизации
[00824] Самкам мышей C57BL/6J и самкам мышей Balb/c инъецировали 1×108 вирусных частиц (VP) ChAdV68.5WTnt.MAG25mer в объеме 100 мкл, билатеральная внутримышечная инъекция (50 мкл на ногу).
Диссоциация спленоцитов
[00825] Селезенку и лимфатические узлы для каждой мыши объединяли в 3 мл полного RPMI (RPMI, 10% ФСБ, пенициллин/стрептомицин). Механическую диссоциацию выполняли с применением gentleMACS Dissociator (Miltenyi Biotec), следуя протоколу производителя. Диссоциированные клетки фильтровали через 40-микронный фильтр, и эритроциты лизировали с помощью лизирующего буфера АСК (150 мМ NH4Cl, 10 мМ KHCO3, 0,1 мМ Na2ЭДTK). Клетки снова фильтровали через 30-микронный фильтр и затем ресуспендировали в полном RPMI. Клетки подсчитывали на проточном цитометре Attune N×T (Thermo Fisher) с применением окрашивания йодидом пропидия для исключения мертвых и апоптотических клеток. Затем клетки доводили до соответствующей концентрации живых клеток для последующего анализа. Ex vivo анализ с применением метода иммуноферментных пятен (Е LISP ОТ)
[00826] Анализ ELISPOT был выполнен в соответствии с руководящими принципами гармонизации ELISPOT {DOI: 10.1038/nprot.2015.068} с применением набора ELISpotPLUS HOHg мыши (МАВТЕСН). 5×104 спленоцитов инкубировали с 10 мкМ указанных пептидов в течение 16 часов в 96-луночных планшетах, покрытых антителами IIOHg. Пятна были разработаны с применением щелочной фосфатазы. Реакцию проводили в течение 10 минут и останавливали подставляя планшет под водопроводную воду. Пятна подсчитывали с применением AID vSpot Reader Spectrum. Для анализа ELISPOT лунки с насыщенностью >50% были зарегистрированы как "слишком многочисленные для подсчета". Образцы с отклонением повторяющихся лунок >10% были исключены из анализа. Затем количество пятен было скорректировано для слияния лунок по формуле: количество пятен + 2 × (количество пятен × %confluence /[100% - %confluence]). Отрицательный фон корректировали путем вычитания количества пятен в лунках с отрицательной пептидной стимуляцией из лунок, стимулированных антигеном. Наконец, лунки, помеченные как слишком многочисленные для подсчета, были установлены на самое высокое наблюдаемое исправленное значение, округленное до ближайшей сотни.
XV.B.2. Получение частиц вирусной доставки ChAdV68 после трансфекции ДНК
[00827] В одном примере ДНК ChAdV68.4WTnt.GFP (Фиг. 21) и ChAdV68.5WTnt.GFP (Фиг. 22) трансфицировали в клетки HEK293A, а репликацию вируса (вирусные бляшки) наблюдали через 7-10 дней после трансфекции. Вирусные бляшки ChAdV68 визуализировали, применяя световую (Фиг. 21А и 22А) и флуоресцентную микроскопию (Фиг. 21В-С и Фиг. 22В-С). GFP (ЗФБ) указывает на продуктивное производство вирусных частиц доставки ChAdV68.
XV.B.3. Экспансия частиц вирусной доставки ChAdV68
[00828] В одном примере вирусы ChAdV68.4WTnt.GFP, ChAdV68.5WTnt.GFP и ChAdV68.5WTnt.MAG25mer были размножены в клетках HEK293F, а очищенный вирусный сток был получен через 18 дней после трансфекции (Фиг. 23). Вирусные частицы количественно определяли в очищенных вирусных стоках ChAdV68 и сравнивали с аденовирусами типа 5 (Ad5) и ChAdVY25 (тесно связанные ChAdV; Dicks, 2012 год, PloS ONE 7, е40385) вирусными стоками, полученными с применением того же протокола. Титры вируса ChAdV68 были сопоставимы с Ad5 и ChAdVY25 (Таблица 7).
XV.B.4. Оценка иммуногенности в моделях опухолей
[00829] Векторы С68, экспрессирующие опухолевые антигены мыши, оценивали в исследованиях иммуногенности мыши, чтобы продемонстрировать, что вектор С68 вызывает Т-клеточные ответы. Ответы Т-клеток на ГКГС класс I эпитоп SIINFEKL (SEQ ID NO: 57) измеряли у самок мышей C57BL/6J, а ГКГС класс I эпитоп АН1-А5 (Slansky и соавт., 2000 год, Immunity 13:529-538) измеряли у мышей Balb/c. Как проиллюстрировано на Фиг. 29, сильные Т-клеточные ответы по сравнению с контролем наблюдали после иммунизации мышей ChAdV68.5WTnt.MAG25mer. Средние клеточные иммунные ответы 8957 или 4019 формирующих пятно клеток (SFC - spot forming cells) на 106 спленоцитов наблюдали в анализах ELISpot, когда мышей C57BL/6J или Balb/c иммунизировали с помощью ChAdV68.5WTnt.MAG25mer, соответственно, через 10 дней после иммунизации.
XVI. Альфавирусный вектор доставки неоантигенных кассет
XVI.A. Материалы и способы оценки альфавирусного вектора доставки In vitro транскрипция для генерации РНК
[00830] Для тестирования in vitro: плазмидную ДНК линеаризуют с помощью рестрикционного расщепления с помощью Pmel, колонку очищают в соответствии с протоколом производителя (комплект для очистки ДНК GeneJet, Thermo) и применяют в качестве матрицы. Транскрипция in vitro была выполнена с применением крупномасштабной производственной системы РНК RiboMAX (Promega) с аналогом m7G (Promega) в соответствии с протоколом производителя. мРНК очищали с применением набора RNeasy (Qiagen) в соответствии с протоколом производителя.
[00831] Для исследований in vivo: РНК генерировали и очищали с помощью TriLInk Biotechnologies и покрывали энзиматическим Capl. Трансфекция РНК
[00832] Клетки НЕК293А высевали при 6е4 клеток/лунка для 96 лунок и 2е5 клеток/лунка для 24 лунок за ~ 16 часов до трансфекции. Клетки транс фицир овал и мРНК с примененеим липофектамина MessengerMAX (Invitrogen) и следуя протоколу производителя. Для 96 лунок применяли 0,15 мкл липофектамина и 10 нг мРНК на лунку, а для 24 лунок применяли 0,75 мкл липофектамина и 150 нг мРНК на лунку. Экспрессирующую ЗФБ мРНК (TriLink Biotechnologies) применяли в качестве контроля трансфекции. Анализ с люциферазой
[00833] Репортерный люциферазный анализ проводили в 96-луночных планшетах с белыми стенками, причем каждое состояние повторяли в трех экземплярах с применением люциферазного анализа ONE-Glo (Promega) в соответствии с протоколом производителя. Люминесценцию измеряли с применением SpectraMax.
кРВ-ПЦР
[00834] Трансфицированные клетки промывали и заменяли свежей средой через 2 часа после трансфекции для удаления любой нетрансфицированной мРНК. Затем клетки собирали в различные моменты времени в буфере для лизиса RLT плюс (Qiagen), гомогенизировали с применением QiaShredder (Qiagen) и экстрагировали РНК с применением набора RNeasy (Qiagen), все в соответствии с протоколом производителя. Тотальную РНК определяли количественно с применением Nanodrop (Thermo Scientific). qRT-ПЦР проводили с применением набора одноэтапной ОТ-ПЦР для зонда Quantitect (Qiagen) на qTower3 (Analytik Jena) в соответствии с протоколом производителя, используя 20 нг общего количества РНК на реакцию. Каждый образец запускался в трех повторностях для каждого зонда. Актин или GusB применялись в качестве эталонных генов. Пользовательский праймер/зонды были сгенерированы с помощью IDT (Таблица 8).
Модель опухоли B16-OVA
[00835] Мышам C57BL 6J инъецировали в нижнюю левую брюшную полость 105 клеток В16-OVA/животное. Опухолям давали расти течение 3 дней до иммунизации. Модель опухоли СТ26
[00836] Мышам Balb/c инъецировали в нижнюю левую брюшную полость 10б клеток СТ26/животное. Опухолям давали расти течение 7 дней до иммунизации. Иммунизации
[00837] Для вакцины срРНК, мышам вводили 10 мкг РНК в объеме 100 мкл, с помощью двусторонней внутримышечной инъекции (50 мкл на ногу). Для вакцины Ad5 мышам вводили 5 х Ю10 вирусных частиц (VP) в объеме 100 мкл, с помощью двусторонней внутримышечной инъекции (50 мкл на ногу). Животным вводили анти-СТЪА-4 (клон 9D9, BioXcell), анти-PD-l (клон RMP1-14, BioXcell) или анти-IgG (клон МРС-11, BioXcell), доза 250 мкг, 2 раза в неделю, путем внутрибрюшинной инъекции. Биолюминесцентная визуализация in vivo
[00838] В каждый момент времени мышам инъецировали 150 мг/кг субстрата люциферина посредством внутрибрюшинной инъекции и измеряли биолюминесценцию с применением системы визуализации IVIS In vivo (PerkinElmer) через 10-15 минут после инъекции.
Диссоциация спленоцитов
[00839] Селезенку и лимфатические узлы для каждой мыши объединяли в 3 мл полного RPMI (RPMI, 10% ФСБ, пенициллин/стрептомицин). Механическую диссоциацию выполняли с применением gentleMACS Dissociator (Miltenyi Biotec), следуя протоколу производителя. Диссоциированные клетки фильтровали через 40-микронный фильтр, и эритроциты лизировали с помощью лизирующего буфера АСК (150 мМ NH4Cl, 10 мМ KHCO3, 0,1 мМ Na2ЭДTK). Клетки снова фильтровали через 30-микронный фильтр и затем ресуспендировали в полном RPMI. Клетки подсчитывали на проточном цитометре Attune NxT (Thermo Fisher) с применением окрашивания йодидом пропидия для исключения мертвых и апоптотических клеток. Затем клетки доводили до соответствующей концентрации живых клеток для последующего анализа.
Ex vivo анализ с применением метода иммуноферментных пятен (Е LISP ОТ)
[00840] Анализ ELISPOT был выполнен в соответствии с руководящими принципами гармонизации ELISPOT {DOI: 10.1038/nprot.2015.068} с применением набора ELISpotPLUS HOHg мыши (МАВТЕСН). 5×104 спленоцитов инкубировали с 10 мкМ указанных пептидов в течение 16 часов в 96-луночных планшетах, покрытых антителами HcDHg. Пятна были разработаны с применением щелочной фосфатазы. Реакцию проводили в течение 10 минут и останавливали подставляя планшет под водопроводную воду. Пятна подсчитывали с применением AID vSpot Reader Spectrum. Для анализа ELISPOT лунки с насыщенностью >50% были зарегистрированы как "слишком многочисленные для подсчета". Образцы с отклонением повторяющихся лунок >10% были исключены из анализа. Затем количество пятен было скорректировано для слияния лунок по формуле: количество пятен + 2 × (количество пятен × %confluence /[100% -%confluence]). Отрицательный фон корректировали путем вычитания количества пятен в лунках с отрицательной пептидной стимуляцией из лунок, стимулированных антигеном. Наконец, лунки, помеченные как слишком многочисленные для подсчета, были установлены на самое высокое наблюдаемое исправленное значение, округленное до ближайшей сотни.
XVI.B. Альфавирусный вектор
XVI. В. 1. Оценка альфавирусного вектора in vitro
[00841] В одном осуществлении данного изобретения, остов РНК для системы экспрессии неоантигена был получен из вектора самореплицирующейся РНК (срРНК) на основе венесуэльского конского энцефалита (VEE - Venezuelan Equine Encephalitis) (Kinney, 1986 год, Virology 152: 400-413). В одном примере последовательности, кодирующие структурные белки VEE, расположенные в 3' положении от субгеномного промотора 26S, были удалены (последовательности VEE с 7544 по 11 175 удалены; нумерация основана на Kinney и соавт 1986 год; SEQ ID NO: 6) и заменены антигенными последовательностями (SEQ ID NO: 14 и SEQ ID NO: 4) или репортером люциферазы (например, VEE-люциферазой, SEQ ID NO: 15) (Фиг. 24). РНК транскрибировали с срРНК ДНК-вектора in vitro, трансфицировали в клетки НЕК293А и измеряли репортерную экспрессию люциферазы. Кроме того, (нереплицирующаяся) мРНК, кодирующая люциферазу, была трансфицирована для сравнения. Наблюдалося ~ 30000-кратное увеличение репортерного сигнала срРНК для срРНК VEE-люциферазы при сравнении 23-часового измерения с 2-часовым измерением (Таблица 9). В противоположность этому, репортер мРНК демонстрировал менее чем 10-кратное увеличение сигнала за тот же период времени (Таблица 9).
Таблица 9. Экспрессия люциферазы из самореплицирующегося вектора VEE увеличивается со временем. Клетки НЕК293А, трансфицированные 10 нг мРНК VEE-люциферазы или 10 нг нереплицирующейся мРНК люциферазы (TriLink L-6307) на лунку в 96 лунок. Люминесценцию измеряли в разное время после трансфекции. Экспрессия люциферазы указывается в единицах относительной люминесценции (RLU - relative luminescence unit). Каждая точка данных представляет собой среднее +/- СО для 3 трансфицированных лунок.
[00842] В другом примере репликация срРНК была подтверждена непосредственно путем измерения уровней РНК после трансфекции либо срРНК, кодирующей люциферазу (VEE-люцифераза), либо срРНК, кодирующей мультиэпитопную кассету (VEE-MAG25mer), с применением количественной полимеразной цепной реакции с обратной транскрипцией (кОТ-ПЦР) Для срРНК VEE-люциферазы наблюдалось ~ 150-кратное увеличение РНК (Таблица 10), в то время как для срРНК VEE-MAG25mer наблюдалось 30-50-кратное увеличение (Таблица 11). Эти данные подтверждают, что векторы VEE срРНК реплицируются при трансфекции в клетки.
XVI.B.2. Оценка альфавирусного вектора in vivo
[00843] В другом примере экспрессию VEE-люциферазного репортера оценивали ш vivo. Мышам инъецировали 10 мкг VEE-люциферазной срРНК, инкапсулированной в липидную наночастицу (МС3), и визуализировали через 24 и 48 часов и через 7 и 14 дней после инъекции для определения биолюминесцентного сигнала. Сигнал люциферазы был обнаружен через 24 часа после инъекции и со временем увеличивался и, по-видимому, достиг пика через 7 дней после инъекции срРНК (Фиг. 25).
XVI. В.3. Оценка модели опухоли, полученной с помощью альфавирусного вектора
[00844] В одной реализации, с целью определения, направляет ли вектор VEE срРНК антигенспецифические иммунные ответы in vivo, был создан вектор VEE срРНК (VEE-UbAAY, SEQ ID NO: 14), который экспрессирует 2 различных ГКГС класс I эпитопа опухоли мыши, SIINFEKL (SEQ ID NO: 57) и АН1-А5 (Slansky и соавт., 2000 год, Immunity 13:529-538). Эпитоп SFL (SIINFEKL (SEQ ID NO: 57)) экспрессируется клеточной линией меланомы B16-OVA, а эпитоп АН1-А5 (SPSYAYHQF (SEQ ID NO: 58); Slansky и соавт., 2000 год, Immunity) индуцирует Т-клетки, нацеленные на родственный эпитоп (AH1/SPSYVYHQF (SEQ ID NO: 193); Huang и соавт., 1996 год, Proc Natl Acad Sci USA 93:9730-9735), который экспрессируется клеточной линией карциномы толстой кишки СТ26. В одном примере, для исследований in vivo, срРНК VEE-UbAAY генерировали путем транскрипции in vitro с применением полимеразы Т7 (TriLink Biotechnologies) и инкапсулировали в липидную наночастицу (МС3).
[00845] Сильный антигенспецифический Т-клеточный ответ, направленный на SFL, наблюдали через две недели после иммунизации мышей, несущих опухоль B16-OVA, с помощью приготовленной в МС3 срРНК VEE-UbAAY. В одном примере медиана из 3835 формирующих пятно клеток (SFC) на 106 спленоцитов была измерена после стимуляции пептидом SFL в анализах ELISpot (Фиг. 26А, Таблица 12), а 1,8% (медиана) Т-клеток CD8 были антигенспецифичными для SFL, как измерено окрашиванием с помощью пентамера (Фиг. 26В, Таблица 12). В другом примере совместное введение моноклонального антитела (мАт) к CTLA-4 с вакциной срРНК VEE привело к умеренному увеличению общего Т-клеточного ответа с медианой 4794,5 SFC на 106 спленоцитов, измеренных в анализе ELISpot (Фиг. 26А, Таблица 12).
[00846] В другой реализации, с целью отражения клинического подхода, проводили гетерологичное примирование/стимулирование в моделях опухолей мышей B16-OVA и СТ26, где мышей, несущих опухоль, сначала иммунизировали аденовирусным вектором, экспрессирующим ту же кассету антигена (Ad5-UbAAY), с последующей стимулирующей иммунизацией вакциной VEE-UbAAY срРНК через 14 дней после примирования Ad5-UbAAY. В одном примере антигенспецифический иммунный ответ был индуцирован вакциной Ad5-UbAAY, что привело к 7330 (медианным) SFC на 10б спленоцитов, измеренным в анализе ELISpot (Фиг. 27А, Таблица 13), и 2,9% (медиана) Т-клеток CD8, нацеленных на антиген SFL, как измерено окрашиванием пентамером (Фиг. 27С, Таблица 13). В другом примере Т-клеточный ответ сохранялся через 2 недели после стимулирования срРНК VEE-UbAAY в модели B16-OVA с 3960 (медианным) SFL-специфичными SFC на 106 спленоцитов, измеренных в анализе ELISpot (Фиг. 27В, Таблица 13), и 3,1% (медиана) Т-клеток CD8, нацеленных на антиген SFL, как измерено окрашиванием пентамером (Фиг. 27D, Таблица 13).
[00847] В другом осуществлении аналогичные результаты наблюдались после примирования Ad5-UbAAY и стимулирования VEE-UbAAY срРНК в мышиной модели СТ26. В одном примере антигенспецифический ответ АН1 наблюдался после примирования Ad5-UbAAY (14-й день) со средним значением 5187 SFC на 106 спленоцитов, измеренных в анализе ELISpot (Фиг. 28А, Таблица 14) и 3799 SFC на 106 спленоцитов, измеренных в анализе ELISpot после стимулирования срРНК VEE-UbAAY (28-й день) (Фиг. 28 , Таблица 14).
XVII. Оценка комбинированной опухолевой модели ChAdV/cpPHK
[00848] Различные протоколы дозирования с применением ChAdV68 и самореплицирующейся РНК (срРНК) были оценены на мышиной модели опухолей СТ26.
XVII.A Способы и материалы оценки комбинированной опухолевой модели ChAdV/cpPHK
Инъекция опухоли
[00849] Мышам Balb/c инъецировали опухолевую клеточную линию СТ26. Через 7 дней после инъекции опухолевых клеток мышей рандомизировали по разным группам исследования (28-40 мышей на группу) и начинали лечение. Мышам Balb/c инъецировали в нижнюю левую брюшную полость 106 клеток СТ26/животное. Опухолям давали расти течение 7 дней до иммунизации. Группы исследования подробно описаны в Таблице 15.
Иммунизации
[00850] Для вакцины срРНК, мышам вводили 10 мкг срРНК VEE-MAG25mer в объеме 100 мкл, с помощью двусторонней внутримышечной инъекции (50 мкл на ногу). Для вакцины С68 мышам вводили 1×1011 вирусных частиц (VP) ChAdV68.5WTnt.MAG25mer в объеме 100 мкл, с помощью двусторонней внутримышечной инъекции (50 мкл на ногу). Животным вводили анти-PD-1 (клон RMP1-14, BioXcell) или анти-IgG (клон МРС-11, BioXcell), доза 250 мкг, 2 раза в неделю, путем внутрибрюшинной инъекции. Диссоциация спленоцитов
[00851] Селезенку и лимфатические узлы для каждой мыши объединяли в 3 мл полного RPMI (RPMI, 10% ФСБ, пенициллин/стрептомицин). Механическую диссоциацию выполняли с применением gentleMACS Dissociator (Miltenyi Biotec), следуя протоколу производителя. Диссоциированные клетки фильтровали через 40-микронный фильтр, и эритроциты лизировали с помощью лизирующего буфера АСК (150 мМ NH4Cl, 10 мМ KHCO3, 0,1 мМ Nа2ЭДТК). Клетки снова фильтровали через 30-микронный фильтр и затем ресуспендировали в полном RPMI. Клетки подсчитывали на проточном питометре Attune N×T (Thermo Fisher) с применением окрашивания йодидом пропидия для исключения мертвых и апоптотических клеток. Затем клетки доводили до соответствующей концентрации живых клеток для последующего анализа.
Ex vivo анализ с применением метода иммуноферментных пятен (ELISPOT)
[00852] Анализ ELISPOT был выполнен в соответствии с руководящими принципами гармонизации ELISPOT {DOI: 10.1038/nprot.2015.068} с применением набора ELISpotPLUS HOHg мыши (МАВТЕСН). 5×104 спленоцитов инкубировали с 10 мкМ указанных пептидов в течение 16 часов в 96-луночных планшетах, покрытых антителами HOHg. Пятна были разработаны с применением щелочной фосфатазы. Реакцию проводили в течение 10 минут и останавливали подставляя планшет под водопроводную воду. Пятна подсчитывали с применением AID vSpot Reader Spectrum. Для анализа ELISPOT лунки с насыщенностью > 50% были зарегистрированы как "слишком многочисленные для подсчета". Образцы с отклонением повторяющихся лунок >10% были исключены из анализа. Затем количество пятен было скорректировано для слияния лунок по формуле: количество пятен + 2 × (количество пятен × %confluence /[100% - %confluence]). Отрицательный фон корректировали путем вычитания количества пятен в лунках с отрицательной пептидной стимуляцией из лунок, стимулированных антигеном. Наконец, лунки, помеченные как слишком многочисленные для подсчета, были установлены на самое высокое наблюдаемое исправленное значение, округленное до ближайшей сотни.
XVII. В Оценка комбинации ChAdV/cpPHK в модели опухоли СТ26
[00853] Иммуногенность и эффективность вакцин гетерологичных примирующих/стимулирующих ChAdV68.5WTnt.MAG25mer/VEE-MAG25mer срРНК или гомологичных примирующих/стимулирующих VEE-MAG25mer срРНК, были оценены на модели опухоли мыши СТ26. Мышам Balb/c инъецировали опухолевую клеточную линию СТ26. Через 7 дней после инъекции опухолевых клеток мышей рандомизировали по разным группам исследования и начинали лечение. Группы исследования подробно описаны в Таблице 15 и в более общем виде в Таблице 16.
[00854] Селезенки собирали через 14 дней после примирующей вакцинации для иммунологического контроля. Измерения опухоли и массы тела проводились два раза в неделю и контролировалась выживаемость. Сильные иммунные ответы по сравнению с контролем наблюдали во всех группах активных вакцин.
[00855] Медианные клеточные иммунные ответы 10 630, 12 976, 3319 или 3745 формирующих пятно клеток (SFC) на 106 спленоцитов наблюдали в анализах ELISpot на мышах, иммунизированных ChAdV68.5WTnt.MAG25mer (ChAdV/группа 3), ChAdV68.5WTnt.MAG25mer+анти-PD-1 (ChAdV+PD-1/группа 4), срРНК VEE-MAG25mer (срРНК/медиана для групп 5 и 7 вместе взятых) или срРНК VEE-MAG25mer+анти-PD-1 (срРНК+PD-1/медиана для групп 6 и 8 вместе взятых), соответственно, через 14 дней после первой иммунизации (Фиг. 30 и Таблица 17). Напротив, контроль вакцины (группа 1) или контроль вакцины с анти-PD-1 (группа 2) проявляли медианные клеточные иммунные ответы 296 или 285 SFC на 106 спленоцитов, соответственно.
[00856] В соответствии с данными ELISpot, 5,6, 7,8, 1,8 или 1,9% CD8 Т-клеток (медиана) демонстрировали антигенспецифические ответы при внутриклеточном анализе окрашивания цитокинов (ICS - intracellular cytokine staining) для мышей, иммунизированных ChAdV68.5WTnt.MAG25mer (ChAdV/группа 3), ChAdV68.5WTnt.MAG25mer+анти-PD-1 (ChAdV+PD-1/группа 4), VEE-MAG25mer cpPHK (срРНК/медиана для групп 5 и 7 вместе взятых) или VEE-MAG25mer срРНК+анти-PD-1 (срРНК+PD-1/медиана для групп 6 и 8 вместе взятых), соответственно, через 14 дней после первой иммунизации (Фиг. 31 и Таблица 18). У мышей, иммунизированных вакцинным контролем или вакцинным контролем в сочетании с анти-PD-1, антигенспецифические ответы CD8 составляли 0,2 и 0,1%, соответственно.
[00857] Рост опухоли измеряли на модели опухоли толстой кишки СТ26 для всех групп, и представлен рост опухоли до 21-го дня после начала лечения (через 28 дней после введения опухолевых клеток СТ-26). Мышей умерщвляли через 21 день после начала лечения из-за больших размеров опухоли (>2500 мм3); поэтому представлены только первые 21 день, с целью избежания аналитического смещения. Медианные объемы опухоли через 21 день составляли 1129, 848, 2142, 1418, 2198 и 1606 мм3 для ChAdV68.5WTnt.MAG25mer примирования/УЕЕ-МАС25 тег срРНК стимулирования (группа 3), ChAdV68.5WTnt.MAG25mer примирования/VEE-MAC25mer срРНК примирования+анти-PD-1 (группа 4), VEE-MAG25mer срРНК примирования/ ChAdV68.5WTnt.MAG25mer стимулирования (группа 5), VEE-MAG25mer срРНК примирования/ ChAdV68.5WTnt.MAG25mer стимулирования+анти-PD-1 (группа 6), VEE-MAG25mer срРНК примирования/УЕЕ-МАС25 тег срРНК стимулирования (группа 7) и VEE-MAG25mer срРНК примирования/ VEE-MAG25mer срРНК стимулирования+анти-PD-1 (группа 8), соответственно (Фиг 32 и Таблица 19). Средние объемы опухолей в вакцинном контроле или вакцинном контроле в сочетании с анти-PD-1 составляли 2361 или 2067 мм3, соответственно. Основываясь на этих данных, вакцинация с применением ChAdV68.5WTnt.MAG25mer/VEE-MAG25mer срРНК (группа 3), ChAdV68.5WTnt.MAG25mer/VEE-MAG25mer срРНК+анти-PD-1 (группа 4), VEE-MAG25mer cpPHK/ChAdV68.5WTnt.MAG25mer+анти-PD-1 (группа 6) и срРНК VEE-MAG25mer/VEE-MAG25mer+анти-PD-1 (группа 8) привела к снижению роста опухоли через 21 день, что значительно отличалось от контроля (группа 1).
[00858] Выживание контролировали в течение 35 дней после начала лечения на модели опухоли СТ-26 (через 42 дня после введения опухолевых клеток СТ-26). Улучшение выживаемости наблюдалось после вакцинации мышей четырьмя из протестированных комбинаций. После вакцинации, 64%, 46%, 41% и 36% мышей выжили с ChAdV68.5WTnt.MAG25mer примированием/ VEE-MAG25mer срРНК стимулированием в сочетании с анти-PD-1 (группа 4; P&1t;0,0001 относительно контрольной группы 1), VEE-MAG25mer срРНК примированием/УЕЕ-МА025 тег срРНК стимулированием в сочетании с анти-PD-1 (группа 8; Р=0,0006 относительно контрольной группы 1), ChAdV68.5WTnt.MAG25mer примированием/ VEE-MAG25mer срРНК стимулированием (группа 3; Р=0,0003 относительно контрольной группы 1) and VEE-MAG25mer срРНК примированием/ChAdV68.5WTnt.MAG25mer стимулированием в сочетании с анти-PD-1 (группа 6; Р=0,0016 относительно контрольной группы 1), соответственно (Фиг. 33 и Таблица 20). Выживаемость существенно не отличалась от контрольной группы 1 (≤14%) для оставшихся групп лечения [VEE-MAG25mer срРНК примирование/ChAdV68.5WTnt.MAG25mer стимулирование (группа 5), VEE-MAG25mer срРНК примирование/УЕЕ-МА025 тег срРНК стимулирование (группа 7) и только анти-PD-1 (группа 2)].
[00859] В заключение, срРНК ChAdV68.5WTnt.MAG25mer и VEE-MAG2 5mer вызывали сильный Т-клеточный ответ на опухолевые антигены мыши, кодируемые вакцинами, по сравнению с контролем. Введение ChAdV68.5WTnt.MAG25mer примирования и срРНК стимулирования VEE-MAG25mer с или без совместного введения анти-PD-1, VEE-MAG25mer срРНК примирования и стимулирования ChAdV68.5WTnt.MAG25mer в комбинации с анти-PD-1 или введение VEE-MAG25mer срРНК в качестве гомологичной иммунизации примирования стимулирования в комбинации с анти-PD-1 мышам, несущим опухоль, приводило к улучшению выживаемости.
XVIII. Исследование отличных от человека приматов
[00860] Различные протоколы дозирования с применением ChAdV68 и самореплицирующейся РНК (срРНК) были оценены на отличных от человека приматах (ОЧП).
Материалы и способы
[00861] Примирущую вакцину вводили внутримышечно (В/М) каждому ОЧП для инициации исследования (вакцина примирования). Одну или более стимулирующих вакцин (вакцина стимуляции) также вводили внутримышечно каждому ОЧП. Двусторонние инъекции на дозу вводили в соответствии с группами, указанными в Таблицах и обобщенными ниже.
Иммунизации
[00862] Индийских макаков-резус Mamu-A*01 иммунизировали билатерально 1×1012 вирусных частиц (5×1011 вирусных частиц на инъекцию) ChAdV68.5WTnt.MAG25mer, 30 мкг срРНК VEE-MAG25MER, 100 мкг срРНК VEE-MAG25mer или 300 мкг срРНК VEE-MAG25mer, приготовленных в ЛНЧ-1 или ЛНЧ-2. Стимулирующие вакцины с 30 мкг, 100 мкг или 300 мкг срРНК VEE-MAG25mer вводили внутримышечно в указанное время после примирующей вакцинации. Иммунологический контроль
[00863] МКПК выделяли в указанное время после примирующей вакцинации с применением Lymphocyte Separation Medium (LSM, MP Biomedicals) и разделительных пробирок LeucoSep (Greiner Bio-One) и ресуспендировали в RPMI, содержащей 10% ФСБ и пенициллин/стрептомицин. Клетки подсчитывали на проточном цитометре Attune N×T (Thermo Fisher) с применением окрашивания йодидом пропидия для исключения мертвых и апоптотических клеток. Затем клетки доводили до соответствующей концентрации живых клеток для последующего анализа. Для каждой обезьяны в исследованиях ответы Т-клеток измеряли с применением способов ELISpot или проточной цитометрии. Т-клеточные ответы на 6 различных эпитопов Mamu-A*01 класса I макаков-резус, кодируемых в вакцинах, контролировали из МКПК путем измерения индукции цитокинов, таких как ИФН-гамма, с применением анализа иммуноферментных пятен (ELISpot) ex vivo. Анализ ELISpot проводили в соответствии с согласованным руководством ELISPOT {DOI: 10.1038/nprot.2015.068} с применением набора ELISpotPLUS HOHg обезьян (МАВТЕСН). 200000 МКПК инкубировали с 10 мкМ указанных пептидов в течение 16 часов в 96-луночных планшетах, покрытых антителами nOHg. Пятна формировали с применением щелочной фосфатазы. Реакцию проводили в течение 10 минут и останавливали, подставляя планшет под водопроводную воду. Пятна подсчитывали с применением AID vSpot Reader Spectrum. Для анализа ELISPOT лунки с насыщенностью > 50% были зарегистрированы как "слишком многочисленные для подсчета". Образцы с отклонением повторяющихся лунок > 10% были исключены из анализа. Затем количество пятен было скорректировано в отношении конфлюэнтности лунок по формуле: количество пятен + 2 × (количество пятен × % конфлюэнтности /[100% - % конфлюэнтности]). Отрицательный фон корректировали путем вычитания количества пятен в лунках с отрицательной пептидной стимуляцией из лунок, стимулированных антигеном. Наконец, лунки, помеченные как слишком многочисленные для подсчета, были установлены на самое высокое наблюдаемое скорректированное значение, округленное до ближайшей сотни.
[00864] Специфические CD4- и CD8-T-клеточные ответы на 6 различных эпитопов Mamu-A*01 класса I макаков-резус, кодируемых в вакцинах, контролировали из МКПК путем измерения индукции внутриклеточных цитокинов, таких как ИФН-гамма, с применением проточной цитометрии. Результаты обоих способов показывают, что индукция цитокинов происходила антигенспецифическим образом к эпитопам.
Иммуногенность у макаков-резус
[00865] Это исследование было разработано для (а) оценки иммуногенности и предварительной безопасности срРНК VEE-MAG25mer в дозах 30 мкг и 100 мкг в виде гомологичных примирования/стимуляции или гетерологичных примирования/стимуляции в сочетании с ChAdV68.5WTnt.MAG25mer; (b) сравнения иммунных ответов срРНК VEE-MAG25mer в липидных наночастицах с применением ЛНЧ1 в сравнении с ЛНЧ2; (с) оценки кинетики Т-клеточных ответов на иммунизации срРНК VEE-MAG25mer и ChAdV68.5WTnt.MAG25mer.
[00866] Это исследование было проведено у индийских макаков-резус Mamu-A*01 для демонстрации иммуногенности. Выбранные антигены, используемые в этом исследовании, распознаются только у макаков-резус, в частности, у имеющих гаплотип ГКГС класса I Mamu-A*01. Индийских макаков-резус Mamu-A*01 рандомизировали по разным группам исследования (6 макаков на группу) и билатерально вводили В/М инъекцию вектора срРНК ChAdV68.5WTnt.MAG25mer или VEE-MAG25mer, кодирующего модельные антигены, которые включают некоторое количество ограниченных Mamu-A*01 эпитопов. Эти группы исследования соответствовали описанным ниже.
[00868] МКПК собирали перед иммунизацией и на 1, 2, 3, 4, 5, 6, 8, 9 и 10 недели после первой иммунизации для иммунного контроля.
Результаты
[00869] Антигенспецифические клеточные иммунные ответы в мононуклеарных клетках периферической крови (МКПК) измеряли для шести разных ограниченных Mamu-А*01 эпитопов до иммунизации и через 1, 2, 3, 4, 5, 6, 8, 9 и 10 недель после первой иммунизации. Животные получали стимулирующую иммунизацию срРНК VEE-MAG25mer на 4 и 8 недели в дозе 30 мкг или 100 мкг, приготовленной с ЛНЧ1 или ЛНЧ2, как описано в Таблице 21. Комбинированные иммунные ответы на все шесть эпитопов наносили на график для каждого момента времени иммунного контроля (Фиг. 34A-D и Таблицы 22-25).
[00870] Комбинированные антигенспецифические иммунные ответы наблюдали при всех измерениях с 170, 14, 15, 11, 7, 8, 14, 17, 12 SFC на 106 МКПК (шесть комбинированных эпитопов) через 1, 2, 3, 4, 5, 6, 8, 9 или 10 недель после первой примирующей иммунизации срРНК VEE-MAG25mer-ЛНЧ1 (30 мкг), соответственно (Фиг. 34А). Комбинированные антигенспецифические иммунные ответы наблюдали при всех измерениях с 108, -3, 14, 1, 37, 4, 105, 17, 25 SFC на 106 МКПК (шесть комбинированных эпитопов) через 1, 2, 3, 4, 5, 6, 8, 9 или 10 недель после первой примирующей иммунизации срРНК VEE-MAG25mer-ЛНЧ1 (100 мкг), соответственно (Фиг. 34В). Комбинированные антигенспецифические иммунные ответы наблюдали при всех измерениях с -17, 38, 14, -2, 87, 21, 104, 129, 89 SFC на 106 МКПК (шесть комбинированных эпитопов) через 1, 2, 3, 4, 5, 6, 8, 9 или 10 недель после первой примирующей иммунизации срРНК VEE-MAG25mer-ЛНЧ2 (100 мкг), соответственно (Фиг. 34С). Отрицательные значения являются результатом нормализации к значениям перед забором крови для каждого эпитопа/животного.
[00871] Комбинированные антигенспецифические иммунные ответы наблюдали при всех измерениях с 1218, 1784, 1866, 973, 1813, 747, 797, 1249 и 547 SFC на 106 МКПК (шесть комбинированных эпитопов) через 1, 2, 3, 4, 5, 6, 8, 9 или 10 недель после первой примирующей иммунизации ChAdV68.5WTnt.MAG25mer, соответственно (Фиг. 34D). Иммунный ответ показал ожидаемый профиль с пиковыми иммунными ответами, измеренными через ~2-3 недель после примирующей иммунизации с последующим снижением иммунного ответа через 4 недели. Комбинированные антигенспецифические клеточные иммунные ответы с 1813 SFC на 106 МКПК (шесть комбинированных эпитопов) измеряли через 5 недель после первой иммунизации ChAdV68.5WTnt.MAG25mer (т.е. через 1 неделю после первой стимуляции срРНК VEE-MAG25mer). Иммунный ответ, измеренный через 1 неделю после первой стимуляции срРНК VEE-MAG25mer (неделя 5), был сопоставим с пиковым иммунным ответом, измеренным для примирующей иммунизации ChAdV68.5WTnt.MAG25mer (неделя 3) (Фиг. 34D). Комбинированные антигенспецифические клеточные иммунные ответы с 1249 SFC на 10б МКПК (шесть комбинированных эпитопов) измеряли через 9 недель после первой иммунизации ChAdV68.5WTnt.MAG25mer, соответственно (т.е. через 1 неделю после второй стимуляции срРНК VEE-MAG25mer). Иммунный ответ, измеренный через 1 неделю после второй стимуляции срРНК VEE-MAG25mer (неделя 9), был в ~2 раза выше, чем измеренный непосредственно перед стимулирующей иммунизацией (Фиг. 34D).
He-GLP исследование диапазона доз РНК (более высокие дозы) у индийских макаков-резус
[00876] Это исследование было разработано для (а) оценки иммуногенности срРНК VEE-MAG25mer в дозе 300 мкг в виде гомологичных примирования/стимуляции или гетерологичных примирования/стимуляции в сочетании с ChAdV68.5WTnt.MAG25mer; (b) сравнения иммунных ответов срРНК VEE-MAG25mer в липидных наночастицах с применением ЛНЧ1 в сравнении с ЛНЧ2 в дозе 300 мкг; и (с) оценки кинетики Т-клеточных ответов на иммунизации срРНК VEE-MAG25mer и ChAdV68.5WTnt.MAG25mer.
[00877] Это исследование было проведено у индийских макаков-резус Mamu-A*01 для демонстрации иммуногенности. Иммуногенность вакцины у видов отличных от человека приматов, таких как резус, является лучшим показателем эффективности вакцин у людей. Кроме того, выбранные антигены, используемые в этом исследовании, распознаются только у макаков-резус, в частности, у имеющих гаплотип ГКГС класса I Mamu-A*01. Индийских макаков-резус Mamu-A*01 рандомизировали по разным группам исследования (6 макаков на группу) и билатерально вводили В/М инъекцию срРНК ChAdV68.5-WTnt.MAG25mer или VEE-MAG25mer, кодирующей модельные антигены, которые включают некоторое количество ограниченных Mamu-A*01 антигенов. Эти группы исследования соответствовали описанным ниже.
[00878] МКПК собирали перед иммунизацией и через 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23 или 24 недель после первой иммунизации для иммунного контроля для группы 1 (гетерологичные примирование/стимуляция). МКПК собирали перед иммунизацией и через 4, 5, 7, 8, 10, 11, 12, 13, 14 или 15 недель после первой иммунизации для иммунного контроля для групп 2 и 3 (гомологичные примирование/стимуляция).
Результаты
[00880] Индийских макаков-резус Mamu-A*01 иммунизировали ChAdV68.5-WTnt.MAG25mer. Антигенспецифические клеточные иммунные ответы в мононуклеарных клетках периферической крови (МКПК) измеряли для шести разных ограниченных Mamu-A*01 эпитопов до иммунизации и через 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23 или 24 недель после первой иммунизации (Фиг. 35 и Таблица 27). Животные получали стимулирующие иммунизации срРНК VEE-MAG25mer с применением состава с ЛНЧ2 на 4, 12 и 20 недели. Комбинированные антигенспецифические иммунные ответы с 1750, 4225, 1100, 2529, 3218, 1915, 1708, 1561, 5077, 4543, 4920, 5820, 3395, 2728, 1996, 1465, 4730, 2984, 2828 или 3043 SFC на 106 МКПК (шесть комбинированных эпитопов) измеряли через 4, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23 или 24 недели после первой иммунизации ChAdV68.5WTnt.MAG25mer (FIG. 35). Иммунные ответы, измеренные через 1 неделю после второй стимулирующей иммунизации (неделя 13) срРНК VEE-MAG25mer, были в ~3 раза выше, чем измеренные непосредственно перед стимулирующей иммунизацией (неделя 12). Иммунные ответы, измеренные через 1 неделю после третьей стимулирующей иммунизации (неделя 21) срРНК VEE-MAG25mer, были в ~3 раза выше, чем измеренные непосредственно перед стимулирующей иммунизацией (неделя 20), аналогично ответу, наблюдаемому в случае второй стимуляции.
[00881] Индийских макаков-резус Mamu-A*01 также иммунизировали срРНК VEE-MAG25mer с применением двух разных ЛНЧ-составов (ЛНЧ1 и ЛНЧ2). Антигенспецифические клеточные иммунные ответы в мононуклеарных клетках периферической крови (МКПК) измеряли для шести разных ограниченных Mamu-A*01 эпитопов до иммунизации и через 4, 5, 6, 7, 8, 10, 11, 12, 13, 14 или 15 недель после первой иммунизации (Фиг. 36 и 37, Таблицы 28 и 29). Животные получали стимулирующие иммунизации срРНК VEE-MAG25mer с применением соответствующего состава с ЛНЧ1 или ЛНЧ2 на 4 и 12 недели. Комбинированные антигенспецифические иммунные ответы с 168, 204, 103, 126, 140, 145, 330, 203 и 162 SFC на 106 МКПК (шесть комбинированных эпитопов) измеряли через 4, 5, 7, 8, 10, 11, 13, 14, 15 недель после иммунизации срРНК УЕЕ-МАС25 тег-ЛНЧ2 (Фиг. 36). Комбинированные антигенспецифические иммунные ответы с 189, 185, 349, 437, 492, 570, 233, 886, 369 и 381 SFC на 106 МКПК (шесть комбинированных эпитопов) измеряли через 4, 5, 7, 8, 10, 11, 12, 13, 14, 15 недель после иммунизации срРНК УЕЕ-МА025 тег-ЛНЧ1 (Фиг. 37).
Исследование диапазона доз срРНК
[00885] В одном варианте осуществления данного изобретения можно проводить исследование диапазона доз срРНК у индийских макаков-резус mamu А01, чтобы определить, какую дозу срРНК применять в исследованиях иммуногенности на ОЧП. В одном примере индийским макакам-резус Mamu А01 можно вводить вектор срРНК, кодирующий модельные антигены, которые включают некоторое количество ограниченных mamu А01 эпитопов, путем В/М инъекции. В другом примере анти-CTLA-4 моноклональное антитело можно вводить П/К вблизи места В/М инъекции вакцины для нацеливания вакцины на дренирующие лимфатические узлы в одной группе животных. МКПК можно собирать каждые 2 недели после первой вакцинации для иммунного контроля. Группы исследования описаны ниже (Таблица 30).
Исследования иммуногенности у индийских макаков-резус
[00886] В одном варианте осуществления данного изобретения можно проводить исследования вакцины у индийских макаков-резус mamu А01, чтобы продемонстрировать иммуногенность. В одном примере индийским макакам-резус Mamu А01 можно вводить В/М инъекцию ChAdV и/или вектора срРНК, кодирующего модельные антигены, которые включают некоторое количество ограниченных mamu А01 антигенов. В другом примере некоторым группам можно вводить П/К анти-CTLA-4 моноклональное антитело вблизи места В/М инъекции вакцины. МКПК можно собирать каждые 2 недели после первой вакцинации для иммунного контроля. Группы исследования описаны ниже (Таблица 31).
XIX. Идентификация реактивных в отношении ГКГС/целевой пептид Т-клеток и ТКР
[00887] Т-клетки можно выделять из крови, лимфатических узлов или опухолей пациентов. Т-клетки можно обогащать в отношении антигенспецифических Т-клеток, например, путем сортировки клеток, связывающих тетрамер антиген-ГКГС или путем сортировки активированных клеток, стимулированных в in vitro совместной культуре Т-клеток и детерминированных антиген-презентирующих клеток. В данной области техники известны различные реагенты для идентификации антигенспецифических Т-клеток, включая нагруженные антигеном тетрамеры и другие реагенты на основе ГКГС.
[00888] Антиген-релевантные альфа-бета (или гамма-дельта) димеры ТКР можно идентифицировать путем сиквенирования отдельных клеток ТКР антигенспецифических Т-клеток. В альтернативном варианте можно проводить объемное сиквенирование ТКР антигенспецифических Т-клеток, а пары альфа-бета с высокой вероятностью совпадения можно определять, используя метод спаривания ТКР, известный в данной области техники.
[00889] В альтернативном или дополнительном варианте антигенспецифические Т-клетки можно получать путем in vitro примирования наивных Т-клеток от здоровых доноров. Т-клетки, полученные из МКПК, лимфатических узлов или пуповинной крови, можно повторно стимулировать детерминированными антиген-презентирующими клетками для примирования дифференцировки обученных антигеном Т-клеток. Затем ТКР можно идентифицировать способом, аналогичным описанному выше для антигенспецифических Т-клеток от пациентов.
Некоторые последовательности
[00890] Последовательности для векторов, кассет и антител приведены ниже.
Убиквитин (SEQ ID NO:38)
Убиквитин A76 (SEQ ID NO:39)
Сигнальный пептид HLA-A2 (ГКГС класс I) (SEQ ID NO: 40)
Трансмембранный домен HLA-A2 (ГКГС класс I) (SEQ ID NO:41)
Лидерная последовательность IgK (SEQ ID NO:42)
Человеческий DC-Lamp (SEQ ID N0:43)
Мышиный LAMP1 (SEQ ID N0:44)
кДНК человеческого Lampl (SEQ ID NO:45)
Последовательность нуклеиновой кислоты столбнячного анатоксина (SEQ ID NO: 46)
Аминокислотная последовательность столбнячного анатоксина (SEQ ID NO:47)
QYIKANSKFIGITEL
Нуклеотидная последовательность PADRE (SEQ ID NO:48)
GCTAAATTTGTGGCTGCCTGGACACTGAAAGCCGCCGCT
Аминокислотная последовательность PADRE (SEQ ID NO:49)
AKFVAAWTLKAAA
WPRE (SEQ ID NO:50)
Люцифераза светляка (SEQ ID NO:54)
FMDV 2A (SEQ ID NO:55)
Список литературы
1. Desrichard, A., Snyder, А. & Chan, Т. A. Cancer Neoantigens and Applications for Immunotherapy. Clin. Cancer Res. Off. J. Am. Assoc. Cancer Res. (2015). doi:10.1158/1078-0432.CCR-14-3175
2. Schumacher, T. N. & Schreiber, R. D. Neoantigens in cancer immunotherapy. Science 348, 69-74 (2015).
3. Gubin, M.M., Artyomov, M.N., Mardis, E. R. & Schreiber, R. D. Tumor neoantigens: building a framework for personalized cancer immunotherapy. J. Clin. Invest. 125, 3413-3421 (2015).
4. Rizvi, N. A. et al. Cancer immunology. Mutational landscape determines sensitivity to PD-1 blockade in non-small cell lung cancer. Science 348, 124-128 (2015).
5. Snyder, A. et al. Genetic basis for clinical response to CTLA-4 blockade in melanoma. N. Engl. J. Med. 371, 2189-2199 (2014).
6. Carreno, В. M. et al. Cancer immunotherapy. A dendritic cell vaccine increases the breadth and diversity of melanoma neoantigen-specific T cells. Science 348, 803-808 (2015).
7. Tran, E. et al. Cancer immunotherapy based on mutation-specific CD4+ T cells in a patient with epithelial cancer. Science 344, 641-645 (2014).
8. Hacohen, N. & Wu, C. J.-Y. United States Patent Application: 0110293637 -COMPOSITIONS AND METHODS OF IDENTIFYING TUMOR SPECIFIC NEOANTIGENS. (Al). на<http://appftl.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1 &u=/netahtml/PTO/srchnum.html&r=1&f=G&1=50&s1=20110293637.PGNR.>
9. Lundegaard, C, Hoof, I., Lund, O. & Nielsen, M. State of the art and challenges in sequence based T-cell epitope prediction. Immunome Res. 6 Suppl 2, S3 (2010).
10. Yadav, M. et al. Predicting immunogenic tumour mutations by combining mass spectrometry and exome sequencing. Nature 515, 572-576 (2014).
11. Bassani-Sternberg, M., Pletscher-Frankild, S., Jensen, L. J. & Mann, M. Mass spectrometry of human leukocyte antigen class I peptidomes reveals strong effects of protein abundance and turnover on antigen presentation. Mol. Cell. Proteomics MCP 14, 658-673 (2015).
12. Van Allen, E. M. et al. Genomic correlates of response to CTLA-4 blockade in metastatic melanoma. Science 350, 207-211 (2015).
13. Yoshida, K. & Ogawa, S. Splicing factor mutations and cancer. Wiley Interdiscip.Rev. RNA 5, 445-459 (2014).
14. Cancer Genome Atlas Research Network. Comprehensive molecular profiling of lung adenocarcinoma. Nature 511, 543-550 (2014).
15. Rajasagi, M. et al. Systematic identification of personal tumor-specific neoantigens in chronic lymphocytic leukemia. Blood 124, 453-462 (2014).
16. Downing, S. R. et al. United States Patent Application: 0120208706 -OPTIMIZATION OF MULTIGENE ANALYSIS OF TUMOR SAMPLES. (Al). на <http://appftl.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l=50&sl=20120208706.PGNR.>
17. Target Capture for NextGen Sequencing - IDT. на <http://www.idtdna. com/pages/products/nextgen/target-capture>
18. Shukla, S. A. et al. Comprehensive analysis of cancer-associated somatic mutations in class I HLA genes. Nat. Biotechnol. 33, 1152-1158 (2015).
19. Cieslik, M. et al. The use of exome capture RNA-seq for highly degraded RNA with application to clinical cancer sequencing. Genome Res. 25, 1372-1381 (2015).
20. Bodini, M. et al. The hidden genomic landscape of acute myeloid leukemia: subclonal structure revealed by undetected mutations. Blood 125, 600-605 (2015).
21. Saunders, С.T. et al. Strelka: accurate somatic small-variant calling from sequenced tumor-normal sample pairs. Bioinforma. Oxf. Engl. 28, 1811-1817 (2012).
22. Cibulskis, K. et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat. Biotechnol. 31, 213-219 (2013).
23. Wilkerson, M. D. et al. Integrated RNA and DNA sequencing improves mutation detection in low purity tumors. Nucleic Acids Res. 42, e 107 (2014).
24. Mose, L. E., Wilkerson, M. D., Hayes, D. N., Perou, С.M. & Parker, J. S. ABRA: improved coding indel detection via assembly-based realignment. Bioinforma. Oxf. Engl. 30, 2813-2815 (2014).
25. Ye, K., Schulz, M. H., Long, Q., Apweiler, R. & Ning, Z. Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads. Bioinforma. Oxf. Engl. 25, 2865-2871 (2009).
26. Lam, H. Y. K. et al. Nucleotide-resolution analysis of structural variants using BreakSeq and a breakpoint library. Nat. Biotechnol. 28, 47-55 (2010).
27. Frampton, G. M. et al. Development and validation of a clinical cancer genomic profiling test based on massively parallel DNA sequencing. Nat. Biotechnol. 31, 1023-1031 (2013).
28. Boegel, S. et al. HLA typing from RNA-Seq sequence reads. Genome Med. 4, 102 (2012).
29. Liu, C. et al. ATHLATES: accurate typing of human leukocyte antigen through exome sequencing. Nucleic Acids Res. 41, el 42 (2013).
30. Mayor, N. P. et al. HLA Typing for the Next Generation. PloS One 10, eO 127153 (2015).
31. Roy, С.K., Olson, S., Graveley, B. R., Zamore, P. D. & Moore, M. J. Assessing long-distance RNA sequence connectivity via RNA-templated DNA-DNA ligation. eLife 4, (2015).
32. Song, L. & Florea, L. CLASS: constrained transcript assembly of RNA-seq reads. BMC Bioinformatics 14 Suppl 5, S14 (2013).
33. Maretty, L., Sibbesen, J. A. & Krogh, A. Bayesian transcriptome assembly. Genome Biol. 15, 501 (2014).
34. Pertea, M. et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nat. Biotechnol. 33, 290-295 (2015).
35. Roberts, A., Pimentel, H., Trapnell, C. & Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinforma. Oxf. Engl. (2011). doi: 10.1093/bioinformatics/btr355
36. Vitting-Seerup, K., Porse, В. Т., Sandelin, A. & Waage, J. spliceR: an R package for classification of alternative splicing and prediction of coding potential from RNA-seq data. BMC Bioinformatics 15, 81 (2014).
37. Rivas, M. A. et al. Human genomics. Effect of predicted protein-truncating genetic variants on the human transcriptome. Science 348, 666-669 (2015).
38. Skelly, D. A., Johansson, M., Madeoy, J., Wakefield, J. & Akey, J. M. A powerful and flexible statistical framework for testing hypotheses of allele-specific gene expression from RNA-seq data. Genome Res. 21, 1728-1737 (2011).
39. Anders, S., Pyl, P. T. & Huber, W. HTSeq--a Python framework to work with high-throughput sequencing data. Bioinforma. Oxf. Engl. 31, 166-169 (2015).
40. Furney, S. J. et al. SF3B1 mutations are associated with alternative splicing in uveal melanoma. Cancer Discov. (2013). doi:10.1158/2159-8290.CD-13-0330
41. Zhou, Q. et al. A chemical genetics approach for the functional assessment of novel cancer genes. Cancer Res. (2015). doi:10.1158/0008-5472.CAN-14-2930
42. Maguire, S. L. et al. SF3B1 mutations constitute a novel therapeutic target in breast cancer. J. Pathol. 235, 571-580 (2015).
43. Carithers, L. J. et al. A Novel Approach to High-Quality Postmortem Tissue Procurement: The GTEx Project. BiopreservationBiobanking 13, 311-319 (2015).
44. Xu, G. et al. RNA CoMPASS: a dual approach for pathogen and host transcriptome analysis of RNA-seq datasets. PloSOne 9, e89445 (2014).
45. Andreatta, M. & Nielsen, M. Gapped sequence alignment using artificial neural networks: application to the MHC class I system. Bioinforma. Oxf. Engl. (2015). doi: 10.1093/bioinformatics/btv639
46. Jorgensen, K. W., Rasmussen, M., Buus, S. & Nielsen, M. NetMHCstab -predicting stability of peptide-MHC-I complexes; impacts for cytotoxic T lymphocyte epitope discovery. Immunology 141, 18-26 (2014).
47. Larsen, M. V. et al. An integrative approach to CTL epitope prediction: a combined algorithm integrating MHC class I binding, TAP transport efficiency, and proteasomal cleavage predictions. Eur. J. Immunol. 35, 2295-2303 (2005).
48. Nielsen, M., Lundegaard, C, Lund, O. & Ke§mir, C. The role of the proteasome in generating cytotoxic T-cell epitopes: insights obtained from improved predictions of proteasomal cleavage. Immunogenetics 57, 33-41 (2005).
49. Boisvert, F.-M. et al. A Quantitative Spatial Proteomics Analysis of Proteome Turnover in Human Cells. Mol. Cell. Proteomics 11, Mil 1.011429 Ml 11.011429 (2012).
50. Duan, F. et al. Genomic and bioinformatic profiling of mutational neoepitopes reveals new rules to predict anticancer immunogenicity. J. Exp.Med. 211, 2231-2248 (2014).
51. Janeway's Immunobiology: 9780815345312: Medicine & Health Science Books @ Amazon.com. на <http://www.amazon.com/Janeways-Immunobiology-Kenneth-Murphy/dp/0815345313>
52. Calis, J. J. A. et al. Properties of MHC Class I Presented Peptides That Enhance Immunogenic ity. PLoS Comput. Biol. 9, el003266 (2013).
53. Zhang, J. et al. Intratumor heterogeneity in localized lung adenocarcinomas delineated by multiregion sequencing. Science 346, 256-259 (2014)
54. Walter, M. J. et al. Clonal architecture of secondary acute myeloid leukemia. N. Engl. J. Med. 366, 1090-1098 (2012).
55. Hunt DF, Henderson RA, Shabanowitz J, Sakaguchi K, Michel H, Sevilir N, Cox AL, Appella E, Engelhard VH. Characterization of peptides bound to the class I MHC molecule HLA-A2.1 by mass spectrometry. Science 1992. 255: 1261-1263.
56. Zarling AL, Polefrone JM, Evans AM, Mikesh LM, Shabanowitz J, Lewis ST, Engelhard VH, Hunt DF. Identification of class I МНС-associated phosphopeptides as targets for cancer immunotherapy. Proc Natl Acad Sci USA. 2006 Oct 3;103(40): 14889-94.
57. Bassani-Sternberg M, Pletscher-Frankild S, Jensen LJ, Mann M. Mass spectrometry of human leukocyte antigen class I peptidomes reveals strong effects of protein abundance and turnover on antigen presentation. Mol Cell Proteomics. 2015 Mar;14(3):658-73. doi: 10.1074/mcp.Ml 14.042812.
58. Abelin JG, Trantham PD, Penny SA, Patterson AM, Ward ST, Hildebrand WH, Cobbold M, Bai DL, Shabanowitz J, Hunt DF. Complementary IMAC enrichment methods for HLA-associated phosphopeptide identification by mass spectrometry. Nat Protoc. 2015 Sep;10(9): 1308-18. doi: 10.1038/nprot.2015.086. Epub 2015 Aug 6
59. Barnstable CI Bodmer WF, Brown G, Galfre G, Milstein C, Williams AF, Ziegler A. Production of monoclonal antibodies to group A erythrocytes, HLA and other human cell surface antigens-new tools for genetic analysis. Cell. 1978 May;14(l):9-20.
60. Goldman JM, Hibbin J, Kearney L, Orchard K, Th'ng KH. HLA-DR monoclonal antibodies inhibit the proliferation of normal and chronic granulocytic leukaemia myeloid progenitor cells. Br J Haematol. 1982 Nov;52(3):411-20.
61. Eng JK, Jahan ТА, Hoopmann MR. Comet: an open-source MS/MS sequence database search tool. Proteomics. 2013 Jan;13(l):22-4. doi: 10.1002/pmic.201200439. Epub 2012 Dec 4.
62. Eng JK, Hoopmann MR, Jahan ТА, Egertson JD, Noble WS, MacCoss MJ. A deeper look into Comet-implementation and features. J Am Soc Mass Spectrom. 2015 Nov; 26(11):1865-74. doi: 10.1007/sl3361-015-1179-x. Epub 2015 Jun 27.
63. Lukas Kali, Jesse Canterbury, Jason Weston, William Stafford Noble and Michael J. MacCoss. Semi-supervised learning for peptide identification from shotgun proteomics datasets. Nature Methods 4:923 - 925, November 2007
64. Lukas Kail, John D. Storey, Michael J. MacCoss and William Stafford Noble. Assigning confidence measures to peptides identified by tandem mass spectrometry. Journal of Proteome Research, 7(l):29-34, January 2008
65. Lukas Kali, John D. Storey and William Stafford Noble. Nonparametric estimation of posterior error probabilities associated with peptides identified by tandem mass spectrometry. Bioinformatics, 24(16):i42-i48, August 2008
66. Kinney RM, BJ Johnson, VL Brown, DW Trent. Nucleotide Sequence of the 26 S mRNA of the Virulent Trinidad Donkey Strain of Venezuelan Equine Encephalitis Virus and Deduced Sequence of the Encoded Structural Proteins. Virology 152 (2), 400-413. 1986 Jul 30.
67. Jill E Slansky, Frederique M Rattis, Lisa F Boyd, Tarek Fahmy, Elizabeth M Jaffee, Jonathan P Schneck, David H Margulies, Drew M Pardoll. Enhanced Antigen-Specific Antitumor Immunity with Altered Peptide Ligands that Stabilize the MHC-Peptide-TCR Complex. Immunity, Volume 13, Issue 4, 1 October 2000, Pages 529-538.
68. A Y Huang, P H Gulden, A S Woods, M С Thomas, С D Tong, W Wang, V H Engelhard, G Pasternack, R Cotter, D Hunt, D M Pardoll, and E M Jaffee. The immunodominant major histocompatibility complex class I-restricted antigen of a murine colon tumor derives from an endogenous retroviral gene product. Proc Natl Acad Sci U S A.; 93(18): 9730-9735, 1996 Sep3.
69. JOHNSON, BARBARA J. В., RICHARD M. KINNEY, CRYSTLE L. KOST AND DENNIS W. TRENT. Molecular Determinants of Alphavirus Neurovirulence: Nucleotide and Deduced Protein Sequence Changes during Attenuation of Venezuelan Equine Encephalitis Virus. J Gen Virol 67:1951-1960, 1986.
70. Aarnoudse, C.A., Krüse, M., Konopitzky, R., Brouwenstijn, N., and Schrier, P.I. (2002). TCR reconstitution in Jurkat reporter cells facilitates the identification of novel tumor antigens by cDNA expression cloning. Int J Cancer 99, 7-13.
71. Alexander, J., Sidney, J., Southwood, S., Ruppert, J., Oseroff, C, Maewal, A., Snoke, K., Serra, H.M., Kubo, R.T., and Sette, A. (1994). Development of high potency universal DR-restricted helper epitopes by modification of high affinity DR-blocking peptides. Immunity 1, 751-761.
72. Banu, N., Chia, A., Ho, Z.Z., Garcia, A.T., Paravasivam, K., Grotenbreg, G.M., Bertoletti, A., and Gehring, A.J. (2014). Building and optimizing a virus-specific T cell receptor library for targeted immunotherapy in viral infections. Scientific Reports 4, 4166.
73. Cornet, S., Miconnet, I., Menez, J., Lemonnier, F., and Kosmatopoulos, K. (2006). Optimal organization of a polypeptide-based candidate cancer vaccine composed of cryptic tumor peptides with enhanced immunogenicity. Vaccine 24, 2102-2109.
74. Depla, E., van der Aa, A., Livingston, B.D., Crimi, C, Allosery, K., de Brabandere, V., Krakover, J., Murthy, S., Huang, M., Power, S., et al. (2008). Rational design of a multiepitope vaccine encoding T-lymphocyte epitopes for treatment of chronic hepatitis В virus infections. Journal of Virology 82, 435 450.
75. Ishioka, G.Y., Fikes, J., Hermanson, G., Livingston, В., Crimi, C, Qin, M., del Guercio, M.F., Oseroff, С, Dahlberg, С, Alexander, J., et al. (1999). Utilization of MHC class I transgenic mice for development of minigene DNA vaccines encoding multiple HLA-restricted CTL epitopes. J Immunol 162, 3915-3925.
76. Janetzki, S., Price, L., Schroeder, H., Britten, СМ., Welters, M.J.P., and Hoos, A. (2015). Guidelines for the automated evaluation of Elispot assays. Nat Protoc 10, 1098 1115.
77. Lyons, G.E., Moore, Т., Brasic, N., Li, M., Roszkowski, J.J., and Nishimura, M.I. (2006). Influence of human CD8 on antigen recognition by T-cell receptor-transduced cells. Cancer Res 66, 11455 11461.
78. Nagai, K., Ochi, Т., Fujiwara, H., An, J., Shirakata, Т., Mineno, J., Kuzushima, K., Shiku, H., Melenhorst, J.J., Gostick, E., et al. (2012). Aurora kinase A-specific T-cell receptor gene transfer redirects T lymphocytes to display effective antileukemia reactivity. Blood 119, 368-376.
79. Panina-Bordignon, P., Tan, A., Termijtelen, A., Demotz, S., Corradin, G., and Lanzavecchia, A. (1989). Universally immunogenic T cell epitopes: promiscuous binding to human MHC class II and promiscuous recognition by T cells. Eur J Immunol 19, 2237 2242.
80. Vitiello, A., Marchesini, D., Furze, J., Sherman, L.A., and Chesnut, R.W. (1991). Analysis of the HLA-restricted influenza-specific cytotoxic T lymphocyte response in transgenic mice carrying a chimeric human-mouse class I major histocompatibility complex. J Exp Med 173, 1007-1015.
81. Yachi, P.P., Ampudia, J., Zal, Т., and Gascoigne, N.R.J. (2006). Altered peptide ligands induce delayed CD8-T cell receptor interaction--a role for CDS in distinguishing antigen quality. Immunity 25, 203-211.
82. Pushko P, Parker M, Ludwig GV, Davis NL, Johnston RE, Smith JF. Replicon-helper systems from attenuated Venezuelan equine encephalitis virus: expression of heterologous genes in vitro and immunization against heterologous pathogens in vivo. Virology. 1997 Dec 22;239(2):389-401.
83. Strauss, JH and E G Strauss. The alphaviruses: gene expression, replication, and evolution. Microbiol Rev. 1994 Sep; 58(3): 491-562.
84. Rhême C, Ehrengruber MU, Grandgirard D. Alphaviral cytotoxicity and its implication in vector development. Exp Physiol. 2005 Jan;90(1):45-52. Epub 2004 Nov 12.
85. Riley, Michael К. II, and Wilfred Vermerris. Recent Advances in Nanomaterials for Gene Delivery-A Review. Nanomaterials 2017, 7(5), 94.
86. Frolov I, Hardy R, Rice CM. Cis-acting RNA elements at the 5' end of Sindbis virus genome RNA regulate minus- and plus-strand RNA synthesis. RNA. 2001 Nov; 7(11): 1638-51.
87. Jose J, Snyder JE, Kuhn RJ. A structural and functional perspective of alphavirus replication and assembly. Future Microbiol. 2009 Sep;4(7): 837-56.
88. Bo Li and C. olin N. Dewey. RSEM: accurate transcript quantification from RNA-Seq data with or without a referenfe genome. BMC Bioinformatics, 12:323, August 2011
89. Hillary Pearson, Tariq Daouda, Diana Paola Granados, Chantal Durette, Eric Bonneil, Mathieu Courcelles, Anja Rodenbrock, Jean-Philippe Laverdure, Caroline Cote, Sylvie Mader, Sebastien Lemieux, Pierre Thibault, and Claude Perreault. MHC class I-associated peptides derive from selective regions of the human genome. The Journal of Clinical Investigation, 2016,
90. Juliane Liepe, Fabio Marino, John Sidney, Anita Jeko, Daniel E. Bunting, Alessandro Sette, Peter M. Kloetzel, Michael P. H. Stumpf, Albert J. R. Heck, Michele Mishto. A large fraction of HLA class I ligands are proteasome-generated spliced peptides. Science, 21, October 2016.
91. Mommen GP., Marino, F., Meiring HD., Poelen, MC, van Gaans-van den Brink, JA., Mohammed S., Heck AJ., and van Els CA. Sampling From the Proteome to the Human Leukocyte Antigen-DR (HLA-DR) Ligandome Proceeds Via High Specificity. Mol Cell Proteomics 15(4): 1412-1423, April 2016.
92. Sebastian Kreiter, Mathias Vormehr, Niels van de Roemer, Mustafa Diken, Martin Lower, Jan Diekmann, Sebastian Boegel, Barbara Schrörs, Fulvia Vascotto, John C. Castle, Arbel D. Tadmor, Stephen P. Schoenberger, Christoph Huber, Özlem Türeci, and Ugur Sahin. Mutant MHC class II epitopes drive therapeutic immune responses to caner. Nature 520, 692-696, April 2015.
93. Tran E., Turcotte S., Gros A, Robbins P.F., Lu Y.C., Dudley M.E., Wunderlich J.R., Somerville R.P., Hogan K., Hinrichs C.S., Parkhurst M.R., Yang J.C., Rosenberg S.A. Cancer immunotherapy based on mutation-specific CD4+T cells in a patient with epithelial cancer. Science 344(6184) 641-645, May 2014.
94. Andreatta M., Karosiene E., Rasmussen M., Stryhn A., Buus S., Nielsen M. Accurate pan-specific prediction of peptide-МНС class II binding affinity with improved binding core identification. Immunogenetics 67(11-12) 641-650, November 2015.
95. Nielsen, M., Lund, O. NN-align. An artificial neural network-based alignment algorithm for MHC class II peptide binding prediction. BMC Bioinformatics 10:296, September 2009.
96. Nielsen, M., Lundegaard, С, Lund, О. Prediction of MHC class II binding affinity using SMM-align, a novel stabilization matrix alignment method. BMC Bioinformatics 8:238, July 2007.
97. Zhang, J., et al. PEAKS DB: de novo sequencing assisted database search for sensitive and accurate peptide identification. Molecular & Cellular Proteomics. 11(4): 1-8. 1/2/2012.
98. Jensen, Kamilla Kjaergaard, et al. "Improved Methods for Prediting Peptide Binding Affinity to MHC Class II Molecules." Immunology, 2018, doi:10.1111/imin. 12889.
99. Carter, S.L., Cibulskis, K., Helman, E., McKenna, A., Shen, H., Zack, Т., Laird, P.W., Onofrio, R.C., Winckler, W., Weir, B.A., et al. (2012). Absolute quantification of somatic DNA alterations in human cancer. Nat. Biotechnol. 30, 413^-21
100. McGranahan, N., Rosenthal, R., Hiley, C.T., Rowan, A.J., Watkins, T.B.K., Wilson, G.A., Birkbak, N.J., Veeriah, S., Van Loo, P., Herrero, J., et al. (2017). Allele-Specific HLA Loss and Immune Escape in Lung Cancer Evolution. Cell 171, 1259-1271.ell.
101. Shukla, S.A., Rooney, M.S., Rajasagi, M., Tiao, G., Dixon, P.M., Lawrence, M.S., Stevens, J., Lane, W.J., Dellagatta, J.L., Steelman, S., et al. (2015). Comprehensive analysis of cancer-associated somatic mutations in class I HLA genes. Nat. Biotechnol. 33, 1152-1158.
102. Van Loo, P., Nordgard, S.H., Lingjaerde, O.C., Russnes, H.G., Rye, I.H., Sun, W., Weigman, V.J., Marynen, P., Zetterberg, A., Naume, В., et al. (2010). Allele-specific copy number analysis of tumors. Proc. Natl. Acad. Sci. U. S. A. 107, 16910-16915.
103. Van Loo, P., Nordgard, S.H., Lingjserde, O.C., Russnes, H.G, Rye, I.H., Sun, W., Weigman, V.J., Marynen, P., Zetterberg, A., Naume, В., et al. (2010). Allele-specific copy number analysis of tumors. Proc. Natl. Acad. Sci. U. S. A. 107, 16910 16915.
РАЗЛИЧНЫЕ ВАРИАНТЫ РЕАЛИЗАЦИИ ИЗОБРЕТЕНИЯ
1. В данном документе описан вирусный вектор, содержащий неоантиген или множество неоантигенов. В определенных вариантах реализации изобретения неоантиген идентифицируют с применением способа, описанного в данном документе, например, ниже. В определенных вариантах реализации изобретения неоантиген обладает по меньшей мере одной характеристикой или свойством, как описано в данном документе, например, ниже.
2. В данном документе описан способ идентификации одного или более неоантигенов из опухолевой клетки субъекта, которые могут быть презентированы на поверхности опухолевых клеток, при этом способ включает в себя этапы:
получения по меньшей мере одних данных сиквенирования нуклеотидов опухоли экзома, транскриптома или целого генома из опухолевой клетки субъекта, при этом данные сиквенирования нуклеотидов опухоли применяют для получения данных, представляющих пептидные последовательности каждого из набора неоантигенов, и при этом пептидная последовательность каждого неоантигена содержит по меньшей мере одно изменение, которое отличает его от соответствующей пептидной последовательности дикого типа;
ввода пептидной последовательности каждого неоантигена в одну или более презентационных моделей для генерации набора числовых вероятностей того, что каждый из неоантигенов презентирован одним или более аллелями ГКГС на поверхности опухолевой клетки субъекта или клеток, присутствующих в опухоли, при этом набор числовых вероятностей, идентифицируется, по меньшей мере, на основе полученных данных масс-спектрометрии; и
выбора подмножества из набора неоантигенов на основе набора числовых вероятностей для генерирования набора выбранных неоантигенов.
3. В определенных вариантах реализации изобретения количество набора выбранных неоантигенов составляет 20.
4. В определенных вариантах реализации изобретения презентационная модель представляет зависимость между:
присутствием пары конкретной одной из аллелей ГКГС и конкретной аминокислоты в определенном положении пептидной последовательности; и
вероятностью презентации на поверхности опухолевых клеток пары конкретной одной из аллелей ГКГС такой пептидной последовательности, содержащей конкретную аминокислоту в определенном положении.
5. В определенных вариантах реализации изобретения вводимая пептидная последовательность включает в себя:
применение одной или более презентационных моделей к пептидной последовательности соответствующего неоантигена для получения показателя зависимости для каждой из одной или более аллелей ГКГС, указывающей, будет ли аллель ГКГС презентировать соответствующий неоантиген на основе, по меньшей мере, положения аминокислот пептидной последовательности соответствующего неоантигена.
6. В определенных вариантах реализации изобретения способ дополнительно включает:
преобразование показателей зависимости для создания соответствующей вероятности для каждой аллели, для каждой аллели ГКГС, что указывает на вероятность того, что соответствующая аллель ГКГС презентирует соответствующий неоантиген; и
объединение вероятностей для каждой аллели с целью создания числовой вероятности.
7. В определенных вариантах реализации изобретения преобразование оценок зависимости может моделировать презентацию пептидной последовательности соответствующего неоантигена как взаимоисключающего.
8. В определенных вариантах реализации изобретения способ дополнительно включает: преобразование комбинации оценок зависимости для создания числовой вероятности.
9. В определенных вариантах реализации изобретения трансформация сочетания оценок зависимости моделирует презентацию пептидной последовательности соответствующего неоантигена как интерферирующую между аллелями ГКГС.
10. В определенных вариантах реализации изобретения набор числовых вероятностей может быть дополнительно идентифицирован, по меньшей мере, по не взаимодействующему с аллелью признаку, и дополнительно включать в себя:
применение аллели, не взаимодействующей с одной из одной или более презентационными моделями, к не взаимодействующим с аллелью признакам для создания оценок зависимости для не взаимодействующих с аллелью признаков, указывающих, будет ли презентирована пептидная последовательность соответствующего неоантигена на основе не взаимодействующих с аллелью признаков.
11. В определенных вариантах реализации изобретения способ дополнительно включает:
объединение показателя зависимости для каждой аллели ГКГС в одной или более аллелях ГКГС с показателем зависимости для не взаимодействующего с аллелью признака;
преобразование комбинированных оценок зависимостей для каждой аллели ГКГС с целью создания соответствующей вероятности для каждой аллели, для аллели ГКГС, что указывает на вероятность того, что соответствующая аллель ГКГС презентирует соответствующий неоантиген; и
объединение вероятностей для каждой аллели с целью создания числовой вероятности.
12. В определенных вариантах реализации изобретения способ дополнительно включает:
преобразование комбинации оценок зависимости для признаков не взаимодействующих с аллелью с целью создания числовой вероятности.
13. В определенных вариантах реализации изобретения набор пептидных последовательностей для обучения, идентифицированных как присутствующие во множестве образцов, и одна или более аллелей ГКГС, связанных с каждой последовательностью обучающего пептида, при этом последовательности пептидов для обучения идентифицируют с помощью масс-спектрометрии на выделенных пептидах, элюированных из аллелей ГКГС, полученных из множества образцов.
14. В определенных вариантах реализации изобретения набор данных для обучения дополнительно включает в себя данные об уровнях экспрессии мРНК опухолевой клетки.
15. В определенных вариантах реализации изобретения образцы содержат клеточные линии, сконструированные для экспрессии одной аллели ГКГС класса I или класса II.
16. В определенных вариантах реализации изобретения образцы содержат клеточные линии, сконструированные для экспрессии множества аллелей ГКГС класса I или класса II.
17. В определенных вариантах реализации изобретения образцы содержат клеточные линии человека, полученные или происходящие от множества пациентов.
18. В определенных вариантах реализации изобретения образцы содержат образцы свежей или замороженной опухоли, полученные от множества пациентов.
19. В определенных вариантах реализации изобретения образцы содержат образцы свежей или замороженной ткани, полученные от множества пациентов.
20. В определенных вариантах реализации изобретения образцы содержат пептиды, идентифицированные с применением анализа Т-клеток.
21. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с:
количеством пептидов в наборе пептидов для обучения, присутствующих в образцах;
длиной пептида из набора пептидов для обучения в образцах.
22. В определенных вариантах реализации изобретения набор данных для обучения создан путем сравнения набора последовательностей пептидов для обучения путем выравнивания с базой данных, содержащей набор известных последовательностей белков, при этом набор последовательностей белков для обучения длиннее и включает в себя последовательности пептидов для обучения.
23. В определенных вариантах реализации изобретения набор данных для обучения генерируется на основе выполнения масс-спектрометрии на клеточной линии для получения по меньшей мере одного из данных сиквенирования пептида экзома, транскриптома или целого генома из клеточной линии, причем данные сиквенирования пептида включают в себя, по меньшей мере, одну последовательность белка, включающую изменение.
24. В определенных вариантах реализации изобретения набор данных для обучения генерируется на основе получения по меньшей мере одного из данных сиквенирования нормальных нуклеотидов экзома, транскриптома и целого генома из образцов нормальной ткани.
25. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с последовательностями протеома, связанными с образцами.
26. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с последовательностями ГКГС пептидома, связанными с образцами.
27. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с измерениями аффинности связывания пептид-ГКГС, по меньшей мере, для одного из выделенных пептидов.
28. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с измерениями стабильности связывания пептид-ГКГС, по меньшей мере, для одного из выделенных пептидов.
29. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с транскриптомами, связанными с образцами
30. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с геномами, связанными с образцами.
31. В определенных вариантах реализации изобретения последовательности обучающего пептида имеют длину в диапазоне k-меров, где k составляет от 8 до 15 включительно.
32. В определенных вариантах реализации изобретения способ дополнительно включает в себя кодирование пептидной последовательности с применением схемы прямого кодирования.
33. В определенных вариантах реализации изобретения способ дополнительно содержит кодирование обучающих пептидных последовательностей с применением схемы прямого кодирования с левым отступом.
34. Также в данном документе описан способ лечения субъекта, имеющего опухоль, включающий в себя выполнение любого из этапов способов, описанных в данном документе, и дополнительно включающего в себя получение опухолевой вакцины, содержащей набор выбранных неоантигенов, и введение опухолевой вакцины субъекту.
35. Также в данном документе описан способ изготовления противоопухолевой вакцины, включающий в себя выполнение любого из этапов способа, описанного в данном документе, и дополнительно включающий в себя изготовление или производство противоопухолевой вакцины, содержащей набор выбранных неоантигенов.
36. Также в данном документе описана противоопухолевая вакцина, содержащая набор выбранных неоантигенов, выбранных с помощью способа, описанного в данном документе.
37. В определенных вариантах реализации изобретения противоопухолевая вакцина включает в себя одну или более нуклеотидных последовательностей, полипептидных последовательностей, РНК, ДНК, клетки, плазмиды или вектора.
38. В определенных вариантах реализации изобретения противоопухолевая вакцина включает в себя один или более неоантигенов, презентированных на поверхности опухолевых клеток.
39. В определенных вариантах реализации изобретения противоопухолевая вакцина включает в себя один или более неоантигенов, которые являются иммуногенными для субъекта.
40. В определенных вариантах реализации изобретения противоопухолевая вакцина включает в себя один или более неоантигенов, которые вызывают аутоиммунный ответ против нормальной ткани у субъекта.
41. В определенных вариантах реализации изобретения противоопухолевая вакцина дополнительно включает в себя вспомогательное вещество.
42. В определенных вариантах реализации изобретения противоопухолевая вакцина дополнительно включает в себя наполнитель.
43. В определенных вариантах реализации изобретения отбор набора отобранных неоантигенов включает в себя отбор неоантигенов, которые имеют повышенную вероятность быть презентированными на поверхности опухолевых клеток по сравнению с невыбранными неоантигенами на основе презентационной модели.
44. В определенных вариантах реализации изобретения отбор набора отобранных неоантигенов включает в себя отбор неоантигенов, которые имеют повышенную вероятность того, что они способны индуцировать специфический для опухоли иммунный ответ у субъекта по сравнению с невыбранными неоантигенами на основе презентационной модели.
45. В определенных вариантах реализации изобретения отбор набора отобранных неоантигенов включает в себя отбор неоантигенов, которые имеют повышенную вероятность того, что они могут быть презентированы наивным Т-клеткам специализированными антигенпрезентирующими клетками (АПК) по сравнению с невыбранными неоантигенами на основе презентационной модели, необязательно, при этом АПК представляет собой дендритную клетку (ДК).
46. В определенных вариантах реализации изобретения отбор набора отобранных неоантигенов включает в себя отбор неоантигенов, которые имеют пониженную вероятность подвергнуться ингибированию через центральную или периферическую толерантность по сравнению с невыбранными неоантигенами на основе презентационной модели.
47. В определенных вариантах реализации изобретения отбор набора отобранных неоантигенов включает в себя отбор неоантигенов, которые имеют пониженную вероятность того, что они способны индуцировать аутоиммунный ответ на нормальную ткань у субъекта по сравнению с невыбранными неоантигенами на основе презентационной модели.
48. В определенных вариантах реализации изобретения данные сиквенирования нуклеотидов экзома или транскриптома получают путем выполнения сиквенирования на опухолевой ткани.
49. В определенных вариантах реализации изобретения сиквенирование представляет собой сиквенирование следующего поколения (NGS - next generation sequencing) или любой подход массового параллельного сиквенирования.
50. В определенных вариантах реализации изобретения набор числовых вероятностей дополнительно идентифицируется по меньшей мере по взаимодействующим с ГКГС-аллелью признакам, включающим в себя по меньшей мере одно из:
a. Предсказанную аффинность, с которой связываются аллель ГКГС и кодируемый неоантигеном пептид.
b. Предсказанную стабильность комплекса пептид-ГКГС, кодируемого неоантигеном.
c. Последовательность и длину пептида, кодируемого неоантигеном.
d. Вероятность презентации пептидов кодируемых неоантигеном с аналогичной последовательностью в клетках от других индивидуумов, экспрессирующих конкретную аллель ГКГС, как оценивают с помощью масс-спектрометрии протеомики или другими способами.
e. Уровни экспрессии конкретной аллели ГКГС у данного субъекта (например, при измерении с помощью РНК-сек или масс-спектрометрии).
f. Общую кодирующуюся неоантигеном пептидную последовательность, независимую от вероятности презентации конкретной аллелью ГКГС у других отдельных субъектов, которые экспрессируют конкретную аллель ГКГС.
g. Общую кодирующуюся неоантигеном пептидную последовательность, независимую от вероятности презентации аллелями ГКГС в одном семействе молекул (например, HLA-A, HLA-B, HLA-C, HLA-DQ, HLA-DR, HLA-DP) у других отдельных субъектов.
51. В определенных вариантах реализации изобретения набор числовых вероятностей дополнительно идентифицируется по меньшей мере по взаимодействующим с ГКГС-аллелью признакам, включающим в себя по меньшей мере одно из:
а. С- и N-концевые последовательности, фланкирующие пептид, кодируемый неоантигеном, в пределах его последовательности исходного белка.
b. Присутствие мотивов расщепления протеазой в кодирующемся неоантигеном пептиде, необязательно оцененных в соответствии с экспрессией соответствующих протеаз в опухолевых клетках (как измерено с помощью РНК-сек или масс-спектрометрии).
c. Скорость метаболизма исходного белка, измеренную в соответствующем типе клеток.
d. Длину исходного белка, необязательно с учетом конкретных вариантов сплайсинга ("изоформ"), экспрессируемых на наиболее высоком уровне в опухолевых клетках, как измерено с помощью РНК-сек или масс-спектрометрии протеома, или как предсказано из аннотации мутации зародышевой линии или соматического сплайсинга, обнаруженные в данных последовательности ДНК или РНК.
e. Уровень экспрессии протеасомы, иммунопротеасомы, тимопротеасомы или других протеаз в опухолевых клетках (что может быть измерено с помощью РНК-сек, масс-спектрометрии протеома или иммуногистохимии).
f. Экспрессию исходного гена пептида, кодирующегося неоантигеном (например, измеренную с помощью РНК-сек или масс-спектрометрии).
g. Типичную тканеспецифическую экспрессию исходного гена пептида кодирующегося неоантигеном на различных стадиях клеточного цикла.
h. Полный каталог свойств исходного белка и/или его доменов, который можно найти, например, в uniProt или PDB http://www.rcsb.org/pdb/home/home.do.
i. Признаки, описывающие свойства домена исходного белка, содержащего пептид, например: вторичную или третичную структуру (например, альфа-спираль против бета-л иста); Альтернативный сплайсинг.
j. Вероятность презентации пептидов из исходного белка рассматриваемого пептида, кодируемого неоантигеном, у других отдельных субъектов.
k. Вероятность того, что пептид не будет обнаружен или чрезмерно презентирован с применением масс-спектрометрии из-за технических ошибок.
1. Экспрессия различных генных модулей/путей, измеренных с помощью РНКсек (которые не обязательно должны содержать исходный белок пептида), которые информативны о состоянии опухолевых клеток, стромы или инфильтрирующих опухоль лимфоцитов (ИОЛ).
m. Число копий исходного гена пептида, кодируемого неоантигеном, в опухолевых клетках.
n. Вероятность того, что пептид связывается с ТАР, или измеренную или прогнозируемую аффинность связывания пептида с ТАР.
о. Уровень экспрессии ТАР в опухолевых клетках (который может быть измерен с помощью РНК-сек, масс-спектрометрии протеома, иммуногистохимии).
р. Наличие или отсутствие опухолевых мутаций, в том числе, но без ограничений:
i. Драйверные мутации в известных драйверных генах рака, таких как EGFR, KRAS, ALK, RET, ROS1, ТР53, CDKN2A, CDKN2B, NTRK1, NTRK2, NTRK3.
ii. В генах, кодирующих белки, вовлеченные в механизм презентации антигена (например, В2М, HLA-A, HLA-B, HLA-C, ТАР-1, ТАР-2, ТАРВР, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOB, HLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5 или любой из генов, кодирующих компоненты протеасомы или иммунопротеасомы). Пептиды, презентации которых зависит от компонента механизма презентации антигена, который подвержен мутации потери функции в опухоли, имеют сниженную вероятность презентации.
q. Наличие или отсутствие функциональных полиморфизмов зародышевой линии, включает в себя, но без ограничений:
i. В генах, кодирующих белки, вовлеченные в механизм презентации антигена (например, В2М, HLA-A, HLA-B, HLA-C, ТАР-1, ТАР-2, ТАРВР, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOB, HLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5 или любой из генов, кодирующих компоненты протеасомы или иммунопротеасомы).
r. Тип опухоли (например, НМРЛ, меланому).
s. Клинический подтип опухоли (например, плоскоклеточный рак легкого по сравнению с неплоскоклеточным).
t Анамнез курения
u. Типичную экспрессию исходного гена пептида в соответствующем типе опухоли или клиническом подтипе, необязательно стратифицированном драйверной мутацией.
52. В определенных вариантах реализации изобретения, по меньшей мере, одна мутация представляет собой индел со смещением рамки считывания или без смещения рамки считывания, миссенс или нонсенс замену, изменение сайта сплайсинга, геномную перестройку или слияние генов, или любое изменение генома или экспрессии, приводящее к неоОРС.
53. В определенных вариантах реализации изобретения опухолевая клетка выбрана из группы, состоящей из: рака легкого, меланомы, рака молочной железы, рака яичника, рака предстательной, рака почки, рака желудка, рака толстой кишки, рака яичка, рака головы и шеи, рака поджелудочной железы, рака мозга, В-клеточной лимфомы, острого миелогенного лейкоза, хронического миелогенного лейкоза, хронического лимфоцитарного лейкоза и Т-клеточного лимфоцитарного лейкоза, немелкоклеточного рака легкого и мелкоклеточного рака легкого.
54. В определенных вариантах реализации изобретения способ дополнительно включает в себя получение противоопухолевой вакцины, содержащей набор выбранных неоантигенов или их подмножество, необязательно дополнительно включающий в себя введение противоопухолевой вакцины субъекту.
55. В определенных вариантах реализации изобретения по меньшей мере один из неоантигенов в наборе выбранных неоантигенов, когда он находится в полипептидной форме, включает в себя, по меньшей мере, одно из: аффинность связывания с ГКГС со значением ИК50 менее 1000 нМ для полипептидов ГКГС класса 1 длиной от 8 до 15, 8, 9, 10, 11, 12, 13, 14 или 15 аминокислот, наличие мотивов последовательности в пределах или вблизи полипептида в последовательности исходного белка, способствующего расщеплению протеасом, и наличие мотивов последовательности, способствующих транспорту ТАР.
56. Также в данном документе описан способ получения модели для идентификации одного или более неоантигенов, которые могут быть презентированы на поверхности опухолевой клетки, включающий в себя выполнение следующих этапов:
получения данных масс-спектрометрии, содержащих данные, связанные с множеством выделенных пептидов элюированых из главного комплекса гистосовместимости (ГКГС), полученного из множества образцов;
получение набора данных для обучения, по меньшей мере, путем идентификации набора пептидных последовательностей для обучения, присутствующих в образцах, и одного или более ГКГС, связанных с каждой пептидной последовательностью для обучения;
набор числовых параметров презентационной модели для обучения с применением набора данных для обучения, включающего пептидные последовательности для обучения, причем презентационная модель обеспечивает множество числовых вероятностей того, что пептидные последовательности из опухолевой клетки презентированы одним или более аллелями ГКГС на поверхности опухолевой клетки.
57. В определенных вариантах реализации изобретения презентационная модель представляет зависимость между:
присутствием пары конкретного одного из аллелей ГКГС и конкретной аминокислоты в определенном положении пептидной последовательности; и
вероятность презентации одним из аллелей ГКГС на опухолевой клетке пептидной последовательности, содержащей определенную аминокислоту в определенном положении.
58. В определенных вариантах реализации изобретения образцы содержат клеточные линии, сконструированные для экспрессии одной аллели ГКГС класса I или класса II.
59. В определенных вариантах реализации изобретения образцы содержат клеточные линии, сконструированные для экспрессии множества аллелей ГКГС класса I или класса II.
60. В определенных вариантах реализации изобретения образцы содержат клеточные линии человека, полученные или происходящие от множества пациентов.
61. В определенных вариантах реализации изобретения образцы содержат образцы свежей или замороженной опухоли, полученные от множества пациентов.
62. В определенных вариантах реализации изобретения образцы содержат пептиды, идентифицированные с применением анализа Т-клеток.
63. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с:
количеством пептидов в наборе пептидов для обучения, присутствующих в образцах; длиной пептида из набора пептидов для обучения в образцах.
64. В определенных вариантах реализации изобретения набор данных для обучения включает в себя:
получение набора последовательностей белков для обучения на основе последовательностей пептидов для обучения путем выравнивания с базой данных, содержащей набор известных последовательностей белков, при этом набор последовательностей белков для обучения длиннее и включает в себя последовательности пептидов для обучения.
65. В определенных вариантах реализации изобретения получение набора данных для обучения включает в себя:
проведение масс-спектрометрии на клеточной линии для получения по меньшей мере одних из данных сиквенирования нуклеотидов экзома, транскриптома или целого генома из клеточной линии, данные сиквенирования нуклеотида включают в себя, по меньшей мере, одну последовательность белка, включающую мутацию.
66. В определенных вариантах реализации изобретения обучение набора параметров презентационной модели включает в себя:
кодирование обучающих пептидных последовательностей с применением схемы прямого кодирования.
67. В определенных вариантах реализации изобретения способ дополнительно включает:
получение по меньшей мере одного из данных сиквенирования нормальных нуклеотидов экзома, транскриптома и целого генома из образцов нормальной ткани; и
обучение набора параметров презентационной модели с применением данных нормального нуклеотидного сиквенирования.
68. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с последовательностями протеома, связанными с образцами.
69. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с последовательностями ГКГС пептидома, связанными с образцами.
70. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с измерениями аффинности связывания пептид-ГКГС, по меньшей мере, для одного из выделенных пептидов.
71. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с измерениями стабильности связывания пептид-ГКГС, по меньшей мере, для одного из выделенных пептидов.
72. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с транскриптомами, связанными с образцами.
73. В определенных вариантах реализации изобретения набор данных для обучения дополнительно содержит данные, связанные с геномами, связанными с образцами.
74. В определенных вариантах реализации изобретения обучение набора числовых параметров включает в себя:
логистическую регрессию набора параметров.
75. В определенных вариантах реализации изобретения последовательности обучающего пептида имеют длину в диапазоне k-меров, где k составляет от 8 до 15 включительно.
76. В определенных вариантах реализации изобретения обучение набора числовых параметров презентационной модели включает в себя:
кодирование обучающих пептидных последовательностей с применением схемы прямого кодирования с левым отступом.
77. В определенных вариантах реализации изобретения обучение набора числовых параметров включает в себя:
определение значений для набора параметров с применением алгоритма глубокого обучения.
78. Также в данном документе описан способ получения модели для идентификации одного или более неоантигенов, которые могут быть презентированы на поверхности опухолевой клетки, включающий в себя выполнение следующих этапов:
получения данных масс-спектрометрии, содержащих данные, связанные с множеством выделенных пептидов элюированых из главного комплекса гистосовместимости (ГКГС), полученного из множества образцов свежей или замороженной опухоли;
получение набора данных для обучения, по меньшей мере, путем идентификации набора пептидных последовательностей для обучения, присутствующих в образцах опухоли, и презентированных на одной или более аллелях ГКГС, связанных с каждой пептидной последовательностью для обучения;
получение набора последовательностей белков для обучения на основе последовательностей пептидов для обучения; и
обучение набора числовых параметров презентационной модели с применением белковых последовательностей для обучения и пептидных последовательностей для обучения, причем презентационная модель обеспечивает множество числовых вероятностей того, что пептидные последовательности из опухолевой клетки презентированы одним или более аллелями ГКГС на поверхности опухолевой клетки.
79. В определенных вариантах реализации изобретения презентационная модель представляет зависимость между:
присутствием пары конкретной одной из аллелей ГКГС и конкретной аминокислоты в определенном положении пептидной последовательности; и
вероятностью презентации на поверхности опухолевых клеток пары конкретной одной из аллелей ГКГС такой пептидной последовательности, содержащей конкретную аминокислоту в определенном положении.
--->
ПЕРЕЧЕНЬ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
<110> GRITSTONE BIO, INC.
<120> НЕОАНТИГЕННЫЕ ВЕКТОРЫ НА ОСНОВЕ АЛЬФАВИРУСА
<130> GSO-006WOUS
<140> 16/612,352
<141> 2019-11-08
<150> PCT/US2018/031696
<151> 2018-05-08
<150> 62/590,163
<151> 2017-11-22
<150> 62/523,201
<151> 2017-06-21
<150> 62/503,283
<151> 2017-05-08
<160> 193
<170> PatentIn версия 3.5
<210> 1
<211> 36519
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 1
ccatcttcaa taatatacct caaacttttt gtgcgcgtta atatgcaaat gaggcgtttg
60
aatttgggga ggaagggcgg tgattggtcg agggatgagc gaccgttagg ggcggggcga
120
gtgacgtttt gatgacgtgg ttgcgaggag gagccagttt gcaagttctc gtgggaaaag
180
tgacgtcaaa cgaggtgtgg tttgaacacg gaaatactca attttcccgc gctctctgac
240
aggaaatgag gtgtttctgg gcggatgcaa gtgaaaacgg gccattttcg cgcgaaaact
300
gaatgaggaa gtgaaaatct gagtaatttc gcgtttatgg cagggaggag tatttgccga
360
gggccgagta gactttgacc gattacgtgg gggtttcgat taccgtgttt ttcacctaaa
420
tttccgcgta cggtgtcaaa gtccggtgtt tttacgtagg tgtcagctga tcgccagggt
480
atttaaacct gcgctctcca gtcaagaggc cactcttgag tgccagcgag aagagttttc
540
tcctccgcgc cgcgagtcag atctacactt tgaaagatga ggcacctgag agacctgccc
600
gatgagaaaa tcatcatcgc ttccgggaac gagattctgg aactggtggt aaatgccatg
660
atgggcgacg accctccgga gccccccacc ccatttgaga caccttcgct gcacgatttg
720
tatgatctgg aggtggatgt gcccgaggac gatcccaatg aggaggcggt aaatgatttt
780
tttagcgatg ccgcgctgct agctgccgag gaggcttcga gctctagctc agacagcgac
840
tcttcactgc atacccctag acccggcaga ggtgagaaaa agatccccga gcttaaaggg
900
gaagagatgg acttgcgctg ctatgaggaa tgcttgcccc cgagcgatga tgaggacgag
960
caggcgatcc agaacgcagc gagccaggga gtgcaagccg ccagcgagag ctttgcgctg
1020
gactgcccgc ctctgcccgg acacggctgt aagtcttgtg aatttcatcg catgaatact
1080
ggagataaag ctgtgttgtg tgcactttgc tatatgagag cttacaacca ttgtgtttac
1140
agtaagtgtg attaagttga actttagagg gaggcagaga gcagggtgac tgggcgatga
1200
ctggtttatt tatgtatata tgttctttat ataggtcccg tctctgacgc agatgatgag
1260
acccccacta caaagtccac ttcgtcaccc ccagaaattg gcacatctcc acctgagaat
1320
attgttagac cagttcctgt tagagccact gggaggagag cagctgtgga atgtttggat
1380
gacttgctac agggtggggt tgaacctttg gacttgtgta cccggaaacg ccccaggcac
1440
taagtgccac acatgtgtgt ttacttgagg tgatgtcagt atttataggg tgtggagtgc
1500
aataaaaaat gtgttgactt taagtgcgtg gtttatgact caggggtggg gactgtgagt
1560
atataagcag gtgcagacct gtgtggttag ctcagagcgg catggagatt tggacggtct
1620
tggaagactt tcacaagact agacagctgc tagagaacgc ctcgaacgga gtctcttacc
1680
tgtggagatt ctgcttcggt ggcgacctag ctaggctagt ctacagggcc aaacaggatt
1740
atagtgaaca atttgaggtt attttgagag agtgttctgg tctttttgac gctcttaact
1800
tgggccatca gtctcacttt aaccagagga tttcgagagc ccttgatttt actactcctg
1860
gcagaaccac tgcagcagta gccttttttg cttttattct tgacaaatgg agtcaagaaa
1920
cccatttcag cagggattac cagctggatt tcttagcagt agctttgtgg agaacatgga
1980
agtgccagcg cctgaatgca atctccggct acttgccggt acagccgcta gacactctga
2040
ggatcctgaa tctccaggag agtcccaggg cacgccaacg tcgccagcag cagcagcagg
2100
aggaggatca agaagagaac ccgagagccg gcctggaccc tccggcggag gaggaggagt
2160
agctgacctg tttcctgaac tgcgccgggt gctgactagg tcttcgagtg gtcgggagag
2220
ggggattaag cgggagaggc atgatgagac taatcacaga actgaactga ctgtgggtct
2280
gatgagtcgc aagcgcccag aaacagtgtg gtggcatgag gtgcagtcga ctggcacaga
2340
tgaggtgtcg gtgatgcatg agaggttttc tctagaacaa gtcaagactt gttggttaga
2400
gcctgaggat gattgggagg tagccatcag gaattatgcc aagctggctc tgaggccaga
2460
caagaagtac aagattacta agctgataaa tatcagaaat gcctgctaca tctcagggaa
2520
tggggctgaa gtggagatct gtctccagga aagggtggct ttcagatgct gcatgatgaa
2580
tatgtacccg ggagtggtgg gcatggatgg ggttaccttt atgaacatga ggttcagggg
2640
agatgggtat aatggcacgg tctttatggc caataccaag ctgacagtcc atggctgctc
2700
cttctttggg tttaataaca cctgcatcga ggcctggggt caggtcggtg tgaggggctg
2760
cagtttttca gccaactgga tgggggtcgt gggcaggacc aagagtatgc tgtccgtgaa
2820
gaaatgcttg tttgagaggt gccacctggg ggtgatgagc gagggcgaag ccagaatccg
2880
ccactgcgcc tctaccgaga cgggctgctt tgtgctgtgc aagggcaatg ctaagatcaa
2940
gcataatatg atctgtggag cctcggacga gcgcggctac cagatgctga cctgcgccgg
3000
cgggaacagc catatgctgg ccaccgtaca tgtggcttcc catgctcgca agccctggcc
3060
cgagttcgag cacaatgtca tgaccaggtg caatatgcat ctggggtccc gccgaggcat
3120
gttcatgccc taccagtgca acctgaatta tgtgaaggtg ctgctggagc ccgatgccat
3180
gtccagagtg agcctgacgg gggtgtttga catgaatgtg gaggtgtgga agattctgag
3240
atatgatgaa tccaagacca ggtgccgagc ctgcgagtgc ggagggaagc atgccaggtt
3300
ccagcccgtg tgtgtggatg tgacggagga cctgcgaccc gatcatttgg tgttgccctg
3360
caccgggacg gagttcggtt ccagcgggga agaatctgac tagagtgagt agtgttctgg
3420
ggcgggggag gacctgcatg agggccagaa taactgaaat ctgtgctttt ctgtgtgttg
3480
cagcagcatg agcggaagcg gctcctttga gggaggggta ttcagccctt atctgacggg
3540
gcgtctcccc tcctgggcgg gagtgcgtca gaatgtgatg ggatccacgg tggacggccg
3600
gcccgtgcag cccgcgaact cttcaaccct gacctatgca accctgagct cttcgtcgtt
3660
ggacgcagct gccgccgcag ctgctgcatc tgccgccagc gccgtgcgcg gaatggccat
3720
gggcgccggc tactacggca ctctggtggc caactcgagt tccaccaata atcccgccag
3780
cctgaacgag gagaagctgt tgctgctgat ggcccagctc gaggccttga cccagcgcct
3840
gggcgagctg acccagcagg tggctcagct gcaggagcag acgcgggccg cggttgccac
3900
ggtgaaatcc aaataaaaaa tgaatcaata aataaacgga gacggttgtt gattttaaca
3960
cagagtctga atctttattt gatttttcgc gcgcggtagg ccctggacca ccggtctcga
4020
tcattgagca cccggtggat cttttccagg acccggtaga ggtgggcttg gatgttgagg
4080
tacatgggca tgagcccgtc ccgggggtgg aggtagctcc attgcagggc ctcgtgctcg
4140
ggggtggtgt tgtaaatcac ccagtcatag caggggcgca gggcatggtg ttgcacaata
4200
tctttgagga ggagactgat ggccacgggc agccctttgg tgtaggtgtt tacaaatctg
4260
ttgagctggg agggatgcat gcggggggag atgaggtgca tcttggcctg gatcttgaga
4320
ttggcgatgt taccgcccag atcccgcctg gggttcatgt tgtgcaggac caccagcacg
4380
gtgtatccgg tgcacttggg gaatttatca tgcaacttgg aagggaaggc gtgaaagaat
4440
ttggcgacgc ctttgtgccc gcccaggttt tccatgcact catccatgat gatggcgatg
4500
ggcccgtggg cggcggcctg ggcaaagacg tttcgggggt cggacacatc atagttgtgg
4560
tcctgggtga ggtcatcata ggccatttta atgaatttgg ggcggagggt gccggactgg
4620
gggacaaagg taccctcgat cccgggggcg tagttcccct cacagatctg catctcccag
4680
gctttgagct cggagggggg gatcatgtcc acctgcgggg cgataaagaa cacggtttcc
4740
ggggcggggg agatgagctg ggccgaaagc aagttccgga gcagctggga cttgccgcag
4800
ccggtggggc cgtagatgac cccgatgacc ggctgcaggt ggtagttgag ggagagacag
4860
ctgccgtcct cccggaggag gggggccacc tcgttcatca tctcgcgcac gtgcatgttc
4920
tcgcgcacca gttccgccag gaggcgctct ccccccaggg ataggagctc ctggagcgag
4980
gcgaagtttt tcagcggctt gagtccgtcg gccatgggca ttttggagag ggtttgttgc
5040
aagagttcca ggcggtccca gagctcggtg atgtgctcta cggcatctcg atccagcaga
5100
cctcctcgtt tcgcgggttg ggacggctgc gggagtaggg caccagacga tgggcgtcca
5160
gcgcagccag ggtccggtcc ttccagggtc gcagcgtccg cgtcagggtg gtctccgtca
5220
cggtgaaggg gtgcgcgccg ggctgggcgc ttgcgagggt gcgcttcagg ctcatccggc
5280
tggtcgaaaa ccgctcccga tcggcgccct gcgcgtcggc caggtagcaa ttgaccatga
5340
gttcgtagtt gagcgcctcg gccgcgtggc ctttggcgcg gagcttacct ttggaagtct
5400
gcccgcaggc gggacagagg agggacttga gggcgtagag cttgggggcg aggaagacgg
5460
actcgggggc gtaggcgtcc gcgccgcagt gggcgcagac ggtctcgcac tccacgagcc
5520
aggtgaggtc gggctggtcg gggtcaaaaa ccagtttccc gccgttcttt ttgatgcgtt
5580
tcttaccttt ggtctccatg agctcgtgtc cccgctgggt gacaaagagg ctgtccgtgt
5640
ccccgtagac cgactttatg ggccggtcct cgagcggtgt gccgcggtcc tcctcgtaga
5700
ggaaccccgc ccactccgag acgaaagccc gggtccaggc cagcacgaag gaggccacgt
5760
gggacgggta gcggtcgttg tccaccagcg ggtccacctt ttccagggta tgcaaacaca
5820
tgtccccctc gtccacatcc aggaaggtga ttggcttgta agtgtaggcc acgtgaccgg
5880
gggtcccggc cgggggggta taaaagggtg cgggtccctg ctcgtcctca ctgtcttccg
5940
gatcgctgtc caggagcgcc agctgttggg gtaggtattc cctctcgaag gcgggcatga
6000
cctcggcact caggttgtca gtttctagaa acgaggagga tttgatattg acggtgccgg
6060
cggagatgcc tttcaagagc ccctcgtcca tctggtcaga aaagacgatc tttttgttgt
6120
cgagcttggt ggcgaaggag ccgtagaggg cgttggagag gagcttggcg atggagcgca
6180
tggtctggtt tttttccttg tcggcgcgct ccttggcggc gatgttgagc tgcacgtact
6240
cgcgcgccac gcacttccat tcggggaaga cggtggtcag ctcgtcgggc acgattctga
6300
cctgccagcc ccgattatgc agggtgatga ggtccacact ggtggccacc tcgccgcgca
6360
ggggctcatt agtccagcag aggcgtccgc ccttgcgcga gcagaagggg ggcagggggt
6420
ccagcatgac ctcgtcgggg gggtcggcat cgatggtgaa gatgccgggc aggaggtcgg
6480
ggtcaaagta gctgatggaa gtggccagat cgtccagggc agcttgccat tcgcgcacgg
6540
ccagcgcgcg ctcgtaggga ctgaggggcg tgccccaggg catgggatgg gtaagcgcgg
6600
aggcgtacat gccgcagatg tcgtagacgt agaggggctc ctcgaggatg ccgatgtagg
6660
tggggtagca gcgccccccg cggatgctgg cgcgcacgta gtcatacagc tcgtgcgagg
6720
gggcgaggag ccccgggccc aggttggtgc gactgggctt ttcggcgcgg tagacgatct
6780
ggcggaaaat ggcatgcgag ttggaggaga tggtgggcct ttggaagatg ttgaagtggg
6840
cgtggggcag tccgaccgag tcgcggatga agtgggcgta ggagtcttgc agcttggcga
6900
cgagctcggc ggtgactagg acgtccagag cgcagtagtc gagggtctcc tggatgatgt
6960
catacttgag ctgtcccttt tgtttccaca gctcgcggtt gagaaggaac tcttcgcggt
7020
ccttccagta ctcttcgagg gggaacccgt cctgatctgc acggtaagag cctagcatgt
7080
agaactggtt gacggccttg taggcgcagc agcccttctc cacggggagg gcgtaggcct
7140
gggcggcctt gcgcagggag gtgtgcgtga gggcgaaagt gtccctgacc atgaccttga
7200
ggaactggtg cttgaagtcg atatcgtcgc agcccccctg ctcccagagc tggaagtccg
7260
tgcgcttctt gtaggcgggg ttgggcaaag cgaaagtaac atcgttgaag aggatcttgc
7320
ccgcgcgggg cataaagttg cgagtgatgc ggaaaggttg gggcacctcg gcccggttgt
7380
tgatgacctg ggcggcgagc acgatctcgt cgaagccgtt gatgttgtgg cccacgatgt
7440
agagttccac gaatcgcgga cggcccttga cgtggggcag tttcttgagc tcctcgtagg
7500
tgagctcgtc ggggtcgctg agcccgtgct gctcgagcgc ccagtcggcg agatgggggt
7560
tggcgcggag gaaggaagtc cagagatcca cggccagggc ggtttgcaga cggtcccggt
7620
actgacggaa ctgctgcccg acggccattt tttcgggggt gacgcagtag aaggtgcggg
7680
ggtccccgtg ccagcgatcc catttgagct ggagggcgag atcgagggcg agctcgacga
7740
gccggtcgtc cccggagagt ttcatgacca gcatgaaggg gacgagctgc ttgccgaagg
7800
accccatcca ggtgtaggtt tccacatcgt aggtgaggaa gagcctttcg gtgcgaggat
7860
gcgagccgat ggggaagaac tggatctcct gccaccaatt ggaggaatgg ctgttgatgt
7920
gatggaagta gaaatgccga cggcgcgccg aacactcgtg cttgtgttta tacaagcggc
7980
cacagtgctc gcaacgctgc acgggatgca cgtgctgcac gagctgtacc tgagttcctt
8040
tgacgaggaa tttcagtggg aagtggagtc gtggcgcctg catctcgtgc tgtactacgt
8100
cgtggtggtc ggcctggccc tcttctgcct cgatggtggt catgctgacg agcccgcgcg
8160
ggaggcaggt ccagacctcg gcgcgagcgg gtcggagagc gaggacgagg gcgcgcaggc
8220
cggagctgtc cagggtcctg agacgctgcg gagtcaggtc agtgggcagc ggcggcgcgc
8280
ggttgacttg caggagtttt tccagggcgc gcgggaggtc cagatggtac ttgatctcca
8340
ccgcgccatt ggtggcgacg tcgatggctt gcagggtccc gtgcccctgg ggtgtgacca
8400
ccgtcccccg tttcttcttg ggcggctggg gcgacggggg cggtgcctct tccatggtta
8460
gaagcggcgg cgaggacgcg cgccgggcgg caggggcggc tcggggcccg gaggcagggg
8520
cggcaggggc acgtcggcgc cgcgcgcggg taggttctgg tactgcgccc ggagaagact
8580
ggcgtgagcg acgacgcgac ggttgacgtc ctggatctga cgcctctggg tgaaggccac
8640
gggacccgtg agtttgaacc tgaaagagag ttcgacagaa tcaatctcgg tatcgttgac
8700
ggcggcctgc cgcaggatct cttgcacgtc gcccgagttg tcctggtagg cgatctcggt
8760
catgaactgc tcgatctcct cctcttgaag gtctccgcgg ccggcgcgct ccacggtggc
8820
cgcgaggtcg ttggagatgc ggcccatgag ctgcgagaag gcgttcatgc ccgcctcgtt
8880
ccagacgcgg ctgtagacca cgacgccctc gggatcgcgg gcgcgcatga ccacctgggc
8940
gaggttgagc tccacgtggc gcgtgaagac cgcgtagttg cagaggcgct ggtagaggta
9000
gttgagcgtg gtggcgatgt gctcggtgac gaagaaatac atgatccagc ggcggagcgg
9060
catctcgctg acgtcgccca gcgcctccaa acgttccatg gcctcgtaaa agtccacggc
9120
gaagttgaaa aactgggagt tgcgcgccga gacggtcaac tcctcctcca gaagacggat
9180
gagctcggcg atggtggcgc gcacctcgcg ctcgaaggcc cccgggagtt cctccacttc
9240
ctcttcttcc tcctccacta acatctcttc tacttcctcc tcaggcggca gtggtggcgg
9300
gggagggggc ctgcgtcgcc ggcggcgcac gggcagacgg tcgatgaagc gctcgatggt
9360
ctcgccgcgc cggcgtcgca tggtctcggt gacggcgcgc ccgtcctcgc ggggccgcag
9420
cgtgaagacg ccgccgcgca tctccaggtg gccggggggg tccccgttgg gcagggagag
9480
ggcgctgacg atgcatctta tcaattgccc cgtagggact ccgcgcaagg acctgagcgt
9540
ctcgagatcc acgggatctg aaaaccgctg aacgaaggct tcgagccagt cgcagtcgca
9600
aggtaggctg agcacggttt cttctggcgg gtcatgttgg ttgggagcgg ggcgggcgat
9660
gctgctggtg atgaagttga aataggcggt tctgagacgg cggatggtgg cgaggagcac
9720
caggtctttg ggcccggctt gctggatgcg cagacggtcg gccatgcccc aggcgtggtc
9780
ctgacacctg gccaggtcct tgtagtagtc ctgcatgagc cgctccacgg gcacctcctc
9840
ctcgcccgcg cggccgtgca tgcgcgtgag cccgaagccg cgctggggct ggacgagcgc
9900
caggtcggcg acgacgcgct cggcgaggat ggcttgctgg atctgggtga gggtggtctg
9960
gaagtcatca aagtcgacga agcggtggta ggctccggtg ttgatggtgt aggagcagtt
10020
ggccatgacg gaccagttga cggtctggtg gcccggacgc acgagctcgt ggtacttgag
10080
gcgcgagtag gcgcgcgtgt cgaagatgta gtcgttgcag gtgcgcacca ggtactggta
10140
gccgatgagg aagtgcggcg gcggctggcg gtagagcggc catcgctcgg tggcgggggc
10200
gccgggcgcg aggtcctcga gcatggtgcg gtggtagccg tagatgtacc tggacatcca
10260
ggtgatgccg gcggcggtgg tggaggcgcg cgggaactcg cggacgcggt tccagatgtt
10320
gcgcagcggc aggaagtagt tcatggtggg cacggtctgg cccgtgaggc gcgcgcagtc
10380
gtggatgctc tatacgggca aaaacgaaag cggtcagcgg ctcgactccg tggcctggag
10440
gctaagcgaa cgggttgggc tgcgcgtgta ccccggttcg aatctcgaat caggctggag
10500
ccgcagctaa cgtggtattg gcactcccgt ctcgacccaa gcctgcacca accctccagg
10560
atacggaggc gggtcgtttt gcaacttttt tttggaggcc ggatgagact agtaagcgcg
10620
gaaagcggcc gaccgcgatg gctcgctgcc gtagtctgga gaagaatcgc cagggttgcg
10680
ttgcggtgtg ccccggttcg aggccggccg gattccgcgg ctaacgaggg cgtggctgcc
10740
ccgtcgtttc caagacccca tagccagccg acttctccag ttacggagcg agcccctctt
10800
ttgttttgtt tgtttttgcc agatgcatcc cgtactgcgg cagatgcgcc cccaccaccc
10860
tccaccgcaa caacagcccc ctccacagcc ggcgcttctg cccccgcccc agcagcaact
10920
tccagccacg accgccgcgg ccgccgtgag cggggctgga cagagttatg atcaccagct
10980
ggccttggaa gagggcgagg ggctggcgcg cctgggggcg tcgtcgccgg agcggcaccc
11040
gcgcgtgcag atgaaaaggg acgctcgcga ggcctacgtg cccaagcaga acctgttcag
11100
agacaggagc ggcgaggagc ccgaggagat gcgcgcggcc cggttccacg cggggcggga
11160
gctgcggcgc ggcctggacc gaaagagggt gctgagggac gaggatttcg aggcggacga
11220
gctgacgggg atcagccccg cgcgcgcgca cgtggccgcg gccaacctgg tcacggcgta
11280
cgagcagacc gtgaaggagg agagcaactt ccaaaaatcc ttcaacaacc acgtgcgcac
11340
cctgatcgcg cgcgaggagg tgaccctggg cctgatgcac ctgtgggacc tgctggaggc
11400
catcgtgcag aaccccacca gcaagccgct gacggcgcag ctgttcctgg tggtgcagca
11460
tagtcgggac aacgaagcgt tcagggaggc gctgctgaat atcaccgagc ccgagggccg
11520
ctggctcctg gacctggtga acattctgca gagcatcgtg gtgcaggagc gcgggctgcc
11580
gctgtccgag aagctggcgg ccatcaactt ctcggtgctg agtttgggca agtactacgc
11640
taggaagatc tacaagaccc cgtacgtgcc catagacaag gaggtgaaga tcgacgggtt
11700
ttacatgcgc atgaccctga aagtgctgac cctgagcgac gatctggggg tgtaccgcaa
11760
cgacaggatg caccgtgcgg tgagcgccag caggcggcgc gagctgagcg accaggagct
11820
gatgcatagt ctgcagcggg ccctgaccgg ggccgggacc gagggggaga gctactttga
11880
catgggcgcg gacctgcact ggcagcccag ccgccgggcc ttggaggcgg cggcaggacc
11940
ctacgtagaa gaggtggacg atgaggtgga cgaggagggc gagtacctgg aagactgatg
12000
gcgcgaccgt atttttgcta gatgcaacaa caacagccac ctcctgatcc cgcgatgcgg
12060
gcggcgctgc agagccagcc gtccggcatt aactcctcgg acgattggac ccaggccatg
12120
caacgcatca tggcgctgac gacccgcaac cccgaagcct ttagacagca gccccaggcc
12180
aaccggctct cggccatcct ggaggccgtg gtgccctcgc gctccaaccc cacgcacgag
12240
aaggtcctgg ccatcgtgaa cgcgctggtg gagaacaagg ccatccgcgg cgacgaggcc
12300
ggcctggtgt acaacgcgct gctggagcgc gtggcccgct acaacagcac caacgtgcag
12360
accaacctgg accgcatggt gaccgacgtg cgcgaggccg tggcccagcg cgagcggttc
12420
caccgcgagt ccaacctggg atccatggtg gcgctgaacg ccttcctcag cacccagccc
12480
gccaacgtgc cccggggcca ggaggactac accaacttca tcagcgccct gcgcctgatg
12540
gtgaccgagg tgccccagag cgaggtgtac cagtccgggc cggactactt cttccagacc
12600
agtcgccagg gcttgcagac cgtgaacctg agccaggctt tcaagaactt gcagggcctg
12660
tggggcgtgc aggccccggt cggggaccgc gcgacggtgt cgagcctgct gacgccgaac
12720
tcgcgcctgc tgctgctgct ggtggccccc ttcacggaca gcggcagcat caaccgcaac
12780
tcgtacctgg gctacctgat taacctgtac cgcgaggcca tcggccaggc gcacgtggac
12840
gagcagacct accaggagat cacccacgtg agccgcgccc tgggccagga cgacccgggc
12900
aacctggaag ccaccctgaa ctttttgctg accaaccggt cgcagaagat cccgccccag
12960
tacgcgctca gcaccgagga ggagcgcatc ctgcgttacg tgcagcagag cgtgggcctg
13020
ttcctgatgc aggagggggc cacccccagc gccgcgctcg acatgaccgc gcgcaacatg
13080
gagcccagca tgtacgccag caaccgcccg ttcatcaata aactgatgga ctacttgcat
13140
cgggcggccg ccatgaactc tgactatttc accaacgcca tcctgaatcc ccactggctc
13200
ccgccgccgg ggttctacac gggcgagtac gacatgcccg accccaatga cgggttcctg
13260
tgggacgatg tggacagcag cgtgttctcc ccccgaccgg gtgctaacga gcgccccttg
13320
tggaagaagg aaggcagcga ccgacgcccg tcctcggcgc tgtccggccg cgagggtgct
13380
gccgcggcgg tgcccgaggc cgccagtcct ttcccgagct tgcccttctc gctgaacagt
13440
atccgcagca gcgagctggg caggatcacg cgcccgcgct tgctgggcga agaggagtac
13500
ttgaatgact cgctgttgag acccgagcgg gagaagaact tccccaataa cgggatagaa
13560
agcctggtgg acaagatgag ccgctggaag acgtatgcgc aggagcacag ggacgatccc
13620
cgggcgtcgc agggggccac gagccggggc agcgccgccc gtaaacgccg gtggcacgac
13680
aggcagcggg gacagatgtg ggacgatgag gactccgccg acgacagcag cgtgttggac
13740
ttgggtggga gtggtaaccc gttcgctcac ctgcgccccc gtatcgggcg catgatgtaa
13800
gagaaaccga aaataaatga tactcaccaa ggccatggcg accagcgtgc gttcgtttct
13860
tctctgttgt tgttgtatct agtatgatga ggcgtgcgta cccggagggt cctcctccct
13920
cgtacgagag cgtgatgcag caggcgatgg cggcggcggc gatgcagccc ccgctggagg
13980
ctccttacgt gcccccgcgg tacctggcgc ctacggaggg gcggaacagc attcgttact
14040
cggagctggc acccttgtac gataccaccc ggttgtacct ggtggacaac aagtcggcgg
14100
acatcgcctc gctgaactac cagaacgacc acagcaactt cctgaccacc gtggtgcaga
14160
acaatgactt cacccccacg gaggccagca cccagaccat caactttgac gagcgctcgc
14220
ggtggggcgg ccagctgaaa accatcatgc acaccaacat gcccaacgtg aacgagttca
14280
tgtacagcaa caagttcaag gcgcgggtga tggtctcccg caagaccccc aatggggtga
14340
cagtgacaga ggattatgat ggtagtcagg atgagctgaa gtatgaatgg gtggaatttg
14400
agctgcccga aggcaacttc tcggtgacca tgaccatcga cctgatgaac aacgccatca
14460
tcgacaatta cttggcggtg gggcggcaga acggggtgct ggagagcgac atcggcgtga
14520
agttcgacac taggaacttc aggctgggct gggaccccgt gaccgagctg gtcatgcccg
14580
gggtgtacac caacgaggct ttccatcccg atattgtctt gctgcccggc tgcggggtgg
14640
acttcaccga gagccgcctc agcaacctgc tgggcattcg caagaggcag cccttccagg
14700
aaggcttcca gatcatgtac gaggatctgg aggggggcaa catccccgcg ctcctggatg
14760
tcgacgccta tgagaaaagc aaggaggatg cagcagctga agcaactgca gccgtagcta
14820
ccgcctctac cgaggtcagg ggcgataatt ttgcaagcgc cgcagcagtg gcagcggccg
14880
aggcggctga aaccgaaagt aagatagtca ttcagccggt ggagaaggat agcaagaaca
14940
ggagctacaa cgtactaccg gacaagataa acaccgccta ccgcagctgg tacctagcct
15000
acaactatgg cgaccccgag aagggcgtgc gctcctggac gctgctcacc acctcggacg
15060
tcacctgcgg cgtggagcaa gtctactggt cgctgcccga catgatgcaa gacccggtca
15120
ccttccgctc cacgcgtcaa gttagcaact acccggtggt gggcgccgag ctcctgcccg
15180
tctactccaa gagcttcttc aacgagcagg ccgtctactc gcagcagctg cgcgccttca
15240
cctcgcttac gcacgtcttc aaccgcttcc ccgagaacca gatcctcgtc cgcccgcccg
15300
cgcccaccat taccaccgtc agtgaaaacg ttcctgctct cacagatcac gggaccctgc
15360
cgctgcgcag cagtatccgg ggagtccagc gcgtgaccgt tactgacgcc agacgccgca
15420
cctgccccta cgtctacaag gccctgggca tagtcgcgcc gcgcgtcctc tcgagccgca
15480
ccttctaaat gtccattctc atctcgccca gtaataacac cggttggggc ctgcgcgcgc
15540
ccagcaagat gtacggaggc gctcgccaac gctccacgca acaccccgtg cgcgtgcgcg
15600
ggcacttccg cgctccctgg ggcgccctca agggccgcgt gcggtcgcgc accaccgtcg
15660
acgacgtgat cgaccaggtg gtggccgacg cgcgcaacta cacccccgcc gccgcgcccg
15720
tctccaccgt ggacgccgtc atcgacagcg tggtggccga cgcgcgccgg tacgcccgcg
15780
ccaagagccg gcggcggcgc atcgcccggc ggcaccggag cacccccgcc atgcgcgcgg
15840
cgcgagcctt gctgcgcagg gccaggcgca cgggacgcag ggccatgctc agggcggcca
15900
gacgcgcggc ttcaggcgcc agcgccggca ggacccggag acgcgcggcc acggcggcgg
15960
cagcggccat cgccagcatg tcccgcccgc ggcgagggaa cgtgtactgg gtgcgcgacg
16020
ccgccaccgg tgtgcgcgtg cccgtgcgca cccgcccccc tcgcacttga agatgttcac
16080
ttcgcgatgt tgatgtgtcc cagcggcgag gaggatgtcc aagcgcaaat tcaaggaaga
16140
gatgctccag gtcatcgcgc ctgagatcta cggccctgcg gtggtgaagg aggaaagaaa
16200
gccccgcaaa atcaagcggg tcaaaaagga caaaaaggaa gaagaaagtg atgtggacgg
16260
attggtggag tttgtgcgcg agttcgcccc ccggcggcgc gtgcagtggc gcgggcggaa
16320
ggtgcaaccg gtgctgagac ccggcaccac cgtggtcttc acgcccggcg agcgctccgg
16380
caccgcttcc aagcgctcct acgacgaggt gtacggggat gatgatattc tggagcaggc
16440
ggccgagcgc ctgggcgagt ttgcttacgg caagcgcagc cgttccgcac cgaaggaaga
16500
ggcggtgtcc atcccgctgg accacggcaa ccccacgccg agcctcaagc ccgtgacctt
16560
gcagcaggtg ctgccgaccg cggcgccgcg ccgggggttc aagcgcgagg gcgaggatct
16620
gtaccccacc atgcagctga tggtgcccaa gcgccagaag ctggaagacg tgctggagac
16680
catgaaggtg gacccggacg tgcagcccga ggtcaaggtg cggcccatca agcaggtggc
16740
cccgggcctg ggcgtgcaga ccgtggacat caagattccc acggagccca tggaaacgca
16800
gaccgagccc atgatcaagc ccagcaccag caccatggag gtgcagacgg atccctggat
16860
gccatcggct cctagtcgaa gaccccggcg caagtacggc gcggccagcc tgctgatgcc
16920
caactacgcg ctgcatcctt ccatcatccc cacgccgggc taccgcggca cgcgcttcta
16980
ccgcggtcat accagcagcc gccgccgcaa gaccaccact cgccgccgcc gtcgccgcac
17040
cgccgctgca accacccctg ccgccctggt gcggagagtg taccgccgcg gccgcgcacc
17100
tctgaccctg ccgcgcgcgc gctaccaccc gagcatcgcc atttaaactt tcgcctgctt
17160
tgcagatcaa tggccctcac atgccgcctt cgcgttccca ttacgggcta ccgaggaaga
17220
aaaccgcgcc gtagaaggct ggcggggaac gggatgcgtc gccaccacca ccggcggcgg
17280
cgcgccatca gcaagcggtt ggggggaggc ttcctgcccg cgctgatccc catcatcgcc
17340
gcggcgatcg gggcgatccc cggcattgct tccgtggcgg tgcaggcctc tcagcgccac
17400
tgagacacac ttggaaacat cttgtaataa accaatggac tctgacgctc ctggtcctgt
17460
gatgtgtttt cgtagacaga tggaagacat caatttttcg tccctggctc cgcgacacgg
17520
cacgcggccg ttcatgggca cctggagcga catcggcacc agccaactga acgggggcgc
17580
cttcaattgg agcagtctct ggagcgggct taagaatttc gggtccacgc ttaaaaccta
17640
tggcagcaag gcgtggaaca gcaccacagg gcaggcgctg agggataagc tgaaagagca
17700
gaacttccag cagaaggtgg tcgatgggct cgcctcgggc atcaacgggg tggtggacct
17760
ggccaaccag gccgtgcagc ggcagatcaa cagccgcctg gacccggtgc cgcccgccgg
17820
ctccgtggag atgccgcagg tggaggagga gctgcctccc ctggacaagc ggggcgagaa
17880
gcgaccccgc cccgatgcgg aggagacgct gctgacgcac acggacgagc cgcccccgta
17940
cgaggaggcg gtgaaactgg gtctgcccac cacgcggccc atcgcgcccc tggccaccgg
18000
ggtgctgaaa cccgaaaagc ccgcgaccct ggacttgcct cctccccagc cttcccgccc
18060
ctctacagtg gctaagcccc tgccgccggt ggccgtggcc cgcgcgcgac ccgggggcac
18120
cgcccgccct catgcgaact ggcagagcac tctgaacagc atcgtgggtc tgggagtgca
18180
gagtgtgaag cgccgccgct gctattaaac ctaccgtagc gcttaacttg cttgtctgtg
18240
tgtgtatgta ttatgtcgcc gccgccgctg tccaccagaa ggaggagtga agaggcgcgt
18300
cgccgagttg caagatggcc accccatcga tgctgcccca gtgggcgtac atgcacatcg
18360
ccggacagga cgcttcggag tacctgagtc cgggtctggt gcagtttgcc cgcgccacag
18420
acacctactt cagtctgggg aacaagttta ggaaccccac ggtggcgccc acgcacgatg
18480
tgaccaccga ccgcagccag cggctgacgc tgcgcttcgt gcccgtggac cgcgaggaca
18540
acacctactc gtacaaagtg cgctacacgc tggccgtggg cgacaaccgc gtgctggaca
18600
tggccagcac ctactttgac atccgcggcg tgctggatcg gggccctagc ttcaaaccct
18660
actccggcac cgcctacaac agtctggccc ccaagggagc acccaacact tgtcagtgga
18720
catataaagc cgatggtgaa actgccacag aaaaaaccta tacatatgga aatgcacccg
18780
tgcagggcat taacatcaca aaagatggta ttcaacttgg aactgacacc gatgatcagc
18840
caatctacgc agataaaacc tatcagcctg aacctcaagt gggtgatgct gaatggcatg
18900
acatcactgg tactgatgaa aagtatggag gcagagctct taagcctgat accaaaatga
18960
agccttgtta tggttctttt gccaagccta ctaataaaga aggaggtcag gcaaatgtga
19020
aaacaggaac aggcactact aaagaatatg acatagacat ggctttcttt gacaacagaa
19080
gtgcggctgc tgctggccta gctccagaaa ttgttttgta tactgaaaat gtggatttgg
19140
aaactccaga tacccatatt gtatacaaag caggcacaga tgacagcagc tcttctatta
19200
atttgggtca gcaagccatg cccaacagac ctaactacat tggtttcaga gacaacttta
19260
tcgggctcat gtactacaac agcactggca atatgggggt gctggccggt caggcttctc
19320
agctgaatgc tgtggttgac ttgcaagaca gaaacaccga gctgtcctac cagctcttgc
19380
ttgactctct gggtgacaga acccggtatt tcagtatgtg gaatcaggcg gtggacagct
19440
atgatcctga tgtgcgcatt attgaaaatc atggtgtgga ggatgaactt cccaactatt
19500
gtttccctct ggatgctgtt ggcagaacag atacttatca gggaattaag gctaatggaa
19560
ctgatcaaac cacatggacc aaagatgaca gtgtcaatga tgctaatgag ataggcaagg
19620
gtaatccatt cgccatggaa atcaacatcc aagccaacct gtggaggaac ttcctctacg
19680
ccaacgtggc cctgtacctg cccgactctt acaagtacac gccggccaat gttaccctgc
19740
ccaccaacac caacacctac gattacatga acggccgggt ggtggcgccc tcgctggtgg
19800
actcctacat caacatcggg gcgcgctggt cgctggatcc catggacaac gtgaacccct
19860
tcaaccacca ccgcaatgcg gggctgcgct accgctccat gctcctgggc aacgggcgct
19920
acgtgccctt ccacatccag gtgccccaga aatttttcgc catcaagagc ctcctgctcc
19980
tgcccgggtc ctacacctac gagtggaact tccgcaagga cgtcaacatg atcctgcaga
20040
gctccctcgg caacgacctg cgcacggacg gggcctccat ctccttcacc agcatcaacc
20100
tctacgccac cttcttcccc atggcgcaca acacggcctc cacgctcgag gccatgctgc
20160
gcaacgacac caacgaccag tccttcaacg actacctctc ggcggccaac atgctctacc
20220
ccatcccggc caacgccacc aacgtgccca tctccatccc ctcgcgcaac tgggccgcct
20280
tccgcggctg gtccttcacg cgtctcaaga ccaaggagac gccctcgctg ggctccgggt
20340
tcgaccccta cttcgtctac tcgggctcca tcccctacct cgacggcacc ttctacctca
20400
accacacctt caagaaggtc tccatcacct tcgactcctc cgtcagctgg cccggcaacg
20460
accggctcct gacgcccaac gagttcgaaa tcaagcgcac cgtcgacggc gagggctaca
20520
acgtggccca gtgcaacatg accaaggact ggttcctggt ccagatgctg gcccactaca
20580
acatcggcta ccagggcttc tacgtgcccg agggctacaa ggaccgcatg tactccttct
20640
tccgcaactt ccagcccatg agccgccagg tggtggacga ggtcaactac aaggactacc
20700
aggccgtcac cctggcctac cagcacaaca actcgggctt cgtcggctac ctcgcgccca
20760
ccatgcgcca gggccagccc taccccgcca actaccccta cccgctcatc ggcaagagcg
20820
ccgtcaccag cgtcacccag aaaaagttcc tctgcgacag ggtcatgtgg cgcatcccct
20880
tctccagcaa cttcatgtcc atgggcgcgc tcaccgacct cggccagaac atgctctatg
20940
ccaactccgc ccacgcgcta gacatgaatt tcgaagtcga ccccatggat gagtccaccc
21000
ttctctatgt tgtcttcgaa gtcttcgacg tcgtccgagt gcaccagccc caccgcggcg
21060
tcatcgaggc cgtctacctg cgcaccccct tctcggccgg taacgccacc acctaagctc
21120
ttgcttcttg caagccatgg ccgcgggctc cggcgagcag gagctcaggg ccatcatccg
21180
cgacctgggc tgcgggccct acttcctggg caccttcgat aagcgcttcc cgggattcat
21240
ggccccgcac aagctggcct gcgccatcgt caacacggcc ggccgcgaga ccgggggcga
21300
gcactggctg gccttcgcct ggaacccgcg ctcgaacacc tgctacctct tcgacccctt
21360
cgggttctcg gacgagcgcc tcaagcagat ctaccagttc gagtacgagg gcctgctgcg
21420
ccgcagcgcc ctggccaccg aggaccgctg cgtcaccctg gaaaagtcca cccagaccgt
21480
gcagggtccg cgctcggccg cctgcgggct cttctgctgc atgttcctgc acgccttcgt
21540
gcactggccc gaccgcccca tggacaagaa ccccaccatg aacttgctga cgggggtgcc
21600
caacggcatg ctccagtcgc cccaggtgga acccaccctg cgccgcaacc aggaggcgct
21660
ctaccgcttc ctcaactccc actccgccta ctttcgctcc caccgcgcgc gcatcgagaa
21720
ggccaccgcc ttcgaccgca tgaatcaaga catgtaaacc gtgtgtgtat gttaaatgtc
21780
tttaataaac agcactttca tgttacacat gcatctgaga tgatttattt agaaatcgaa
21840
agggttctgc cgggtctcgg catggcccgc gggcagggac acgttgcgga actggtactt
21900
ggccagccac ttgaactcgg ggatcagcag tttgggcagc ggggtgtcgg ggaaggagtc
21960
ggtccacagc ttccgcgtca gttgcagggc gcccagcagg tcgggcgcgg agatcttgaa
22020
atcgcagttg ggacccgcgt tctgcgcgcg ggagttgcgg tacacggggt tgcagcactg
22080
gaacaccatc agggccgggt gcttcacgct cgccagcacc gtcgcgtcgg tgatgctctc
22140
cacgtcgagg tcctcggcgt tggccatccc gaagggggtc atcttgcagg tctgccttcc
22200
catggtgggc acgcacccgg gcttgtggtt gcaatcgcag tgcaggggga tcagcatcat
22260
ctgggcctgg tcggcgttca tccccgggta catggccttc atgaaagcct ccaattgcct
22320
gaacgcctgc tgggccttgg ctccctcggt gaagaagacc ccgcaggact tgctagagaa
22380
ctggttggtg gcgcacccgg cgtcgtgcac gcagcagcgc gcgtcgttgt tggccagctg
22440
caccacgctg cgcccccagc ggttctgggt gatcttggcc cggtcggggt tctccttcag
22500
cgcgcgctgc ccgttctcgc tcgccacatc catctcgatc atgtgctcct tctggatcat
22560
ggtggtcccg tgcaggcacc gcagcttgcc ctcggcctcg gtgcacccgt gcagccacag
22620
cgcgcacccg gtgcactccc agttcttgtg ggcgatctgg gaatgcgcgt gcacgaagcc
22680
ctgcaggaag cggcccatca tggtggtcag ggtcttgttg ctagtgaagg tcagcggaat
22740
gccgcggtgc tcctcgttga tgtacaggtg gcagatgcgg cggtacacct cgccctgctc
22800
gggcatcagc tggaagttgg ctttcaggtc ggtctccacg cggtagcggt ccatcagcat
22860
agtcatgatt tccataccct tctcccaggc cgagacgatg ggcaggctca tagggttctt
22920
caccatcatc ttagcgctag cagccgcggc cagggggtcg ctctcgtcca gggtctcaaa
22980
gctccgcttg ccgtccttct cggtgatccg caccgggggg tagctgaagc ccacggccgc
23040
cagctcctcc tcggcctgtc tttcgtcctc gctgtcctgg ctgacgtcct gcaggaccac
23100
atgcttggtc ttgcggggtt tcttcttggg cggcagcggc ggcggagatg ttggagatgg
23160
cgagggggag cgcgagttct cgctcaccac tactatctct tcctcttctt ggtccgaggc
23220
cacgcggcgg taggtatgtc tcttcggggg cagaggcgga ggcgacgggc tctcgccgcc
23280
gcgacttggc ggatggctgg cagagcccct tccgcgttcg ggggtgcgct cccggcggcg
23340
ctctgactga cttcctccgc ggccggccat tgtgttctcc tagggaggaa caacaagcat
23400
ggagactcag ccatcgccaa cctcgccatc tgcccccacc gccgacgaga agcagcagca
23460
gcagaatgaa agcttaaccg ccccgccgcc cagccccgcc acctccgacg cggccgtccc
23520
agacatgcaa gagatggagg aatccatcga gattgacctg ggctatgtga cgcccgcgga
23580
gcacgaggag gagctggcag tgcgcttttc acaagaagag atacaccaag aacagccaga
23640
gcaggaagca gagaatgagc agagtcaggc tgggctcgag catgacggcg actacctcca
23700
cctgagcggg ggggaggacg cgctcatcaa gcatctggcc cggcaggcca ccatcgtcaa
23760
ggatgcgctg ctcgaccgca ccgaggtgcc cctcagcgtg gaggagctca gccgcgccta
23820
cgagttgaac ctcttctcgc cgcgcgtgcc ccccaagcgc cagcccaatg gcacctgcga
23880
gcccaacccg cgcctcaact tctacccggt cttcgcggtg cccgaggccc tggccaccta
23940
ccacatcttt ttcaagaacc aaaagatccc cgtctcctgc cgcgccaacc gcacccgcgc
24000
cgacgccctt ttcaacctgg gtcccggcgc ccgcctacct gatatcgcct ccttggaaga
24060
ggttcccaag atcttcgagg gtctgggcag cgacgagact cgggccgcga acgctctgca
24120
aggagaagga ggagagcatg agcaccacag cgccctggtc gagttggaag gcgacaacgc
24180
gcggctggcg gtgctcaaac gcacggtcga gctgacccat ttcgcctacc cggctctgaa
24240
cctgcccccc aaagtcatga gcgcggtcat ggaccaggtg ctcatcaagc gcgcgtcgcc
24300
catctccgag gacgagggca tgcaagactc cgaggagggc aagcccgtgg tcagcgacga
24360
gcagctggcc cggtggctgg gtcctaatgc tagtccccag agtttggaag agcggcgcaa
24420
actcatgatg gccgtggtcc tggtgaccgt ggagctggag tgcctgcgcc gcttcttcgc
24480
cgacgcggag accctgcgca aggtcgagga gaacctgcac tacctcttca ggcacgggtt
24540
cgtgcgccag gcctgcaaga tctccaacgt ggagctgacc aacctggtct cctacatggg
24600
catcttgcac gagaaccgcc tggggcagaa cgtgctgcac accaccctgc gcggggaggc
24660
ccggcgcgac tacatccgcg actgcgtcta cctctacctc tgccacacct ggcagacggg
24720
catgggcgtg tggcagcagt gtctggagga gcagaacctg aaagagctct gcaagctcct
24780
gcagaagaac ctcaagggtc tgtggaccgg gttcgacgag cgcaccaccg cctcggacct
24840
ggccgacctc attttccccg agcgcctcag gctgacgctg cgcaacggcc tgcccgactt
24900
tatgagccaa agcatgttgc aaaactttcg ctctttcatc ctcgaacgct ccggaatcct
24960
gcccgccacc tgctccgcgc tgccctcgga cttcgtgccg ctgaccttcc gcgagtgccc
25020
cccgccgctg tggagccact gctacctgct gcgcctggcc aactacctgg cctaccactc
25080
ggacgtgatc gaggacgtca gcggcgaggg cctgctcgag tgccactgcc gctgcaacct
25140
ctgcacgccg caccgctccc tggcctgcaa cccccagctg ctgagcgaga cccagatcat
25200
cggcaccttc gagttgcaag ggcccagcga aggcgagggt tcagccgcca aggggggtct
25260
gaaactcacc ccggggctgt ggacctcggc ctacttgcgc aagttcgtgc ccgaggacta
25320
ccatcccttc gagatcaggt tctacgagga ccaatcccat ccgcccaagg ccgagctgtc
25380
ggcctgcgtc atcacccagg gggcgatcct ggcccaattg caagccatcc agaaatcccg
25440
ccaagaattc ttgctgaaaa agggccgcgg ggtctacctc gacccccaga ccggtgagga
25500
gctcaacccc ggcttccccc aggatgcccc gaggaaacaa gaagctgaaa gtggagctgc
25560
cgcccgtgga ggatttggag gaagactggg agaacagcag tcaggcagag gaggaggaga
25620
tggaggaaga ctgggacagc actcaggcag aggaggacag cctgcaagac agtctggagg
25680
aagacgagga ggaggcagag gaggaggtgg aagaagcagc cgccgccaga ccgtcgtcct
25740
cggcggggga gaaagcaagc agcacggata ccatctccgc tccgggtcgg ggtcccgctc
25800
gaccacacag tagatgggac gagaccggac gattcccgaa ccccaccacc cagaccggta
25860
agaaggagcg gcagggatac aagtcctggc gggggcacaa aaacgccatc gtctcctgct
25920
tgcaggcctg cgggggcaac atctccttca cccggcgcta cctgctcttc caccgcgggg
25980
tgaactttcc ccgcaacatc ttgcattact accgtcacct ccacagcccc tactacttcc
26040
aagaagaggc agcagcagca gaaaaagacc agcagaaaac cagcagctag aaaatccaca
26100
gcggcggcag caggtggact gaggatcgcg gcgaacgagc cggcgcaaac ccgggagctg
26160
aggaaccgga tctttcccac cctctatgcc atcttccagc agagtcgggg gcaggagcag
26220
gaactgaaag tcaagaaccg ttctctgcgc tcgctcaccc gcagttgtct gtatcacaag
26280
agcgaagacc aacttcagcg cactctcgag gacgccgagg ctctcttcaa caagtactgc
26340
gcgctcactc ttaaagagta gcccgcgccc gcccagtcgc agaaaaaggc gggaattacg
26400
tcacctgtgc ccttcgccct agccgcctcc acccatcatc atgagcaaag agattcccac
26460
gccttacatg tggagctacc agccccagat gggcctggcc gccggtgccg cccaggacta
26520
ctccacccgc atgaattggc tcagcgccgg gcccgcgatg atctcacggg tgaatgacat
26580
ccgcgcccac cgaaaccaga tactcctaga acagtcagcg ctcaccgcca cgccccgcaa
26640
tcacctcaat ccgcgtaatt ggcccgccgc cctggtgtac caggaaattc cccagcccac
26700
gaccgtacta cttccgcgag acgcccaggc cgaagtccag ctgactaact caggtgtcca
26760
gctggcgggc ggcgccaccc tgtgtcgtca ccgccccgct cagggtataa agcggctggt
26820
gatccggggc agaggcacac agctcaacga cgaggtggtg agctcttcgc tgggtctgcg
26880
acctgacgga gtcttccaac tcgccggatc ggggagatct tccttcacgc ctcgtcaggc
26940
cgtcctgact ttggagagtt cgtcctcgca gccccgctcg ggtggcatcg gcactctcca
27000
gttcgtggag gagttcactc cctcggtcta cttcaacccc ttctccggct cccccggcca
27060
ctacccggac gagttcatcc cgaacttcga cgccatcagc gagtcggtgg acggctacga
27120
ttgaatgtcc catggtggcg cagctgacct agctcggctt cgacacctgg accactgccg
27180
ccgcttccgc tgcttcgctc gggatctcgc cgagtttgcc tactttgagc tgcccgagga
27240
gcaccctcag ggcccggccc acggagtgcg gatcgtcgtc gaagggggcc tcgactccca
27300
cctgcttcgg atcttcagcc agcgtccgat cctggtcgag cgcgagcaag gacagaccct
27360
tctgactctg tactgcatct gcaaccaccc cggcctgcat gaaagtcttt gttgtctgct
27420
gtgtactgag tataataaaa gctgagatca gcgactactc cggacttccg tgtgttcctg
27480
aatccatcaa ccagtctttg ttcttcaccg ggaacgagac cgagctccag ctccagtgta
27540
agccccacaa gaagtacctc acctggctgt tccagggctc cccgatcgcc gttgtcaacc
27600
actgcgacaa cgacggagtc ctgctgagcg gccctgccaa ccttactttt tccacccgca
27660
gaagcaagct ccagctcttc caacccttcc tccccgggac ctatcagtgc gtctcgggac
27720
cctgccatca caccttccac ctgatcccga ataccacagc gtcgctcccc gctactaaca
27780
accaaactaa cctccaccaa cgccaccgtc gcgacctttc tgaatctaat actaccaccc
27840
acaccggagg tgagctccga ggtcaaccaa cctctgggat ttactacggc ccctgggagg
27900
tggttgggtt aatagcgcta ggcctagttg cgggtgggct tttggttctc tgctacctat
27960
acctcccttg ctgttcgtac ttagtggtgc tgtgttgctg gtttaagaaa tggggaagat
28020
caccctagtg agctgcggtg cgctggtggc ggtgttgctt tcgattgtgg gactgggcgg
28080
tgcggctgta gtgaaggaga aggccgatcc ctgcttgcat ttcaatccca acaaatgcca
28140
gctgagtttt cagcccgatg gcaatcggtg cgcggtactg atcaagtgcg gatgggaatg
28200
cgagaacgtg agaatcgagt acaataacaa gactcggaac aatactctcg cgtccgtgtg
28260
gcagcccggg gaccccgagt ggtacaccgt ctctgtcccc ggtgctgacg gctccccgcg
28320
caccgtgaat aatactttca tttttgcgca catgtgcgac acggtcatgt ggatgagcaa
28380
gcagtacgat atgtggcccc ccacgaagga gaacatcgtg gtcttctcca tcgcttacag
28440
cctgtgcacg gcgctaatca ccgctatcgt gtgcctgagc attcacatgc tcatcgctat
28500
tcgccccaga aataatgccg aaaaagaaaa acagccataa cgtttttttt cacacctttt
28560
tcagaccatg gcctctgtta aatttttgct tttatttgcc agtctcattg ccgtcattca
28620
tggaatgagt aatgagaaaa ttactattta cactggcact aatcacacat tgaaaggtcc
28680
agaaaaagcc acagaagttt catggtattg ttattttaat gaatcagatg tatctactga
28740
actctgtgga aacaataaca aaaaaaatga gagcattact ctcatcaagt ttcaatgtgg
28800
atctgactta accctaatta acatcactag agactatgta ggtatgtatt atggaactac
28860
agcaggcatt tcggacatgg aattttatca agtttctgtg tctgaaccca ccacgcctag
28920
aatgaccaca accacaaaaa ctacacctgt taccactatg cagctcacta ccaataacat
28980
ttttgccatg cgtcaaatgg tcaacaatag cactcaaccc accccaccca gtgaggaaat
29040
tcccaaatcc atgattggca ttattgttgc tgtagtggtg tgcatgttga tcatcgcctt
29100
gtgcatggtg tactatgcct tctgctacag aaagcacaga ctgaacgaca agctggaaca
29160
cttactaagt gttgaatttt aattttttag aaccatgaag atcctaggcc ttttaatttt
29220
ttctatcatt acctctgctc tatgcaattc tgacaatgag gacgttactg tcgttgtcgg
29280
atcaaattat acactgaaag gtccagcgaa gggtatgctt tcgtggtatt gctattttgg
29340
atctgacact acagaaactg aattatgcaa tcttaagaat ggcaaaattc aaaattctaa
29400
aattaacaat tatatatgca atggtactga tctgatactc ctcaatatca cgaaatcata
29460
tgctggcagt tacacctgcc ctggagatga tgctgacagt atgatttttt acaaagtaac
29520
tgttgttgat cccactactc cacctccacc caccacaact actcacacca cacacacaga
29580
tcaaaccgca gcagaggagg cagcaaagtt agccttgcag gtccaagaca gttcatttgt
29640
tggcattacc cctacacctg atcagcggtg tccggggctg ctagtcagcg gcattgtcgg
29700
tgtgctttcg ggattagcag tcataatcat ctgcatgttc atttttgctt gctgctatag
29760
aaggctttac cgacaaaaat cagacccact gctgaacctc tatgtttaat tttttccaga
29820
gtcatgaagg cagttagcgc tctagttttt tgttctttga ttggcattgt tttttgcaat
29880
cctattccta aagttagctt tattaaagat gtgaatgtta ctgagggggg caatgtgaca
29940
ctggtaggtg tagagggtgc tgaaaacacc acctggacaa aataccacct caatgggtgg
30000
aaagatattt gcaattggag tgtattagtt tatacatgtg agggagttaa tcttaccatt
30060
gtcaatgcca cctcagctca aaatggtaga attcaaggac aaagtgtcag tgtatctaat
30120
gggtatttta cccaacatac ttttatctat gacgttaaag tcataccact gcctacgcct
30180
agcccaccta gcactaccac acagacaacc cacactacac agacaaccac atacagtaca
30240
ttaaatcagc ctaccaccac tacagcagca gaggttgcca gctcgtctgg ggtccgagtg
30300
gcatttttga tgtgggcccc atctagcagt cccactgcta gtaccaatga gcagactact
30360
gaatttttgt ccactgtcga gagccacacc acagctacct ccagtgcctt ctctagcacc
30420
gccaatctct cctcgctttc ctctacacca atcagtcccg ctactactcc tagccccgct
30480
cctcttccca ctcccctgaa gcaaacagac ggcggcatgc aatggcagat caccctgctc
30540
attgtgatcg ggttggtcat cctggccgtg ttgctctact acatcttctg ccgccgcatt
30600
cccaacgcgc accgcaagcc ggtctacaag cccatcattg tcgggcagcc ggagccgctt
30660
caggtggaag ggggtctaag gaatcttctc ttctctttta cagtatggtg attgaactat
30720
gattcctaga caattcttga tcactattct tatctgcctc ctccaagtct gtgccaccct
30780
cgctctggtg gccaacgcca gtccagactg tattgggccc ttcgcctcct acgtgctctt
30840
tgccttcacc acctgcatct gctgctgtag catagtctgc ctgcttatca ccttcttcca
30900
gttcattgac tggatctttg tgcgcatcgc ctacctgcgc caccaccccc agtaccgcga
30960
ccagcgagtg gcgcggctgc tcaggctcct ctgataagca tgcgggctct gctacttctc
31020
gcgcttctgc tgttagtgct cccccgtccc gtcgaccccc ggtcccccac ccagtccccc
31080
gaggaggtcc gcaaatgcaa attccaagaa ccctggaaat tcctcaaatg ctaccgccaa
31140
aaatcagaca tgcatcccag ctggatcatg atcattggga tcgtgaacat tctggcctgc
31200
accctcatct cctttgtgat ttacccctgc tttgactttg gttggaactc gccagaggcg
31260
ctctatctcc cgcctgaacc tgacacacca ccacagcaac ctcaggcaca cgcactacca
31320
ccactacagc ctaggccaca atacatgccc atattagact atgaggccga gccacagcga
31380
cccatgctcc ccgctattag ttacttcaat ctaaccggcg gagatgactg acccactggc
31440
caacaacaac gtcaacgacc ttctcctgga catggacggc cgcgcctcgg agcagcgact
31500
cgcccaactt cgcattcgcc agcagcagga gagagccgtc aaggagctgc aggatgcggt
31560
ggccatccac cagtgcaaga gaggcatctt ctgcctggtg aaacaggcca agatctccta
31620
cgaggtcact ccaaacgacc atcgcctctc ctacgagctc ctgcagcagc gccagaagtt
31680
cacctgcctg gtcggagtca accccatcgt catcacccag cagtctggcg ataccaaggg
31740
gtgcatccac tgctcctgcg actcccccga ctgcgtccac actctgatca agaccctctg
31800
cggcctccgc gacctcctcc ccatgaacta atcaccccct tatccagtga aataaagatc
31860
atattgatga tgattttaca gaaataaaaa ataatcattt gatttgaaat aaagatacaa
31920
tcatattgat gatttgagtt taacaaaaaa ataaagaatc acttacttga aatctgatac
31980
caggtctctg tccatgtttt ctgccaacac cacttcactc ccctcttccc agctctggta
32040
ctgcaggccc cggcgggctg caaacttcct ccacacgctg aaggggatgt caaattcctc
32100
ctgtccctca atcttcattt tatcttctat cagatgtcca aaaagcgcgt ccgggtggat
32160
gatgacttcg accccgtcta cccctacgat gcagacaacg caccgaccgt gcccttcatc
32220
aaccccccct tcgtctcttc agatggattc caagagaagc ccctgggggt gttgtccctg
32280
cgactggccg accccgtcac caccaagaac ggggaaatca ccctcaagct gggagagggg
32340
gtggacctcg attcctcggg aaaactcatc tccaacacgg ccaccaaggc cgccgcccct
32400
ctcagttttt ccaacaacac catttccctt aacatggatc acccctttta cactaaagat
32460
ggaaaattat ccttacaagt ttctccacca ttaaatatac tgagaacaag cattctaaac
32520
acactagctt taggttttgg atcaggttta ggactccgtg gctctgcctt ggcagtacag
32580
ttagtctctc cacttacatt tgatactgat ggaaacataa agcttacctt agacagaggt
32640
ttgcatgtta caacaggaga tgcaattgaa agcaacataa gctgggctaa aggtttaaaa
32700
tttgaagatg gagccatagc aaccaacatt ggaaatgggt tagagtttgg aagcagtagt
32760
acagaaacag gtgttgatga tgcttaccca atccaagtta aacttggatc tggccttagc
32820
tttgacagta caggagccat aatggctggt aacaaagaag acgataaact cactttgtgg
32880
acaacacctg atccatcacc aaactgtcaa atactcgcag aaaatgatgc aaaactaaca
32940
ctttgcttga ctaaatgtgg tagtcaaata ctggccactg tgtcagtctt agttgtagga
33000
agtggaaacc taaaccccat tactggcacc gtaagcagtg ctcaggtgtt tctacgtttt
33060
gatgcaaacg gtgttctttt aacagaacat tctacactaa aaaaatactg ggggtatagg
33120
cagggagata gcatagatgg cactccatat accaatgctg taggattcat gcccaattta
33180
aaagcttatc caaagtcaca aagttctact actaaaaata atatagtagg gcaagtatac
33240
atgaatggag atgtttcaaa acctatgctt ctcactataa ccctcaatgg tactgatgac
33300
agcaacagta catattcaat gtcattttca tacacctgga ctaatggaag ctatgttgga
33360
gcaacatttg gggctaactc ttataccttc tcatacatcg cccaagaatg aacactgtat
33420
cccaccctgc atgccaaccc ttcccacccc actctgtgga acaaactctg aaacacaaaa
33480
taaaataaag ttcaagtgtt ttattgattc aacagtttta caggattcga gcagttattt
33540
ttcctccacc ctcccaggac atggaataca ccaccctctc cccccgcaca gccttgaaca
33600
tctgaatgcc attggtgatg gacatgcttt tggtctccac gttccacaca gtttcagagc
33660
gagccagtct cgggtcggtc agggagatga aaccctccgg gcactcccgc atctgcacct
33720
cacagctcaa cagctgagga ttgtcctcgg tggtcgggat cacggttatc tggaagaagc
33780
agaagagcgg cggtgggaat catagtccgc gaacgggatc ggccggtggt gtcgcatcag
33840
gccccgcagc agtcgctgcc gccgccgctc cgtcaagctg ctgctcaggg ggtccgggtc
33900
cagggactcc ctcagcatga tgcccacggc cctcagcatc agtcgtctgg tgcggcgggc
33960
gcagcagcgc atgcggatct cgctcaggtc gctgcagtac gtgcaacaca gaaccaccag
34020
gttgttcaac agtccatagt tcaacacgct ccagccgaaa ctcatcgcgg gaaggatgct
34080
acccacgtgg ccgtcgtacc agatcctcag gtaaatcaag tggtgccccc tccagaacac
34140
gctgcccacg tacatgatct ccttgggcat gtggcggttc accacctccc ggtaccacat
34200
caccctctgg ttgaacatgc agccccggat gatcctgcgg aaccacaggg ccagcaccgc
34260
cccgcccgcc atgcagcgaa gagaccccgg gtcccggcaa tggcaatgga ggacccaccg
34320
ctcgtacccg tggatcatct gggagctgaa caagtctatg ttggcacagc acaggcatat
34380
gctcatgcat ctcttcagca ctctcaactc ctcgggggtc aaaaccatat cccagggcac
34440
ggggaactct tgcaggacag cgaaccccgc agaacagggc aatcctcgca cagaacttac
34500
attgtgcatg gacagggtat cgcaatcagg cagcaccggg tgatcctcca ccagagaagc
34560
gcgggtctcg gtctcctcac agcgtggtaa gggggccggc cgatacgggt gatggcggga
34620
cgcggctgat cgtgttcgcg accgtgtcat gatgcagttg ctttcggaca ttttcgtact
34680
tgctgtagca gaacctggtc cgggcgctgc acaccgatcg ccggcggcgg tctcggcgct
34740
tggaacgctc ggtgttgaaa ttgtaaaaca gccactctct cagaccgtgc agcagatcta
34800
gggcctcagg agtgatgaag atcccatcat gcctgatggc tctgatcaca tcgaccaccg
34860
tggaatgggc cagacccagc cagatgatgc aattttgttg ggtttcggtg acggcggggg
34920
agggaagaac aggaagaacc atgattaact tttaatccaa acggtctcgg agtacttcaa
34980
aatgaagatc gcggagatgg cacctctcgc ccccgctgtg ttggtggaaa ataacagcca
35040
ggtcaaaggt gatacggttc tcgagatgtt ccacggtggc ttccagcaaa gcctccacgc
35100
gcacatccag aaacaagaca atagcgaaag cgggagggtt ctctaattcc tcaatcatca
35160
tgttacactc ctgcaccatc cccagataat tttcattttt ccagccttga atgattcgaa
35220
ctagttcctg aggtaaatcc aagccagcca tgataaagag ctcgcgcaga gcgccctcca
35280
ccggcattct taagcacacc ctcataattc caagatattc tgctcctggt tcacctgcag
35340
cagattgaca agcggaatat caaaatctct gccgcgatcc ctgagctcct ccctcagcaa
35400
taactgtaag tactctttca tatcctctcc gaaattttta gccataggac caccaggaat
35460
aagattaggg caagccacag tacagataaa ccgaagtcct ccccagtgag cattgccaaa
35520
tgcaagactg ctataagcat gctggctaga cccggtgata tcttccagat aactggacag
35580
aaaatcgccc aggcaatttt taagaaaatc aacaaaagaa aaatcctcca ggtggacgtt
35640
tagagcctcg ggaacaacga tgaagtaaat gcaagcggtg cgttccagca tggttagtta
35700
gctgatctgt agaaaaaaca aaaatgaaca ttaaaccatg ctagcctggc gaacaggtgg
35760
gtaaatcgtt ctctccagca ccaggcaggc cacggggtct ccggcgcgac cctcgtaaaa
35820
attgtcgcta tgattgaaaa ccatcacaga gagacgttcc cggtggccgg cgtgaatgat
35880
tcgacaagat gaatacaccc ccggaacatt ggcgtccgcg agtgaaaaaa agcgcccgag
35940
gaagcaataa ggcactacaa tgctcagtct caagtccagc aaagcgatgc catgcggatg
36000
aagcacaaaa ttctcaggtg cgtacaaaat gtaattactc ccctcctgca caggcagcaa
36060
agcccccgat ccctccaggt acacatacaa agcctcagcg tccatagctt accgagcagc
36120
agcacacaac aggcgcaaga gtcagagaaa ggctgagctc taacctgtcc acccgctctc
36180
tgctcaatat atagcccaga tctacactga cgtaaaggcc aaagtctaaa aatacccgcc
36240
aaataatcac acacgcccag cacacgccca gaaaccggtg acacactcaa aaaaatacgc
36300
gcacttcctc aaacgcccaa aactgccgtc atttccgggt tcccacgcta cgtcatcaaa
36360
acacgacttt caaattccgt cgaccgttaa aaacgtcacc cgccccgccc ctaacggtcg
36420
cccgtctctc agccaatcag cgccccgcat ccccaaattc aaacacctca tttgcatatt
36480
aacgcgcaca aaaagtttga ggtatattat tgatgatgg
36519
<210> 2
<211> 31588
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 2
ccatcttcaa taatatacct caaacttttt gtgcgcgtta atatgcaaat gaggcgtttg
60
aatttgggga ggaagggcgg tgattggtcg agggatgagc gaccgttagg ggcggggcga
120
gtgacgtttt gatgacgtgg ttgcgaggag gagccagttt gcaagttctc gtgggaaaag
180
tgacgtcaaa cgaggtgtgg tttgaacacg gaaatactca attttcccgc gctctctgac
240
aggaaatgag gtgtttctgg gcggatgcaa gtgaaaacgg gccattttcg cgcgaaaact
300
gaatgaggaa gtgaaaatct gagtaatttc gcgtttatgg cagggaggag tatttgccga
360
gggccgagta gactttgacc gattacgtgg gggtttcgat taccgtgttt ttcacctaaa
420
tttccgcgta cggtgtcaaa gtccggtgtt tttacgtagg tgtcagctga tcgccagggt
480
atttaaacct gcgctctcca gtcaagaggc cactcttgag tgccagcgag aagagttttc
540
tcctccgcgc cgcgagtcag atctacactt tgaaagtagg gataacaggg taatgacatt
600
gattattgac tagttgttaa tagtaatcaa ttacggggtc attagttcat agcccatata
660
tggagttccg cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc
720
cccgcccatt gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc
780
attgacgtca atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt
840
atcatatgcc aagtccgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt
900
atgcccagta catgacctta cgggactttc ctacttggca gtacatctac gtattagtca
960
tcgctattac catggtgatg cggttttggc agtacaccaa tgggcgtgga tagcggtttg
1020
actcacgggg atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc
1080
aaaatcaacg ggactttcca aaatgtcgta ataaccccgc cccgttgacg caaatgggcg
1140
gtaggcgtgt acggtgggag gtctatataa gcagagctcg tttagtgaac cgtcagatcg
1200
cctggaacgc catccacgct gttttgacct ccatagaaga cagcgatcgc gccaccatgg
1260
ccgggatgtt ccaggcactg tccgaaggct gcacacccta tgatattaac cagatgctga
1320
atgtcctggg agaccaccag gtctctggcc tggagcagct ggagagcatc atcaacttcg
1380
agaagctgac cgagtggaca agctccaatg tgatgcctat cctgtcccca ctgaccaagg
1440
gcatcctggg cttcgtgttt accctgacag tgccttctga gcggggcctg tcttgcatca
1500
gcgaggcaga cgcaaccaca ccagagtccg ccaatctggg cgaggagatc ctgtctcagc
1560
tgtacctgtg gccccgggtg acatatcact ccccttctta cgcctatcac cagttcgagc
1620
ggagagccaa gtacaagaga cacttcccag gctttggcca gtctctgctg ttcggctacc
1680
ccgtgtacgt gttcggcgat tgcgtgcagg gcgactggga tgccatccgg tttagatact
1740
gcgcaccacc tggatatgca ctgctgaggt gtaacgacac caattattcc gccctgctgg
1800
cagtgggcgc cctggagggc cctcgcaatc aggattggct gggcgtgcca aggcagctgg
1860
tgacacgcat gcaggccatc cagaacgcag gcctgtgcac cctggtggca atgctggagg
1920
agacaatctt ctggctgcag gcctttctga tggccctgac cgacagcggc cccaagacaa
1980
acatcatcgt ggattcccag tacgtgatgg gcatctccaa gccttctttc caggagtttg
2040
tggactggga gaacgtgagc ccagagctga attccaccga tcagccattc tggcaggcag
2100
gaatcctggc aaggaacctg gtgcctatgg tggccacagt gcagggccag aatctgaagt
2160
accagggcca gagcctggtc atcagcgcct ccatcatcgt gtttaacctg ctggagctgg
2220
agggcgacta tcgggacgat ggcaacgtgt gggtgcacac cccactgagc cccagaacac
2280
tgaacgcctg ggtgaaggcc gtggaggaga agaagggcat cccagtgcac ctggagctgg
2340
cctccatgac caatatggag ctgatgtcta gcatcgtgca ccagcaggtg aggacatacg
2400
gacccgtgtt catgtgcctg ggaggcctgc tgaccatggt ggcaggagcc gtgtggctga
2460
cagtgcgggt gctggagctg ttcagagccg cccagctggc caacgatgtg gtgctgcaga
2520
tcatggagct gtgcggagca gcctttcgcc aggtgtgcca caccacagtg ccatggccca
2580
atgcctccct gacccccaag tggaacaatg agacaacaca gcctcagatc gccaactgta
2640
gcgtgtacga cttcttcgtg tggctgcact actatagcgt gagggatacc ctgtggcccc
2700
gcgtgacata ccacatgaat aagtacgcct atcacatgct ggagaggcgc gccaagtata
2760
agagaggccc tggcccaggc gcaaagtttg tggcagcatg gaccctgaag gccgccgccg
2820
gccccggccc cggccagtat atcaaggcta acagtaagtt cattggaatc acagagctgg
2880
gacccggacc tggataatga gtttaaactc ccatttaaat gtgagggtta atgcttcgag
2940
cagacatgat aagatacatt gatgagtttg gacaaaccac aactagaatg cagtgaaaaa
3000
aatgctttat ttgtgaaatt tgtgatgcta ttgctttatt tgtaaccatt ataagctgca
3060
ataaacaagt taacaacaac aattgcattc attttatgtt tcaggttcag ggggagatgt
3120
gggaggtttt ttaaagcaag taaaacctct acaaatgtgg taaaataact ataacggtcc
3180
taaggtagcg agtgagtagt gttctggggc gggggaggac ctgcatgagg gccagaataa
3240
ctgaaatctg tgcttttctg tgtgttgcag cagcatgagc ggaagcggct cctttgaggg
3300
aggggtattc agcccttatc tgacggggcg tctcccctcc tgggcgggag tgcgtcagaa
3360
tgtgatggga tccacggtgg acggccggcc cgtgcagccc gcgaactctt caaccctgac
3420
ctatgcaacc ctgagctctt cgtcgttgga cgcagctgcc gccgcagctg ctgcatctgc
3480
cgccagcgcc gtgcgcggaa tggccatggg cgccggctac tacggcactc tggtggccaa
3540
ctcgagttcc accaataatc ccgccagcct gaacgaggag aagctgttgc tgctgatggc
3600
ccagctcgag gccttgaccc agcgcctggg cgagctgacc cagcaggtgg ctcagctgca
3660
ggagcagacg cgggccgcgg ttgccacggt gaaatccaaa taaaaaatga atcaataaat
3720
aaacggagac ggttgttgat tttaacacag agtctgaatc tttatttgat ttttcgcgcg
3780
cggtaggccc tggaccaccg gtctcgatca ttgagcaccc ggtggatctt ttccaggacc
3840
cggtagaggt gggcttggat gttgaggtac atgggcatga gcccgtcccg ggggtggagg
3900
tagctccatt gcagggcctc gtgctcgggg gtggtgttgt aaatcaccca gtcatagcag
3960
gggcgcaggg catggtgttg cacaatatct ttgaggagga gactgatggc cacgggcagc
4020
cctttggtgt aggtgtttac aaatctgttg agctgggagg gatgcatgcg gggggagatg
4080
aggtgcatct tggcctggat cttgagattg gcgatgttac cgcccagatc ccgcctgggg
4140
ttcatgttgt gcaggaccac cagcacggtg tatccggtgc acttggggaa tttatcatgc
4200
aacttggaag ggaaggcgtg aaagaatttg gcgacgcctt tgtgcccgcc caggttttcc
4260
atgcactcat ccatgatgat ggcgatgggc ccgtgggcgg cggcctgggc aaagacgttt
4320
cgggggtcgg acacatcata gttgtggtcc tgggtgaggt catcataggc cattttaatg
4380
aatttggggc ggagggtgcc ggactggggg acaaaggtac cctcgatccc gggggcgtag
4440
ttcccctcac agatctgcat ctcccaggct ttgagctcgg agggggggat catgtccacc
4500
tgcggggcga taaagaacac ggtttccggg gcgggggaga tgagctgggc cgaaagcaag
4560
ttccggagca gctgggactt gccgcagccg gtggggccgt agatgacccc gatgaccggc
4620
tgcaggtggt agttgaggga gagacagctg ccgtcctccc ggaggagggg ggccacctcg
4680
ttcatcatct cgcgcacgtg catgttctcg cgcaccagtt ccgccaggag gcgctctccc
4740
cccagggata ggagctcctg gagcgaggcg aagtttttca gcggcttgag tccgtcggcc
4800
atgggcattt tggagagggt ttgttgcaag agttccaggc ggtcccagag ctcggtgatg
4860
tgctctacgg catctcgatc cagcagacct cctcgtttcg cgggttggga cggctgcggg
4920
agtagggcac cagacgatgg gcgtccagcg cagccagggt ccggtccttc cagggtcgca
4980
gcgtccgcgt cagggtggtc tccgtcacgg tgaaggggtg cgcgccgggc tgggcgcttg
5040
cgagggtgcg cttcaggctc atccggctgg tcgaaaaccg ctcccgatcg gcgccctgcg
5100
cgtcggccag gtagcaattg accatgagtt cgtagttgag cgcctcggcc gcgtggcctt
5160
tggcgcggag cttacctttg gaagtctgcc cgcaggcggg acagaggagg gacttgaggg
5220
cgtagagctt gggggcgagg aagacggact cgggggcgta ggcgtccgcg ccgcagtggg
5280
cgcagacggt ctcgcactcc acgagccagg tgaggtcggg ctggtcgggg tcaaaaacca
5340
gtttcccgcc gttctttttg atgcgtttct tacctttggt ctccatgagc tcgtgtcccc
5400
gctgggtgac aaagaggctg tccgtgtccc cgtagaccga ctttatgggc cggtcctcga
5460
gcggtgtgcc gcggtcctcc tcgtagagga accccgccca ctccgagacg aaagcccggg
5520
tccaggccag cacgaaggag gccacgtggg acgggtagcg gtcgttgtcc accagcgggt
5580
ccaccttttc cagggtatgc aaacacatgt ccccctcgtc cacatccagg aaggtgattg
5640
gcttgtaagt gtaggccacg tgaccggggg tcccggccgg gggggtataa aagggtgcgg
5700
gtccctgctc gtcctcactg tcttccggat cgctgtccag gagcgccagc tgttggggta
5760
ggtattccct ctcgaaggcg ggcatgacct cggcactcag gttgtcagtt tctagaaacg
5820
aggaggattt gatattgacg gtgccggcgg agatgccttt caagagcccc tcgtccatct
5880
ggtcagaaaa gacgatcttt ttgttgtcga gcttggtggc gaaggagccg tagagggcgt
5940
tggagaggag cttggcgatg gagcgcatgg tctggttttt ttccttgtcg gcgcgctcct
6000
tggcggcgat gttgagctgc acgtactcgc gcgccacgca cttccattcg gggaagacgg
6060
tggtcagctc gtcgggcacg attctgacct gccagccccg attatgcagg gtgatgaggt
6120
ccacactggt ggccacctcg ccgcgcaggg gctcattagt ccagcagagg cgtccgccct
6180
tgcgcgagca gaaggggggc agggggtcca gcatgacctc gtcggggggg tcggcatcga
6240
tggtgaagat gccgggcagg aggtcggggt caaagtagct gatggaagtg gccagatcgt
6300
ccagggcagc ttgccattcg cgcacggcca gcgcgcgctc gtagggactg aggggcgtgc
6360
cccagggcat gggatgggta agcgcggagg cgtacatgcc gcagatgtcg tagacgtaga
6420
ggggctcctc gaggatgccg atgtaggtgg ggtagcagcg ccccccgcgg atgctggcgc
6480
gcacgtagtc atacagctcg tgcgaggggg cgaggagccc cgggcccagg ttggtgcgac
6540
tgggcttttc ggcgcggtag acgatctggc ggaaaatggc atgcgagttg gaggagatgg
6600
tgggcctttg gaagatgttg aagtgggcgt ggggcagtcc gaccgagtcg cggatgaagt
6660
gggcgtagga gtcttgcagc ttggcgacga gctcggcggt gactaggacg tccagagcgc
6720
agtagtcgag ggtctcctgg atgatgtcat acttgagctg tcccttttgt ttccacagct
6780
cgcggttgag aaggaactct tcgcggtcct tccagtactc ttcgaggggg aacccgtcct
6840
gatctgcacg gtaagagcct agcatgtaga actggttgac ggccttgtag gcgcagcagc
6900
ccttctccac ggggagggcg taggcctggg cggccttgcg cagggaggtg tgcgtgaggg
6960
cgaaagtgtc cctgaccatg accttgagga actggtgctt gaagtcgata tcgtcgcagc
7020
ccccctgctc ccagagctgg aagtccgtgc gcttcttgta ggcggggttg ggcaaagcga
7080
aagtaacatc gttgaagagg atcttgcccg cgcggggcat aaagttgcga gtgatgcgga
7140
aaggttgggg cacctcggcc cggttgttga tgacctgggc ggcgagcacg atctcgtcga
7200
agccgttgat gttgtggccc acgatgtaga gttccacgaa tcgcggacgg cccttgacgt
7260
ggggcagttt cttgagctcc tcgtaggtga gctcgtcggg gtcgctgagc ccgtgctgct
7320
cgagcgccca gtcggcgaga tgggggttgg cgcggaggaa ggaagtccag agatccacgg
7380
ccagggcggt ttgcagacgg tcccggtact gacggaactg ctgcccgacg gccatttttt
7440
cgggggtgac gcagtagaag gtgcgggggt ccccgtgcca gcgatcccat ttgagctgga
7500
gggcgagatc gagggcgagc tcgacgagcc ggtcgtcccc ggagagtttc atgaccagca
7560
tgaaggggac gagctgcttg ccgaaggacc ccatccaggt gtaggtttcc acatcgtagg
7620
tgaggaagag cctttcggtg cgaggatgcg agccgatggg gaagaactgg atctcctgcc
7680
accaattgga ggaatggctg ttgatgtgat ggaagtagaa atgccgacgg cgcgccgaac
7740
actcgtgctt gtgtttatac aagcggccac agtgctcgca acgctgcacg ggatgcacgt
7800
gctgcacgag ctgtacctga gttcctttga cgaggaattt cagtgggaag tggagtcgtg
7860
gcgcctgcat ctcgtgctgt actacgtcgt ggtggtcggc ctggccctct tctgcctcga
7920
tggtggtcat gctgacgagc ccgcgcggga ggcaggtcca gacctcggcg cgagcgggtc
7980
ggagagcgag gacgagggcg cgcaggccgg agctgtccag ggtcctgaga cgctgcggag
8040
tcaggtcagt gggcagcggc ggcgcgcggt tgacttgcag gagtttttcc agggcgcgcg
8100
ggaggtccag atggtacttg atctccaccg cgccattggt ggcgacgtcg atggcttgca
8160
gggtcccgtg cccctggggt gtgaccaccg tcccccgttt cttcttgggc ggctggggcg
8220
acgggggcgg tgcctcttcc atggttagaa gcggcggcga ggacgcgcgc cgggcggcag
8280
gggcggctcg gggcccggag gcaggggcgg caggggcacg tcggcgccgc gcgcgggtag
8340
gttctggtac tgcgcccgga gaagactggc gtgagcgacg acgcgacggt tgacgtcctg
8400
gatctgacgc ctctgggtga aggccacggg acccgtgagt ttgaacctga aagagagttc
8460
gacagaatca atctcggtat cgttgacggc ggcctgccgc aggatctctt gcacgtcgcc
8520
cgagttgtcc tggtaggcga tctcggtcat gaactgctcg atctcctcct cttgaaggtc
8580
tccgcggccg gcgcgctcca cggtggccgc gaggtcgttg gagatgcggc ccatgagctg
8640
cgagaaggcg ttcatgcccg cctcgttcca gacgcggctg tagaccacga cgccctcggg
8700
atcgcgggcg cgcatgacca cctgggcgag gttgagctcc acgtggcgcg tgaagaccgc
8760
gtagttgcag aggcgctggt agaggtagtt gagcgtggtg gcgatgtgct cggtgacgaa
8820
gaaatacatg atccagcggc ggagcggcat ctcgctgacg tcgcccagcg cctccaaacg
8880
ttccatggcc tcgtaaaagt ccacggcgaa gttgaaaaac tgggagttgc gcgccgagac
8940
ggtcaactcc tcctccagaa gacggatgag ctcggcgatg gtggcgcgca cctcgcgctc
9000
gaaggccccc gggagttcct ccacttcctc ttcttcctcc tccactaaca tctcttctac
9060
ttcctcctca ggcggcagtg gtggcggggg agggggcctg cgtcgccggc ggcgcacggg
9120
cagacggtcg atgaagcgct cgatggtctc gccgcgccgg cgtcgcatgg tctcggtgac
9180
ggcgcgcccg tcctcgcggg gccgcagcgt gaagacgccg ccgcgcatct ccaggtggcc
9240
gggggggtcc ccgttgggca gggagagggc gctgacgatg catcttatca attgccccgt
9300
agggactccg cgcaaggacc tgagcgtctc gagatccacg ggatctgaaa accgctgaac
9360
gaaggcttcg agccagtcgc agtcgcaagg taggctgagc acggtttctt ctggcgggtc
9420
atgttggttg ggagcggggc gggcgatgct gctggtgatg aagttgaaat aggcggttct
9480
gagacggcgg atggtggcga ggagcaccag gtctttgggc ccggcttgct ggatgcgcag
9540
acggtcggcc atgccccagg cgtggtcctg acacctggcc aggtccttgt agtagtcctg
9600
catgagccgc tccacgggca cctcctcctc gcccgcgcgg ccgtgcatgc gcgtgagccc
9660
gaagccgcgc tggggctgga cgagcgccag gtcggcgacg acgcgctcgg cgaggatggc
9720
ttgctggatc tgggtgaggg tggtctggaa gtcatcaaag tcgacgaagc ggtggtaggc
9780
tccggtgttg atggtgtagg agcagttggc catgacggac cagttgacgg tctggtggcc
9840
cggacgcacg agctcgtggt acttgaggcg cgagtaggcg cgcgtgtcga agatgtagtc
9900
gttgcaggtg cgcaccaggt actggtagcc gatgaggaag tgcggcggcg gctggcggta
9960
gagcggccat cgctcggtgg cgggggcgcc gggcgcgagg tcctcgagca tggtgcggtg
10020
gtagccgtag atgtacctgg acatccaggt gatgccggcg gcggtggtgg aggcgcgcgg
10080
gaactcgcgg acgcggttcc agatgttgcg cagcggcagg aagtagttca tggtgggcac
10140
ggtctggccc gtgaggcgcg cgcagtcgtg gatgctctat acgggcaaaa acgaaagcgg
10200
tcagcggctc gactccgtgg cctggaggct aagcgaacgg gttgggctgc gcgtgtaccc
10260
cggttcgaat ctcgaatcag gctggagccg cagctaacgt ggtattggca ctcccgtctc
10320
gacccaagcc tgcaccaacc ctccaggata cggaggcggg tcgttttgca actttttttt
10380
ggaggccgga tgagactagt aagcgcggaa agcggccgac cgcgatggct cgctgccgta
10440
gtctggagaa gaatcgccag ggttgcgttg cggtgtgccc cggttcgagg ccggccggat
10500
tccgcggcta acgagggcgt ggctgccccg tcgtttccaa gaccccatag ccagccgact
10560
tctccagtta cggagcgagc ccctcttttg ttttgtttgt ttttgccaga tgcatcccgt
10620
actgcggcag atgcgccccc accaccctcc accgcaacaa cagccccctc cacagccggc
10680
gcttctgccc ccgccccagc agcaacttcc agccacgacc gccgcggccg ccgtgagcgg
10740
ggctggacag agttatgatc accagctggc cttggaagag ggcgaggggc tggcgcgcct
10800
gggggcgtcg tcgccggagc ggcacccgcg cgtgcagatg aaaagggacg ctcgcgaggc
10860
ctacgtgccc aagcagaacc tgttcagaga caggagcggc gaggagcccg aggagatgcg
10920
cgcggcccgg ttccacgcgg ggcgggagct gcggcgcggc ctggaccgaa agagggtgct
10980
gagggacgag gatttcgagg cggacgagct gacggggatc agccccgcgc gcgcgcacgt
11040
ggccgcggcc aacctggtca cggcgtacga gcagaccgtg aaggaggaga gcaacttcca
11100
aaaatccttc aacaaccacg tgcgcaccct gatcgcgcgc gaggaggtga ccctgggcct
11160
gatgcacctg tgggacctgc tggaggccat cgtgcagaac cccaccagca agccgctgac
11220
ggcgcagctg ttcctggtgg tgcagcatag tcgggacaac gaagcgttca gggaggcgct
11280
gctgaatatc accgagcccg agggccgctg gctcctggac ctggtgaaca ttctgcagag
11340
catcgtggtg caggagcgcg ggctgccgct gtccgagaag ctggcggcca tcaacttctc
11400
ggtgctgagt ttgggcaagt actacgctag gaagatctac aagaccccgt acgtgcccat
11460
agacaaggag gtgaagatcg acgggtttta catgcgcatg accctgaaag tgctgaccct
11520
gagcgacgat ctgggggtgt accgcaacga caggatgcac cgtgcggtga gcgccagcag
11580
gcggcgcgag ctgagcgacc aggagctgat gcatagtctg cagcgggccc tgaccggggc
11640
cgggaccgag ggggagagct actttgacat gggcgcggac ctgcactggc agcccagccg
11700
ccgggccttg gaggcggcgg caggacccta cgtagaagag gtggacgatg aggtggacga
11760
ggagggcgag tacctggaag actgatggcg cgaccgtatt tttgctagat gcaacaacaa
11820
cagccacctc ctgatcccgc gatgcgggcg gcgctgcaga gccagccgtc cggcattaac
11880
tcctcggacg attggaccca ggccatgcaa cgcatcatgg cgctgacgac ccgcaacccc
11940
gaagccttta gacagcagcc ccaggccaac cggctctcgg ccatcctgga ggccgtggtg
12000
ccctcgcgct ccaaccccac gcacgagaag gtcctggcca tcgtgaacgc gctggtggag
12060
aacaaggcca tccgcggcga cgaggccggc ctggtgtaca acgcgctgct ggagcgcgtg
12120
gcccgctaca acagcaccaa cgtgcagacc aacctggacc gcatggtgac cgacgtgcgc
12180
gaggccgtgg cccagcgcga gcggttccac cgcgagtcca acctgggatc catggtggcg
12240
ctgaacgcct tcctcagcac ccagcccgcc aacgtgcccc ggggccagga ggactacacc
12300
aacttcatca gcgccctgcg cctgatggtg accgaggtgc cccagagcga ggtgtaccag
12360
tccgggccgg actacttctt ccagaccagt cgccagggct tgcagaccgt gaacctgagc
12420
caggctttca agaacttgca gggcctgtgg ggcgtgcagg ccccggtcgg ggaccgcgcg
12480
acggtgtcga gcctgctgac gccgaactcg cgcctgctgc tgctgctggt ggcccccttc
12540
acggacagcg gcagcatcaa ccgcaactcg tacctgggct acctgattaa cctgtaccgc
12600
gaggccatcg gccaggcgca cgtggacgag cagacctacc aggagatcac ccacgtgagc
12660
cgcgccctgg gccaggacga cccgggcaac ctggaagcca ccctgaactt tttgctgacc
12720
aaccggtcgc agaagatccc gccccagtac gcgctcagca ccgaggagga gcgcatcctg
12780
cgttacgtgc agcagagcgt gggcctgttc ctgatgcagg agggggccac ccccagcgcc
12840
gcgctcgaca tgaccgcgcg caacatggag cccagcatgt acgccagcaa ccgcccgttc
12900
atcaataaac tgatggacta cttgcatcgg gcggccgcca tgaactctga ctatttcacc
12960
aacgccatcc tgaatcccca ctggctcccg ccgccggggt tctacacggg cgagtacgac
13020
atgcccgacc ccaatgacgg gttcctgtgg gacgatgtgg acagcagcgt gttctccccc
13080
cgaccgggtg ctaacgagcg ccccttgtgg aagaaggaag gcagcgaccg acgcccgtcc
13140
tcggcgctgt ccggccgcga gggtgctgcc gcggcggtgc ccgaggccgc cagtcctttc
13200
ccgagcttgc ccttctcgct gaacagtatc cgcagcagcg agctgggcag gatcacgcgc
13260
ccgcgcttgc tgggcgaaga ggagtacttg aatgactcgc tgttgagacc cgagcgggag
13320
aagaacttcc ccaataacgg gatagaaagc ctggtggaca agatgagccg ctggaagacg
13380
tatgcgcagg agcacaggga cgatccccgg gcgtcgcagg gggccacgag ccggggcagc
13440
gccgcccgta aacgccggtg gcacgacagg cagcggggac agatgtggga cgatgaggac
13500
tccgccgacg acagcagcgt gttggacttg ggtgggagtg gtaacccgtt cgctcacctg
13560
cgcccccgta tcgggcgcat gatgtaagag aaaccgaaaa taaatgatac tcaccaaggc
13620
catggcgacc agcgtgcgtt cgtttcttct ctgttgttgt tgtatctagt atgatgaggc
13680
gtgcgtaccc ggagggtcct cctccctcgt acgagagcgt gatgcagcag gcgatggcgg
13740
cggcggcgat gcagcccccg ctggaggctc cttacgtgcc cccgcggtac ctggcgccta
13800
cggaggggcg gaacagcatt cgttactcgg agctggcacc cttgtacgat accacccggt
13860
tgtacctggt ggacaacaag tcggcggaca tcgcctcgct gaactaccag aacgaccaca
13920
gcaacttcct gaccaccgtg gtgcagaaca atgacttcac ccccacggag gccagcaccc
13980
agaccatcaa ctttgacgag cgctcgcggt ggggcggcca gctgaaaacc atcatgcaca
14040
ccaacatgcc caacgtgaac gagttcatgt acagcaacaa gttcaaggcg cgggtgatgg
14100
tctcccgcaa gacccccaat ggggtgacag tgacagagga ttatgatggt agtcaggatg
14160
agctgaagta tgaatgggtg gaatttgagc tgcccgaagg caacttctcg gtgaccatga
14220
ccatcgacct gatgaacaac gccatcatcg acaattactt ggcggtgggg cggcagaacg
14280
gggtgctgga gagcgacatc ggcgtgaagt tcgacactag gaacttcagg ctgggctggg
14340
accccgtgac cgagctggtc atgcccgggg tgtacaccaa cgaggctttc catcccgata
14400
ttgtcttgct gcccggctgc ggggtggact tcaccgagag ccgcctcagc aacctgctgg
14460
gcattcgcaa gaggcagccc ttccaggaag gcttccagat catgtacgag gatctggagg
14520
ggggcaacat ccccgcgctc ctggatgtcg acgcctatga gaaaagcaag gaggatgcag
14580
cagctgaagc aactgcagcc gtagctaccg cctctaccga ggtcaggggc gataattttg
14640
caagcgccgc agcagtggca gcggccgagg cggctgaaac cgaaagtaag atagtcattc
14700
agccggtgga gaaggatagc aagaacagga gctacaacgt actaccggac aagataaaca
14760
ccgcctaccg cagctggtac ctagcctaca actatggcga ccccgagaag ggcgtgcgct
14820
cctggacgct gctcaccacc tcggacgtca cctgcggcgt ggagcaagtc tactggtcgc
14880
tgcccgacat gatgcaagac ccggtcacct tccgctccac gcgtcaagtt agcaactacc
14940
cggtggtggg cgccgagctc ctgcccgtct actccaagag cttcttcaac gagcaggccg
15000
tctactcgca gcagctgcgc gccttcacct cgcttacgca cgtcttcaac cgcttccccg
15060
agaaccagat cctcgtccgc ccgcccgcgc ccaccattac caccgtcagt gaaaacgttc
15120
ctgctctcac agatcacggg accctgccgc tgcgcagcag tatccgggga gtccagcgcg
15180
tgaccgttac tgacgccaga cgccgcacct gcccctacgt ctacaaggcc ctgggcatag
15240
tcgcgccgcg cgtcctctcg agccgcacct tctaaatgtc cattctcatc tcgcccagta
15300
ataacaccgg ttggggcctg cgcgcgccca gcaagatgta cggaggcgct cgccaacgct
15360
ccacgcaaca ccccgtgcgc gtgcgcgggc acttccgcgc tccctggggc gccctcaagg
15420
gccgcgtgcg gtcgcgcacc accgtcgacg acgtgatcga ccaggtggtg gccgacgcgc
15480
gcaactacac ccccgccgcc gcgcccgtct ccaccgtgga cgccgtcatc gacagcgtgg
15540
tggccgacgc gcgccggtac gcccgcgcca agagccggcg gcggcgcatc gcccggcggc
15600
accggagcac ccccgccatg cgcgcggcgc gagccttgct gcgcagggcc aggcgcacgg
15660
gacgcagggc catgctcagg gcggccagac gcgcggcttc aggcgccagc gccggcagga
15720
cccggagacg cgcggccacg gcggcggcag cggccatcgc cagcatgtcc cgcccgcggc
15780
gagggaacgt gtactgggtg cgcgacgccg ccaccggtgt gcgcgtgccc gtgcgcaccc
15840
gcccccctcg cacttgaaga tgttcacttc gcgatgttga tgtgtcccag cggcgaggag
15900
gatgtccaag cgcaaattca aggaagagat gctccaggtc atcgcgcctg agatctacgg
15960
ccctgcggtg gtgaaggagg aaagaaagcc ccgcaaaatc aagcgggtca aaaaggacaa
16020
aaaggaagaa gaaagtgatg tggacggatt ggtggagttt gtgcgcgagt tcgccccccg
16080
gcggcgcgtg cagtggcgcg ggcggaaggt gcaaccggtg ctgagacccg gcaccaccgt
16140
ggtcttcacg cccggcgagc gctccggcac cgcttccaag cgctcctacg acgaggtgta
16200
cggggatgat gatattctgg agcaggcggc cgagcgcctg ggcgagtttg cttacggcaa
16260
gcgcagccgt tccgcaccga aggaagaggc ggtgtccatc ccgctggacc acggcaaccc
16320
cacgccgagc ctcaagcccg tgaccttgca gcaggtgctg ccgaccgcgg cgccgcgccg
16380
ggggttcaag cgcgagggcg aggatctgta ccccaccatg cagctgatgg tgcccaagcg
16440
ccagaagctg gaagacgtgc tggagaccat gaaggtggac ccggacgtgc agcccgaggt
16500
caaggtgcgg cccatcaagc aggtggcccc gggcctgggc gtgcagaccg tggacatcaa
16560
gattcccacg gagcccatgg aaacgcagac cgagcccatg atcaagccca gcaccagcac
16620
catggaggtg cagacggatc cctggatgcc atcggctcct agtcgaagac cccggcgcaa
16680
gtacggcgcg gccagcctgc tgatgcccaa ctacgcgctg catccttcca tcatccccac
16740
gccgggctac cgcggcacgc gcttctaccg cggtcatacc agcagccgcc gccgcaagac
16800
caccactcgc cgccgccgtc gccgcaccgc cgctgcaacc acccctgccg ccctggtgcg
16860
gagagtgtac cgccgcggcc gcgcacctct gaccctgccg cgcgcgcgct accacccgag
16920
catcgccatt taaactttcg cctgctttgc agatcaatgg ccctcacatg ccgccttcgc
16980
gttcccatta cgggctaccg aggaagaaaa ccgcgccgta gaaggctggc ggggaacggg
17040
atgcgtcgcc accaccaccg gcggcggcgc gccatcagca agcggttggg gggaggcttc
17100
ctgcccgcgc tgatccccat catcgccgcg gcgatcgggg cgatccccgg cattgcttcc
17160
gtggcggtgc aggcctctca gcgccactga gacacacttg gaaacatctt gtaataaacc
17220
aatggactct gacgctcctg gtcctgtgat gtgttttcgt agacagatgg aagacatcaa
17280
tttttcgtcc ctggctccgc gacacggcac gcggccgttc atgggcacct ggagcgacat
17340
cggcaccagc caactgaacg ggggcgcctt caattggagc agtctctgga gcgggcttaa
17400
gaatttcggg tccacgctta aaacctatgg cagcaaggcg tggaacagca ccacagggca
17460
ggcgctgagg gataagctga aagagcagaa cttccagcag aaggtggtcg atgggctcgc
17520
ctcgggcatc aacggggtgg tggacctggc caaccaggcc gtgcagcggc agatcaacag
17580
ccgcctggac ccggtgccgc ccgccggctc cgtggagatg ccgcaggtgg aggaggagct
17640
gcctcccctg gacaagcggg gcgagaagcg accccgcccc gatgcggagg agacgctgct
17700
gacgcacacg gacgagccgc ccccgtacga ggaggcggtg aaactgggtc tgcccaccac
17760
gcggcccatc gcgcccctgg ccaccggggt gctgaaaccc gaaaagcccg cgaccctgga
17820
cttgcctcct ccccagcctt cccgcccctc tacagtggct aagcccctgc cgccggtggc
17880
cgtggcccgc gcgcgacccg ggggcaccgc ccgccctcat gcgaactggc agagcactct
17940
gaacagcatc gtgggtctgg gagtgcagag tgtgaagcgc cgccgctgct attaaaccta
18000
ccgtagcgct taacttgctt gtctgtgtgt gtatgtatta tgtcgccgcc gccgctgtcc
18060
accagaagga ggagtgaaga ggcgcgtcgc cgagttgcaa gatggccacc ccatcgatgc
18120
tgccccagtg ggcgtacatg cacatcgccg gacaggacgc ttcggagtac ctgagtccgg
18180
gtctggtgca gtttgcccgc gccacagaca cctacttcag tctggggaac aagtttagga
18240
accccacggt ggcgcccacg cacgatgtga ccaccgaccg cagccagcgg ctgacgctgc
18300
gcttcgtgcc cgtggaccgc gaggacaaca cctactcgta caaagtgcgc tacacgctgg
18360
ccgtgggcga caaccgcgtg ctggacatgg ccagcaccta ctttgacatc cgcggcgtgc
18420
tggatcgggg ccctagcttc aaaccctact ccggcaccgc ctacaacagt ctggccccca
18480
agggagcacc caacacttgt cagtggacat ataaagccga tggtgaaact gccacagaaa
18540
aaacctatac atatggaaat gcacccgtgc agggcattaa catcacaaaa gatggtattc
18600
aacttggaac tgacaccgat gatcagccaa tctacgcaga taaaacctat cagcctgaac
18660
ctcaagtggg tgatgctgaa tggcatgaca tcactggtac tgatgaaaag tatggaggca
18720
gagctcttaa gcctgatacc aaaatgaagc cttgttatgg ttcttttgcc aagcctacta
18780
ataaagaagg aggtcaggca aatgtgaaaa caggaacagg cactactaaa gaatatgaca
18840
tagacatggc tttctttgac aacagaagtg cggctgctgc tggcctagct ccagaaattg
18900
ttttgtatac tgaaaatgtg gatttggaaa ctccagatac ccatattgta tacaaagcag
18960
gcacagatga cagcagctct tctattaatt tgggtcagca agccatgccc aacagaccta
19020
actacattgg tttcagagac aactttatcg ggctcatgta ctacaacagc actggcaata
19080
tgggggtgct ggccggtcag gcttctcagc tgaatgctgt ggttgacttg caagacagaa
19140
acaccgagct gtcctaccag ctcttgcttg actctctggg tgacagaacc cggtatttca
19200
gtatgtggaa tcaggcggtg gacagctatg atcctgatgt gcgcattatt gaaaatcatg
19260
gtgtggagga tgaacttccc aactattgtt tccctctgga tgctgttggc agaacagata
19320
cttatcaggg aattaaggct aatggaactg atcaaaccac atggaccaaa gatgacagtg
19380
tcaatgatgc taatgagata ggcaagggta atccattcgc catggaaatc aacatccaag
19440
ccaacctgtg gaggaacttc ctctacgcca acgtggccct gtacctgccc gactcttaca
19500
agtacacgcc ggccaatgtt accctgccca ccaacaccaa cacctacgat tacatgaacg
19560
gccgggtggt ggcgccctcg ctggtggact cctacatcaa catcggggcg cgctggtcgc
19620
tggatcccat ggacaacgtg aaccccttca accaccaccg caatgcgggg ctgcgctacc
19680
gctccatgct cctgggcaac gggcgctacg tgcccttcca catccaggtg ccccagaaat
19740
ttttcgccat caagagcctc ctgctcctgc ccgggtccta cacctacgag tggaacttcc
19800
gcaaggacgt caacatgatc ctgcagagct ccctcggcaa cgacctgcgc acggacgggg
19860
cctccatctc cttcaccagc atcaacctct acgccacctt cttccccatg gcgcacaaca
19920
cggcctccac gctcgaggcc atgctgcgca acgacaccaa cgaccagtcc ttcaacgact
19980
acctctcggc ggccaacatg ctctacccca tcccggccaa cgccaccaac gtgcccatct
20040
ccatcccctc gcgcaactgg gccgccttcc gcggctggtc cttcacgcgt ctcaagacca
20100
aggagacgcc ctcgctgggc tccgggttcg acccctactt cgtctactcg ggctccatcc
20160
cctacctcga cggcaccttc tacctcaacc acaccttcaa gaaggtctcc atcaccttcg
20220
actcctccgt cagctggccc ggcaacgacc ggctcctgac gcccaacgag ttcgaaatca
20280
agcgcaccgt cgacggcgag ggctacaacg tggcccagtg caacatgacc aaggactggt
20340
tcctggtcca gatgctggcc cactacaaca tcggctacca gggcttctac gtgcccgagg
20400
gctacaagga ccgcatgtac tccttcttcc gcaacttcca gcccatgagc cgccaggtgg
20460
tggacgaggt caactacaag gactaccagg ccgtcaccct ggcctaccag cacaacaact
20520
cgggcttcgt cggctacctc gcgcccacca tgcgccaggg ccagccctac cccgccaact
20580
acccctaccc gctcatcggc aagagcgccg tcaccagcgt cacccagaaa aagttcctct
20640
gcgacagggt catgtggcgc atccccttct ccagcaactt catgtccatg ggcgcgctca
20700
ccgacctcgg ccagaacatg ctctatgcca actccgccca cgcgctagac atgaatttcg
20760
aagtcgaccc catggatgag tccacccttc tctatgttgt cttcgaagtc ttcgacgtcg
20820
tccgagtgca ccagccccac cgcggcgtca tcgaggccgt ctacctgcgc acccccttct
20880
cggccggtaa cgccaccacc taagctcttg cttcttgcaa gccatggccg cgggctccgg
20940
cgagcaggag ctcagggcca tcatccgcga cctgggctgc gggccctact tcctgggcac
21000
cttcgataag cgcttcccgg gattcatggc cccgcacaag ctggcctgcg ccatcgtcaa
21060
cacggccggc cgcgagaccg ggggcgagca ctggctggcc ttcgcctgga acccgcgctc
21120
gaacacctgc tacctcttcg accccttcgg gttctcggac gagcgcctca agcagatcta
21180
ccagttcgag tacgagggcc tgctgcgccg cagcgccctg gccaccgagg accgctgcgt
21240
caccctggaa aagtccaccc agaccgtgca gggtccgcgc tcggccgcct gcgggctctt
21300
ctgctgcatg ttcctgcacg ccttcgtgca ctggcccgac cgccccatgg acaagaaccc
21360
caccatgaac ttgctgacgg gggtgcccaa cggcatgctc cagtcgcccc aggtggaacc
21420
caccctgcgc cgcaaccagg aggcgctcta ccgcttcctc aactcccact ccgcctactt
21480
tcgctcccac cgcgcgcgca tcgagaaggc caccgccttc gaccgcatga atcaagacat
21540
gtaaaccgtg tgtgtatgtt aaatgtcttt aataaacagc actttcatgt tacacatgca
21600
tctgagatga tttatttaga aatcgaaagg gttctgccgg gtctcggcat ggcccgcggg
21660
cagggacacg ttgcggaact ggtacttggc cagccacttg aactcgggga tcagcagttt
21720
gggcagcggg gtgtcgggga aggagtcggt ccacagcttc cgcgtcagtt gcagggcgcc
21780
cagcaggtcg ggcgcggaga tcttgaaatc gcagttggga cccgcgttct gcgcgcggga
21840
gttgcggtac acggggttgc agcactggaa caccatcagg gccgggtgct tcacgctcgc
21900
cagcaccgtc gcgtcggtga tgctctccac gtcgaggtcc tcggcgttgg ccatcccgaa
21960
gggggtcatc ttgcaggtct gccttcccat ggtgggcacg cacccgggct tgtggttgca
22020
atcgcagtgc agggggatca gcatcatctg ggcctggtcg gcgttcatcc ccgggtacat
22080
ggccttcatg aaagcctcca attgcctgaa cgcctgctgg gccttggctc cctcggtgaa
22140
gaagaccccg caggacttgc tagagaactg gttggtggcg cacccggcgt cgtgcacgca
22200
gcagcgcgcg tcgttgttgg ccagctgcac cacgctgcgc ccccagcggt tctgggtgat
22260
cttggcccgg tcggggttct ccttcagcgc gcgctgcccg ttctcgctcg ccacatccat
22320
ctcgatcatg tgctccttct ggatcatggt ggtcccgtgc aggcaccgca gcttgccctc
22380
ggcctcggtg cacccgtgca gccacagcgc gcacccggtg cactcccagt tcttgtgggc
22440
gatctgggaa tgcgcgtgca cgaagccctg caggaagcgg cccatcatgg tggtcagggt
22500
cttgttgcta gtgaaggtca gcggaatgcc gcggtgctcc tcgttgatgt acaggtggca
22560
gatgcggcgg tacacctcgc cctgctcggg catcagctgg aagttggctt tcaggtcggt
22620
ctccacgcgg tagcggtcca tcagcatagt catgatttcc atacccttct cccaggccga
22680
gacgatgggc aggctcatag ggttcttcac catcatctta gcgctagcag ccgcggccag
22740
ggggtcgctc tcgtccaggg tctcaaagct ccgcttgccg tccttctcgg tgatccgcac
22800
cggggggtag ctgaagccca cggccgccag ctcctcctcg gcctgtcttt cgtcctcgct
22860
gtcctggctg acgtcctgca ggaccacatg cttggtcttg cggggtttct tcttgggcgg
22920
cagcggcggc ggagatgttg gagatggcga gggggagcgc gagttctcgc tcaccactac
22980
tatctcttcc tcttcttggt ccgaggccac gcggcggtag gtatgtctct tcgggggcag
23040
aggcggaggc gacgggctct cgccgccgcg acttggcgga tggctggcag agccccttcc
23100
gcgttcgggg gtgcgctccc ggcggcgctc tgactgactt cctccgcggc cggccattgt
23160
gttctcctag ggaggaacaa caagcatgga gactcagcca tcgccaacct cgccatctgc
23220
ccccaccgcc gacgagaagc agcagcagca gaatgaaagc ttaaccgccc cgccgcccag
23280
ccccgccacc tccgacgcgg ccgtcccaga catgcaagag atggaggaat ccatcgagat
23340
tgacctgggc tatgtgacgc ccgcggagca cgaggaggag ctggcagtgc gcttttcaca
23400
agaagagata caccaagaac agccagagca ggaagcagag aatgagcaga gtcaggctgg
23460
gctcgagcat gacggcgact acctccacct gagcgggggg gaggacgcgc tcatcaagca
23520
tctggcccgg caggccacca tcgtcaagga tgcgctgctc gaccgcaccg aggtgcccct
23580
cagcgtggag gagctcagcc gcgcctacga gttgaacctc ttctcgccgc gcgtgccccc
23640
caagcgccag cccaatggca cctgcgagcc caacccgcgc ctcaacttct acccggtctt
23700
cgcggtgccc gaggccctgg ccacctacca catctttttc aagaaccaaa agatccccgt
23760
ctcctgccgc gccaaccgca cccgcgccga cgcccttttc aacctgggtc ccggcgcccg
23820
cctacctgat atcgcctcct tggaagaggt tcccaagatc ttcgagggtc tgggcagcga
23880
cgagactcgg gccgcgaacg ctctgcaagg agaaggagga gagcatgagc accacagcgc
23940
cctggtcgag ttggaaggcg acaacgcgcg gctggcggtg ctcaaacgca cggtcgagct
24000
gacccatttc gcctacccgg ctctgaacct gccccccaaa gtcatgagcg cggtcatgga
24060
ccaggtgctc atcaagcgcg cgtcgcccat ctccgaggac gagggcatgc aagactccga
24120
ggagggcaag cccgtggtca gcgacgagca gctggcccgg tggctgggtc ctaatgctag
24180
tccccagagt ttggaagagc ggcgcaaact catgatggcc gtggtcctgg tgaccgtgga
24240
gctggagtgc ctgcgccgct tcttcgccga cgcggagacc ctgcgcaagg tcgaggagaa
24300
cctgcactac ctcttcaggc acgggttcgt gcgccaggcc tgcaagatct ccaacgtgga
24360
gctgaccaac ctggtctcct acatgggcat cttgcacgag aaccgcctgg ggcagaacgt
24420
gctgcacacc accctgcgcg gggaggcccg gcgcgactac atccgcgact gcgtctacct
24480
ctacctctgc cacacctggc agacgggcat gggcgtgtgg cagcagtgtc tggaggagca
24540
gaacctgaaa gagctctgca agctcctgca gaagaacctc aagggtctgt ggaccgggtt
24600
cgacgagcgc accaccgcct cggacctggc cgacctcatt ttccccgagc gcctcaggct
24660
gacgctgcgc aacggcctgc ccgactttat gagccaaagc atgttgcaaa actttcgctc
24720
tttcatcctc gaacgctccg gaatcctgcc cgccacctgc tccgcgctgc cctcggactt
24780
cgtgccgctg accttccgcg agtgcccccc gccgctgtgg agccactgct acctgctgcg
24840
cctggccaac tacctggcct accactcgga cgtgatcgag gacgtcagcg gcgagggcct
24900
gctcgagtgc cactgccgct gcaacctctg cacgccgcac cgctccctgg cctgcaaccc
24960
ccagctgctg agcgagaccc agatcatcgg caccttcgag ttgcaagggc ccagcgaagg
25020
cgagggttca gccgccaagg ggggtctgaa actcaccccg gggctgtgga cctcggccta
25080
cttgcgcaag ttcgtgcccg aggactacca tcccttcgag atcaggttct acgaggacca
25140
atcccatccg cccaaggccg agctgtcggc ctgcgtcatc acccaggggg cgatcctggc
25200
ccaattgcaa gccatccaga aatcccgcca agaattcttg ctgaaaaagg gccgcggggt
25260
ctacctcgac ccccagaccg gtgaggagct caaccccggc ttcccccagg atgccccgag
25320
gaaacaagaa gctgaaagtg gagctgccgc ccgtggagga tttggaggaa gactgggaga
25380
acagcagtca ggcagaggag gaggagatgg aggaagactg ggacagcact caggcagagg
25440
aggacagcct gcaagacagt ctggaggaag acgaggagga ggcagaggag gaggtggaag
25500
aagcagccgc cgccagaccg tcgtcctcgg cgggggagaa agcaagcagc acggatacca
25560
tctccgctcc gggtcggggt cccgctcgac cacacagtag atgggacgag accggacgat
25620
tcccgaaccc caccacccag accggtaaga aggagcggca gggatacaag tcctggcggg
25680
ggcacaaaaa cgccatcgtc tcctgcttgc aggcctgcgg gggcaacatc tccttcaccc
25740
ggcgctacct gctcttccac cgcggggtga actttccccg caacatcttg cattactacc
25800
gtcacctcca cagcccctac tacttccaag aagaggcagc agcagcagaa aaagaccagc
25860
agaaaaccag cagctagaaa atccacagcg gcggcagcag gtggactgag gatcgcggcg
25920
aacgagccgg cgcaaacccg ggagctgagg aaccggatct ttcccaccct ctatgccatc
25980
ttccagcaga gtcgggggca ggagcaggaa ctgaaagtca agaaccgttc tctgcgctcg
26040
ctcacccgca gttgtctgta tcacaagagc gaagaccaac ttcagcgcac tctcgaggac
26100
gccgaggctc tcttcaacaa gtactgcgcg ctcactctta aagagtagcc cgcgcccgcc
26160
cagtcgcaga aaaaggcggg aattacgtca cctgtgccct tcgccctagc cgcctccacc
26220
catcatcatg agcaaagaga ttcccacgcc ttacatgtgg agctaccagc cccagatggg
26280
cctggccgcc ggtgccgccc aggactactc cacccgcatg aattggctca gcgccgggcc
26340
cgcgatgatc tcacgggtga atgacatccg cgcccaccga aaccagatac tcctagaaca
26400
gtcagcgctc accgccacgc cccgcaatca cctcaatccg cgtaattggc ccgccgccct
26460
ggtgtaccag gaaattcccc agcccacgac cgtactactt ccgcgagacg cccaggccga
26520
agtccagctg actaactcag gtgtccagct ggcgggcggc gccaccctgt gtcgtcaccg
26580
ccccgctcag ggtataaagc ggctggtgat ccggggcaga ggcacacagc tcaacgacga
26640
ggtggtgagc tcttcgctgg gtctgcgacc tgacggagtc ttccaactcg ccggatcggg
26700
gagatcttcc ttcacgcctc gtcaggccgt cctgactttg gagagttcgt cctcgcagcc
26760
ccgctcgggt ggcatcggca ctctccagtt cgtggaggag ttcactccct cggtctactt
26820
caaccccttc tccggctccc ccggccacta cccggacgag ttcatcccga acttcgacgc
26880
catcagcgag tcggtggacg gctacgattg aaactaatca cccccttatc cagtgaaata
26940
aagatcatat tgatgatgat tttacagaaa taaaaaataa tcatttgatt tgaaataaag
27000
atacaatcat attgatgatt tgagtttaac aaaaaaataa agaatcactt acttgaaatc
27060
tgataccagg tctctgtcca tgttttctgc caacaccact tcactcccct cttcccagct
27120
ctggtactgc aggccccggc gggctgcaaa cttcctccac acgctgaagg ggatgtcaaa
27180
ttcctcctgt ccctcaatct tcattttatc ttctatcaga tgtccaaaaa gcgcgtccgg
27240
gtggatgatg acttcgaccc cgtctacccc tacgatgcag acaacgcacc gaccgtgccc
27300
ttcatcaacc cccccttcgt ctcttcagat ggattccaag agaagcccct gggggtgttg
27360
tccctgcgac tggccgaccc cgtcaccacc aagaacgggg aaatcaccct caagctggga
27420
gagggggtgg acctcgattc ctcgggaaaa ctcatctcca acacggccac caaggccgcc
27480
gcccctctca gtttttccaa caacaccatt tcccttaaca tggatcaccc cttttacact
27540
aaagatggaa aattatcctt acaagtttct ccaccattaa atatactgag aacaagcatt
27600
ctaaacacac tagctttagg ttttggatca ggtttaggac tccgtggctc tgccttggca
27660
gtacagttag tctctccact tacatttgat actgatggaa acataaagct taccttagac
27720
agaggtttgc atgttacaac aggagatgca attgaaagca acataagctg ggctaaaggt
27780
ttaaaatttg aagatggagc catagcaacc aacattggaa atgggttaga gtttggaagc
27840
agtagtacag aaacaggtgt tgatgatgct tacccaatcc aagttaaact tggatctggc
27900
cttagctttg acagtacagg agccataatg gctggtaaca aagaagacga taaactcact
27960
ttgtggacaa cacctgatcc atcaccaaac tgtcaaatac tcgcagaaaa tgatgcaaaa
28020
ctaacacttt gcttgactaa atgtggtagt caaatactgg ccactgtgtc agtcttagtt
28080
gtaggaagtg gaaacctaaa ccccattact ggcaccgtaa gcagtgctca ggtgtttcta
28140
cgttttgatg caaacggtgt tcttttaaca gaacattcta cactaaaaaa atactggggg
28200
tataggcagg gagatagcat agatggcact ccatatacca atgctgtagg attcatgccc
28260
aatttaaaag cttatccaaa gtcacaaagt tctactacta aaaataatat agtagggcaa
28320
gtatacatga atggagatgt ttcaaaacct atgcttctca ctataaccct caatggtact
28380
gatgacagca acagtacata ttcaatgtca ttttcataca cctggactaa tggaagctat
28440
gttggagcaa catttggggc taactcttat accttctcat acatcgccca agaatgaaca
28500
ctgtatccca ccctgcatgc caacccttcc caccccactc tgtggaacaa actctgaaac
28560
acaaaataaa ataaagttca agtgttttat tgattcaaca gttttacagg attcgagcag
28620
ttatttttcc tccaccctcc caggacatgg aatacaccac cctctccccc cgcacagcct
28680
tgaacatctg aatgccattg gtgatggaca tgcttttggt ctccacgttc cacacagttt
28740
cagagcgagc cagtctcggg tcggtcaggg agatgaaacc ctccgggcac tcccgcatct
28800
gcacctcaca gctcaacagc tgaggattgt cctcggtggt cgggatcacg gttatctgga
28860
agaagcagaa gagcggcggt gggaatcata gtccgcgaac gggatcggcc ggtggtgtcg
28920
catcaggccc cgcagcagtc gctgccgccg ccgctccgtc aagctgctgc tcagggggtc
28980
cgggtccagg gactccctca gcatgatgcc cacggccctc agcatcagtc gtctggtgcg
29040
gcgggcgcag cagcgcatgc ggatctcgct caggtcgctg cagtacgtgc aacacagaac
29100
caccaggttg ttcaacagtc catagttcaa cacgctccag ccgaaactca tcgcgggaag
29160
gatgctaccc acgtggccgt cgtaccagat cctcaggtaa atcaagtggt gccccctcca
29220
gaacacgctg cccacgtaca tgatctcctt gggcatgtgg cggttcacca cctcccggta
29280
ccacatcacc ctctggttga acatgcagcc ccggatgatc ctgcggaacc acagggccag
29340
caccgccccg cccgccatgc agcgaagaga ccccgggtcc cggcaatggc aatggaggac
29400
ccaccgctcg tacccgtgga tcatctggga gctgaacaag tctatgttgg cacagcacag
29460
gcatatgctc atgcatctct tcagcactct caactcctcg ggggtcaaaa ccatatccca
29520
gggcacgggg aactcttgca ggacagcgaa ccccgcagaa cagggcaatc ctcgcacaga
29580
acttacattg tgcatggaca gggtatcgca atcaggcagc accgggtgat cctccaccag
29640
agaagcgcgg gtctcggtct cctcacagcg tggtaagggg gccggccgat acgggtgatg
29700
gcgggacgcg gctgatcgtg ttcgcgaccg tgtcatgatg cagttgcttt cggacatttt
29760
cgtacttgct gtagcagaac ctggtccggg cgctgcacac cgatcgccgg cggcggtctc
29820
ggcgcttgga acgctcggtg ttgaaattgt aaaacagcca ctctctcaga ccgtgcagca
29880
gatctagggc ctcaggagtg atgaagatcc catcatgcct gatggctctg atcacatcga
29940
ccaccgtgga atgggccaga cccagccaga tgatgcaatt ttgttgggtt tcggtgacgg
30000
cgggggaggg aagaacagga agaaccatga ttaactttta atccaaacgg tctcggagta
30060
cttcaaaatg aagatcgcgg agatggcacc tctcgccccc gctgtgttgg tggaaaataa
30120
cagccaggtc aaaggtgata cggttctcga gatgttccac ggtggcttcc agcaaagcct
30180
ccacgcgcac atccagaaac aagacaatag cgaaagcggg agggttctct aattcctcaa
30240
tcatcatgtt acactcctgc accatcccca gataattttc atttttccag ccttgaatga
30300
ttcgaactag ttcctgaggt aaatccaagc cagccatgat aaagagctcg cgcagagcgc
30360
cctccaccgg cattcttaag cacaccctca taattccaag atattctgct cctggttcac
30420
ctgcagcaga ttgacaagcg gaatatcaaa atctctgccg cgatccctga gctcctccct
30480
cagcaataac tgtaagtact ctttcatatc ctctccgaaa tttttagcca taggaccacc
30540
aggaataaga ttagggcaag ccacagtaca gataaaccga agtcctcccc agtgagcatt
30600
gccaaatgca agactgctat aagcatgctg gctagacccg gtgatatctt ccagataact
30660
ggacagaaaa tcgcccaggc aatttttaag aaaatcaaca aaagaaaaat cctccaggtg
30720
gacgtttaga gcctcgggaa caacgatgaa gtaaatgcaa gcggtgcgtt ccagcatggt
30780
tagttagctg atctgtagaa aaaacaaaaa tgaacattaa accatgctag cctggcgaac
30840
aggtgggtaa atcgttctct ccagcaccag gcaggccacg gggtctccgg cgcgaccctc
30900
gtaaaaattg tcgctatgat tgaaaaccat cacagagaga cgttcccggt ggccggcgtg
30960
aatgattcga caagatgaat acacccccgg aacattggcg tccgcgagtg aaaaaaagcg
31020
cccgaggaag caataaggca ctacaatgct cagtctcaag tccagcaaag cgatgccatg
31080
cggatgaagc acaaaattct caggtgcgta caaaatgtaa ttactcccct cctgcacagg
31140
cagcaaagcc cccgatccct ccaggtacac atacaaagcc tcagcgtcca tagcttaccg
31200
agcagcagca cacaacaggc gcaagagtca gagaaaggct gagctctaac ctgtccaccc
31260
gctctctgct caatatatag cccagatcta cactgacgta aaggccaaag tctaaaaata
31320
cccgccaaat aatcacacac gcccagcaca cgcccagaaa ccggtgacac actcaaaaaa
31380
atacgcgcac ttcctcaaac gcccaaaact gccgtcattt ccgggttccc acgctacgtc
31440
atcaaaacac gactttcaaa ttccgtcgac cgttaaaaac gtcacccgcc ccgcccctaa
31500
cggtcgcccg tctctcagcc aatcagcgcc ccgcatcccc aaattcaaac acctcatttg
31560
catattaacg cgcacaaaaa gtttgagg
31588
<210> 3
<211> 11447
<212> ДНК
<213> Вирус венесуэльского энцефалита лошадей
<400> 3
atgggcggcg catgagagaa gcccagacca attacctacc caaaatggag aaagttcacg
60
ttgacatcga ggaagacagc ccattcctca gagctttgca gcggagcttc ccgcagtttg
120
aggtagaagc caagcaggtc actgataatg accatgctaa tgccagagcg ttttcgcatc
180
tggcttcaaa actgatcgaa acggaggtgg acccatccga cacgatcctt gacattggaa
240
gtgcgcccgc ccgcagaatg tattctaagc acaagtatca ttgtatctgt ccgatgagat
300
gtgcggaaga tccggacaga ttgtataagt atgcaactaa gctgaagaaa aactgtaagg
360
aaataactga taaggaattg gacaagaaaa tgaaggagct cgccgccgtc atgagcgacc
420
ctgacctgga aactgagact atgtgcctcc acgacgacga gtcgtgtcgc tacgaagggc
480
aagtcgctgt ttaccaggat gtatacgcgg ttgacggacc gacaagtctc tatcaccaag
540
ccaataaggg agttagagtc gcctactgga taggctttga caccacccct tttatgttta
600
agaacttggc tggagcatat ccatcatact ctaccaactg ggccgacgaa accgtgttaa
660
cggctcgtaa cataggccta tgcagctctg acgttatgga gcggtcacgt agagggatgt
720
ccattcttag aaagaagtat ttgaaaccat ccaacaatgt tctattctct gttggctcga
780
ccatctacca cgagaagagg gacttactga ggagctggca cctgccgtct gtatttcact
840
tacgtggcaa gcaaaattac acatgtcggt gtgagactat agttagttgc gacgggtacg
900
tcgttaaaag aatagctatc agtccaggcc tgtatgggaa gccttcaggc tatgctgcta
960
cgatgcaccg cgagggattc ttgtgctgca aagtgacaga cacattgaac ggggagaggg
1020
tctcttttcc cgtgtgcacg tatgtgccag ctacattgtg tgaccaaatg actggcatac
1080
tggcaacaga tgtcagtgcg gacgacgcgc aaaaactgct ggttgggctc aaccagcgta
1140
tagtcgtcaa cggtcgcacc cagagaaaca ccaataccat gaaaaattac cttttgcccg
1200
tagtggccca ggcatttgct aggtgggcaa aggaatataa ggaagatcaa gaagatgaaa
1260
ggccactagg actacgagat agacagttag tcatggggtg ttgttgggct tttagaaggc
1320
acaagataac atctatttat aagcgcccgg atacccaaac catcatcaaa gtgaacagcg
1380
atttccactc attcgtgctg cccaggatag gcagtaacac attggagatc gggctgagaa
1440
caagaatcag gaaaatgtta gaggagcaca aggagccgtc acctctcatt accgccgagg
1500
acgtacaaga agctaagtgc gcagccgatg aggctaagga ggtgcgtgaa gccgaggagt
1560
tgcgcgcagc tctaccacct ttggcagctg atgttgagga gcccactctg gaagccgatg
1620
tcgacttgat gttacaagag gctggggccg gctcagtgga gacacctcgt ggcttgataa
1680
aggttaccag ctacgctggc gaggacaaga tcggctctta cgctgtgctt tctccgcagg
1740
ctgtactcaa gagtgaaaaa ttatcttgca tccaccctct cgctgaacaa gtcatagtga
1800
taacacactc tggccgaaaa gggcgttatg ccgtggaacc ataccatggt aaagtagtgg
1860
tgccagaggg acatgcaata cccgtccagg actttcaagc tctgagtgaa agtgccacca
1920
ttgtgtacaa cgaacgtgag ttcgtaaaca ggtacctgca ccatattgcc acacatggag
1980
gagcgctgaa cactgatgaa gaatattaca aaactgtcaa gcccagcgag cacgacggcg
2040
aatacctgta cgacatcgac aggaaacagt gcgtcaagaa agaactagtc actgggctag
2100
ggctcacagg cgagctggtg gatcctccct tccatgaatt cgcctacgag agtctgagaa
2160
cacgaccagc cgctccttac caagtaccaa ccataggggt gtatggcgtg ccaggatcag
2220
gcaagtctgg catcattaaa agcgcagtca ccaaaaaaga tctagtggtg agcgccaaga
2280
aagaaaactg tgcagaaatt ataagggacg tcaagaaaat gaaagggctg gacgtcaatg
2340
ccagaactgt ggactcagtg ctcttgaatg gatgcaaaca ccccgtagag accctgtata
2400
ttgacgaagc ttttgcttgt catgcaggta ctctcagagc gctcatagcc attataagac
2460
ctaaaaaggc agtgctctgc ggggatccca aacagtgcgg tttttttaac atgatgtgcc
2520
tgaaagtgca ttttaaccac gagatttgca cacaagtctt ccacaaaagc atctctcgcc
2580
gttgcactaa atctgtgact tcggtcgtct caaccttgtt ttacgacaaa aaaatgagaa
2640
cgacgaatcc gaaagagact aagattgtga ttgacactac cggcagtacc aaacctaagc
2700
aggacgatct cattctcact tgtttcagag ggtgggtgaa gcagttgcaa atagattaca
2760
aaggcaacga aataatgacg gcagctgcct ctcaagggct gacccgtaaa ggtgtgtatg
2820
ccgttcggta caaggtgaat gaaaatcctc tgtacgcacc cacctcagaa catgtgaacg
2880
tcctactgac ccgcacggag gaccgcatcg tgtggaaaac actagccggc gacccatgga
2940
taaaaacact gactgccaag taccctggga atttcactgc cacgatagag gagtggcaag
3000
cagagcatga tgccatcatg aggcacatct tggagagacc ggaccctacc gacgtcttcc
3060
agaataaggc aaacgtgtgt tgggccaagg ctttagtgcc ggtgctgaag accgctggca
3120
tagacatgac cactgaacaa tggaacactg tggattattt tgaaacggac aaagctcact
3180
cagcagagat agtattgaac caactatgcg tgaggttctt tggactcgat ctggactccg
3240
gtctattttc tgcacccact gttccgttat ccattaggaa taatcactgg gataactccc
3300
cgtcgcctaa catgtacggg ctgaataaag aagtggtccg tcagctctct cgcaggtacc
3360
cacaactgcc tcgggcagtt gccactggaa gagtctatga catgaacact ggtacactgc
3420
gcaattatga tccgcgcata aacctagtac ctgtaaacag aagactgcct catgctttag
3480
tcctccacca taatgaacac ccacagagtg acttttcttc attcgtcagc aaattgaagg
3540
gcagaactgt cctggtggtc ggggaaaagt tgtccgtccc aggcaaaatg gttgactggt
3600
tgtcagaccg gcctgaggct accttcagag ctcggctgga tttaggcatc ccaggtgatg
3660
tgcccaaata tgacataata tttgttaatg tgaggacccc atataaatac catcactatc
3720
agcagtgtga agaccatgcc attaagctta gcatgttgac caagaaagct tgtctgcatc
3780
tgaatcccgg cggaacctgt gtcagcatag gttatggtta cgctgacagg gccagcgaaa
3840
gcatcattgg tgctatagcg cggcagttca agttttcccg ggtatgcaaa ccgaaatcct
3900
cacttgaaga gacggaagtt ctgtttgtat tcattgggta cgatcgcaag gcccgtacgc
3960
acaatcctta caagctttca tcaaccttga ccaacattta tacaggttcc agactccacg
4020
aagccggatg tgcaccctca tatcatgtgg tgcgagggga tattgccacg gccaccgaag
4080
gagtgattat aaatgctgct aacagcaaag gacaacctgg cggaggggtg tgcggagcgc
4140
tgtataagaa attcccggaa agcttcgatt tacagccgat cgaagtagga aaagcgcgac
4200
tggtcaaagg tgcagctaaa catatcattc atgccgtagg accaaacttc aacaaagttt
4260
cggaggttga aggtgacaaa cagttggcag aggcttatga gtccatcgct aagattgtca
4320
acgataacaa ttacaagtca gtagcgattc cactgttgtc caccggcatc ttttccggga
4380
acaaagatcg actaacccaa tcattgaacc atttgctgac agctttagac accactgatg
4440
cagatgtagc catatactgc agggacaaga aatgggaaat gactctcaag gaagcagtgg
4500
ctaggagaga agcagtggag gagatatgca tatccgacga ctcttcagtg acagaacctg
4560
atgcagagct ggtgagggtg catccgaaga gttctttggc tggaaggaag ggctacagca
4620
caagcgatgg caaaactttc tcatatttgg aagggaccaa gtttcaccag gcggccaagg
4680
atatagcaga aattaatgcc atgtggcccg ttgcaacgga ggccaatgag caggtatgca
4740
tgtatatcct cggagaaagc atgagcagta ttaggtcgaa atgccccgtc gaagagtcgg
4800
aagcctccac accacctagc acgctgcctt gcttgtgcat ccatgccatg actccagaaa
4860
gagtacagcg cctaaaagcc tcacgtccag aacaaattac tgtgtgctca tcctttccat
4920
tgccgaagta tagaatcact ggtgtgcaga agatccaatg ctcccagcct atattgttct
4980
caccgaaagt gcctgcgtat attcatccaa ggaagtatct cgtggaaaca ccaccggtag
5040
acgagactcc ggagccatcg gcagagaacc aatccacaga ggggacacct gaacaaccac
5100
cacttataac cgaggatgag accaggacta gaacgcctga gccgatcatc atcgaagagg
5160
aagaagagga tagcataagt ttgctgtcag atggcccgac ccaccaggtg ctgcaagtcg
5220
aggcagacat tcacgggccg ccctctgtat ctagctcatc ctggtccatt cctcatgcat
5280
ccgactttga tgtggacagt ttatccatac ttgacaccct ggagggagct agcgtgacca
5340
gcggggcaac gtcagccgag actaactctt acttcgcaaa gagtatggag tttctggcgc
5400
gaccggtgcc tgcgcctcga acagtattca ggaaccctcc acatcccgct ccgcgcacaa
5460
gaacaccgtc acttgcaccc agcagggcct gctcgagaac cagcctagtt tccaccccgc
5520
caggcgtgaa tagggtgatc actagagagg agctcgaggc gcttaccccg tcacgcactc
5580
ctagcaggtc ggtctcgaga accagcctgg tctccaaccc gccaggcgta aatagggtga
5640
ttacaagaga ggagtttgag gcgttcgtag cacaacaaca atgacggttt gatgcgggtg
5700
catacatctt ttcctccgac accggtcaag ggcatttaca acaaaaatca gtaaggcaaa
5760
cggtgctatc cgaagtggtg ttggagagga ccgaattgga gatttcgtat gccccgcgcc
5820
tcgaccaaga aaaagaagaa ttactacgca agaaattaca gttaaatccc acacctgcta
5880
acagaagcag ataccagtcc aggaaggtgg agaacatgaa agccataaca gctagacgta
5940
ttctgcaagg cctagggcat tatttgaagg cagaaggaaa agtggagtgc taccgaaccc
6000
tgcatcctgt tcctttgtat tcatctagtg tgaaccgtgc cttttcaagc cccaaggtcg
6060
cagtggaagc ctgtaacgcc atgttgaaag agaactttcc gactgtggct tcttactgta
6120
ttattccaga gtacgatgcc tatttggaca tggttgacgg agcttcatgc tgcttagaca
6180
ctgccagttt ttgccctgca aagctgcgca gctttccaaa gaaacactcc tatttggaac
6240
ccacaatacg atcggcagtg ccttcagcga tccagaacac gctccagaac gtcctggcag
6300
ctgccacaaa aagaaattgc aatgtcacgc aaatgagaga attgcccgta ttggattcgg
6360
cggcctttaa tgtggaatgc ttcaagaaat atgcgtgtaa taatgaatat tgggaaacgt
6420
ttaaagaaaa ccccatcagg cttactgaag aaaacgtggt aaattacatt accaaattaa
6480
aaggaccaaa agctgctgct ctttttgcga agacacataa tttgaatatg ttgcaggaca
6540
taccaatgga caggtttgta atggacttaa agagagacgt gaaagtgact ccaggaacaa
6600
aacatactga agaacggccc aaggtacagg tgatccaggc tgccgatccg ctagcaacag
6660
cgtatctgtg cggaatccac cgagagctgg ttaggagatt aaatgcggtc ctgcttccga
6720
acattcatac actgtttgat atgtcggctg aagactttga cgctattata gccgagcact
6780
tccagcctgg ggattgtgtt ctggaaactg acatcgcgtc gtttgataaa agtgaggacg
6840
acgccatggc tctgaccgcg ttaatgattc tggaagactt aggtgtggac gcagagctgt
6900
tgacgctgat tgaggcggct ttcggcgaaa tttcatcaat acatttgccc actaaaacta
6960
aatttaaatt cggagccatg atgaaatctg gaatgttcct cacactgttt gtgaacacag
7020
tcattaacat tgtaatcgca agcagagtgt tgagagaacg gctaaccgga tcaccatgtg
7080
cagcattcat tggagatgac aatatcgtga aaggagtcaa atcggacaaa ttaatggcag
7140
acaggtgcgc cacctggttg aatatggaag tcaagattat agatgctgtg gtgggcgaga
7200
aagcgcctta tttctgtgga gggtttattt tgtgtgactc cgtgaccggc acagcgtgcc
7260
gtgtggcaga ccccctaaaa aggctgttta agcttggcaa acctctggca gcagacgatg
7320
aacatgatga tgacaggaga agggcattgc atgaagagtc aacacgctgg aaccgagtgg
7380
gtattctttc agagctgtgc aaggcagtag aatcaaggta tgaaaccgta ggaacttcca
7440
tcatagttat ggccatgact actctagcta gcagtgttaa atcattcagc tacctgagag
7500
gggcccctat aactctctac ggctaacctg aatggactac gacatagtct agtccgccaa
7560
gatgttcccg ttccagccaa tgtatccgat gcagccaatg ccctatcgca acccgttcgc
7620
ggccccgcgc aggccctggt tccccagaac cgaccctttt ctggcgatgc aggtgcagga
7680
attaacccgc tcgatggcta acctgacgtt caagcaacgc cgggacgcgc cacctgaggg
7740
gccatccgct aagaaaccga agaaggaggc ctcgcaaaaa cagaaagggg gaggccaagg
7800
gaagaagaag aagaaccaag ggaagaagaa ggctaagaca gggccgccta atccgaaggc
7860
acagaatgga aacaagaaga agaccaacaa gaaaccaggc aagagacagc gcatggtcat
7920
gaaattggaa tctgacaaga cgttcccaat catgttggaa gggaagataa acggctacgc
7980
ttgtgtggtc ggagggaagt tattcaggcc gatgcatgtg gaaggcaaga tcgacaacga
8040
cgttctggcc gcgcttaaga cgaagaaagc atccaaatac gatcttgagt atgcagatgt
8100
gccacagaac atgcgggccg atacattcaa atacacccat gagaaacccc aaggctatta
8160
cagctggcat catggagcag tccaatatga aaatgggcgt ttcacggtgc cgaaaggagt
8220
tggggccaag ggagacagcg gacgacccat tctggataac cagggacggg tggtcgctat
8280
tgtgctggga ggtgtgaatg aaggatctag gacagccctt tcagtcgtca tgtggaacga
8340
gaagggagtt accgtgaagt atactccgga gaactgcgag caatggtcac tagtgaccac
8400
catgtgtctg ctcgccaatg tgacgttccc atgtgctcaa ccaccaattt gctacgacag
8460
aaaaccagca gagactttgg ccatgctcag cgttaacgtt gacaacccgg gctacgatga
8520
gctgctggaa gcagctgtta agtgccccgg aaggaaaagg agatccaccg aggagctgtt
8580
taaggagtat aagctaacgc gcccttacat ggccagatgc atcagatgtg cagttgggag
8640
ctgccatagt ccaatagcaa tcgaggcagt aaagagcgac gggcacgacg gttatgttag
8700
acttcagact tcctcgcagt atggcctgga ttcctccggc aacttaaagg gcaggaccat
8760
gcggtatgac atgcacggga ccattaaaga gataccacta catcaagtgt cactccatac
8820
atctcgcccg tgtcacattg tggatgggca cggttatttc ctgcttgcca ggtgcccggc
8880
aggggactcc atcaccatgg aatttaagaa agattccgtc acacactcct gctcggtgcc
8940
gtatgaagtg aaatttaatc ctgtaggcag agaactctat actcatcccc cagaacacgg
9000
agtagagcaa gcgtgccaag tctacgcaca tgatgcacag aacagaggag cttatgtcga
9060
gatgcacctc ccgggctcag aagtggacag cagtttggtt tccttgagcg gcagttcagt
9120
caccgtgaca cctcctgttg ggactagcgc cctggtggaa tgcgagtgtg gcggcacaaa
9180
gatctccgag accatcaaca agacaaaaca gttcagccag tgcacaaaga aggagcagtg
9240
cagagcatat cggctgcaga acgataagtg ggtgtataat tctgacaaac tgcccaaagc
9300
agcgggagcc accttaaaag gaaaactgca tgtcccattc ttgctggcag acggcaaatg
9360
caccgtgcct ctagcaccag aacctatgat aacctttggt ttcagatcag tgtcactgaa
9420
actgcaccct aagaatccca catatctaac cacccgccaa cttgctgatg agcctcacta
9480
cacgcacgag ctcatatctg aaccagctgt taggaatttt accgtcaccg aaaaagggtg
9540
ggagtttgta tggggaaacc acccgccgaa aaggttttgg gcacaggaaa cagcacccgg
9600
aaatccacat gggctaccgc acgaggtgat aactcattat taccacagat accctatgtc
9660
caccatcctg ggtttgtcaa tttgtgccgc cattgcaacc gtttccgttg cagcgtctac
9720
ctggctgttt tgcagatcta gagttgcgtg cctaactcct taccggctaa cacctaacgc
9780
taggatacca ttttgtctgg ctgtgctttg ctgcgcccgc actgcccggg ccgagaccac
9840
ctgggagtcc ttggatcacc tatggaacaa taaccaacag atgttctgga ttcaattgct
9900
gatccctctg gccgccttga tcgtagtgac tcgcctgctc aggtgcgtgt gctgtgtcgt
9960
gcctttttta gtcatggccg gcgccgcagg cgccggcgcc tacgagcacg cgaccacgat
10020
gccgagccaa gcgggaatct cgtataacac tatagtcaac agagcaggct acgcaccact
10080
ccctatcagc ataacaccaa caaagatcaa gctgatacct acagtgaact tggagtacgt
10140
cacctgccac tacaaaacag gaatggattc accagccatc aaatgctgcg gatctcagga
10200
atgcactcca acttacaggc ctgatgaaca gtgcaaagtc ttcacagggg tttacccgtt
10260
catgtggggt ggtgcatatt gcttttgcga cactgagaac acccaagtca gcaaggccta
10320
cgtaatgaaa tctgacgact gccttgcgga tcatgctgaa gcatataaag cgcacacagc
10380
ctcagtgcag gcgttcctca acatcacagt gggagaacac tctattgtga ctaccgtgta
10440
tgtgaatgga gaaactcctg tgaatttcaa tggggtcaaa ttaactgcag gtccgctttc
10500
cacagcttgg acaccctttg atcgcaaaat cgtgcagtat gccggggaga tctataatta
10560
tgattttcct gagtatgggg caggacaacc aggagcattt ggagatatac aatccagaac
10620
agtctcaagc tcagatctgt atgccaatac caacctagtg ctgcagagac ccaaagcagg
10680
agcgatccac gtgccataca ctcaggcacc ttcgggtttt gagcaatgga agaaagataa
10740
agctccatca ttgaaattta ccgccccttt cggatgcgaa atatatacaa accccattcg
10800
cgccgaaaac tgtgctgtag ggtcaattcc attagccttt gacattcccg acgccttgtt
10860
caccagggtg tcagaaacac cgacactttc agcggccgaa tgcactctta acgagtgcgt
10920
gtattcttcc gactttggtg ggatcgccac ggtcaagtac tcggccagca agtcaggcaa
10980
gtgcgcagtc catgtgccat cagggactgc taccctaaaa gaagcagcag tcgagctaac
11040
cgagcaaggg tcggcgacta tccatttctc gaccgcaaat atccacccgg agttcaggct
11100
ccaaatatgc acatcatatg ttacgtgcaa aggtgattgt caccccccga aagaccatat
11160
tgtgacacac cctcagtatc acgcccaaac atttacagcc gcggtgtcaa aaaccgcgtg
11220
gacgtggtta acatccctgc tgggaggatc agccgtaatt attataattg gcttggtgct
11280
ggctactatt gtggccatgt acgtgctgac caaccagaaa cataattgaa tacagcagca
11340
attggcaagc tgcttacata gaactcgcgg cgattggcat gccgccttaa aatttttatt
11400
ttattttttc ttttcttttc cgaatcggat tttgttttta atatttc
11447
<210> 4
<211> 9577
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 4
atgggcggcg catgagagaa gcccagacca attacctacc caaaatggag aaagttcacg
60
ttgacatcga ggaagacagc ccattcctca gagctttgca gcggagcttc ccgcagtttg
120
aggtagaagc caagcaggtc actgataatg accatgctaa tgccagagcg ttttcgcatc
180
tggcttcaaa actgatcgaa acggaggtgg acccatccga cacgatcctt gacattggaa
240
gtgcgcccgc ccgcagaatg tattctaagc acaagtatca ttgtatctgt ccgatgagat
300
gtgcggaaga tccggacaga ttgtataagt atgcaactaa gctgaagaaa aactgtaagg
360
aaataactga taaggaattg gacaagaaaa tgaaggagct cgccgccgtc atgagcgacc
420
ctgacctgga aactgagact atgtgcctcc acgacgacga gtcgtgtcgc tacgaagggc
480
aagtcgctgt ttaccaggat gtatacgcgg ttgacggacc gacaagtctc tatcaccaag
540
ccaataaggg agttagagtc gcctactgga taggctttga caccacccct tttatgttta
600
agaacttggc tggagcatat ccatcatact ctaccaactg ggccgacgaa accgtgttaa
660
cggctcgtaa cataggccta tgcagctctg acgttatgga gcggtcacgt agagggatgt
720
ccattcttag aaagaagtat ttgaaaccat ccaacaatgt tctattctct gttggctcga
780
ccatctacca cgagaagagg gacttactga ggagctggca cctgccgtct gtatttcact
840
tacgtggcaa gcaaaattac acatgtcggt gtgagactat agttagttgc gacgggtacg
900
tcgttaaaag aatagctatc agtccaggcc tgtatgggaa gccttcaggc tatgctgcta
960
cgatgcaccg cgagggattc ttgtgctgca aagtgacaga cacattgaac ggggagaggg
1020
tctcttttcc cgtgtgcacg tatgtgccag ctacattgtg tgaccaaatg actggcatac
1080
tggcaacaga tgtcagtgcg gacgacgcgc aaaaactgct ggttgggctc aaccagcgta
1140
tagtcgtcaa cggtcgcacc cagagaaaca ccaataccat gaaaaattac cttttgcccg
1200
tagtggccca ggcatttgct aggtgggcaa aggaatataa ggaagatcaa gaagatgaaa
1260
ggccactagg actacgagat agacagttag tcatggggtg ttgttgggct tttagaaggc
1320
acaagataac atctatttat aagcgcccgg atacccaaac catcatcaaa gtgaacagcg
1380
atttccactc attcgtgctg cccaggatag gcagtaacac attggagatc gggctgagaa
1440
caagaatcag gaaaatgtta gaggagcaca aggagccgtc acctctcatt accgccgagg
1500
acgtacaaga agctaagtgc gcagccgatg aggctaagga ggtgcgtgaa gccgaggagt
1560
tgcgcgcagc tctaccacct ttggcagctg atgttgagga gcccactctg gaagccgatg
1620
tcgacttgat gttacaagag gctggggccg gctcagtgga gacacctcgt ggcttgataa
1680
aggttaccag ctacgctggc gaggacaaga tcggctctta cgctgtgctt tctccgcagg
1740
ctgtactcaa gagtgaaaaa ttatcttgca tccaccctct cgctgaacaa gtcatagtga
1800
taacacactc tggccgaaaa gggcgttatg ccgtggaacc ataccatggt aaagtagtgg
1860
tgccagaggg acatgcaata cccgtccagg actttcaagc tctgagtgaa agtgccacca
1920
ttgtgtacaa cgaacgtgag ttcgtaaaca ggtacctgca ccatattgcc acacatggag
1980
gagcgctgaa cactgatgaa gaatattaca aaactgtcaa gcccagcgag cacgacggcg
2040
aatacctgta cgacatcgac aggaaacagt gcgtcaagaa agaactagtc actgggctag
2100
ggctcacagg cgagctggtg gatcctccct tccatgaatt cgcctacgag agtctgagaa
2160
cacgaccagc cgctccttac caagtaccaa ccataggggt gtatggcgtg ccaggatcag
2220
gcaagtctgg catcattaaa agcgcagtca ccaaaaaaga tctagtggtg agcgccaaga
2280
aagaaaactg tgcagaaatt ataagggacg tcaagaaaat gaaagggctg gacgtcaatg
2340
ccagaactgt ggactcagtg ctcttgaatg gatgcaaaca ccccgtagag accctgtata
2400
ttgacgaagc ttttgcttgt catgcaggta ctctcagagc gctcatagcc attataagac
2460
ctaaaaaggc agtgctctgc ggggatccca aacagtgcgg tttttttaac atgatgtgcc
2520
tgaaagtgca ttttaaccac gagatttgca cacaagtctt ccacaaaagc atctctcgcc
2580
gttgcactaa atctgtgact tcggtcgtct caaccttgtt ttacgacaaa aaaatgagaa
2640
cgacgaatcc gaaagagact aagattgtga ttgacactac cggcagtacc aaacctaagc
2700
aggacgatct cattctcact tgtttcagag ggtgggtgaa gcagttgcaa atagattaca
2760
aaggcaacga aataatgacg gcagctgcct ctcaagggct gacccgtaaa ggtgtgtatg
2820
ccgttcggta caaggtgaat gaaaatcctc tgtacgcacc cacctcagaa catgtgaacg
2880
tcctactgac ccgcacggag gaccgcatcg tgtggaaaac actagccggc gacccatgga
2940
taaaaacact gactgccaag taccctggga atttcactgc cacgatagag gagtggcaag
3000
cagagcatga tgccatcatg aggcacatct tggagagacc ggaccctacc gacgtcttcc
3060
agaataaggc aaacgtgtgt tgggccaagg ctttagtgcc ggtgctgaag accgctggca
3120
tagacatgac cactgaacaa tggaacactg tggattattt tgaaacggac aaagctcact
3180
cagcagagat agtattgaac caactatgcg tgaggttctt tggactcgat ctggactccg
3240
gtctattttc tgcacccact gttccgttat ccattaggaa taatcactgg gataactccc
3300
cgtcgcctaa catgtacggg ctgaataaag aagtggtccg tcagctctct cgcaggtacc
3360
cacaactgcc tcgggcagtt gccactggaa gagtctatga catgaacact ggtacactgc
3420
gcaattatga tccgcgcata aacctagtac ctgtaaacag aagactgcct catgctttag
3480
tcctccacca taatgaacac ccacagagtg acttttcttc attcgtcagc aaattgaagg
3540
gcagaactgt cctggtggtc ggggaaaagt tgtccgtccc aggcaaaatg gttgactggt
3600
tgtcagaccg gcctgaggct accttcagag ctcggctgga tttaggcatc ccaggtgatg
3660
tgcccaaata tgacataata tttgttaatg tgaggacccc atataaatac catcactatc
3720
agcagtgtga agaccatgcc attaagctta gcatgttgac caagaaagct tgtctgcatc
3780
tgaatcccgg cggaacctgt gtcagcatag gttatggtta cgctgacagg gccagcgaaa
3840
gcatcattgg tgctatagcg cggcagttca agttttcccg ggtatgcaaa ccgaaatcct
3900
cacttgaaga gacggaagtt ctgtttgtat tcattgggta cgatcgcaag gcccgtacgc
3960
acaatcctta caagctttca tcaaccttga ccaacattta tacaggttcc agactccacg
4020
aagccggatg tgcaccctca tatcatgtgg tgcgagggga tattgccacg gccaccgaag
4080
gagtgattat aaatgctgct aacagcaaag gacaacctgg cggaggggtg tgcggagcgc
4140
tgtataagaa attcccggaa agcttcgatt tacagccgat cgaagtagga aaagcgcgac
4200
tggtcaaagg tgcagctaaa catatcattc atgccgtagg accaaacttc aacaaagttt
4260
cggaggttga aggtgacaaa cagttggcag aggcttatga gtccatcgct aagattgtca
4320
acgataacaa ttacaagtca gtagcgattc cactgttgtc caccggcatc ttttccggga
4380
acaaagatcg actaacccaa tcattgaacc atttgctgac agctttagac accactgatg
4440
cagatgtagc catatactgc agggacaaga aatgggaaat gactctcaag gaagcagtgg
4500
ctaggagaga agcagtggag gagatatgca tatccgacga ctcttcagtg acagaacctg
4560
atgcagagct ggtgagggtg catccgaaga gttctttggc tggaaggaag ggctacagca
4620
caagcgatgg caaaactttc tcatatttgg aagggaccaa gtttcaccag gcggccaagg
4680
atatagcaga aattaatgcc atgtggcccg ttgcaacgga ggccaatgag caggtatgca
4740
tgtatatcct cggagaaagc atgagcagta ttaggtcgaa atgccccgtc gaagagtcgg
4800
aagcctccac accacctagc acgctgcctt gcttgtgcat ccatgccatg actccagaaa
4860
gagtacagcg cctaaaagcc tcacgtccag aacaaattac tgtgtgctca tcctttccat
4920
tgccgaagta tagaatcact ggtgtgcaga agatccaatg ctcccagcct atattgttct
4980
caccgaaagt gcctgcgtat attcatccaa ggaagtatct cgtggaaaca ccaccggtag
5040
acgagactcc ggagccatcg gcagagaacc aatccacaga ggggacacct gaacaaccac
5100
cacttataac cgaggatgag accaggacta gaacgcctga gccgatcatc atcgaagagg
5160
aagaagagga tagcataagt ttgctgtcag atggcccgac ccaccaggtg ctgcaagtcg
5220
aggcagacat tcacgggccg ccctctgtat ctagctcatc ctggtccatt cctcatgcat
5280
ccgactttga tgtggacagt ttatccatac ttgacaccct ggagggagct agcgtgacca
5340
gcggggcaac gtcagccgag actaactctt acttcgcaaa gagtatggag tttctggcgc
5400
gaccggtgcc tgcgcctcga acagtattca ggaaccctcc acatcccgct ccgcgcacaa
5460
gaacaccgtc acttgcaccc agcagggcct gctcgagaac cagcctagtt tccaccccgc
5520
caggcgtgaa tagggtgatc actagagagg agctcgaggc gcttaccccg tcacgcactc
5580
ctagcaggtc ggtctcgaga accagcctgg tctccaaccc gccaggcgta aatagggtga
5640
ttacaagaga ggagtttgag gcgttcgtag cacaacaaca atgacggttt gatgcgggtg
5700
catacatctt ttcctccgac accggtcaag ggcatttaca acaaaaatca gtaaggcaaa
5760
cggtgctatc cgaagtggtg ttggagagga ccgaattgga gatttcgtat gccccgcgcc
5820
tcgaccaaga aaaagaagaa ttactacgca agaaattaca gttaaatccc acacctgcta
5880
acagaagcag ataccagtcc aggaaggtgg agaacatgaa agccataaca gctagacgta
5940
ttctgcaagg cctagggcat tatttgaagg cagaaggaaa agtggagtgc taccgaaccc
6000
tgcatcctgt tcctttgtat tcatctagtg tgaaccgtgc cttttcaagc cccaaggtcg
6060
cagtggaagc ctgtaacgcc atgttgaaag agaactttcc gactgtggct tcttactgta
6120
ttattccaga gtacgatgcc tatttggaca tggttgacgg agcttcatgc tgcttagaca
6180
ctgccagttt ttgccctgca aagctgcgca gctttccaaa gaaacactcc tatttggaac
6240
ccacaatacg atcggcagtg ccttcagcga tccagaacac gctccagaac gtcctggcag
6300
ctgccacaaa aagaaattgc aatgtcacgc aaatgagaga attgcccgta ttggattcgg
6360
cggcctttaa tgtggaatgc ttcaagaaat atgcgtgtaa taatgaatat tgggaaacgt
6420
ttaaagaaaa ccccatcagg cttactgaag aaaacgtggt aaattacatt accaaattaa
6480
aaggaccaaa agctgctgct ctttttgcga agacacataa tttgaatatg ttgcaggaca
6540
taccaatgga caggtttgta atggacttaa agagagacgt gaaagtgact ccaggaacaa
6600
aacatactga agaacggccc aaggtacagg tgatccaggc tgccgatccg ctagcaacag
6660
cgtatctgtg cggaatccac cgagagctgg ttaggagatt aaatgcggtc ctgcttccga
6720
acattcatac actgtttgat atgtcggctg aagactttga cgctattata gccgagcact
6780
tccagcctgg ggattgtgtt ctggaaactg acatcgcgtc gtttgataaa agtgaggacg
6840
acgccatggc tctgaccgcg ttaatgattc tggaagactt aggtgtggac gcagagctgt
6900
tgacgctgat tgaggcggct ttcggcgaaa tttcatcaat acatttgccc actaaaacta
6960
aatttaaatt cggagccatg atgaaatctg gaatgttcct cacactgttt gtgaacacag
7020
tcattaacat tgtaatcgca agcagagtgt tgagagaacg gctaaccgga tcaccatgtg
7080
cagcattcat tggagatgac aatatcgtga aaggagtcaa atcggacaaa ttaatggcag
7140
acaggtgcgc cacctggttg aatatggaag tcaagattat agatgctgtg gtgggcgaga
7200
aagcgcctta tttctgtgga gggtttattt tgtgtgactc cgtgaccggc acagcgtgcc
7260
gtgtggcaga ccccctaaaa aggctgttta agcttggcaa acctctggca gcagacgatg
7320
aacatgatga tgacaggaga agggcattgc atgaagagtc aacacgctgg aaccgagtgg
7380
gtattctttc agagctgtgc aaggcagtag aatcaaggta tgaaaccgta ggaacttcca
7440
tcatagttat ggccatgact actctagcta gcagtgttaa atcattcagc tacctgagag
7500
gggcccctat aactctctac ggctaacctg aatggactac gactctagaa tagtctttaa
7560
ttaagccacc atggcaggca tgtttcaggc gctgagcgaa ggctgcaccc cgtatgatat
7620
taaccagatg ctgaacgtgc tgggcgatca tcaggtctca ggccttgagc agcttgagag
7680
tataatcaac tttgaaaaac tgactgaatg gaccagttct aatgttatgc ctatcctgtc
7740
tcctctgaca aagggcatcc tgggcttcgt gtttaccctg accgtgcctt ctgagagagg
7800
acttagctgc attagcgaag cggatgcgac caccccggaa agcgcgaacc tgggcgaaga
7860
aattctgagc cagctgtatc tttggccaag ggtgacctac cattccccta gttatgctta
7920
ccaccaattt gaaagacgag ccaaatataa aagacacttc cccggctttg gccagagcct
7980
gctgtttggc taccctgtgt acgtgttcgg cgattgcgtg cagggcgatt gggatgcgat
8040
tcgctttcgc tattgcgcgc cgccgggcta tgcgctgctg cgctgcaacg ataccaacta
8100
tagcgctctg ctggctgtgg gggccctaga aggacccagg aatcaggact ggcttggtgt
8160
cccaagacaa cttgtaactc ggatgcaggc tattcagaat gccggcctgt gtaccctggt
8220
ggccatgctg gaagagacaa tcttctggct gcaagcgttt ctgatggcgc tgaccgatag
8280
cggcccgaaa accaacatta ttgtggatag ccagtatgtg atgggcatta gcaaaccgag
8340
ctttcaggaa tttgtggatt gggaaaacgt gagcccggaa ctgaacagca ccgatcagcc
8400
gttttggcaa gccggaatcc tggccagaaa tctggtgcct atggtggcca cagtgcaggg
8460
ccagaacctg aagtaccagg gtcagtcact agtcatctct gcttctatca ttgtcttcaa
8520
cctgctggaa ctggaaggtg attatcgaga tgatggcaac gtgtgggtgc ataccccgct
8580
gagcccgcgc accctgaacg cgtgggtgaa agcggtggaa gaaaaaaaag gtattccagt
8640
tcacctagag ctggccagta tgaccaacat ggagctcatg agcagtattg tgcatcagca
8700
ggtcagaaca tacggccccg tgttcatgtg tctcggcgga ctgcttacaa tggtggctgg
8760
tgctgtgtgg ctgacagtgc gagtgctcga gctgttccgg gccgcgcagc tggccaacga
8820
cgtggtcctc cagatcatgg agctttgtgg tgcagcgttt cgccaggtgt gccataccac
8880
cgtgccgtgg ccgaacgcga gcctgacccc gaaatggaac aacgaaacca cccagcccca
8940
gatcgccaac tgcagcgtgt atgacttttt tgtgtggctc cattattatt ctgttcgaga
9000
cacactttgg ccaagggtga cctaccatat gaacaaatat gcgtatcata tgctggaaag
9060
acgagccaaa tataaaagag gaccaggacc tggcgctaaa tttgtggccg cctggacact
9120
gaaagccgct gctggtcctg gacctggcca gtacatcaag gccaacagca agttcatcgg
9180
catcaccgaa ctcggacccg gaccaggctg atgattcgaa cggccgtatc acgcccaaac
9240
atttacagcc gcggtgtcaa aaaccgcgtg gacgtggtta acatccctgc tgggaggatc
9300
agccgtaatt attataattg gcttggtgct ggctactatt gtggccatgt acgtgctgac
9360
caaccagaaa cataattgaa tacagcagca attggcaagc tgcttacata gaactcgcgg
9420
cgattggcat gccgccttaa aatttttatt ttattttttc ttttcttttc cgaatcggat
9480
tttgttttta atatttcaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa
9540
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaa
9577
<210> 5
<211> 11446
<212> ДНК
<213> Вирус венесуэльского энцефалита лошадей
<400> 5
ataggcggcg catgagagaa gcccagacca attacctacc caaaatggag aaagttcacg
60
ttgacatcga ggaagacagc ccattcctca gagctttgca gcggagcttc ccgcagtttg
120
aggtagaagc caagcaggtc actgataatg accatgctaa tgccagagcg ttttcgcatc
180
tggcttcaaa actgatcgaa acggaggtgg acccatccga cacgatcctt gacattggaa
240
gtgcgcccgc ccgcagaatg tattctaagc acaagtatca ttgtatctgt ccgatgagat
300
gtgcggaaga tccggacaga ttgtataagt atgcaactaa gctgaagaaa aactgtaagg
360
aaataactga taaggaattg gacaagaaaa tgaaggagct cgccgccgtc atgagcgacc
420
ctgacctgga aactgagact atgtgcctcc acgacgacga gtcgtgtcgc tacgaagggc
480
aagtcgctgt ttaccaggat gtatacgcgg ttgacggacc gacaagtctc tatcaccaag
540
ccaataaggg agttagagtc gcctactgga taggctttga caccacccct tttatgttta
600
agaacttggc tggagcatat ccatcatact ctaccaactg ggccgacgaa accgtgttaa
660
cggctcgtaa cataggccta tgcagctctg acgttatgga gcggtcacgt agagggatgt
720
ccattcttag aaagaagtat ttgaaaccat ccaacaatgt tctattctct gttggctcga
780
ccatctacca cgagaagagg gacttactga ggagctggca cctgccgtct gtatttcact
840
tacgtggcaa gcaaaattac acatgtcggt gtgagactat agttagttgc gacgggtacg
900
tcgttaaaag aatagctatc agtccaggcc tgtatgggaa gccttcaggc tatgctgcta
960
cgatgcaccg cgagggattc ttgtgctgca aagtgacaga cacattgaac ggggagaggg
1020
tctcttttcc cgtgtgcacg tatgtgccag ctacattgtg tgaccaaatg actggcatac
1080
tggcaacaga tgtcagtgcg gacgacgcgc aaaaactgct ggttgggctc aaccagcgta
1140
tagtcgtcaa cggtcgcacc cagagaaaca ccaataccat gaaaaattac cttttgcccg
1200
tagtggccca ggcatttgct aggtgggcaa aggaatataa ggaagatcaa gaagatgaaa
1260
ggccactagg actacgagat agacagttag tcatggggtg ttgttgggct tttagaaggc
1320
acaagataac atctatttat aagcgcccgg atacccaaac catcatcaaa gtgaacagcg
1380
atttccactc attcgtgctg cccaggatag gcagtaacac attggagatc gggctgagaa
1440
caagaatcag gaaaatgtta gaggagcaca aggagccgtc acctctcatt accgccgagg
1500
acgtacaaga agctaagtgc gcagccgatg aggctaagga ggtgcgtgaa gccgaggagt
1560
tgcgcgcagc tctaccacct ttggcagctg atgttgagga gcccactctg gaagccgatg
1620
tcgacttgat gttacaagag gctggggccg gctcagtgga gacacctcgt ggcttgataa
1680
aggttaccag ctacgatggc gaggacaaga tcggctctta cgctgtgctt tctccgcagg
1740
ctgtactcaa gagtgaaaaa ttatcttgca tccaccctct cgctgaacaa gtcatagtga
1800
taacacactc tggccgaaaa gggcgttatg ccgtggaacc ataccatggt aaagtagtgg
1860
tgccagaggg acatgcaata cccgtccagg actttcaagc tctgagtgaa agtgccacca
1920
ttgtgtacaa cgaacgtgag ttcgtaaaca ggtacctgca ccatattgcc acacatggag
1980
gagcgctgaa cactgatgaa gaatattaca aaactgtcaa gcccagcgag cacgacggcg
2040
aatacctgta cgacatcgac aggaaacagt gcgtcaagaa agaactagtc actgggctag
2100
ggctcacagg cgagctggtg gatcctccct tccatgaatt cgcctacgag agtctgagaa
2160
cacgaccagc cgctccttac caagtaccaa ccataggggt gtatggcgtg ccaggatcag
2220
gcaagtctgg catcattaaa agcgcagtca ccaaaaaaga tctagtggtg agcgccaaga
2280
aagaaaactg tgcagaaatt ataagggacg tcaagaaaat gaaagggctg gacgtcaatg
2340
ccagaactgt ggactcagtg ctcttgaatg gatgcaaaca ccccgtagag accctgtata
2400
ttgacgaagc ttttgcttgt catgcaggta ctctcagagc gctcatagcc attataagac
2460
ctaaaaaggc agtgctctgc ggggatccca aacagtgcgg tttttttaac atgatgtgcc
2520
tgaaagtgca ttttaaccac gagatttgca cacaagtctt ccacaaaagc atctctcgcc
2580
gttgcactaa atctgtgact tcggtcgtct caaccttgtt ttacgacaaa aaaatgagaa
2640
cgacgaatcc gaaagagact aagattgtga ttgacactac cggcagtacc aaacctaagc
2700
aggacgatct cattctcact tgtttcagag ggtgggtgaa gcagttgcaa atagattaca
2760
aaggcaacga aataatgacg gcagctgcct ctcaagggct gacccgtaaa ggtgtgtatg
2820
ccgttcggta caaggtgaat gaaaatcctc tgtacgcacc cacctcagaa catgtgaacg
2880
tcctactgac ccgcacggag gaccgcatcg tgtggaaaac actagccggc gacccatgga
2940
taaaaacact gactgccaag taccctggga atttcactgc cacgatagag gagtggcaag
3000
cagagcatga tgccatcatg aggcacatct tggagagacc ggaccctacc gacgtcttcc
3060
agaataaggc aaacgtgtgt tgggccaagg ctttagtgcc ggtgctgaag accgctggca
3120
tagacatgac cactgaacaa tggaacactg tggattattt tgaaacggac aaagctcact
3180
cagcagagat agtattgaac caactatgcg tgaggttctt tggactcgat ctggactccg
3240
gtctattttc tgcacccact gttccgttat ccattaggaa taatcactgg gataactccc
3300
cgtcgcctaa catgtacggg ctgaataaag aagtggtccg tcagctctct cgcaggtacc
3360
cacaactgcc tcgggcagtt gccactggaa gagtctatga catgaacact ggtacactgc
3420
gcaattatga tccgcgcata aacctagtac ctgtaaacag aagactgcct catgctttag
3480
tcctccacca taatgaacac ccacagagtg acttttcttc attcgtcagc aaattgaagg
3540
gcagaactgt cctggtggtc ggggaaaagt tgtccgtccc aggcaaaatg gttgactggt
3600
tgtcagaccg gcctgaggct accttcagag ctcggctgga tttaggcatc ccaggtgatg
3660
tgcccaaata tgacataata tttgttaatg tgaggacccc atataaatac catcactatc
3720
agcagtgtga agaccatgcc attaagctta gcatgttgac caagaaagct tgtctgcatc
3780
tgaatcccgg cggaacctgt gtcagcatag gttatggtta cgctgacagg gccagcgaaa
3840
gcatcattgg tgctatagcg cggcagttca agttttcccg ggtatgcaaa ccgaaatcct
3900
cacttgaaga gacggaagtt ctgtttgtat tcattgggta cgatcgcaag gcccgtacgc
3960
acaatcctta caagctttca tcaaccttga ccaacattta tacaggttcc agactccacg
4020
aagccggatg tgcaccctca tatcatgtgg tgcgagggga tattgccacg gccaccgaag
4080
gagtgattat aaatgctgct aacagcaaag gacaacctgg cggaggggtg tgcggagcgc
4140
tgtataagaa attcccggaa agcttcgatt tacagccgat cgaagtagga aaagcgcgac
4200
tggtcaaagg tgcagctaaa catatcattc atgccgtagg accaaacttc aacaaagttt
4260
cggaggttga aggtgacaaa cagttggcag aggcttatga gtccatcgct aagattgtca
4320
acgataacaa ttacaagtca gtagcgattc cactgttgtc caccggcatc ttttccggga
4380
acaaagatcg actaacccaa tcattgaacc atttgctgac agctttagac accactgatg
4440
cagatgtagc catatactgc agggacaaga aatgggaaat gactctcaag gaagcagtgg
4500
ctaggagaga agcagtggag gagatatgca tatccgacga ctcttcagtg acagaacctg
4560
atgcagagct ggtgagggtg catccgaaga gttctttggc tggaaggaag ggctacagca
4620
caagcgatgg caaaactttc tcatatttgg aagggaccaa gtttcaccag gcggccaagg
4680
atatagcaga aattaatgcc atgtggcccg ttgcaacgga ggccaatgag caggtatgca
4740
tgtatatcct cggagaaagc atgagcagta ttaggtcgaa atgccccgtc gaagagtcgg
4800
aagcctccac accacctagc acgctgcctt gcttgtgcat ccatgccatg actccagaaa
4860
gagtacagcg cctaaaagcc tcacgtccag aacaaattac tgtgtgctca tcctttccat
4920
tgccgaagta tagaatcact ggtgtgcaga agatccaatg ctcccagcct atattgttct
4980
caccgaaagt gcctgcgtat attcatccaa ggaagtatct cgtggaaaca ccaccggtag
5040
acgagactcc ggagccatcg gcagagaacc aatccacaga ggggacacct gaacaaccac
5100
cacttataac cgaggatgag accaggacta gaacgcctga gccgatcatc atcgaagagg
5160
aagaagagga tagcataagt ttgctgtcag atggcccgac ccaccaggtg ctgcaagtcg
5220
aggcagacat tcacgggccg ccctctgtat ctagctcatc ctggtccatt cctcatgcat
5280
ccgactttga tgtggacagt ttatccatac ttgacaccct ggagggagct agcgtgacca
5340
gcggggcaac gtcagccgag actaactctt acttcgcaaa gagtatggag tttctggcgc
5400
gaccggtgcc tgcgcctcga acagtattca ggaaccctcc acatcccgct ccgcgcacaa
5460
gaacaccgtc acttgcaccc agcagggcct gctcgagaac cagcctagtt tccaccccgc
5520
caggcgtgaa tagggtgatc actagagagg agctcgaggc gcttaccccg tcacgcactc
5580
ctagcaggtc ggtctcgaga accagcctgg tctccaaccc gccaggcgta aatagggtga
5640
ttacaagaga ggagtttgag gcgttcgtag cacaacaaca atgacggttt gatgcgggtg
5700
catacatctt ttcctccgac accggtcaag ggcatttaca acaaaaatca gtaaggcaaa
5760
cggtgctatc cgaagtggtg ttggagagga ccgaattgga gatttcgtat gccccgcgcc
5820
tcgaccaaga aaaagaagaa ttactacgca agaaattaca gttaaatccc acacctgcta
5880
acagaagcag ataccagtcc aggaaggtgg agaacatgaa agccataaca gctagacgta
5940
ttctgcaagg cctagggcat tatttgaagg cagaaggaaa agtggagtgc taccgaaccc
6000
tgcatcctgt tcctttgtat tcatctagtg tgaaccgtgc cttttcaagc cccaaggtcg
6060
cagtggaagc ctgtaacgcc atgttgaaag agaactttcc gactgtggct tcttactgta
6120
ttattccaga gtacgatgcc tatttggaca tggttgacgg agcttcatgc tgcttagaca
6180
ctgccagttt ttgccctgca aagctgcgca gctttccaaa gaaacactcc tatttggaac
6240
ccacaatacg atcggcagtg ccttcagcga tccagaacac gctccagaac gtcctggcag
6300
ctgccacaaa aagaaattgc aatgtcacgc aaatgagaga attgcccgta ttggattcgg
6360
cggcctttaa tgtggaatgc ttcaagaaat atgcgtgtaa taatgaatat tgggaaacgt
6420
ttaaagaaaa ccccatcagg cttactgaag aaaacgtggt aaattacatt accaaattaa
6480
aaggaccaaa agctgctgct ctttttgcga agacacataa tttgaatatg ttgcaggaca
6540
taccaatgga caggtttgta atggacttaa agagagacgt gaaagtgact ccaggaacaa
6600
aacatactga agaacggccc aaggtacagg tgatccaggc tgccgatccg ctagcaacag
6660
cgtatctgtg cggaatccac cgagagctgg ttaggagatt aaatgcggtc ctgcttccga
6720
acattcatac actgtttgat atgtcggctg aagactttga cgctattata gccgagcact
6780
tccagcctgg ggattgtgtt ctggaaactg acatcgcgtc gtttgataaa agtgaggacg
6840
acgccatggc tctgaccgcg ttaatgattc tggaagactt aggtgtggac gcagagctgt
6900
tgacgctgat tgaggcggct ttcggcgaaa tttcatcaat acatttgccc actaaaacta
6960
aatttaaatt cggagccatg atgaaatctg gaatgttcct cacactgttt gtgaacacag
7020
tcattaacat tgtaatcgca agcagagtgt tgagagaacg gctaaccgga tcaccatgtg
7080
cagcattcat tggagatgac aatatcgtga aaggagtcaa atcggacaaa ttaatggcag
7140
acaggtgcgc cacctggttg aatatggaag tcaagattat agatgctgtg gtgggcgaga
7200
aagcgcctta tttctgtgga gggtttattt tgtgtgactc cgtgaccggc acagcgtgcc
7260
gtgtggcaga ccccctaaaa aggctgttta agcttggcaa acctctggca gcagacgatg
7320
aacatgatga tgacaggaga agggcattgc atgaagagtc aacacgctgg aaccgagtgg
7380
gtattctttc agagctgtgc aaggcagtag aatcaaggta tgaaaccgta ggaacttcca
7440
tcatagttat ggccatgact actctagcta gcagtgttaa atcattcagc tacctgagag
7500
gggcccctat aactctctac ggctaacctg aatggactac gacatagtct agtccgccaa
7560
gatgttcccg ttccagccaa tgtatccgat gcagccaatg ccctatcgca acccgttcgc
7620
ggccccgcgc aggccctggt tccccagaac cgaccctttt ctggcgatgc aggtgcagga
7680
attaacccgc tcgatggcta acctgacgtt caagcaacgc cgggacgcgc cacctgaggg
7740
gccatccgct aagaaaccga agaaggaggc ctcgcaaaaa cagaaagggg gaggccaagg
7800
gaagaagaag aagaaccaag ggaagaagaa ggctaagaca gggccgccta atccgaaggc
7860
acagaatgga aacaagaaga agaccaacaa gaaaccaggc aagagacagc gcatggtcat
7920
gaaattggaa tctgacaaga cgttcccaat catgttggaa gggaagataa acggctacgc
7980
ttgtgtggtc ggagggaagt tattcaggcc gatgcatgtg gaaggcaaga tcgacaacga
8040
cgttctggcc gcgcttaaga cgaagaaagc atccaaatac gatcttgagt atgcagatgt
8100
gccacagaac atgcgggccg atacattcaa atacacccat gagaaacccc aaggctatta
8160
cagctggcat catggagcag tccaatatga aaatgggcgt ttcacggtgc cgaaaggagt
8220
tggggccaag ggagacagcg gacgacccat tctggataac cagggacggg tggtcgctat
8280
tgtgctggga ggtgtgaatg aaggatctag gacagccctt tcagtcgtca tgtggaacga
8340
gaagggagtt accgtgaagt atactccgga gaactgcgag caatggtcac tagtgaccac
8400
catgtgtctg ctcgccaatg tgacgttccc atgtgctcaa ccaccaattt gctacgacag
8460
aaaaccagca gagactttgg ccatgctcag cgttaacgtt gacaacccgg gctacgatga
8520
gctgctggaa gcagctgtta agtgccccgg aaggaaaagg agatccaccg aggagctgtt
8580
taatgagtat aagctaacgc gcccttacat ggccagatgc atcagatgtg cagttgggag
8640
ctgccatagt ccaatagcaa tcgaggcagt aaagagcgac gggcacgacg gttatgttag
8700
acttcagact tcctcgcagt atggcctgga ttcctccggc aacttaaagg gcaggaccat
8760
gcggtatgac atgcacggga ccattaaaga gataccacta catcaagtgt cactctatac
8820
atctcgcccg tgtcacattg tggatgggca cggttatttc ctgcttgcca ggtgcccggc
8880
aggggactcc atcaccatgg aatttaagaa agattccgtc agacactcct gctcggtgcc
8940
gtatgaagtg aaatttaatc ctgtaggcag agaactctat actcatcccc cagaacacgg
9000
agtagagcaa gcgtgccaag tctacgcaca tgatgcacag aacagaggag cttatgtcga
9060
gatgcacctc ccgggctcag aagtggacag cagtttggtt tccttgagcg gcagttcagt
9120
caccgtgaca cctcctgatg ggactagcgc cctggtggaa tgcgagtgtg gcggcacaaa
9180
gatctccgag accatcaaca agacaaaaca gttcagccag tgcacaaaga aggagcagtg
9240
cagagcatat cggctgcaga acgataagtg ggtgtataat tctgacaaac tgcccaaagc
9300
agcgggagcc accttaaaag gaaaactgca tgtcccattc ttgctggcag acggcaaatg
9360
caccgtgcct ctagcaccag aacctatgat aaccttcggt ttcagatcag tgtcactgaa
9420
actgcaccct aagaatccca catatctaat cacccgccaa cttgctgatg agcctcacta
9480
cacgcacgag ctcatatctg aaccagctgt taggaatttt accgtcaccg aaaaagggtg
9540
ggagtttgta tggggaaacc acccgccgaa aaggttttgg gcacaggaaa cagcacccgg
9600
aaatccacat gggctaccgc acgaggtgat aactcattat taccacagat accctatgtc
9660
caccatcctg ggtttgtcaa tttgtgccgc cattgcaacc gtttccgttg cagcgtctac
9720
ctggctgttt tgcagatcta gagttgcgtg cctaactcct taccggctaa cacctaacgc
9780
taggatacca ttttgtctgg ctgtgctttg ctgcgcccgc actgcccggg ccgagaccac
9840
ctgggagtcc ttggatcacc tatggaacaa taaccaacag atgttctgga ttcaattgct
9900
gatccctctg gccgccttga tcgtagtgac tcgcctgctc aggtgcgtgt gctgtgtcgt
9960
gcctttttta gtcatggccg gcgccgcagg cgccggcgcc tacgagcacg cgaccacgat
10020
gccgagccaa gcgggaatct cgtataacac tatagtcaac agagcaggct acgcaccact
10080
ccctatcagc ataacaccaa caaagatcaa gctgatacct acagtgaact tggagtacgt
10140
cacctgccac tacaaaacag gaatggattc accagccatc aaatgctgcg gatctcagga
10200
atgcactcca acttacaggc ctgatgaaca gtgcaaagtc ttcacagggg tttacccgtt
10260
catgtggggt ggtgcatatt gcttttgcga cactgagaac acccaagtca gcaaggccta
10320
cgtaatgaaa tctgacgact gccttgcgga tcatgctgaa gcatataaag cgcacacagc
10380
ctcagtgcag gcgttcctca acatcacagt gggagaacac tctattgtga ctaccgtgta
10440
tgtgaatgga gaaactcctg tgaatttcaa tggggtcaaa ataactgcag gtccgctttc
10500
cacagcttgg acaccctttg atcgcaaaat cgtgcagtat gccggggaga tctataatta
10560
tgattttcct gagtatgggg caggacaacc aggagcattt ggagatatac aatccagaac
10620
agtctcaagc tctgatctgt atgccaatac caacctagtg ctgcagagac ccaaagcagg
10680
agcgatccac gtgccataca ctcaggcacc ttcgggtttt gagcaatgga agaaagataa
10740
agctccatca ttgaaattta ccgccccttt cggatgcgaa atatatacaa accccattcg
10800
cgccgaaaac tgtgctgtag ggtcaattcc attagccttt gacattcccg acgccttgtt
10860
caccagggtg tcagaaacac cgacactttc agcggccgaa tgcactctta acgagtgcgt
10920
gtattcttcc gactttggtg ggatcgccac ggtcaagtac tcggccagca agtcaggcaa
10980
gtgcgcagtc catgtgccat cagggactgc taccctaaaa gaagcagcag tcgagctaac
11040
cgagcaaggg tcggcgacta tccatttctc gaccgcaaat atccacccgg agttcaggct
11100
ccaaatatgc acatcatatg ttacgtgcaa aggtgattgt caccccccga aagaccatat
11160
tgtgacacac cctcagtatc acgcccaaac atttacagcc gcggtgtcaa aaaccgcgtg
11220
gacgtggtta acatccctgc tgggaggatc agccgtaatt attataattg gcttggtgct
11280
ggctactatt gtggccatgt acgtgctgac caaccagaaa cataattgaa tacagcagca
11340
attggcaagc tgcttacata gaactcgcgg cgattggcat gccgccttaa aatttttatt
11400
ttatttttct tttcttttcc gaatcggatt ttgtttttaa tatttc
11446
<210> 6
<211> 7895
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 6
atgggcggcg catgagagaa gcccagacca attacctacc caaaatggag aaagttcacg
60
ttgacatcga ggaagacagc ccattcctca gagctttgca gcggagcttc ccgcagtttg
120
aggtagaagc caagcaggtc actgataatg accatgctaa tgccagagcg ttttcgcatc
180
tggcttcaaa actgatcgaa acggaggtgg acccatccga cacgatcctt gacattggaa
240
gtgcgcccgc ccgcagaatg tattctaagc acaagtatca ttgtatctgt ccgatgagat
300
gtgcggaaga tccggacaga ttgtataagt atgcaactaa gctgaagaaa aactgtaagg
360
aaataactga taaggaattg gacaagaaaa tgaaggagct cgccgccgtc atgagcgacc
420
ctgacctgga aactgagact atgtgcctcc acgacgacga gtcgtgtcgc tacgaagggc
480
aagtcgctgt ttaccaggat gtatacgcgg ttgacggacc gacaagtctc tatcaccaag
540
ccaataaggg agttagagtc gcctactgga taggctttga caccacccct tttatgttta
600
agaacttggc tggagcatat ccatcatact ctaccaactg ggccgacgaa accgtgttaa
660
cggctcgtaa cataggccta tgcagctctg acgttatgga gcggtcacgt agagggatgt
720
ccattcttag aaagaagtat ttgaaaccat ccaacaatgt tctattctct gttggctcga
780
ccatctacca cgagaagagg gacttactga ggagctggca cctgccgtct gtatttcact
840
tacgtggcaa gcaaaattac acatgtcggt gtgagactat agttagttgc gacgggtacg
900
tcgttaaaag aatagctatc agtccaggcc tgtatgggaa gccttcaggc tatgctgcta
960
cgatgcaccg cgagggattc ttgtgctgca aagtgacaga cacattgaac ggggagaggg
1020
tctcttttcc cgtgtgcacg tatgtgccag ctacattgtg tgaccaaatg actggcatac
1080
tggcaacaga tgtcagtgcg gacgacgcgc aaaaactgct ggttgggctc aaccagcgta
1140
tagtcgtcaa cggtcgcacc cagagaaaca ccaataccat gaaaaattac cttttgcccg
1200
tagtggccca ggcatttgct aggtgggcaa aggaatataa ggaagatcaa gaagatgaaa
1260
ggccactagg actacgagat agacagttag tcatggggtg ttgttgggct tttagaaggc
1320
acaagataac atctatttat aagcgcccgg atacccaaac catcatcaaa gtgaacagcg
1380
atttccactc attcgtgctg cccaggatag gcagtaacac attggagatc gggctgagaa
1440
caagaatcag gaaaatgtta gaggagcaca aggagccgtc acctctcatt accgccgagg
1500
acgtacaaga agctaagtgc gcagccgatg aggctaagga ggtgcgtgaa gccgaggagt
1560
tgcgcgcagc tctaccacct ttggcagctg atgttgagga gcccactctg gaagccgatg
1620
tcgacttgat gttacaagag gctggggccg gctcagtgga gacacctcgt ggcttgataa
1680
aggttaccag ctacgctggc gaggacaaga tcggctctta cgctgtgctt tctccgcagg
1740
ctgtactcaa gagtgaaaaa ttatcttgca tccaccctct cgctgaacaa gtcatagtga
1800
taacacactc tggccgaaaa gggcgttatg ccgtggaacc ataccatggt aaagtagtgg
1860
tgccagaggg acatgcaata cccgtccagg actttcaagc tctgagtgaa agtgccacca
1920
ttgtgtacaa cgaacgtgag ttcgtaaaca ggtacctgca ccatattgcc acacatggag
1980
gagcgctgaa cactgatgaa gaatattaca aaactgtcaa gcccagcgag cacgacggcg
2040
aatacctgta cgacatcgac aggaaacagt gcgtcaagaa agaactagtc actgggctag
2100
ggctcacagg cgagctggtg gatcctccct tccatgaatt cgcctacgag agtctgagaa
2160
cacgaccagc cgctccttac caagtaccaa ccataggggt gtatggcgtg ccaggatcag
2220
gcaagtctgg catcattaaa agcgcagtca ccaaaaaaga tctagtggtg agcgccaaga
2280
aagaaaactg tgcagaaatt ataagggacg tcaagaaaat gaaagggctg gacgtcaatg
2340
ccagaactgt ggactcagtg ctcttgaatg gatgcaaaca ccccgtagag accctgtata
2400
ttgacgaagc ttttgcttgt catgcaggta ctctcagagc gctcatagcc attataagac
2460
ctaaaaaggc agtgctctgc ggggatccca aacagtgcgg tttttttaac atgatgtgcc
2520
tgaaagtgca ttttaaccac gagatttgca cacaagtctt ccacaaaagc atctctcgcc
2580
gttgcactaa atctgtgact tcggtcgtct caaccttgtt ttacgacaaa aaaatgagaa
2640
cgacgaatcc gaaagagact aagattgtga ttgacactac cggcagtacc aaacctaagc
2700
aggacgatct cattctcact tgtttcagag ggtgggtgaa gcagttgcaa atagattaca
2760
aaggcaacga aataatgacg gcagctgcct ctcaagggct gacccgtaaa ggtgtgtatg
2820
ccgttcggta caaggtgaat gaaaatcctc tgtacgcacc cacctcagaa catgtgaacg
2880
tcctactgac ccgcacggag gaccgcatcg tgtggaaaac actagccggc gacccatgga
2940
taaaaacact gactgccaag taccctggga atttcactgc cacgatagag gagtggcaag
3000
cagagcatga tgccatcatg aggcacatct tggagagacc ggaccctacc gacgtcttcc
3060
agaataaggc aaacgtgtgt tgggccaagg ctttagtgcc ggtgctgaag accgctggca
3120
tagacatgac cactgaacaa tggaacactg tggattattt tgaaacggac aaagctcact
3180
cagcagagat agtattgaac caactatgcg tgaggttctt tggactcgat ctggactccg
3240
gtctattttc tgcacccact gttccgttat ccattaggaa taatcactgg gataactccc
3300
cgtcgcctaa catgtacggg ctgaataaag aagtggtccg tcagctctct cgcaggtacc
3360
cacaactgcc tcgggcagtt gccactggaa gagtctatga catgaacact ggtacactgc
3420
gcaattatga tccgcgcata aacctagtac ctgtaaacag aagactgcct catgctttag
3480
tcctccacca taatgaacac ccacagagtg acttttcttc attcgtcagc aaattgaagg
3540
gcagaactgt cctggtggtc ggggaaaagt tgtccgtccc aggcaaaatg gttgactggt
3600
tgtcagaccg gcctgaggct accttcagag ctcggctgga tttaggcatc ccaggtgatg
3660
tgcccaaata tgacataata tttgttaatg tgaggacccc atataaatac catcactatc
3720
agcagtgtga agaccatgcc attaagctta gcatgttgac caagaaagct tgtctgcatc
3780
tgaatcccgg cggaacctgt gtcagcatag gttatggtta cgctgacagg gccagcgaaa
3840
gcatcattgg tgctatagcg cggcagttca agttttcccg ggtatgcaaa ccgaaatcct
3900
cacttgaaga gacggaagtt ctgtttgtat tcattgggta cgatcgcaag gcccgtacgc
3960
acaatcctta caagctttca tcaaccttga ccaacattta tacaggttcc agactccacg
4020
aagccggatg tgcaccctca tatcatgtgg tgcgagggga tattgccacg gccaccgaag
4080
gagtgattat aaatgctgct aacagcaaag gacaacctgg cggaggggtg tgcggagcgc
4140
tgtataagaa attcccggaa agcttcgatt tacagccgat cgaagtagga aaagcgcgac
4200
tggtcaaagg tgcagctaaa catatcattc atgccgtagg accaaacttc aacaaagttt
4260
cggaggttga aggtgacaaa cagttggcag aggcttatga gtccatcgct aagattgtca
4320
acgataacaa ttacaagtca gtagcgattc cactgttgtc caccggcatc ttttccggga
4380
acaaagatcg actaacccaa tcattgaacc atttgctgac agctttagac accactgatg
4440
cagatgtagc catatactgc agggacaaga aatgggaaat gactctcaag gaagcagtgg
4500
ctaggagaga agcagtggag gagatatgca tatccgacga ctcttcagtg acagaacctg
4560
atgcagagct ggtgagggtg catccgaaga gttctttggc tggaaggaag ggctacagca
4620
caagcgatgg caaaactttc tcatatttgg aagggaccaa gtttcaccag gcggccaagg
4680
atatagcaga aattaatgcc atgtggcccg ttgcaacgga ggccaatgag caggtatgca
4740
tgtatatcct cggagaaagc atgagcagta ttaggtcgaa atgccccgtc gaagagtcgg
4800
aagcctccac accacctagc acgctgcctt gcttgtgcat ccatgccatg actccagaaa
4860
gagtacagcg cctaaaagcc tcacgtccag aacaaattac tgtgtgctca tcctttccat
4920
tgccgaagta tagaatcact ggtgtgcaga agatccaatg ctcccagcct atattgttct
4980
caccgaaagt gcctgcgtat attcatccaa ggaagtatct cgtggaaaca ccaccggtag
5040
acgagactcc ggagccatcg gcagagaacc aatccacaga ggggacacct gaacaaccac
5100
cacttataac cgaggatgag accaggacta gaacgcctga gccgatcatc atcgaagagg
5160
aagaagagga tagcataagt ttgctgtcag atggcccgac ccaccaggtg ctgcaagtcg
5220
aggcagacat tcacgggccg ccctctgtat ctagctcatc ctggtccatt cctcatgcat
5280
ccgactttga tgtggacagt ttatccatac ttgacaccct ggagggagct agcgtgacca
5340
gcggggcaac gtcagccgag actaactctt acttcgcaaa gagtatggag tttctggcgc
5400
gaccggtgcc tgcgcctcga acagtattca ggaaccctcc acatcccgct ccgcgcacaa
5460
gaacaccgtc acttgcaccc agcagggcct gctcgagaac cagcctagtt tccaccccgc
5520
caggcgtgaa tagggtgatc actagagagg agctcgaggc gcttaccccg tcacgcactc
5580
ctagcaggtc ggtctcgaga accagcctgg tctccaaccc gccaggcgta aatagggtga
5640
ttacaagaga ggagtttgag gcgttcgtag cacaacaaca atgacggttt gatgcgggtg
5700
catacatctt ttcctccgac accggtcaag ggcatttaca acaaaaatca gtaaggcaaa
5760
cggtgctatc cgaagtggtg ttggagagga ccgaattgga gatttcgtat gccccgcgcc
5820
tcgaccaaga aaaagaagaa ttactacgca agaaattaca gttaaatccc acacctgcta
5880
acagaagcag ataccagtcc aggaaggtgg agaacatgaa agccataaca gctagacgta
5940
ttctgcaagg cctagggcat tatttgaagg cagaaggaaa agtggagtgc taccgaaccc
6000
tgcatcctgt tcctttgtat tcatctagtg tgaaccgtgc cttttcaagc cccaaggtcg
6060
cagtggaagc ctgtaacgcc atgttgaaag agaactttcc gactgtggct tcttactgta
6120
ttattccaga gtacgatgcc tatttggaca tggttgacgg agcttcatgc tgcttagaca
6180
ctgccagttt ttgccctgca aagctgcgca gctttccaaa gaaacactcc tatttggaac
6240
ccacaatacg atcggcagtg ccttcagcga tccagaacac gctccagaac gtcctggcag
6300
ctgccacaaa aagaaattgc aatgtcacgc aaatgagaga attgcccgta ttggattcgg
6360
cggcctttaa tgtggaatgc ttcaagaaat atgcgtgtaa taatgaatat tgggaaacgt
6420
ttaaagaaaa ccccatcagg cttactgaag aaaacgtggt aaattacatt accaaattaa
6480
aaggaccaaa agctgctgct ctttttgcga agacacataa tttgaatatg ttgcaggaca
6540
taccaatgga caggtttgta atggacttaa agagagacgt gaaagtgact ccaggaacaa
6600
aacatactga agaacggccc aaggtacagg tgatccaggc tgccgatccg ctagcaacag
6660
cgtatctgtg cggaatccac cgagagctgg ttaggagatt aaatgcggtc ctgcttccga
6720
acattcatac actgtttgat atgtcggctg aagactttga cgctattata gccgagcact
6780
tccagcctgg ggattgtgtt ctggaaactg acatcgcgtc gtttgataaa agtgaggacg
6840
acgccatggc tctgaccgcg ttaatgattc tggaagactt aggtgtggac gcagagctgt
6900
tgacgctgat tgaggcggct ttcggcgaaa tttcatcaat acatttgccc actaaaacta
6960
aatttaaatt cggagccatg atgaaatctg gaatgttcct cacactgttt gtgaacacag
7020
tcattaacat tgtaatcgca agcagagtgt tgagagaacg gctaaccgga tcaccatgtg
7080
cagcattcat tggagatgac aatatcgtga aaggagtcaa atcggacaaa ttaatggcag
7140
acaggtgcgc cacctggttg aatatggaag tcaagattat agatgctgtg gtgggcgaga
7200
aagcgcctta tttctgtgga gggtttattt tgtgtgactc cgtgaccggc acagcgtgcc
7260
gtgtggcaga ccccctaaaa aggctgttta agcttggcaa acctctggca gcagacgatg
7320
aacatgatga tgacaggaga agggcattgc atgaagagtc aacacgctgg aaccgagtgg
7380
gtattctttc agagctgtgc aaggcagtag aatcaaggta tgaaaccgta ggaacttcca
7440
tcatagttat ggccatgact actctagcta gcagtgttaa atcattcagc tacctgagag
7500
gggcccctat aactctctac ggctaacctg aatggactac gacgtatcac gcccaaacat
7560
ttacagccgc ggtgtcaaaa accgcgtgga cgtggttaac atccctgctg ggaggatcag
7620
ccgtaattat tataattggc ttggtgctgg ctactattgt ggccatgtac gtgctgacca
7680
accagaaaca taattgaata cagcagcaat tggcaagctg cttacataga actcgcggcg
7740
attggcatgc cgccttaaaa tttttatttt attttttctt ttcttttccg aatcggattt
7800
tgtttttaat atttcaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa
7860
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaa
7895
<210> 7
<211> 7894
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 7
ataggcggcg catgagagaa gcccagacca attacctacc caaaatggag aaagttcacg
60
ttgacatcga ggaagacagc ccattcctca gagctttgca gcggagcttc ccgcagtttg
120
aggtagaagc caagcaggtc actgataatg accatgctaa tgccagagcg ttttcgcatc
180
tggcttcaaa actgatcgaa acggaggtgg acccatccga cacgatcctt gacattggaa
240
gtgcgcccgc ccgcagaatg tattctaagc acaagtatca ttgtatctgt ccgatgagat
300
gtgcggaaga tccggacaga ttgtataagt atgcaactaa gctgaagaaa aactgtaagg
360
aaataactga taaggaattg gacaagaaaa tgaaggagct cgccgccgtc atgagcgacc
420
ctgacctgga aactgagact atgtgcctcc acgacgacga gtcgtgtcgc tacgaagggc
480
aagtcgctgt ttaccaggat gtatacgcgg ttgacggacc gacaagtctc tatcaccaag
540
ccaataaggg agttagagtc gcctactgga taggctttga caccacccct tttatgttta
600
agaacttggc tggagcatat ccatcatact ctaccaactg ggccgacgaa accgtgttaa
660
cggctcgtaa cataggccta tgcagctctg acgttatgga gcggtcacgt agagggatgt
720
ccattcttag aaagaagtat ttgaaaccat ccaacaatgt tctattctct gttggctcga
780
ccatctacca cgagaagagg gacttactga ggagctggca cctgccgtct gtatttcact
840
tacgtggcaa gcaaaattac acatgtcggt gtgagactat agttagttgc gacgggtacg
900
tcgttaaaag aatagctatc agtccaggcc tgtatgggaa gccttcaggc tatgctgcta
960
cgatgcaccg cgagggattc ttgtgctgca aagtgacaga cacattgaac ggggagaggg
1020
tctcttttcc cgtgtgcacg tatgtgccag ctacattgtg tgaccaaatg actggcatac
1080
tggcaacaga tgtcagtgcg gacgacgcgc aaaaactgct ggttgggctc aaccagcgta
1140
tagtcgtcaa cggtcgcacc cagagaaaca ccaataccat gaaaaattac cttttgcccg
1200
tagtggccca ggcatttgct aggtgggcaa aggaatataa ggaagatcaa gaagatgaaa
1260
ggccactagg actacgagat agacagttag tcatggggtg ttgttgggct tttagaaggc
1320
acaagataac atctatttat aagcgcccgg atacccaaac catcatcaaa gtgaacagcg
1380
atttccactc attcgtgctg cccaggatag gcagtaacac attggagatc gggctgagaa
1440
caagaatcag gaaaatgtta gaggagcaca aggagccgtc acctctcatt accgccgagg
1500
acgtacaaga agctaagtgc gcagccgatg aggctaagga ggtgcgtgaa gccgaggagt
1560
tgcgcgcagc tctaccacct ttggcagctg atgttgagga gcccactctg gaagccgatg
1620
tcgacttgat gttacaagag gctggggccg gctcagtgga gacacctcgt ggcttgataa
1680
aggttaccag ctacgatggc gaggacaaga tcggctctta cgctgtgctt tctccgcagg
1740
ctgtactcaa gagtgaaaaa ttatcttgca tccaccctct cgctgaacaa gtcatagtga
1800
taacacactc tggccgaaaa gggcgttatg ccgtggaacc ataccatggt aaagtagtgg
1860
tgccagaggg acatgcaata cccgtccagg actttcaagc tctgagtgaa agtgccacca
1920
ttgtgtacaa cgaacgtgag ttcgtaaaca ggtacctgca ccatattgcc acacatggag
1980
gagcgctgaa cactgatgaa gaatattaca aaactgtcaa gcccagcgag cacgacggcg
2040
aatacctgta cgacatcgac aggaaacagt gcgtcaagaa agaactagtc actgggctag
2100
ggctcacagg cgagctggtg gatcctccct tccatgaatt cgcctacgag agtctgagaa
2160
cacgaccagc cgctccttac caagtaccaa ccataggggt gtatggcgtg ccaggatcag
2220
gcaagtctgg catcattaaa agcgcagtca ccaaaaaaga tctagtggtg agcgccaaga
2280
aagaaaactg tgcagaaatt ataagggacg tcaagaaaat gaaagggctg gacgtcaatg
2340
ccagaactgt ggactcagtg ctcttgaatg gatgcaaaca ccccgtagag accctgtata
2400
ttgacgaagc ttttgcttgt catgcaggta ctctcagagc gctcatagcc attataagac
2460
ctaaaaaggc agtgctctgc ggggatccca aacagtgcgg tttttttaac atgatgtgcc
2520
tgaaagtgca ttttaaccac gagatttgca cacaagtctt ccacaaaagc atctctcgcc
2580
gttgcactaa atctgtgact tcggtcgtct caaccttgtt ttacgacaaa aaaatgagaa
2640
cgacgaatcc gaaagagact aagattgtga ttgacactac cggcagtacc aaacctaagc
2700
aggacgatct cattctcact tgtttcagag ggtgggtgaa gcagttgcaa atagattaca
2760
aaggcaacga aataatgacg gcagctgcct ctcaagggct gacccgtaaa ggtgtgtatg
2820
ccgttcggta caaggtgaat gaaaatcctc tgtacgcacc cacctcagaa catgtgaacg
2880
tcctactgac ccgcacggag gaccgcatcg tgtggaaaac actagccggc gacccatgga
2940
taaaaacact gactgccaag taccctggga atttcactgc cacgatagag gagtggcaag
3000
cagagcatga tgccatcatg aggcacatct tggagagacc ggaccctacc gacgtcttcc
3060
agaataaggc aaacgtgtgt tgggccaagg ctttagtgcc ggtgctgaag accgctggca
3120
tagacatgac cactgaacaa tggaacactg tggattattt tgaaacggac aaagctcact
3180
cagcagagat agtattgaac caactatgcg tgaggttctt tggactcgat ctggactccg
3240
gtctattttc tgcacccact gttccgttat ccattaggaa taatcactgg gataactccc
3300
cgtcgcctaa catgtacggg ctgaataaag aagtggtccg tcagctctct cgcaggtacc
3360
cacaactgcc tcgggcagtt gccactggaa gagtctatga catgaacact ggtacactgc
3420
gcaattatga tccgcgcata aacctagtac ctgtaaacag aagactgcct catgctttag
3480
tcctccacca taatgaacac ccacagagtg acttttcttc attcgtcagc aaattgaagg
3540
gcagaactgt cctggtggtc ggggaaaagt tgtccgtccc aggcaaaatg gttgactggt
3600
tgtcagaccg gcctgaggct accttcagag ctcggctgga tttaggcatc ccaggtgatg
3660
tgcccaaata tgacataata tttgttaatg tgaggacccc atataaatac catcactatc
3720
agcagtgtga agaccatgcc attaagctta gcatgttgac caagaaagct tgtctgcatc
3780
tgaatcccgg cggaacctgt gtcagcatag gttatggtta cgctgacagg gccagcgaaa
3840
gcatcattgg tgctatagcg cggcagttca agttttcccg ggtatgcaaa ccgaaatcct
3900
cacttgaaga gacggaagtt ctgtttgtat tcattgggta cgatcgcaag gcccgtacgc
3960
acaatcctta caagctttca tcaaccttga ccaacattta tacaggttcc agactccacg
4020
aagccggatg tgcaccctca tatcatgtgg tgcgagggga tattgccacg gccaccgaag
4080
gagtgattat aaatgctgct aacagcaaag gacaacctgg cggaggggtg tgcggagcgc
4140
tgtataagaa attcccggaa agcttcgatt tacagccgat cgaagtagga aaagcgcgac
4200
tggtcaaagg tgcagctaaa catatcattc atgccgtagg accaaacttc aacaaagttt
4260
cggaggttga aggtgacaaa cagttggcag aggcttatga gtccatcgct aagattgtca
4320
acgataacaa ttacaagtca gtagcgattc cactgttgtc caccggcatc ttttccggga
4380
acaaagatcg actaacccaa tcattgaacc atttgctgac agctttagac accactgatg
4440
cagatgtagc catatactgc agggacaaga aatgggaaat gactctcaag gaagcagtgg
4500
ctaggagaga agcagtggag gagatatgca tatccgacga ctcttcagtg acagaacctg
4560
atgcagagct ggtgagggtg catccgaaga gttctttggc tggaaggaag ggctacagca
4620
caagcgatgg caaaactttc tcatatttgg aagggaccaa gtttcaccag gcggccaagg
4680
atatagcaga aattaatgcc atgtggcccg ttgcaacgga ggccaatgag caggtatgca
4740
tgtatatcct cggagaaagc atgagcagta ttaggtcgaa atgccccgtc gaagagtcgg
4800
aagcctccac accacctagc acgctgcctt gcttgtgcat ccatgccatg actccagaaa
4860
gagtacagcg cctaaaagcc tcacgtccag aacaaattac tgtgtgctca tcctttccat
4920
tgccgaagta tagaatcact ggtgtgcaga agatccaatg ctcccagcct atattgttct
4980
caccgaaagt gcctgcgtat attcatccaa ggaagtatct cgtggaaaca ccaccggtag
5040
acgagactcc ggagccatcg gcagagaacc aatccacaga ggggacacct gaacaaccac
5100
cacttataac cgaggatgag accaggacta gaacgcctga gccgatcatc atcgaagagg
5160
aagaagagga tagcataagt ttgctgtcag atggcccgac ccaccaggtg ctgcaagtcg
5220
aggcagacat tcacgggccg ccctctgtat ctagctcatc ctggtccatt cctcatgcat
5280
ccgactttga tgtggacagt ttatccatac ttgacaccct ggagggagct agcgtgacca
5340
gcggggcaac gtcagccgag actaactctt acttcgcaaa gagtatggag tttctggcgc
5400
gaccggtgcc tgcgcctcga acagtattca ggaaccctcc acatcccgct ccgcgcacaa
5460
gaacaccgtc acttgcaccc agcagggcct gctcgagaac cagcctagtt tccaccccgc
5520
caggcgtgaa tagggtgatc actagagagg agctcgaggc gcttaccccg tcacgcactc
5580
ctagcaggtc ggtctcgaga accagcctgg tctccaaccc gccaggcgta aatagggtga
5640
ttacaagaga ggagtttgag gcgttcgtag cacaacaaca atgacggttt gatgcgggtg
5700
catacatctt ttcctccgac accggtcaag ggcatttaca acaaaaatca gtaaggcaaa
5760
cggtgctatc cgaagtggtg ttggagagga ccgaattgga gatttcgtat gccccgcgcc
5820
tcgaccaaga aaaagaagaa ttactacgca agaaattaca gttaaatccc acacctgcta
5880
acagaagcag ataccagtcc aggaaggtgg agaacatgaa agccataaca gctagacgta
5940
ttctgcaagg cctagggcat tatttgaagg cagaaggaaa agtggagtgc taccgaaccc
6000
tgcatcctgt tcctttgtat tcatctagtg tgaaccgtgc cttttcaagc cccaaggtcg
6060
cagtggaagc ctgtaacgcc atgttgaaag agaactttcc gactgtggct tcttactgta
6120
ttattccaga gtacgatgcc tatttggaca tggttgacgg agcttcatgc tgcttagaca
6180
ctgccagttt ttgccctgca aagctgcgca gctttccaaa gaaacactcc tatttggaac
6240
ccacaatacg atcggcagtg ccttcagcga tccagaacac gctccagaac gtcctggcag
6300
ctgccacaaa aagaaattgc aatgtcacgc aaatgagaga attgcccgta ttggattcgg
6360
cggcctttaa tgtggaatgc ttcaagaaat atgcgtgtaa taatgaatat tgggaaacgt
6420
ttaaagaaaa ccccatcagg cttactgaag aaaacgtggt aaattacatt accaaattaa
6480
aaggaccaaa agctgctgct ctttttgcga agacacataa tttgaatatg ttgcaggaca
6540
taccaatgga caggtttgta atggacttaa agagagacgt gaaagtgact ccaggaacaa
6600
aacatactga agaacggccc aaggtacagg tgatccaggc tgccgatccg ctagcaacag
6660
cgtatctgtg cggaatccac cgagagctgg ttaggagatt aaatgcggtc ctgcttccga
6720
acattcatac actgtttgat atgtcggctg aagactttga cgctattata gccgagcact
6780
tccagcctgg ggattgtgtt ctggaaactg acatcgcgtc gtttgataaa agtgaggacg
6840
acgccatggc tctgaccgcg ttaatgattc tggaagactt aggtgtggac gcagagctgt
6900
tgacgctgat tgaggcggct ttcggcgaaa tttcatcaat acatttgccc actaaaacta
6960
aatttaaatt cggagccatg atgaaatctg gaatgttcct cacactgttt gtgaacacag
7020
tcattaacat tgtaatcgca agcagagtgt tgagagaacg gctaaccgga tcaccatgtg
7080
cagcattcat tggagatgac aatatcgtga aaggagtcaa atcggacaaa ttaatggcag
7140
acaggtgcgc cacctggttg aatatggaag tcaagattat agatgctgtg gtgggcgaga
7200
aagcgcctta tttctgtgga gggtttattt tgtgtgactc cgtgaccggc acagcgtgcc
7260
gtgtggcaga ccccctaaaa aggctgttta agcttggcaa acctctggca gcagacgatg
7320
aacatgatga tgacaggaga agggcattgc atgaagagtc aacacgctgg aaccgagtgg
7380
gtattctttc agagctgtgc aaggcagtag aatcaaggta tgaaaccgta ggaacttcca
7440
tcatagttat ggccatgact actctagcta gcagtgttaa atcattcagc tacctgagag
7500
gggcccctat aactctctac ggctaacctg aatggactac gacgtatcac gcccaaacat
7560
ttacagccgc ggtgtcaaaa accgcgtgga cgtggttaac atccctgctg ggaggatcag
7620
ccgtaattat tataattggc ttggtgctgg ctactattgt ggccatgtac gtgctgacca
7680
accagaaaca taattgaata cagcagcaat tggcaagctg cttacataga actcgcggcg
7740
attggcatgc cgccttaaaa tttttatttt atttttcttt tcttttccga atcggatttt
7800
gtttttaata tttcaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa
7860
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaa
7894
<210> 8
<211> 7928
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 8
taatacgact cactatagga tgggcggcgc atgagagaag cccagaccaa ttacctaccc
60
aaaatggaga aagttcacgt tgacatcgag gaagacagcc cattcctcag agctttgcag
120
cggagcttcc cgcagtttga ggtagaagcc aagcaggtca ctgataatga ccatgctaat
180
gccagagcgt tttcgcatct ggcttcaaaa ctgatcgaaa cggaggtgga cccatccgac
240
acgatccttg acattggaag tgcgcccgcc cgcagaatgt attctaagca caagtatcat
300
tgtatctgtc cgatgagatg tgcggaagat ccggacagat tgtataagta tgcaactaag
360
ctgaagaaaa actgtaagga aataactgat aaggaattgg acaagaaaat gaaggagctc
420
gccgccgtca tgagcgaccc tgacctggaa actgagacta tgtgcctcca cgacgacgag
480
tcgtgtcgct acgaagggca agtcgctgtt taccaggatg tatacgcggt tgacggaccg
540
acaagtctct atcaccaagc caataaggga gttagagtcg cctactggat aggctttgac
600
accacccctt ttatgtttaa gaacttggct ggagcatatc catcatactc taccaactgg
660
gccgacgaaa ccgtgttaac ggctcgtaac ataggcctat gcagctctga cgttatggag
720
cggtcacgta gagggatgtc cattcttaga aagaagtatt tgaaaccatc caacaatgtt
780
ctattctctg ttggctcgac catctaccac gagaagaggg acttactgag gagctggcac
840
ctgccgtctg tatttcactt acgtggcaag caaaattaca catgtcggtg tgagactata
900
gttagttgcg acgggtacgt cgttaaaaga atagctatca gtccaggcct gtatgggaag
960
ccttcaggct atgctgctac gatgcaccgc gagggattct tgtgctgcaa agtgacagac
1020
acattgaacg gggagagggt ctcttttccc gtgtgcacgt atgtgccagc tacattgtgt
1080
gaccaaatga ctggcatact ggcaacagat gtcagtgcgg acgacgcgca aaaactgctg
1140
gttgggctca accagcgtat agtcgtcaac ggtcgcaccc agagaaacac caataccatg
1200
aaaaattacc ttttgcccgt agtggcccag gcatttgcta ggtgggcaaa ggaatataag
1260
gaagatcaag aagatgaaag gccactagga ctacgagata gacagttagt catggggtgt
1320
tgttgggctt ttagaaggca caagataaca tctatttata agcgcccgga tacccaaacc
1380
atcatcaaag tgaacagcga tttccactca ttcgtgctgc ccaggatagg cagtaacaca
1440
ttggagatcg ggctgagaac aagaatcagg aaaatgttag aggagcacaa ggagccgtca
1500
cctctcatta ccgccgagga cgtacaagaa gctaagtgcg cagccgatga ggctaaggag
1560
gtgcgtgaag ccgaggagtt gcgcgcagct ctaccacctt tggcagctga tgttgaggag
1620
cccactctgg aagccgatgt cgacttgatg ttacaagagg ctggggccgg ctcagtggag
1680
acacctcgtg gcttgataaa ggttaccagc tacgctggcg aggacaagat cggctcttac
1740
gctgtgcttt ctccgcaggc tgtactcaag agtgaaaaat tatcttgcat ccaccctctc
1800
gctgaacaag tcatagtgat aacacactct ggccgaaaag ggcgttatgc cgtggaacca
1860
taccatggta aagtagtggt gccagaggga catgcaatac ccgtccagga ctttcaagct
1920
ctgagtgaaa gtgccaccat tgtgtacaac gaacgtgagt tcgtaaacag gtacctgcac
1980
catattgcca cacatggagg agcgctgaac actgatgaag aatattacaa aactgtcaag
2040
cccagcgagc acgacggcga atacctgtac gacatcgaca ggaaacagtg cgtcaagaaa
2100
gaactagtca ctgggctagg gctcacaggc gagctggtgg atcctccctt ccatgaattc
2160
gcctacgaga gtctgagaac acgaccagcc gctccttacc aagtaccaac cataggggtg
2220
tatggcgtgc caggatcagg caagtctggc atcattaaaa gcgcagtcac caaaaaagat
2280
ctagtggtga gcgccaagaa agaaaactgt gcagaaatta taagggacgt caagaaaatg
2340
aaagggctgg acgtcaatgc cagaactgtg gactcagtgc tcttgaatgg atgcaaacac
2400
cccgtagaga ccctgtatat tgacgaagct tttgcttgtc atgcaggtac tctcagagcg
2460
ctcatagcca ttataagacc taaaaaggca gtgctctgcg gggatcccaa acagtgcggt
2520
ttttttaaca tgatgtgcct gaaagtgcat tttaaccacg agatttgcac acaagtcttc
2580
cacaaaagca tctctcgccg ttgcactaaa tctgtgactt cggtcgtctc aaccttgttt
2640
tacgacaaaa aaatgagaac gacgaatccg aaagagacta agattgtgat tgacactacc
2700
ggcagtacca aacctaagca ggacgatctc attctcactt gtttcagagg gtgggtgaag
2760
cagttgcaaa tagattacaa aggcaacgaa ataatgacgg cagctgcctc tcaagggctg
2820
acccgtaaag gtgtgtatgc cgttcggtac aaggtgaatg aaaatcctct gtacgcaccc
2880
acctcagaac atgtgaacgt cctactgacc cgcacggagg accgcatcgt gtggaaaaca
2940
ctagccggcg acccatggat aaaaacactg actgccaagt accctgggaa tttcactgcc
3000
acgatagagg agtggcaagc agagcatgat gccatcatga ggcacatctt ggagagaccg
3060
gaccctaccg acgtcttcca gaataaggca aacgtgtgtt gggccaaggc tttagtgccg
3120
gtgctgaaga ccgctggcat agacatgacc actgaacaat ggaacactgt ggattatttt
3180
gaaacggaca aagctcactc agcagagata gtattgaacc aactatgcgt gaggttcttt
3240
ggactcgatc tggactccgg tctattttct gcacccactg ttccgttatc cattaggaat
3300
aatcactggg ataactcccc gtcgcctaac atgtacgggc tgaataaaga agtggtccgt
3360
cagctctctc gcaggtaccc acaactgcct cgggcagttg ccactggaag agtctatgac
3420
atgaacactg gtacactgcg caattatgat ccgcgcataa acctagtacc tgtaaacaga
3480
agactgcctc atgctttagt cctccaccat aatgaacacc cacagagtga cttttcttca
3540
ttcgtcagca aattgaaggg cagaactgtc ctggtggtcg gggaaaagtt gtccgtccca
3600
ggcaaaatgg ttgactggtt gtcagaccgg cctgaggcta ccttcagagc tcggctggat
3660
ttaggcatcc caggtgatgt gcccaaatat gacataatat ttgttaatgt gaggacccca
3720
tataaatacc atcactatca gcagtgtgaa gaccatgcca ttaagcttag catgttgacc
3780
aagaaagctt gtctgcatct gaatcccggc ggaacctgtg tcagcatagg ttatggttac
3840
gctgacaggg ccagcgaaag catcattggt gctatagcgc ggcagttcaa gttttcccgg
3900
gtatgcaaac cgaaatcctc acttgaagag acggaagttc tgtttgtatt cattgggtac
3960
gatcgcaagg cccgtacgca caatccttac aagctttcat caaccttgac caacatttat
4020
acaggttcca gactccacga agccggatgt gcaccctcat atcatgtggt gcgaggggat
4080
attgccacgg ccaccgaagg agtgattata aatgctgcta acagcaaagg acaacctggc
4140
ggaggggtgt gcggagcgct gtataagaaa ttcccggaaa gcttcgattt acagccgatc
4200
gaagtaggaa aagcgcgact ggtcaaaggt gcagctaaac atatcattca tgccgtagga
4260
ccaaacttca acaaagtttc ggaggttgaa ggtgacaaac agttggcaga ggcttatgag
4320
tccatcgcta agattgtcaa cgataacaat tacaagtcag tagcgattcc actgttgtcc
4380
accggcatct tttccgggaa caaagatcga ctaacccaat cattgaacca tttgctgaca
4440
gctttagaca ccactgatgc agatgtagcc atatactgca gggacaagaa atgggaaatg
4500
actctcaagg aagcagtggc taggagagaa gcagtggagg agatatgcat atccgacgac
4560
tcttcagtga cagaacctga tgcagagctg gtgagggtgc atccgaagag ttctttggct
4620
ggaaggaagg gctacagcac aagcgatggc aaaactttct catatttgga agggaccaag
4680
tttcaccagg cggccaagga tatagcagaa attaatgcca tgtggcccgt tgcaacggag
4740
gccaatgagc aggtatgcat gtatatcctc ggagaaagca tgagcagtat taggtcgaaa
4800
tgccccgtcg aagagtcgga agcctccaca ccacctagca cgctgccttg cttgtgcatc
4860
catgccatga ctccagaaag agtacagcgc ctaaaagcct cacgtccaga acaaattact
4920
gtgtgctcat cctttccatt gccgaagtat agaatcactg gtgtgcagaa gatccaatgc
4980
tcccagccta tattgttctc accgaaagtg cctgcgtata ttcatccaag gaagtatctc
5040
gtggaaacac caccggtaga cgagactccg gagccatcgg cagagaacca atccacagag
5100
gggacacctg aacaaccacc acttataacc gaggatgaga ccaggactag aacgcctgag
5160
ccgatcatca tcgaagagga agaagaggat agcataagtt tgctgtcaga tggcccgacc
5220
caccaggtgc tgcaagtcga ggcagacatt cacgggccgc cctctgtatc tagctcatcc
5280
tggtccattc ctcatgcatc cgactttgat gtggacagtt tatccatact tgacaccctg
5340
gagggagcta gcgtgaccag cggggcaacg tcagccgaga ctaactctta cttcgcaaag
5400
agtatggagt ttctggcgcg accggtgcct gcgcctcgaa cagtattcag gaaccctcca
5460
catcccgctc cgcgcacaag aacaccgtca cttgcaccca gcagggcctg ctcgagaacc
5520
agcctagttt ccaccccgcc aggcgtgaat agggtgatca ctagagagga gctcgaggcg
5580
cttaccccgt cacgcactcc tagcaggtcg gtctcgagaa ccagcctggt ctccaacccg
5640
ccaggcgtaa atagggtgat tacaagagag gagtttgagg cgttcgtagc acaacaacaa
5700
tgacggtttg atgcgggtgc atacatcttt tcctccgaca ccggtcaagg gcatttacaa
5760
caaaaatcag taaggcaaac ggtgctatcc gaagtggtgt tggagaggac cgaattggag
5820
atttcgtatg ccccgcgcct cgaccaagaa aaagaagaat tactacgcaa gaaattacag
5880
ttaaatccca cacctgctaa cagaagcaga taccagtcca ggaaggtgga gaacatgaaa
5940
gccataacag ctagacgtat tctgcaaggc ctagggcatt atttgaaggc agaaggaaaa
6000
gtggagtgct accgaaccct gcatcctgtt cctttgtatt catctagtgt gaaccgtgcc
6060
ttttcaagcc ccaaggtcgc agtggaagcc tgtaacgcca tgttgaaaga gaactttccg
6120
actgtggctt cttactgtat tattccagag tacgatgcct atttggacat ggttgacgga
6180
gcttcatgct gcttagacac tgccagtttt tgccctgcaa agctgcgcag ctttccaaag
6240
aaacactcct atttggaacc cacaatacga tcggcagtgc cttcagcgat ccagaacacg
6300
ctccagaacg tcctggcagc tgccacaaaa agaaattgca atgtcacgca aatgagagaa
6360
ttgcccgtat tggattcggc ggcctttaat gtggaatgct tcaagaaata tgcgtgtaat
6420
aatgaatatt gggaaacgtt taaagaaaac cccatcaggc ttactgaaga aaacgtggta
6480
aattacatta ccaaattaaa aggaccaaaa gctgctgctc tttttgcgaa gacacataat
6540
ttgaatatgt tgcaggacat accaatggac aggtttgtaa tggacttaaa gagagacgtg
6600
aaagtgactc caggaacaaa acatactgaa gaacggccca aggtacaggt gatccaggct
6660
gccgatccgc tagcaacagc gtatctgtgc ggaatccacc gagagctggt taggagatta
6720
aatgcggtcc tgcttccgaa cattcataca ctgtttgata tgtcggctga agactttgac
6780
gctattatag ccgagcactt ccagcctggg gattgtgttc tggaaactga catcgcgtcg
6840
tttgataaaa gtgaggacga cgccatggct ctgaccgcgt taatgattct ggaagactta
6900
ggtgtggacg cagagctgtt gacgctgatt gaggcggctt tcggcgaaat ttcatcaata
6960
catttgccca ctaaaactaa atttaaattc ggagccatga tgaaatctgg aatgttcctc
7020
acactgtttg tgaacacagt cattaacatt gtaatcgcaa gcagagtgtt gagagaacgg
7080
ctaaccggat caccatgtgc agcattcatt ggagatgaca atatcgtgaa aggagtcaaa
7140
tcggacaaat taatggcaga caggtgcgcc acctggttga atatggaagt caagattata
7200
gatgctgtgg tgggcgagaa agcgccttat ttctgtggag ggtttatttt gtgtgactcc
7260
gtgaccggca cagcgtgccg tgtggcagac cccctaaaaa ggctgtttaa gcttggcaaa
7320
cctctggcag cagacgatga acatgatgat gacaggagaa gggcattgca tgaagagtca
7380
acacgctgga accgagtggg tattctttca gagctgtgca aggcagtaga atcaaggtat
7440
gaaaccgtag gaacttccat catagttatg gccatgacta ctctagctag cagtgttaaa
7500
tcattcagct acctgagagg ggcccctata actctctacg gctaacctga atggactacg
7560
acgtatcacg cccaaacatt tacagccgcg gtgtcaaaaa ccgcgtggac gtggttaaca
7620
tccctgctgg gaggatcagc cgtaattatt ataattggct tggtgctggc tactattgtg
7680
gccatgtacg tgctgaccaa ccagaaacat aattgaatac agcagcaatt ggcaagctgc
7740
ttacatagaa ctcgcggcga ttggcatgcc gccttaaaat ttttatttta ttttttcttt
7800
tcttttccga atcggatttt gtttttaata tttcaaaaaa aaaaaaaaaa aaaaaaaaaa
7860
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaatacgta
7920
gtttaaac
7928
<210> 9
<211> 7927
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 9
taatacgact cactatagga taggcggcgc atgagagaag cccagaccaa ttacctaccc
60
aaaatggaga aagttcacgt tgacatcgag gaagacagcc cattcctcag agctttgcag
120
cggagcttcc cgcagtttga ggtagaagcc aagcaggtca ctgataatga ccatgctaat
180
gccagagcgt tttcgcatct ggcttcaaaa ctgatcgaaa cggaggtgga cccatccgac
240
acgatccttg acattggaag tgcgcccgcc cgcagaatgt attctaagca caagtatcat
300
tgtatctgtc cgatgagatg tgcggaagat ccggacagat tgtataagta tgcaactaag
360
ctgaagaaaa actgtaagga aataactgat aaggaattgg acaagaaaat gaaggagctc
420
gccgccgtca tgagcgaccc tgacctggaa actgagacta tgtgcctcca cgacgacgag
480
tcgtgtcgct acgaagggca agtcgctgtt taccaggatg tatacgcggt tgacggaccg
540
acaagtctct atcaccaagc caataaggga gttagagtcg cctactggat aggctttgac
600
accacccctt ttatgtttaa gaacttggct ggagcatatc catcatactc taccaactgg
660
gccgacgaaa ccgtgttaac ggctcgtaac ataggcctat gcagctctga cgttatggag
720
cggtcacgta gagggatgtc cattcttaga aagaagtatt tgaaaccatc caacaatgtt
780
ctattctctg ttggctcgac catctaccac gagaagaggg acttactgag gagctggcac
840
ctgccgtctg tatttcactt acgtggcaag caaaattaca catgtcggtg tgagactata
900
gttagttgcg acgggtacgt cgttaaaaga atagctatca gtccaggcct gtatgggaag
960
ccttcaggct atgctgctac gatgcaccgc gagggattct tgtgctgcaa agtgacagac
1020
acattgaacg gggagagggt ctcttttccc gtgtgcacgt atgtgccagc tacattgtgt
1080
gaccaaatga ctggcatact ggcaacagat gtcagtgcgg acgacgcgca aaaactgctg
1140
gttgggctca accagcgtat agtcgtcaac ggtcgcaccc agagaaacac caataccatg
1200
aaaaattacc ttttgcccgt agtggcccag gcatttgcta ggtgggcaaa ggaatataag
1260
gaagatcaag aagatgaaag gccactagga ctacgagata gacagttagt catggggtgt
1320
tgttgggctt ttagaaggca caagataaca tctatttata agcgcccgga tacccaaacc
1380
atcatcaaag tgaacagcga tttccactca ttcgtgctgc ccaggatagg cagtaacaca
1440
ttggagatcg ggctgagaac aagaatcagg aaaatgttag aggagcacaa ggagccgtca
1500
cctctcatta ccgccgagga cgtacaagaa gctaagtgcg cagccgatga ggctaaggag
1560
gtgcgtgaag ccgaggagtt gcgcgcagct ctaccacctt tggcagctga tgttgaggag
1620
cccactctgg aagccgatgt cgacttgatg ttacaagagg ctggggccgg ctcagtggag
1680
acacctcgtg gcttgataaa ggttaccagc tacgatggcg aggacaagat cggctcttac
1740
gctgtgcttt ctccgcaggc tgtactcaag agtgaaaaat tatcttgcat ccaccctctc
1800
gctgaacaag tcatagtgat aacacactct ggccgaaaag ggcgttatgc cgtggaacca
1860
taccatggta aagtagtggt gccagaggga catgcaatac ccgtccagga ctttcaagct
1920
ctgagtgaaa gtgccaccat tgtgtacaac gaacgtgagt tcgtaaacag gtacctgcac
1980
catattgcca cacatggagg agcgctgaac actgatgaag aatattacaa aactgtcaag
2040
cccagcgagc acgacggcga atacctgtac gacatcgaca ggaaacagtg cgtcaagaaa
2100
gaactagtca ctgggctagg gctcacaggc gagctggtgg atcctccctt ccatgaattc
2160
gcctacgaga gtctgagaac acgaccagcc gctccttacc aagtaccaac cataggggtg
2220
tatggcgtgc caggatcagg caagtctggc atcattaaaa gcgcagtcac caaaaaagat
2280
ctagtggtga gcgccaagaa agaaaactgt gcagaaatta taagggacgt caagaaaatg
2340
aaagggctgg acgtcaatgc cagaactgtg gactcagtgc tcttgaatgg atgcaaacac
2400
cccgtagaga ccctgtatat tgacgaagct tttgcttgtc atgcaggtac tctcagagcg
2460
ctcatagcca ttataagacc taaaaaggca gtgctctgcg gggatcccaa acagtgcggt
2520
ttttttaaca tgatgtgcct gaaagtgcat tttaaccacg agatttgcac acaagtcttc
2580
cacaaaagca tctctcgccg ttgcactaaa tctgtgactt cggtcgtctc aaccttgttt
2640
tacgacaaaa aaatgagaac gacgaatccg aaagagacta agattgtgat tgacactacc
2700
ggcagtacca aacctaagca ggacgatctc attctcactt gtttcagagg gtgggtgaag
2760
cagttgcaaa tagattacaa aggcaacgaa ataatgacgg cagctgcctc tcaagggctg
2820
acccgtaaag gtgtgtatgc cgttcggtac aaggtgaatg aaaatcctct gtacgcaccc
2880
acctcagaac atgtgaacgt cctactgacc cgcacggagg accgcatcgt gtggaaaaca
2940
ctagccggcg acccatggat aaaaacactg actgccaagt accctgggaa tttcactgcc
3000
acgatagagg agtggcaagc agagcatgat gccatcatga ggcacatctt ggagagaccg
3060
gaccctaccg acgtcttcca gaataaggca aacgtgtgtt gggccaaggc tttagtgccg
3120
gtgctgaaga ccgctggcat agacatgacc actgaacaat ggaacactgt ggattatttt
3180
gaaacggaca aagctcactc agcagagata gtattgaacc aactatgcgt gaggttcttt
3240
ggactcgatc tggactccgg tctattttct gcacccactg ttccgttatc cattaggaat
3300
aatcactggg ataactcccc gtcgcctaac atgtacgggc tgaataaaga agtggtccgt
3360
cagctctctc gcaggtaccc acaactgcct cgggcagttg ccactggaag agtctatgac
3420
atgaacactg gtacactgcg caattatgat ccgcgcataa acctagtacc tgtaaacaga
3480
agactgcctc atgctttagt cctccaccat aatgaacacc cacagagtga cttttcttca
3540
ttcgtcagca aattgaaggg cagaactgtc ctggtggtcg gggaaaagtt gtccgtccca
3600
ggcaaaatgg ttgactggtt gtcagaccgg cctgaggcta ccttcagagc tcggctggat
3660
ttaggcatcc caggtgatgt gcccaaatat gacataatat ttgttaatgt gaggacccca
3720
tataaatacc atcactatca gcagtgtgaa gaccatgcca ttaagcttag catgttgacc
3780
aagaaagctt gtctgcatct gaatcccggc ggaacctgtg tcagcatagg ttatggttac
3840
gctgacaggg ccagcgaaag catcattggt gctatagcgc ggcagttcaa gttttcccgg
3900
gtatgcaaac cgaaatcctc acttgaagag acggaagttc tgtttgtatt cattgggtac
3960
gatcgcaagg cccgtacgca caatccttac aagctttcat caaccttgac caacatttat
4020
acaggttcca gactccacga agccggatgt gcaccctcat atcatgtggt gcgaggggat
4080
attgccacgg ccaccgaagg agtgattata aatgctgcta acagcaaagg acaacctggc
4140
ggaggggtgt gcggagcgct gtataagaaa ttcccggaaa gcttcgattt acagccgatc
4200
gaagtaggaa aagcgcgact ggtcaaaggt gcagctaaac atatcattca tgccgtagga
4260
ccaaacttca acaaagtttc ggaggttgaa ggtgacaaac agttggcaga ggcttatgag
4320
tccatcgcta agattgtcaa cgataacaat tacaagtcag tagcgattcc actgttgtcc
4380
accggcatct tttccgggaa caaagatcga ctaacccaat cattgaacca tttgctgaca
4440
gctttagaca ccactgatgc agatgtagcc atatactgca gggacaagaa atgggaaatg
4500
actctcaagg aagcagtggc taggagagaa gcagtggagg agatatgcat atccgacgac
4560
tcttcagtga cagaacctga tgcagagctg gtgagggtgc atccgaagag ttctttggct
4620
ggaaggaagg gctacagcac aagcgatggc aaaactttct catatttgga agggaccaag
4680
tttcaccagg cggccaagga tatagcagaa attaatgcca tgtggcccgt tgcaacggag
4740
gccaatgagc aggtatgcat gtatatcctc ggagaaagca tgagcagtat taggtcgaaa
4800
tgccccgtcg aagagtcgga agcctccaca ccacctagca cgctgccttg cttgtgcatc
4860
catgccatga ctccagaaag agtacagcgc ctaaaagcct cacgtccaga acaaattact
4920
gtgtgctcat cctttccatt gccgaagtat agaatcactg gtgtgcagaa gatccaatgc
4980
tcccagccta tattgttctc accgaaagtg cctgcgtata ttcatccaag gaagtatctc
5040
gtggaaacac caccggtaga cgagactccg gagccatcgg cagagaacca atccacagag
5100
gggacacctg aacaaccacc acttataacc gaggatgaga ccaggactag aacgcctgag
5160
ccgatcatca tcgaagagga agaagaggat agcataagtt tgctgtcaga tggcccgacc
5220
caccaggtgc tgcaagtcga ggcagacatt cacgggccgc cctctgtatc tagctcatcc
5280
tggtccattc ctcatgcatc cgactttgat gtggacagtt tatccatact tgacaccctg
5340
gagggagcta gcgtgaccag cggggcaacg tcagccgaga ctaactctta cttcgcaaag
5400
agtatggagt ttctggcgcg accggtgcct gcgcctcgaa cagtattcag gaaccctcca
5460
catcccgctc cgcgcacaag aacaccgtca cttgcaccca gcagggcctg ctcgagaacc
5520
agcctagttt ccaccccgcc aggcgtgaat agggtgatca ctagagagga gctcgaggcg
5580
cttaccccgt cacgcactcc tagcaggtcg gtctcgagaa ccagcctggt ctccaacccg
5640
ccaggcgtaa atagggtgat tacaagagag gagtttgagg cgttcgtagc acaacaacaa
5700
tgacggtttg atgcgggtgc atacatcttt tcctccgaca ccggtcaagg gcatttacaa
5760
caaaaatcag taaggcaaac ggtgctatcc gaagtggtgt tggagaggac cgaattggag
5820
atttcgtatg ccccgcgcct cgaccaagaa aaagaagaat tactacgcaa gaaattacag
5880
ttaaatccca cacctgctaa cagaagcaga taccagtcca ggaaggtgga gaacatgaaa
5940
gccataacag ctagacgtat tctgcaaggc ctagggcatt atttgaaggc agaaggaaaa
6000
gtggagtgct accgaaccct gcatcctgtt cctttgtatt catctagtgt gaaccgtgcc
6060
ttttcaagcc ccaaggtcgc agtggaagcc tgtaacgcca tgttgaaaga gaactttccg
6120
actgtggctt cttactgtat tattccagag tacgatgcct atttggacat ggttgacgga
6180
gcttcatgct gcttagacac tgccagtttt tgccctgcaa agctgcgcag ctttccaaag
6240
aaacactcct atttggaacc cacaatacga tcggcagtgc cttcagcgat ccagaacacg
6300
ctccagaacg tcctggcagc tgccacaaaa agaaattgca atgtcacgca aatgagagaa
6360
ttgcccgtat tggattcggc ggcctttaat gtggaatgct tcaagaaata tgcgtgtaat
6420
aatgaatatt gggaaacgtt taaagaaaac cccatcaggc ttactgaaga aaacgtggta
6480
aattacatta ccaaattaaa aggaccaaaa gctgctgctc tttttgcgaa gacacataat
6540
ttgaatatgt tgcaggacat accaatggac aggtttgtaa tggacttaaa gagagacgtg
6600
aaagtgactc caggaacaaa acatactgaa gaacggccca aggtacaggt gatccaggct
6660
gccgatccgc tagcaacagc gtatctgtgc ggaatccacc gagagctggt taggagatta
6720
aatgcggtcc tgcttccgaa cattcataca ctgtttgata tgtcggctga agactttgac
6780
gctattatag ccgagcactt ccagcctggg gattgtgttc tggaaactga catcgcgtcg
6840
tttgataaaa gtgaggacga cgccatggct ctgaccgcgt taatgattct ggaagactta
6900
ggtgtggacg cagagctgtt gacgctgatt gaggcggctt tcggcgaaat ttcatcaata
6960
catttgccca ctaaaactaa atttaaattc ggagccatga tgaaatctgg aatgttcctc
7020
acactgtttg tgaacacagt cattaacatt gtaatcgcaa gcagagtgtt gagagaacgg
7080
ctaaccggat caccatgtgc agcattcatt ggagatgaca atatcgtgaa aggagtcaaa
7140
tcggacaaat taatggcaga caggtgcgcc acctggttga atatggaagt caagattata
7200
gatgctgtgg tgggcgagaa agcgccttat ttctgtggag ggtttatttt gtgtgactcc
7260
gtgaccggca cagcgtgccg tgtggcagac cccctaaaaa ggctgtttaa gcttggcaaa
7320
cctctggcag cagacgatga acatgatgat gacaggagaa gggcattgca tgaagagtca
7380
acacgctgga accgagtggg tattctttca gagctgtgca aggcagtaga atcaaggtat
7440
gaaaccgtag gaacttccat catagttatg gccatgacta ctctagctag cagtgttaaa
7500
tcattcagct acctgagagg ggcccctata actctctacg gctaacctga atggactacg
7560
acgtatcacg cccaaacatt tacagccgcg gtgtcaaaaa ccgcgtggac gtggttaaca
7620
tccctgctgg gaggatcagc cgtaattatt ataattggct tggtgctggc tactattgtg
7680
gccatgtacg tgctgaccaa ccagaaacat aattgaatac agcagcaatt ggcaagctgc
7740
ttacatagaa ctcgcggcga ttggcatgcc gccttaaaat ttttatttta tttttctttt
7800
cttttccgaa tcggattttg tttttaatat ttcaaaaaaa aaaaaaaaaa aaaaaaaaaa
7860
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaatacgtag
7920
tttaaac
7927
<210> 10
<211> 36519
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 10
ccatcttcaa taatatacct caaacttttt gtgcgcgtta atatgcaaat gaggcgtttg
60
aatttgggga ggaagggcgg tgattggtcg agggatgagc gaccgttagg ggcggggcga
120
gtgacgtttt gatgacgtgg ttgcgaggag gagccagttt gcaagttctc gtgggaaaag
180
tgacgtcaaa cgaggtgtgg tttgaacacg gaaatactca attttcccgc gctctctgac
240
aggaaatgag gtgtttctgg gcggatgcaa gtgaaaacgg gccattttcg cgcgaaaact
300
gaatgaggaa gtgaaaatct gagtaatttc gcgtttatgg cagggaggag tatttgccga
360
gggccgagta gactttgacc gattacgtgg gggtttcgat taccgtgttt ttcacctaaa
420
tttccgcgta cggtgtcaaa gtccggtgtt tttacgtagg tgtcagctga tcgccagggt
480
atttaaacct gcgctctcca gtcaagaggc cactcttgag tgccagcgag aagagttttc
540
tcctccgcgc cgcgagtcag atctacactt tgaaagatga ggcacctgag agacctgccc
600
gatgagaaaa tcatcatcgc ttccgggaac gagattctgg aactggtggt aaatgccatg
660
atgggcgacg accctccgga gccccccacc ccatttgaga caccttcgct gcacgatttg
720
tatgatctgg aggtggatgt gcccgaggac gatcccaatg aggaggcggt aaatgatttt
780
tttagcgatg ccgcgctgct agctgccgag gaggcttcga gctctagctc agacagcgac
840
tcttcactgc atacccctag acccggcaga ggtgagaaaa agatccccga gcttaaaggg
900
gaagagatgg acttgcgctg ctatgaggaa tgcttgcccc cgagcgatga tgaggacgag
960
caggcgatcc agaacgcagc gagccaggga gtgcaagccg ccagcgagag ctttgcgctg
1020
gactgcccgc ctctgcccgg acacggctgt aagtcttgtg aatttcatcg catgaatact
1080
ggagataaag ctgtgttgtg tgcactttgc tatatgagag cttacaacca ttgtgtttac
1140
agtaagtgtg attaagttga actttagagg gaggcagaga gcagggtgac tgggcgatga
1200
ctggtttatt tatgtatata tgttctttat ataggtcccg tctctgacgc agatgatgag
1260
acccccacta caaagtccac ttcgtcaccc ccagaaattg gcacatctcc acctgagaat
1320
attgttagac cagttcctgt tagagccact gggaggagag cagctgtgga atgtttggat
1380
gacttgctac agggtggggt tgaacctttg gacttgtgta cccggaaacg ccccaggcac
1440
taagtgccac acatgtgtgt ttacttgagg tgatgtcagt atttataggg tgtggagtgc
1500
aataaaaaat gtgttgactt taagtgcgtg gtttatgact caggggtggg gactgtgagt
1560
atataagcag gtgcagacct gtgtggttag ctcagagcgg catggagatt tggacggtct
1620
tggaagactt tcacaagact agacagctgc tagagaacgc ctcgaacgga gtctcttacc
1680
tgtggagatt ctgcttcggt ggcgacctag ctaggctagt ctacagggcc aaacaggatt
1740
atagtgaaca atttgaggtt attttgagag agtgttctgg tctttttgac gctcttaact
1800
tgggccatca gtctcacttt aaccagagga tttcgagagc ccttgatttt actactcctg
1860
gcagaaccac tgcagcagta gccttttttg cttttattct tgacaaatgg agtcaagaaa
1920
cccatttcag cagggattac cagctggatt tcttagcagt agctttgtgg agaacatgga
1980
agtgccagcg cctgaatgca atctccggct acttgccggt acagccgcta gacactctga
2040
ggatcctgaa tctccaggag agtcccaggg cacgccaacg tcgccagcag cagcagcagg
2100
aggaggatca agaagagaac ccgagagccg gcctggaccc tccggcggag gaggaggagt
2160
agctgacctg tttcctgaac tgcgccgggt gctgactagg tcttcgagtg gtcgggagag
2220
ggggattaag cgggagaggc atgatgagac taatcacaga actgaactga ctgtgggtct
2280
gatgagtcgc aagcgcccag aaacagtgtg gtggcatgag gtgcagtcga ctggcacaga
2340
tgaggtgtcg gtgatgcatg agaggttttc tctagaacaa gtcaagactt gttggttaga
2400
gcctgaggat gattgggagg tagccatcag gaattatgcc aagctggctc tgaggccaga
2460
caagaagtac aagattacta agctgataaa tatcagaaat gcctgctaca tctcagggaa
2520
tggggctgaa gtggagatct gtctccagga aagggtggct ttcagatgct gcatgatgaa
2580
tatgtacccg ggagtggtgg gcatggatgg ggttaccttt atgaacatga ggttcagggg
2640
agatgggtat aatggcacgg tctttatggc caataccaag ctgacagtcc atggctgctc
2700
cttctttggg tttaataaca cctgcatcga ggcctggggt caggtcggtg tgaggggctg
2760
cagtttttca gccaactgga tgggggtcgt gggcaggacc aagagtatgc tgtccgtgaa
2820
gaaatgcttg tttgagaggt gccacctggg ggtgatgagc gagggcgaag ccagaatccg
2880
ccactgcgcc tctaccgaga cgggctgctt tgtgctgtgc aagggcaatg ctaagatcaa
2940
gcataatatg atctgtggag cctcggacga gcgcggctac cagatgctga cctgcgccgg
3000
cgggaacagc catatgctgg ccaccgtaca tgtggcttcc catgctcgca agccctggcc
3060
cgagttcgag cacaatgtca tgaccaggtg caatatgcat ctggggtccc gccgaggcat
3120
gttcatgccc taccagtgca acctgaatta tgtgaaggtg ctgctggagc ccgatgccat
3180
gtccagagtg agcctgacgg gggtgtttga catgaatgtg gaggtgtgga agattctgag
3240
atatgatgaa tccaagacca ggtgccgagc ctgcgagtgc ggagggaagc atgccaggtt
3300
ccagcccgtg tgtgtggatg tgacggagga cctgcgaccc gatcatttgg tgttgccctg
3360
caccgggacg gagttcggtt ccagcgggga agaatctgac tagagtgagt agtgttctgg
3420
ggcgggggag gacctgcatg agggccagaa taactgaaat ctgtgctttt ctgtgtgttg
3480
cagcagcatg agcggaagcg gctcctttga gggaggggta ttcagccctt atctgacggg
3540
gcgtctcccc tcctgggcgg gagtgcgtca gaatgtgatg ggatccacgg tggacggccg
3600
gcccgtgcag cccgcgaact cttcaaccct gacctatgca accctgagct cttcgtcgtt
3660
ggacgcagct gccgccgcag ctgctgcatc tgccgccagc gccgtgcgcg gaatggccat
3720
gggcgccggc tactacggca ctctggtggc caactcgagt tccaccaata atcccgccag
3780
cctgaacgag gagaagctgt tgctgctgat ggcccagctc gaggccttga cccagcgcct
3840
gggcgagctg acccagcagg tggctcagct gcaggagcag acgcgggccg cggttgccac
3900
ggtgaaatcc aaataaaaaa tgaatcaata aataaacgga gacggttgtt gattttaaca
3960
cagagtctga atctttattt gatttttcgc gcgcggtagg ccctggacca ccggtctcga
4020
tcattgagca cccggtggat cttttccagg acccggtaga ggtgggcttg gatgttgagg
4080
tacatgggca tgagcccgtc ccgggggtgg aggtagctcc attgcagggc ctcgtgctcg
4140
ggggtggtgt tgtaaatcac ccagtcatag caggggcgca gggcatggtg ttgcacaata
4200
tctttgagga ggagactgat ggccacgggc agccctttgg tgtaggtgtt tacaaatctg
4260
ttgagctggg agggatgcat gcggggggag atgaggtgca tcttggcctg gatcttgaga
4320
ttggcgatgt taccgcccag atcccgcctg gggttcatgt tgtgcaggac caccagcacg
4380
gtgtatccgg tgcacttggg gaatttatca tgcaacttgg aagggaaggc gtgaaagaat
4440
ttggcgacgc ctttgtgccc gcccaggttt tccatgcact catccatgat gatggcgatg
4500
ggcccgtggg cggcggcctg ggcaaagacg tttcgggggt cggacacatc atagttgtgg
4560
tcctgggtga ggtcatcata ggccatttta atgaatttgg ggcggagggt gccggactgg
4620
gggacaaagg taccctcgat cccgggggcg tagttcccct cacagatctg catctcccag
4680
gctttgagct cggagggggg gatcatgtcc acctgcgggg cgataaagaa cacggtttcc
4740
ggggcggggg agatgagctg ggccgaaagc aagttccgga gcagctggga cttgccgcag
4800
ccggtggggc cgtagatgac cccgatgacc ggctgcaggt ggtagttgag ggagagacag
4860
ctgccgtcct cccggaggag gggggccacc tcgttcatca tctcgcgcac gtgcatgttc
4920
tcgcgcacca gttccgccag gaggcgctct ccccccaggg ataggagctc ctggagcgag
4980
gcgaagtttt tcagcggctt gagtccgtcg gccatgggca ttttggagag ggtttgttgc
5040
aagagttcca ggcggtccca gagctcggtg atgtgctcta cggcatctcg atccagcaga
5100
cctcctcgtt tcgcgggttg ggacggctgc gggagtaggg caccagacga tgggcgtcca
5160
gcgcagccag ggtccggtcc ttccagggtc gcagcgtccg cgtcagggtg gtctccgtca
5220
cggtgaaggg gtgcgcgccg ggctgggcgc ttgcgagggt gcgcttcagg ctcatccggc
5280
tggtcgaaaa ccgctcccga tcggcgccct gcgcgtcggc caggtagcaa ttgaccatga
5340
gttcgtagtt gagcgcctcg gccgcgtggc ctttggcgcg gagcttacct ttggaagtct
5400
gcccgcaggc gggacagagg agggacttga gggcgtagag cttgggggcg aggaagacgg
5460
actcgggggc gtaggcgtcc gcgccgcagt gggcgcagac ggtctcgcac tccacgagcc
5520
aggtgaggtc gggctggtcg gggtcaaaaa ccagtttccc gccgttcttt ttgatgcgtt
5580
tcttaccttt ggtctccatg agctcgtgtc cccgctgggt gacaaagagg ctgtccgtgt
5640
ccccgtagac cgactttatg ggccggtcct cgagcggtgt gccgcggtcc tcctcgtaga
5700
ggaaccccgc ccactccgag acgaaagccc gggtccaggc cagcacgaag gaggccacgt
5760
gggacgggta gcggtcgttg tccaccagcg ggtccacctt ttccagggta tgcaaacaca
5820
tgtccccctc gtccacatcc aggaaggtga ttggcttgta agtgtaggcc acgtgaccgg
5880
gggtcccggc cgggggggta taaaagggtg cgggtccctg ctcgtcctca ctgtcttccg
5940
gatcgctgtc caggagcgcc agctgttggg gtaggtattc cctctcgaag gcgggcatga
6000
cctcggcact caggttgtca gtttctagaa acgaggagga tttgatattg acggtgccgg
6060
cggagatgcc tttcaagagc ccctcgtcca tctggtcaga aaagacgatc tttttgttgt
6120
cgagcttggt ggcgaaggag ccgtagaggg cgttggagag gagcttggcg atggagcgca
6180
tggtctggtt tttttccttg tcggcgcgct ccttggcggc gatgttgagc tgcacgtact
6240
cgcgcgccac gcacttccat tcggggaaga cggtggtcag ctcgtcgggc acgattctga
6300
cctgccagcc ccgattatgc agggtgatga ggtccacact ggtggccacc tcgccgcgca
6360
ggggctcatt agtccagcag aggcgtccgc ccttgcgcga gcagaagggg ggcagggggt
6420
ccagcatgac ctcgtcgggg gggtcggcat cgatggtgaa gatgccgggc aggaggtcgg
6480
ggtcaaagta gctgatggaa gtggccagat cgtccagggc agcttgccat tcgcgcacgg
6540
ccagcgcgcg ctcgtaggga ctgaggggcg tgccccaggg catgggatgg gtaagcgcgg
6600
aggcgtacat gccgcagatg tcgtagacgt agaggggctc ctcgaggatg ccgatgtagg
6660
tggggtagca gcgccccccg cggatgctgg cgcgcacgta gtcatacagc tcgtgcgagg
6720
gggcgaggag ccccgggccc aggttggtgc gactgggctt ttcggcgcgg tagacgatct
6780
ggcggaaaat ggcatgcgag ttggaggaga tggtgggcct ttggaagatg ttgaagtggg
6840
cgtggggcag tccgaccgag tcgcggatga agtgggcgta ggagtcttgc agcttggcga
6900
cgagctcggc ggtgactagg acgtccagag cgcagtagtc gagggtctcc tggatgatgt
6960
catacttgag ctgtcccttt tgtttccaca gctcgcggtt gagaaggaac tcttcgcggt
7020
ccttccagta ctcttcgagg gggaacccgt cctgatctgc acggtaagag cctagcatgt
7080
agaactggtt gacggccttg taggcgcagc agcccttctc cacggggagg gcgtaggcct
7140
gggcggcctt gcgcagggag gtgtgcgtga gggcgaaagt gtccctgacc atgaccttga
7200
ggaactggtg cttgaagtcg atatcgtcgc agcccccctg ctcccagagc tggaagtccg
7260
tgcgcttctt gtaggcgggg ttgggcaaag cgaaagtaac atcgttgaag aggatcttgc
7320
ccgcgcgggg cataaagttg cgagtgatgc ggaaaggttg gggcacctcg gcccggttgt
7380
tgatgacctg ggcggcgagc acgatctcgt cgaagccgtt gatgttgtgg cccacgatgt
7440
agagttccac gaatcgcgga cggcccttga cgtggggcag tttcttgagc tcctcgtagg
7500
tgagctcgtc ggggtcgctg agcccgtgct gctcgagcgc ccagtcggcg agatgggggt
7560
tggcgcggag gaaggaagtc cagagatcca cggccagggc ggtttgcaga cggtcccggt
7620
actgacggaa ctgctgcccg acggccattt tttcgggggt gacgcagtag aaggtgcggg
7680
ggtccccgtg ccagcgatcc catttgagct ggagggcgag atcgagggcg agctcgacga
7740
gccggtcgtc cccggagagt ttcatgacca gcatgaaggg gacgagctgc ttgccgaagg
7800
accccatcca ggtgtaggtt tccacatcgt aggtgaggaa gagcctttcg gtgcgaggat
7860
gcgagccgat ggggaagaac tggatctcct gccaccaatt ggaggaatgg ctgttgatgt
7920
gatggaagta gaaatgccga cggcgcgccg aacactcgtg cttgtgttta tacaagcggc
7980
cacagtgctc gcaacgctgc acgggatgca cgtgctgcac gagctgtacc tgagttcctt
8040
tgacgaggaa tttcagtggg aagtggagtc gtggcgcctg catctcgtgc tgtactacgt
8100
cgtggtggtc ggcctggccc tcttctgcct cgatggtggt catgctgacg agcccgcgcg
8160
ggaggcaggt ccagacctcg gcgcgagcgg gtcggagagc gaggacgagg gcgcgcaggc
8220
cggagctgtc cagggtcctg agacgctgcg gagtcaggtc agtgggcagc ggcggcgcgc
8280
ggttgacttg caggagtttt tccagggcgc gcgggaggtc cagatggtac ttgatctcca
8340
ccgcgccatt ggtggcgacg tcgatggctt gcagggtccc gtgcccctgg ggtgtgacca
8400
ccgtcccccg tttcttcttg ggcggctggg gcgacggggg cggtgcctct tccatggtta
8460
gaagcggcgg cgaggacgcg cgccgggcgg caggggcggc tcggggcccg gaggcagggg
8520
cggcaggggc acgtcggcgc cgcgcgcggg taggttctgg tactgcgccc ggagaagact
8580
ggcgtgagcg acgacgcgac ggttgacgtc ctggatctga cgcctctggg tgaaggccac
8640
gggacccgtg agtttgaacc tgaaagagag ttcgacagaa tcaatctcgg tatcgttgac
8700
ggcggcctgc cgcaggatct cttgcacgtc gcccgagttg tcctggtagg cgatctcggt
8760
catgaactgc tcgatctcct cctcttgaag gtctccgcgg ccggcgcgct ccacggtggc
8820
cgcgaggtcg ttggagatgc ggcccatgag ctgcgagaag gcgttcatgc ccgcctcgtt
8880
ccagacgcgg ctgtagacca cgacgccctc gggatcgcgg gcgcgcatga ccacctgggc
8940
gaggttgagc tccacgtggc gcgtgaagac cgcgtagttg cagaggcgct ggtagaggta
9000
gttgagcgtg gtggcgatgt gctcggtgac gaagaaatac atgatccagc ggcggagcgg
9060
catctcgctg acgtcgccca gcgcctccaa acgttccatg gcctcgtaaa agtccacggc
9120
gaagttgaaa aactgggagt tgcgcgccga gacggtcaac tcctcctcca gaagacggat
9180
gagctcggcg atggtggcgc gcacctcgcg ctcgaaggcc cccgggagtt cctccacttc
9240
ctcttcttcc tcctccacta acatctcttc tacttcctcc tcaggcggca gtggtggcgg
9300
gggagggggc ctgcgtcgcc ggcggcgcac gggcagacgg tcgatgaagc gctcgatggt
9360
ctcgccgcgc cggcgtcgca tggtctcggt gacggcgcgc ccgtcctcgc ggggccgcag
9420
cgtgaagacg ccgccgcgca tctccaggtg gccggggggg tccccgttgg gcagggagag
9480
ggcgctgacg atgcatctta tcaattgccc cgtagggact ccgcgcaagg acctgagcgt
9540
ctcgagatcc acgggatctg aaaaccgctg aacgaaggct tcgagccagt cgcagtcgca
9600
aggtaggctg agcacggttt cttctggcgg gtcatgttgg ttgggagcgg ggcgggcgat
9660
gctgctggtg atgaagttga aataggcggt tctgagacgg cggatggtgg cgaggagcac
9720
caggtctttg ggcccggctt gctggatgcg cagacggtcg gccatgcccc aggcgtggtc
9780
ctgacacctg gccaggtcct tgtagtagtc ctgcatgagc cgctccacgg gcacctcctc
9840
ctcgcccgcg cggccgtgca tgcgcgtgag cccgaagccg cgctggggct ggacgagcgc
9900
caggtcggcg acgacgcgct cggcgaggat ggcttgctgg atctgggtga gggtggtctg
9960
gaagtcatca aagtcgacga agcggtggta ggctccggtg ttgatggtgt aggagcagtt
10020
ggccatgacg gaccagttga cggtctggtg gcccggacgc acgagctcgt ggtacttgag
10080
gcgcgagtag gcgcgcgtgt cgaagatgta gtcgttgcag gtgcgcacca ggtactggta
10140
gccgatgagg aagtgcggcg gcggctggcg gtagagcggc catcgctcgg tggcgggggc
10200
gccgggcgcg aggtcctcga gcatggtgcg gtggtagccg tagatgtacc tggacatcca
10260
ggtgatgccg gcggcggtgg tggaggcgcg cgggaactcg cggacgcggt tccagatgtt
10320
gcgcagcggc aggaagtagt tcatggtggg cacggtctgg cccgtgaggc gcgcgcagtc
10380
gtggatgctc tatacgggca aaaacgaaag cggtcagcgg ctcgactccg tggcctggag
10440
gctaagcgaa cgggttgggc tgcgcgtgta ccccggttcg aatctcgaat caggctggag
10500
ccgcagctaa cgtggtattg gcactcccgt ctcgacccaa gcctgcacca accctccagg
10560
atacggaggc gggtcgtttt gcaacttttt tttggaggcc ggatgagact agtaagcgcg
10620
gaaagcggcc gaccgcgatg gctcgctgcc gtagtctgga gaagaatcgc cagggttgcg
10680
ttgcggtgtg ccccggttcg aggccggccg gattccgcgg ctaacgaggg cgtggctgcc
10740
ccgtcgtttc caagacccca tagccagccg acttctccag ttacggagcg agcccctctt
10800
ttgttttgtt tgtttttgcc agatgcatcc cgtactgcgg cagatgcgcc cccaccaccc
10860
tccaccgcaa caacagcccc ctccacagcc ggcgcttctg cccccgcccc agcagcaact
10920
tccagccacg accgccgcgg ccgccgtgag cggggctgga cagagttatg atcaccagct
10980
ggccttggaa gagggcgagg ggctggcgcg cctgggggcg tcgtcgccgg agcggcaccc
11040
gcgcgtgcag atgaaaaggg acgctcgcga ggcctacgtg cccaagcaga acctgttcag
11100
agacaggagc ggcgaggagc ccgaggagat gcgcgcggcc cggttccacg cggggcggga
11160
gctgcggcgc ggcctggacc gaaagagggt gctgagggac gaggatttcg aggcggacga
11220
gctgacgggg atcagccccg cgcgcgcgca cgtggccgcg gccaacctgg tcacggcgta
11280
cgagcagacc gtgaaggagg agagcaactt ccaaaaatcc ttcaacaacc acgtgcgcac
11340
cctgatcgcg cgcgaggagg tgaccctggg cctgatgcac ctgtgggacc tgctggaggc
11400
catcgtgcag aaccccacca gcaagccgct gacggcgcag ctgttcctgg tggtgcagca
11460
tagtcgggac aacgaagcgt tcagggaggc gctgctgaat atcaccgagc ccgagggccg
11520
ctggctcctg gacctggtga acattctgca gagcatcgtg gtgcaggagc gcgggctgcc
11580
gctgtccgag aagctggcgg ccatcaactt ctcggtgctg agtttgggca agtactacgc
11640
taggaagatc tacaagaccc cgtacgtgcc catagacaag gaggtgaaga tcgacgggtt
11700
ttacatgcgc atgaccctga aagtgctgac cctgagcgac gatctggggg tgtaccgcaa
11760
cgacaggatg caccgtgcgg tgagcgccag caggcggcgc gagctgagcg accaggagct
11820
gatgcatagt ctgcagcggg ccctgaccgg ggccgggacc gagggggaga gctactttga
11880
catgggcgcg gacctgcact ggcagcccag ccgccgggcc ttggaggcgg cggcaggacc
11940
ctacgtagaa gaggtggacg atgaggtgga cgaggagggc gagtacctgg aagactgatg
12000
gcgcgaccgt atttttgcta gatgcaacaa caacagccac ctcctgatcc cgcgatgcgg
12060
gcggcgctgc agagccagcc gtccggcatt aactcctcgg acgattggac ccaggccatg
12120
caacgcatca tggcgctgac gacccgcaac cccgaagcct ttagacagca gccccaggcc
12180
aaccggctct cggccatcct ggaggccgtg gtgccctcgc gctccaaccc cacgcacgag
12240
aaggtcctgg ccatcgtgaa cgcgctggtg gagaacaagg ccatccgcgg cgacgaggcc
12300
ggcctggtgt acaacgcgct gctggagcgc gtggcccgct acaacagcac caacgtgcag
12360
accaacctgg accgcatggt gaccgacgtg cgcgaggccg tggcccagcg cgagcggttc
12420
caccgcgagt ccaacctggg atccatggtg gcgctgaacg ccttcctcag cacccagccc
12480
gccaacgtgc cccggggcca ggaggactac accaacttca tcagcgccct gcgcctgatg
12540
gtgaccgagg tgccccagag cgaggtgtac cagtccgggc cggactactt cttccagacc
12600
agtcgccagg gcttgcagac cgtgaacctg agccaggctt tcaagaactt gcagggcctg
12660
tggggcgtgc aggccccggt cggggaccgc gcgacggtgt cgagcctgct gacgccgaac
12720
tcgcgcctgc tgctgctgct ggtggccccc ttcacggaca gcggcagcat caaccgcaac
12780
tcgtacctgg gctacctgat taacctgtac cgcgaggcca tcggccaggc gcacgtggac
12840
gagcagacct accaggagat cacccacgtg agccgcgccc tgggccagga cgacccgggc
12900
aacctggaag ccaccctgaa ctttttgctg accaaccggt cgcagaagat cccgccccag
12960
tacgcgctca gcaccgagga ggagcgcatc ctgcgttacg tgcagcagag cgtgggcctg
13020
ttcctgatgc aggagggggc cacccccagc gccgcgctcg acatgaccgc gcgcaacatg
13080
gagcccagca tgtacgccag caaccgcccg ttcatcaata aactgatgga ctacttgcat
13140
cgggcggccg ccatgaactc tgactatttc accaacgcca tcctgaatcc ccactggctc
13200
ccgccgccgg ggttctacac gggcgagtac gacatgcccg accccaatga cgggttcctg
13260
tgggacgatg tggacagcag cgtgttctcc ccccgaccgg gtgctaacga gcgccccttg
13320
tggaagaagg aaggcagcga ccgacgcccg tcctcggcgc tgtccggccg cgagggtgct
13380
gccgcggcgg tgcccgaggc cgccagtcct ttcccgagct tgcccttctc gctgaacagt
13440
atccgcagca gcgagctggg caggatcacg cgcccgcgct tgctgggcga agaggagtac
13500
ttgaatgact cgctgttgag acccgagcgg gagaagaact tccccaataa cgggatagaa
13560
agcctggtgg acaagatgag ccgctggaag acgtatgcgc aggagcacag ggacgatccc
13620
cgggcgtcgc agggggccac gagccggggc agcgccgccc gtaaacgccg gtggcacgac
13680
aggcagcggg gacagatgtg ggacgatgag gactccgccg acgacagcag cgtgttggac
13740
ttgggtggga gtggtaaccc gttcgctcac ctgcgccccc gtatcgggcg catgatgtaa
13800
gagaaaccga aaataaatga tactcaccaa ggccatggcg accagcgtgc gttcgtttct
13860
tctctgttgt tgttgtatct agtatgatga ggcgtgcgta cccggagggt cctcctccct
13920
cgtacgagag cgtgatgcag caggcgatgg cggcggcggc gatgcagccc ccgctggagg
13980
ctccttacgt gcccccgcgg tacctggcgc ctacggaggg gcggaacagc attcgttact
14040
cggagctggc acccttgtac gataccaccc ggttgtacct ggtggacaac aagtcggcgg
14100
acatcgcctc gctgaactac cagaacgacc acagcaactt cctgaccacc gtggtgcaga
14160
acaatgactt cacccccacg gaggccagca cccagaccat caactttgac gagcgctcgc
14220
ggtggggcgg ccagctgaaa accatcatgc acaccaacat gcccaacgtg aacgagttca
14280
tgtacagcaa caagttcaag gcgcgggtga tggtctcccg caagaccccc aatggggtga
14340
cagtgacaga ggattatgat ggtagtcagg atgagctgaa gtatgaatgg gtggaatttg
14400
agctgcccga aggcaacttc tcggtgacca tgaccatcga cctgatgaac aacgccatca
14460
tcgacaatta cttggcggtg gggcggcaga acggggtgct ggagagcgac atcggcgtga
14520
agttcgacac taggaacttc aggctgggct gggaccccgt gaccgagctg gtcatgcccg
14580
gggtgtacac caacgaggct ttccatcccg atattgtctt gctgcccggc tgcggggtgg
14640
acttcaccga gagccgcctc agcaacctgc tgggcattcg caagaggcag cccttccagg
14700
aaggcttcca gatcatgtac gaggatctgg aggggggcaa catccccgcg ctcctggatg
14760
tcgacgccta tgagaaaagc aaggaggatg cagcagctga agcaactgca gccgtagcta
14820
ccgcctctac cgaggtcagg ggcgataatt ttgcaagcgc cgcagcagtg gcagcggccg
14880
aggcggctga aaccgaaagt aagatagtca ttcagccggt ggagaaggat agcaagaaca
14940
ggagctacaa cgtactaccg gacaagataa acaccgccta ccgcagctgg tacctagcct
15000
acaactatgg cgaccccgag aagggcgtgc gctcctggac gctgctcacc acctcggacg
15060
tcacctgcgg cgtggagcaa gtctactggt cgctgcccga catgatgcaa gacccggtca
15120
ccttccgctc cacgcgtcaa gttagcaact acccggtggt gggcgccgag ctcctgcccg
15180
tctactccaa gagcttcttc aacgagcagg ccgtctactc gcagcagctg cgcgccttca
15240
cctcgcttac gcacgtcttc aaccgcttcc ccgagaacca gatcctcgtc cgcccgcccg
15300
cgcccaccat taccaccgtc agtgaaaacg ttcctgctct cacagatcac gggaccctgc
15360
cgctgcgcag cagtatccgg ggagtccagc gcgtgaccgt tactgacgcc agacgccgca
15420
cctgccccta cgtctacaag gccctgggca tagtcgcgcc gcgcgtcctc tcgagccgca
15480
ccttctaaat gtccattctc atctcgccca gtaataacac cggttggggc ctgcgcgcgc
15540
ccagcaagat gtacggaggc gctcgccaac gctccacgca acaccccgtg cgcgtgcgcg
15600
ggcacttccg cgctccctgg ggcgccctca agggccgcgt gcggtcgcgc accaccgtcg
15660
acgacgtgat cgaccaggtg gtggccgacg cgcgcaacta cacccccgcc gccgcgcccg
15720
tctccaccgt ggacgccgtc atcgacagcg tggtggccga cgcgcgccgg tacgcccgcg
15780
ccaagagccg gcggcggcgc atcgcccggc ggcaccggag cacccccgcc atgcgcgcgg
15840
cgcgagcctt gctgcgcagg gccaggcgca cgggacgcag ggccatgctc agggcggcca
15900
gacgcgcggc ttcaggcgcc agcgccggca ggacccggag acgcgcggcc acggcggcgg
15960
cagcggccat cgccagcatg tcccgcccgc ggcgagggaa cgtgtactgg gtgcgcgacg
16020
ccgccaccgg tgtgcgcgtg cccgtgcgca cccgcccccc tcgcacttga agatgttcac
16080
ttcgcgatgt tgatgtgtcc cagcggcgag gaggatgtcc aagcgcaaat tcaaggaaga
16140
gatgctccag gtcatcgcgc ctgagatcta cggccctgcg gtggtgaagg aggaaagaaa
16200
gccccgcaaa atcaagcggg tcaaaaagga caaaaaggaa gaagaaagtg atgtggacgg
16260
attggtggag tttgtgcgcg agttcgcccc ccggcggcgc gtgcagtggc gcgggcggaa
16320
ggtgcaaccg gtgctgagac ccggcaccac cgtggtcttc acgcccggcg agcgctccgg
16380
caccgcttcc aagcgctcct acgacgaggt gtacggggat gatgatattc tggagcaggc
16440
ggccgagcgc ctgggcgagt ttgcttacgg caagcgcagc cgttccgcac cgaaggaaga
16500
ggcggtgtcc atcccgctgg accacggcaa ccccacgccg agcctcaagc ccgtgacctt
16560
gcagcaggtg ctgccgaccg cggcgccgcg ccgggggttc aagcgcgagg gcgaggatct
16620
gtaccccacc atgcagctga tggtgcccaa gcgccagaag ctggaagacg tgctggagac
16680
catgaaggtg gacccggacg tgcagcccga ggtcaaggtg cggcccatca agcaggtggc
16740
cccgggcctg ggcgtgcaga ccgtggacat caagattccc acggagccca tggaaacgca
16800
gaccgagccc atgatcaagc ccagcaccag caccatggag gtgcagacgg atccctggat
16860
gccatcggct cctagtcgaa gaccccggcg caagtacggc gcggccagcc tgctgatgcc
16920
caactacgcg ctgcatcctt ccatcatccc cacgccgggc taccgcggca cgcgcttcta
16980
ccgcggtcat accagcagcc gccgccgcaa gaccaccact cgccgccgcc gtcgccgcac
17040
cgccgctgca accacccctg ccgccctggt gcggagagtg taccgccgcg gccgcgcacc
17100
tctgaccctg ccgcgcgcgc gctaccaccc gagcatcgcc atttaaactt tcgcctgctt
17160
tgcagatcaa tggccctcac atgccgcctt cgcgttccca ttacgggcta ccgaggaaga
17220
aaaccgcgcc gtagaaggct ggcggggaac gggatgcgtc gccaccacca ccggcggcgg
17280
cgcgccatca gcaagcggtt ggggggaggc ttcctgcccg cgctgatccc catcatcgcc
17340
gcggcgatcg gggcgatccc cggcattgct tccgtggcgg tgcaggcctc tcagcgccac
17400
tgagacacac ttggaaacat cttgtaataa accaatggac tctgacgctc ctggtcctgt
17460
gatgtgtttt cgtagacaga tggaagacat caatttttcg tccctggctc cgcgacacgg
17520
cacgcggccg ttcatgggca cctggagcga catcggcacc agccaactga acgggggcgc
17580
cttcaattgg agcagtctct ggagcgggct taagaatttc gggtccacgc ttaaaaccta
17640
tggcagcaag gcgtggaaca gcaccacagg gcaggcgctg agggataagc tgaaagagca
17700
gaacttccag cagaaggtgg tcgatgggct cgcctcgggc atcaacgggg tggtggacct
17760
ggccaaccag gccgtgcagc ggcagatcaa cagccgcctg gacccggtgc cgcccgccgg
17820
ctccgtggag atgccgcagg tggaggagga gctgcctccc ctggacaagc ggggcgagaa
17880
gcgaccccgc cccgatgcgg aggagacgct gctgacgcac acggacgagc cgcccccgta
17940
cgaggaggcg gtgaaactgg gtctgcccac cacgcggccc atcgcgcccc tggccaccgg
18000
ggtgctgaaa cccgaaaagc ccgcgaccct ggacttgcct cctccccagc cttcccgccc
18060
ctctacagtg gctaagcccc tgccgccggt ggccgtggcc cgcgcgcgac ccgggggcac
18120
cgcccgccct catgcgaact ggcagagcac tctgaacagc atcgtgggtc tgggagtgca
18180
gagtgtgaag cgccgccgct gctattaaac ctaccgtagc gcttaacttg cttgtctgtg
18240
tgtgtatgta ttatgtcgcc gccgccgctg tccaccagaa ggaggagtga agaggcgcgt
18300
cgccgagttg caagatggcc accccatcga tgctgcccca gtgggcgtac atgcacatcg
18360
ccggacagga cgcttcggag tacctgagtc cgggtctggt gcagtttgcc cgcgccacag
18420
acacctactt cagtctgggg aacaagttta ggaaccccac ggtggcgccc acgcacgatg
18480
tgaccaccga ccgcagccag cggctgacgc tgcgcttcgt gcccgtggac cgcgaggaca
18540
acacctactc gtacaaagtg cgctacacgc tggccgtggg cgacaaccgc gtgctggaca
18600
tggccagcac ctactttgac atccgcggcg tgctggatcg gggccctagc ttcaaaccct
18660
actccggcac cgcctacaac agtctggccc ccaagggagc acccaacact tgtcagtgga
18720
catataaagc cgatggtgaa actgccacag aaaaaaccta tacatatgga aatgcacccg
18780
tgcagggcat taacatcaca aaagatggta ttcaacttgg aactgacacc gatgatcagc
18840
caatctacgc agataaaacc tatcagcctg aacctcaagt gggtgatgct gaatggcatg
18900
acatcactgg tactgatgaa aagtatggag gcagagctct taagcctgat accaaaatga
18960
agccttgtta tggttctttt gccaagccta ctaataaaga aggaggtcag gcaaatgtga
19020
aaacaggaac aggcactact aaagaatatg acatagacat ggctttcttt gacaacagaa
19080
gtgcggctgc tgctggccta gctccagaaa ttgttttgta tactgaaaat gtggatttgg
19140
aaactccaga tacccatatt gtatacaaag caggcacaga tgacagcagc tcttctatta
19200
atttgggtca gcaagccatg cccaacagac ctaactacat tggtttcaga gacaacttta
19260
tcgggctcat gtactacaac agcactggca atatgggggt gctggccggt caggcttctc
19320
agctgaatgc tgtggttgac ttgcaagaca gaaacaccga gctgtcctac cagctcttgc
19380
ttgactctct gggtgacaga acccggtatt tcagtatgtg gaatcaggcg gtggacagct
19440
atgatcctga tgtgcgcatt attgaaaatc atggtgtgga ggatgaactt cccaactatt
19500
gtttccctct ggatgctgtt ggcagaacag atacttatca gggaattaag gctaatggaa
19560
ctgatcaaac cacatggacc aaagatgaca gtgtcaatga tgctaatgag ataggcaagg
19620
gtaatccatt cgccatggaa atcaacatcc aagccaacct gtggaggaac ttcctctacg
19680
ccaacgtggc cctgtacctg cccgactctt acaagtacac gccggccaat gttaccctgc
19740
ccaccaacac caacacctac gattacatga acggccgggt ggtggcgccc tcgctggtgg
19800
actcctacat caacatcggg gcgcgctggt cgctggatcc catggacaac gtgaacccct
19860
tcaaccacca ccgcaatgcg gggctgcgct accgctccat gctcctgggc aacgggcgct
19920
acgtgccctt ccacatccag gtgccccaga aatttttcgc catcaagagc ctcctgctcc
19980
tgcccgggtc ctacacctac gagtggaact tccgcaagga cgtcaacatg atcctgcaga
20040
gctccctcgg caacgacctg cgcacggacg gggcctccat ctccttcacc agcatcaacc
20100
tctacgccac cttcttcccc atggcgcaca acacggcctc cacgctcgag gccatgctgc
20160
gcaacgacac caacgaccag tccttcaacg actacctctc ggcggccaac atgctctacc
20220
ccatcccggc caacgccacc aacgtgccca tctccatccc ctcgcgcaac tgggccgcct
20280
tccgcggctg gtccttcacg cgtctcaaga ccaaggagac gccctcgctg ggctccgggt
20340
tcgaccccta cttcgtctac tcgggctcca tcccctacct cgacggcacc ttctacctca
20400
accacacctt caagaaggtc tccatcacct tcgactcctc cgtcagctgg cccggcaacg
20460
accggctcct gacgcccaac gagttcgaaa tcaagcgcac cgtcgacggc gagggctaca
20520
acgtggccca gtgcaacatg accaaggact ggttcctggt ccagatgctg gcccactaca
20580
acatcggcta ccagggcttc tacgtgcccg agggctacaa ggaccgcatg tactccttct
20640
tccgcaactt ccagcccatg agccgccagg tggtggacga ggtcaactac aaggactacc
20700
aggccgtcac cctggcctac cagcacaaca actcgggctt cgtcggctac ctcgcgccca
20760
ccatgcgcca gggccagccc taccccgcca actaccccta cccgctcatc ggcaagagcg
20820
ccgtcaccag cgtcacccag aaaaagttcc tctgcgacag ggtcatgtgg cgcatcccct
20880
tctccagcaa cttcatgtcc atgggcgcgc tcaccgacct cggccagaac atgctctatg
20940
ccaactccgc ccacgcgcta gacatgaatt tcgaagtcga ccccatggat gagtccaccc
21000
ttctctatgt tgtcttcgaa gtcttcgacg tcgtccgagt gcaccagccc caccgcggcg
21060
tcatcgaggc cgtctacctg cgcaccccct tctcggccgg taacgccacc acctaagctc
21120
ttgcttcttg caagccatgg ccgcgggctc cggcgagcag gagctcaggg ccatcatccg
21180
cgacctgggc tgcgggccct acttcctggg caccttcgat aagcgcttcc cgggattcat
21240
ggccccgcac aagctggcct gcgccatcgt caacacggcc ggccgcgaga ccgggggcga
21300
gcactggctg gccttcgcct ggaacccgcg ctcgaacacc tgctacctct tcgacccctt
21360
cgggttctcg gacgagcgcc tcaagcagat ctaccagttc gagtacgagg gcctgctgcg
21420
ccgcagcgcc ctggccaccg aggaccgctg cgtcaccctg gaaaagtcca cccagaccgt
21480
gcagggtccg cgctcggccg cctgcgggct cttctgctgc atgttcctgc acgccttcgt
21540
gcactggccc gaccgcccca tggacaagaa ccccaccatg aacttgctga cgggggtgcc
21600
caacggcatg ctccagtcgc cccaggtgga acccaccctg cgccgcaacc aggaggcgct
21660
ctaccgcttc ctcaactccc actccgccta ctttcgctcc caccgcgcgc gcatcgagaa
21720
ggccaccgcc ttcgaccgca tgaatcaaga catgtaaacc gtgtgtgtat gttaaatgtc
21780
tttaataaac agcactttca tgttacacat gcatctgaga tgatttattt agaaatcgaa
21840
agggttctgc cgggtctcgg catggcccgc gggcagggac acgttgcgga actggtactt
21900
ggccagccac ttgaactcgg ggatcagcag tttgggcagc ggggtgtcgg ggaaggagtc
21960
ggtccacagc ttccgcgtca gttgcagggc gcccagcagg tcgggcgcgg agatcttgaa
22020
atcgcagttg ggacccgcgt tctgcgcgcg ggagttgcgg tacacggggt tgcagcactg
22080
gaacaccatc agggccgggt gcttcacgct cgccagcacc gtcgcgtcgg tgatgctctc
22140
cacgtcgagg tcctcggcgt tggccatccc gaagggggtc atcttgcagg tctgccttcc
22200
catggtgggc acgcacccgg gcttgtggtt gcaatcgcag tgcaggggga tcagcatcat
22260
ctgggcctgg tcggcgttca tccccgggta catggccttc atgaaagcct ccaattgcct
22320
gaacgcctgc tgggccttgg ctccctcggt gaagaagacc ccgcaggact tgctagagaa
22380
ctggttggtg gcgcacccgg cgtcgtgcac gcagcagcgc gcgtcgttgt tggccagctg
22440
caccacgctg cgcccccagc ggttctgggt gatcttggcc cggtcggggt tctccttcag
22500
cgcgcgctgc ccgttctcgc tcgccacatc catctcgatc atgtgctcct tctggatcat
22560
ggtggtcccg tgcaggcacc gcagcttgcc ctcggcctcg gtgcacccgt gcagccacag
22620
cgcgcacccg gtgcactccc agttcttgtg ggcgatctgg gaatgcgcgt gcacgaagcc
22680
ctgcaggaag cggcccatca tggtggtcag ggtcttgttg ctagtgaagg tcagcggaat
22740
gccgcggtgc tcctcgttga tgtacaggtg gcagatgcgg cggtacacct cgccctgctc
22800
gggcatcagc tggaagttgg ctttcaggtc ggtctccacg cggtagcggt ccatcagcat
22860
agtcatgatt tccataccct tctcccaggc cgagacgatg ggcaggctca tagggttctt
22920
caccatcatc ttagcgctag cagccgcggc cagggggtcg ctctcgtcca gggtctcaaa
22980
gctccgcttg ccgtccttct cggtgatccg caccgggggg tagctgaagc ccacggccgc
23040
cagctcctcc tcggcctgtc tttcgtcctc gctgtcctgg ctgacgtcct gcaggaccac
23100
atgcttggtc ttgcggggtt tcttcttggg cggcagcggc ggcggagatg ttggagatgg
23160
cgagggggag cgcgagttct cgctcaccac tactatctct tcctcttctt ggtccgaggc
23220
cacgcggcgg taggtatgtc tcttcggggg cagaggcgga ggcgacgggc tctcgccgcc
23280
gcgacttggc ggatggctgg cagagcccct tccgcgttcg ggggtgcgct cccggcggcg
23340
ctctgactga cttcctccgc ggccggccat tgtgttctcc tagggaggaa caacaagcat
23400
ggagactcag ccatcgccaa cctcgccatc tgcccccacc gccgacgaga agcagcagca
23460
gcagaatgaa agcttaaccg ccccgccgcc cagccccgcc acctccgacg cggccgtccc
23520
agacatgcaa gagatggagg aatccatcga gattgacctg ggctatgtga cgcccgcgga
23580
gcacgaggag gagctggcag tgcgcttttc acaagaagag atacaccaag aacagccaga
23640
gcaggaagca gagaatgagc agagtcaggc tgggctcgag catgacggcg actacctcca
23700
cctgagcggg ggggaggacg cgctcatcaa gcatctggcc cggcaggcca ccatcgtcaa
23760
ggatgcgctg ctcgaccgca ccgaggtgcc cctcagcgtg gaggagctca gccgcgccta
23820
cgagttgaac ctcttctcgc cgcgcgtgcc ccccaagcgc cagcccaatg gcacctgcga
23880
gcccaacccg cgcctcaact tctacccggt cttcgcggtg cccgaggccc tggccaccta
23940
ccacatcttt ttcaagaacc aaaagatccc cgtctcctgc cgcgccaacc gcacccgcgc
24000
cgacgccctt ttcaacctgg gtcccggcgc ccgcctacct gatatcgcct ccttggaaga
24060
ggttcccaag atcttcgagg gtctgggcag cgacgagact cgggccgcga acgctctgca
24120
aggagaagga ggagagcatg agcaccacag cgccctggtc gagttggaag gcgacaacgc
24180
gcggctggcg gtgctcaaac gcacggtcga gctgacccat ttcgcctacc cggctctgaa
24240
cctgcccccc aaagtcatga gcgcggtcat ggaccaggtg ctcatcaagc gcgcgtcgcc
24300
catctccgag gacgagggca tgcaagactc cgaggagggc aagcccgtgg tcagcgacga
24360
gcagctggcc cggtggctgg gtcctaatgc tagtccccag agtttggaag agcggcgcaa
24420
actcatgatg gccgtggtcc tggtgaccgt ggagctggag tgcctgcgcc gcttcttcgc
24480
cgacgcggag accctgcgca aggtcgagga gaacctgcac tacctcttca ggcacgggtt
24540
cgtgcgccag gcctgcaaga tctccaacgt ggagctgacc aacctggtct cctacatggg
24600
catcttgcac gagaaccgcc tggggcagaa cgtgctgcac accaccctgc gcggggaggc
24660
ccggcgcgac tacatccgcg actgcgtcta cctctacctc tgccacacct ggcagacggg
24720
catgggcgtg tggcagcagt gtctggagga gcagaacctg aaagagctct gcaagctcct
24780
gcagaagaac ctcaagggtc tgtggaccgg gttcgacgag cgcaccaccg cctcggacct
24840
ggccgacctc attttccccg agcgcctcag gctgacgctg cgcaacggcc tgcccgactt
24900
tatgagccaa agcatgttgc aaaactttcg ctctttcatc ctcgaacgct ccggaatcct
24960
gcccgccacc tgctccgcgc tgccctcgga cttcgtgccg ctgaccttcc gcgagtgccc
25020
cccgccgctg tggagccact gctacctgct gcgcctggcc aactacctgg cctaccactc
25080
ggacgtgatc gaggacgtca gcggcgaggg cctgctcgag tgccactgcc gctgcaacct
25140
ctgcacgccg caccgctccc tggcctgcaa cccccagctg ctgagcgaga cccagatcat
25200
cggcaccttc gagttgcaag ggcccagcga aggcgagggt tcagccgcca aggggggtct
25260
gaaactcacc ccggggctgt ggacctcggc ctacttgcgc aagttcgtgc ccgaggacta
25320
ccatcccttc gagatcaggt tctacgagga ccaatcccat ccgcccaagg ccgagctgtc
25380
ggcctgcgtc atcacccagg gggcgatcct ggcccaattg caagccatcc agaaatcccg
25440
ccaagaattc ttgctgaaaa agggccgcgg ggtctacctc gacccccaga ccggtgagga
25500
gctcaacccc ggcttccccc aggatgcccc gaggaaacaa gaagctgaaa gtggagctgc
25560
cgcccgtgga ggatttggag gaagactggg agaacagcag tcaggcagag gaggaggaga
25620
tggaggaaga ctgggacagc actcaggcag aggaggacag cctgcaagac agtctggagg
25680
aagacgagga ggaggcagag gaggaggtgg aagaagcagc cgccgccaga ccgtcgtcct
25740
cggcggggga gaaagcaagc agcacggata ccatctccgc tccgggtcgg ggtcccgctc
25800
gaccacacag tagatgggac gagaccggac gattcccgaa ccccaccacc cagaccggta
25860
agaaggagcg gcagggatac aagtcctggc gggggcacaa aaacgccatc gtctcctgct
25920
tgcaggcctg cgggggcaac atctccttca cccggcgcta cctgctcttc caccgcgggg
25980
tgaactttcc ccgcaacatc ttgcattact accgtcacct ccacagcccc tactacttcc
26040
aagaagaggc agcagcagca gaaaaagacc agcagaaaac cagcagctag aaaatccaca
26100
gcggcggcag caggtggact gaggatcgcg gcgaacgagc cggcgcaaac ccgggagctg
26160
aggaaccgga tctttcccac cctctatgcc atcttccagc agagtcgggg gcaggagcag
26220
gaactgaaag tcaagaaccg ttctctgcgc tcgctcaccc gcagttgtct gtatcacaag
26280
agcgaagacc aacttcagcg cactctcgag gacgccgagg ctctcttcaa caagtactgc
26340
gcgctcactc ttaaagagta gcccgcgccc gcccagtcgc agaaaaaggc gggaattacg
26400
tcacctgtgc ccttcgccct agccgcctcc acccatcatc atgagcaaag agattcccac
26460
gccttacatg tggagctacc agccccagat gggcctggcc gccggtgccg cccaggacta
26520
ctccacccgc atgaattggc tcagcgccgg gcccgcgatg atctcacggg tgaatgacat
26580
ccgcgcccac cgaaaccaga tactcctaga acagtcagcg ctcaccgcca cgccccgcaa
26640
tcacctcaat ccgcgtaatt ggcccgccgc cctggtgtac caggaaattc cccagcccac
26700
gaccgtacta cttccgcgag acgcccaggc cgaagtccag ctgactaact caggtgtcca
26760
gctggcgggc ggcgccaccc tgtgtcgtca ccgccccgct cagggtataa agcggctggt
26820
gatccggggc agaggcacac agctcaacga cgaggtggtg agctcttcgc tgggtctgcg
26880
acctgacgga gtcttccaac tcgccggatc ggggagatct tccttcacgc ctcgtcaggc
26940
cgtcctgact ttggagagtt cgtcctcgca gccccgctcg ggtggcatcg gcactctcca
27000
gttcgtggag gagttcactc cctcggtcta cttcaacccc ttctccggct cccccggcca
27060
ctacccggac gagttcatcc cgaacttcga cgccatcagc gagtcggtgg acggctacga
27120
ttgaatgtcc catggtggcg cagctgacct agctcggctt cgacacctgg accactgccg
27180
ccgcttccgc tgcttcgctc gggatctcgc cgagtttgcc tactttgagc tgcccgagga
27240
gcaccctcag ggcccggccc acggagtgcg gatcgtcgtc gaagggggcc tcgactccca
27300
cctgcttcgg atcttcagcc agcgtccgat cctggtcgag cgcgagcaag gacagaccct
27360
tctgactctg tactgcatct gcaaccaccc cggcctgcat gaaagtcttt gttgtctgct
27420
gtgtactgag tataataaaa gctgagatca gcgactactc cggacttccg tgtgttcctg
27480
aatccatcaa ccagtctttg ttcttcaccg ggaacgagac cgagctccag ctccagtgta
27540
agccccacaa gaagtacctc acctggctgt tccagggctc cccgatcgcc gttgtcaacc
27600
actgcgacaa cgacggagtc ctgctgagcg gccctgccaa ccttactttt tccacccgca
27660
gaagcaagct ccagctcttc caacccttcc tccccgggac ctatcagtgc gtctcgggac
27720
cctgccatca caccttccac ctgatcccga ataccacagc gtcgctcccc gctactaaca
27780
accaaactaa cctccaccaa cgccaccgtc gcgacctttc tgaatctaat actaccaccc
27840
acaccggagg tgagctccga ggtcaaccaa cctctgggat ttactacggc ccctgggagg
27900
tggttgggtt aatagcgcta ggcctagttg cgggtgggct tttggttctc tgctacctat
27960
acctcccttg ctgttcgtac ttagtggtgc tgtgttgctg gtttaagaaa tggggaagat
28020
caccctagtg agctgcggtg cgctggtggc ggtgttgctt tcgattgtgg gactgggcgg
28080
tgcggctgta gtgaaggaga aggccgatcc ctgcttgcat ttcaatccca acaaatgcca
28140
gctgagtttt cagcccgatg gcaatcggtg cgcggtactg atcaagtgcg gatgggaatg
28200
cgagaacgtg agaatcgagt acaataacaa gactcggaac aatactctcg cgtccgtgtg
28260
gcagcccggg gaccccgagt ggtacaccgt ctctgtcccc ggtgctgacg gctccccgcg
28320
caccgtgaat aatactttca tttttgcgca catgtgcgac acggtcatgt ggatgagcaa
28380
gcagtacgat atgtggcccc ccacgaagga gaacatcgtg gtcttctcca tcgcttacag
28440
cctgtgcacg gcgctaatca ccgctatcgt gtgcctgagc attcacatgc tcatcgctat
28500
tcgccccaga aataatgccg aaaaagaaaa acagccataa cgtttttttt cacacctttt
28560
tcagaccatg gcctctgtta aatttttgct tttatttgcc agtctcattg ccgtcattca
28620
tggaatgagt aatgagaaaa ttactattta cactggcact aatcacacat tgaaaggtcc
28680
agaaaaagcc acagaagttt catggtattg ttattttaat gaatcagatg tatctactga
28740
actctgtgga aacaataaca aaaaaaatga gagcattact ctcatcaagt ttcaatgtgg
28800
atctgactta accctaatta acatcactag agactatgta ggtatgtatt atggaactac
28860
agcaggcatt tcggacatgg aattttatca agtttctgtg tctgaaccca ccacgcctag
28920
aatgaccaca accacaaaaa ctacacctgt taccactatg cagctcacta ccaataacat
28980
ttttgccatg cgtcaaatgg tcaacaatag cactcaaccc accccaccca gtgaggaaat
29040
tcccaaatcc atgattggca ttattgttgc tgtagtggtg tgcatgttga tcatcgcctt
29100
gtgcatggtg tactatgcct tctgctacag aaagcacaga ctgaacgaca agctggaaca
29160
cttactaagt gttgaatttt aattttttag aaccatgaag atcctaggcc ttttaatttt
29220
ttctatcatt acctctgctc tatgcaattc tgacaatgag gacgttactg tcgttgtcgg
29280
atcaaattat acactgaaag gtccagcgaa gggtatgctt tcgtggtatt gctattttgg
29340
atctgacact acagaaactg aattatgcaa tcttaagaat ggcaaaattc aaaattctaa
29400
aattaacaat tatatatgca atggtactga tctgatactc ctcaatatca cgaaatcata
29460
tgctggcagt tacacctgcc ctggagatga tgctgacagt atgatttttt acaaagtaac
29520
tgttgttgat cccactactc cacctccacc caccacaact actcacacca cacacacaga
29580
tcaaaccgca gcagaggagg cagcaaagtt agccttgcag gtccaagaca gttcatttgt
29640
tggcattacc cctacacctg atcagcggtg tccggggctg ctagtcagcg gcattgtcgg
29700
tgtgctttcg ggattagcag tcataatcat ctgcatgttc atttttgctt gctgctatag
29760
aaggctttac cgacaaaaat cagacccact gctgaacctc tatgtttaat tttttccaga
29820
gtcatgaagg cagttagcgc tctagttttt tgttctttga ttggcattgt tttttgcaat
29880
cctattccta aagttagctt tattaaagat gtgaatgtta ctgagggggg caatgtgaca
29940
ctggtaggtg tagagggtgc tgaaaacacc acctggacaa aataccacct caatgggtgg
30000
aaagatattt gcaattggag tgtattagtt tatacatgtg agggagttaa tcttaccatt
30060
gtcaatgcca cctcagctca aaatggtaga attcaaggac aaagtgtcag tgtatctaat
30120
gggtatttta cccaacatac ttttatctat gacgttaaag tcataccact gcctacgcct
30180
agcccaccta gcactaccac acagacaacc cacactacac agacaaccac atacagtaca
30240
ttaaatcagc ctaccaccac tacagcagca gaggttgcca gctcgtctgg ggtccgagtg
30300
gcatttttga tgttggcccc atctagcagt cccactgcta gtaccaatga gcagactact
30360
gaatttttgt ccactgtcga gagccacacc acagctacct ccagtgcctt ctctagcacc
30420
gccaatctct cctcgctttc ctctacacca atcagtcccg ctactactcc tagccccgct
30480
cctcttccca ctcccctgaa gcaaacagac ggcggcatgc aatggcagat caccctgctc
30540
attgtgatcg ggttggtcat cctggccgtg ttgctctact acatcttctg ccgccgcatt
30600
cccaacgcgc accgcaagcc ggtctacaag cccatcattg tcgggcagcc ggagccgctt
30660
caggtggaag ggggtctaag gaatcttctc ttctctttta cagtatggtg attgaactat
30720
gattcctaga caattcttga tcactattct tatctgcctc ctccaagtct gtgccaccct
30780
cgctctggtg gccaacgcca gtccagactg tattgggccc ttcgcctcct acgtgctctt
30840
tgccttcacc acctgcatct gctgctgtag catagtctgc ctgcttatca ccttcttcca
30900
gttcattgac tggatctttg tgcgcatcgc ctacctgcgc caccaccccc agtaccgcga
30960
ccagcgagtg gcgcggctgc tcaggctcct ctgataagca tgcgggctct gctacttctc
31020
gcgcttctgc tgttagtgct cccccgtccc gtcgaccccc ggtcccccac ccagtccccc
31080
gaggaggtcc gcaaatgcaa attccaagaa ccctggaaat tcctcaaatg ctaccgccaa
31140
aaatcagaca tgcatcccag ctggatcatg atcattggga tcgtgaacat tctggcctgc
31200
accctcatct cctttgtgat ttacccctgc tttgactttg gttggaactc gccagaggcg
31260
ctctatctcc cgcctgaacc tgacacacca ccacagcaac ctcaggcaca cgcactacca
31320
ccactacagc ctaggccaca atacatgccc atattagact atgaggccga gccacagcga
31380
cccatgctcc ccgctattag ttacttcaat ctaaccggcg gagatgactg acccactggc
31440
caacaacaac gtcaacgacc ttctcctgga catggacggc cgcgcctcgg agcagcgact
31500
cgcccaactt cgcattcgcc agcagcagga gagagccgtc aaggagctgc aggatgcggt
31560
ggccatccac cagtgcaaga gaggcatctt ctgcctggtg aaacaggcca agatctccta
31620
cgaggtcact ccaaacgacc atcgcctctc ctacgagctc ctgcagcagc gccagaagtt
31680
cacctgcctg gtcggagtca accccatcgt catcacccag cagtctggcg ataccaaggg
31740
gtgcatccac tgctcctgcg actcccccga ctgcgtccac actctgatca agaccctctg
31800
cggcctccgc gacctcctcc ccatgaacta atcaccccct tatccagtga aataaagatc
31860
atattgatga tgattttaca gaaataaaaa ataatcattt gatttgaaat aaagatacaa
31920
tcatattgat gatttgagtt taacaaaaaa ataaagaatc acttacttga aatctgatac
31980
caggtctctg tccatgtttt ctgccaacac cacttcactc ccctcttccc agctctggta
32040
ctgcaggccc cggcgggctg caaacttcct ccacacgctg aaggggatgt caaattcctc
32100
ctgtccctca atcttcattt tatcttctat cagatgtcca aaaagcgcgt ccgggtggat
32160
gatgacttcg accccgtcta cccctacgat gcagacaacg caccgaccgt gcccttcatc
32220
aaccccccct tcgtctcttc agatggattc caagagaagc ccctgggggt gttgtccctg
32280
cgactggccg accccgtcac caccaagaac ggggaaatca ccctcaagct gggagagggg
32340
gtggacctcg attcctcggg aaaactcatc tccaacacgg ccaccaaggc cgccgcccct
32400
ctcagttttt ccaacaacac catttccctt aacatggatc acccctttta cactaaagat
32460
ggaaaattat ccttacaagt ttctccacca ttaaatatac tgagaacaag cattctaaac
32520
acactagctt taggttttgg atcaggttta ggactccgtg gctctgcctt ggcagtacag
32580
ttagtctctc cacttacatt tgatactgat ggaaacataa agcttacctt agacagaggt
32640
ttgcatgtta caacaggaga tgcaattgaa agcaacataa gctgggctaa aggtttaaaa
32700
tttgaagatg gagccatagc aaccaacatt ggaaatgggt tagagtttgg aagcagtagt
32760
acagaaacag gtgttgatga tgcttaccca atccaagtta aacttggatc tggccttagc
32820
tttgacagta caggagccat aatggctggt aacaaagaag acgataaact cactttgtgg
32880
acaacacctg atccatcacc aaactgtcaa atactcgcag aaaatgatgc aaaactaaca
32940
ctttgcttga ctaaatgtgg tagtcaaata ctggccactg tgtcagtctt agttgtagga
33000
agtggaaacc taaaccccat tactggcacc gtaagcagtg ctcaggtgtt tctacgtttt
33060
gatgcaaacg gtgttctttt aacagaacat tctacactaa aaaaatactg ggggtatagg
33120
cagggagata gcatagatgg cactccatat accaatgctg taggattcat gcccaattta
33180
aaagcttatc caaagtcaca aagttctact actaaaaata atatagtagg gcaagtatac
33240
atgaatggag atgtttcaaa acctatgctt ctcactataa ccctcaatgg tactgatgac
33300
agcaacagta catattcaat gtcattttca tacacctgga ctaatggaag ctatgttgga
33360
gcaacatttg gggctaactc ttataccttc tcatacatcg cccaagaatg aacactgtat
33420
cccaccctgc atgccaaccc ttcccacccc actctgtgga acaaactctg aaacacaaaa
33480
taaaataaag ttcaagtgtt ttattgattc aacagtttta caggattcga gcagttattt
33540
ttcctccacc ctcccaggac atggaataca ccaccctctc cccccgcaca gccttgaaca
33600
tctgaatgcc attggtgatg gacatgcttt tggtctccac gttccacaca gtttcagagc
33660
gagccagtct cgggtcggtc agggagatga aaccctccgg gcactcccgc atctgcacct
33720
cacagctcaa cagctgagga ttgtcctcgg tggtcgggat cacggttatc tggaagaagc
33780
agaagagcgg cggtgggaat catagtccgc gaacgggatc ggccggtggt gtcgcatcag
33840
gccccgcagc agtcgctgcc gccgccgctc cgtcaagctg ctgctcaggg ggtccgggtc
33900
cagggactcc ctcagcatga tgcccacggc cctcagcatc agtcgtctgg tgcggcgggc
33960
gcagcagcgc atgcggatct cgctcaggtc gctgcagtac gtgcaacaca gaaccaccag
34020
gttgttcaac agtccatagt tcaacacgct ccagccgaaa ctcatcgcgg gaaggatgct
34080
acccacgtgg ccgtcgtacc agatcctcag gtaaatcaag tggtgccccc tccagaacac
34140
gctgcccacg tacatgatct ccttgggcat gtggcggttc accacctccc ggtaccacat
34200
caccctctgg ttgaacatgc agccccggat gatcctgcgg aaccacaggg ccagcaccgc
34260
cccgcccgcc atgcagcgaa gagaccccgg gtcccggcaa tggcaatgga ggacccaccg
34320
ctcgtacccg tggatcatct gggagctgaa caagtctatg ttggcacagc acaggcatat
34380
gctcatgcat ctcttcagca ctctcaactc ctcgggggtc aaaaccatat cccagggcac
34440
ggggaactct tgcaggacag cgaaccccgc agaacagggc aatcctcgca cagaacttac
34500
attgtgcatg gacagggtat cgcaatcagg cagcaccggg tgatcctcca ccagagaagc
34560
gcgggtctcg gtctcctcac agcgtggtaa gggggccggc cgatacgggt gatggcggga
34620
cgcggctgat cgtgttcgcg accgtgtcat gatgcagttg ctttcggaca ttttcgtact
34680
tgctgtagca gaacctggtc cgggcgctgc acaccgatcg ccggcggcgg tctcggcgct
34740
tggaacgctc ggtgttgaaa ttgtaaaaca gccactctct cagaccgtgc agcagatcta
34800
gggcctcagg agtgatgaag atcccatcat gcctgatggc tctgatcaca tcgaccaccg
34860
tggaatgggc cagacccagc cagatgatgc aattttgttg ggtttcggtg acggcggggg
34920
agggaagaac aggaagaacc atgattaact tttaatccaa acggtctcgg agtacttcaa
34980
aatgaagatc gcggagatgg cacctctcgc ccccgctgtg ttggtggaaa ataacagcca
35040
ggtcaaaggt gatacggttc tcgagatgtt ccacggtggc ttccagcaaa gcctccacgc
35100
gcacatccag aaacaagaca atagcgaaag cgggagggtt ctctaattcc tcaatcatca
35160
tgttacactc ctgcaccatc cccagataat tttcattttt ccagccttga atgattcgaa
35220
ctagttcctg aggtaaatcc aagccagcca tgataaagag ctcgcgcaga gcgccctcca
35280
ccggcattct taagcacacc ctcataattc caagatattc tgctcctggt tcacctgcag
35340
cagattgaca agcggaatat caaaatctct gccgcgatcc ctgagctcct ccctcagcaa
35400
taactgtaag tactctttca tatcctctcc gaaattttta gccataggac caccaggaat
35460
aagattaggg caagccacag tacagataaa ccgaagtcct ccccagtgag cattgccaaa
35520
tgcaagactg ctataagcat gctggctaga cccggtgata tcttccagat aactggacag
35580
aaaatcgccc aggcaatttt taagaaaatc aacaaaagaa aaatcctcca ggtggacgtt
35640
tagagcctcg ggaacaacga tgaagtaaat gcaagcggtg cgttccagca tggttagtta
35700
gctgatctgt agaaaaaaca aaaatgaaca ttaaaccatg ctagcctggc gaacaggtgg
35760
gtaaatcgtt ctctccagca ccaggcaggc cacggggtct ccggcgcgac cctcgtaaaa
35820
attgtcgcta tgattgaaaa ccatcacaga gagacgttcc cggtggccgg cgtgaatgat
35880
tcgacaagat gaatacaccc ccggaacatt ggcgtccgcg agtgaaaaaa agcgcccgag
35940
gaagcaataa ggcactacaa tgctcagtct caagtccagc aaagcgatgc catgcggatg
36000
aagcacaaaa ttctcaggtg cgtacaaaat gtaattactc ccctcctgca caggcagcaa
36060
agcccccgat ccctccaggt acacatacaa agcctcagcg tccatagctt accgagcagc
36120
agcacacaac aggcgcaaga gtcagagaaa ggctgagctc taacctgtcc acccgctctc
36180
tgctcaatat atagcccaga tctacactga cgtaaaggcc aaagtctaaa aatacccgcc
36240
aaataatcac acacgcccag cacacgccca gaaaccggtg acacactcaa aaaaatacgc
36300
gcacttcctc aaacgcccaa aactgccgtc atttccgggt tcccacgcta cgtcatcaaa
36360
acacgacttt caaattccgt cgaccgttaa aaacgtcacc cgccccgccc ctaacggtcg
36420
cccgtctctc agccaatcag cgccccgcat ccccaaattc aaacacctca tttgcatatt
36480
aacgcgcaca aaaagtttga ggtatattat tgatgatgg
36519
<210> 11
<211> 31867
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 11
ccatcttcaa taatatacct caaacttttt gtgcgcgtta atatgcaaat gaggcgtttg
60
aatttgggga ggaagggcgg tgattggtcg agggatgagc gaccgttagg ggcggggcga
120
gtgacgtttt gatgacgtgg ttgcgaggag gagccagttt gcaagttctc gtgggaaaag
180
tgacgtcaaa cgaggtgtgg tttgaacacg gaaatactca attttcccgc gctctctgac
240
aggaaatgag gtgtttctgg gcggatgcaa gtgaaaacgg gccattttcg cgcgaaaact
300
gaatgaggaa gtgaaaatct gagtaatttc gcgtttatgg cagggaggag tatttgccga
360
gggccgagta gactttgacc gattacgtgg gggtttcgat taccgtgttt ttcacctaaa
420
tttccgcgta cggtgtcaaa gtccggtgtt tttacgtagg tgtcagctga tcgccagggt
480
atttaaacct gcgctctcca gtcaagaggc cactcttgag tgccagcgag aagagttttc
540
tcctccgcgc cgcgagtcag atctacactt tgaaagtagg gataacaggg taatgacatt
600
gattattgac tagttgttaa tagtaatcaa ttacggggtc attagttcat agcccatata
660
tggagttccg cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc
720
cccgcccatt gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc
780
attgacgtca atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt
840
atcatatgcc aagtccgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt
900
atgcccagta catgacctta cgggactttc ctacttggca gtacatctac gtattagtca
960
tcgctattac catggtgatg cggttttggc agtacaccaa tgggcgtgga tagcggtttg
1020
actcacgggg atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc
1080
aaaatcaacg ggactttcca aaatgtcgta ataaccccgc cccgttgacg caaatgggcg
1140
gtaggcgtgt acggtgggag gtctatataa gcagagctcg tttagtgaac cgtcagatcg
1200
cctggaacgc catccacgct gttttgacct ccatagaaga cagcgatcgc gccaccatgg
1260
tgagcaaggg cgaggagctg ttcaccgggg tggtgcccat cctggtcgag ctggacggcg
1320
acgtaaacgg ccacaagttc agcgtgtccg gcgagggcga gggcgatgcc acctacggca
1380
agctgaccct gaagttcatc tgcaccaccg gcaagctgcc cgtgccctgg cccaccctcg
1440
tgaccaccct gacctacggc gtgcagtgct tcagccgcta ccccgaccac atgaagcagc
1500
acgacttctt caagtccgcc atgcccgaag gctacgtcca ggagcgcacc atcttcttca
1560
aggacgacgg caactacaag acccgcgccg aggtgaagtt cgagggcgac accctggtga
1620
accgcatcga gctgaagggc atcgacttca aggaggacgg caacatcctg gggcacaagc
1680
tggagtacaa ctacaacagc cacaacgtct atatcatggc cgacaagcag aagaacggca
1740
tcaaggtgaa cttcaagatc cgccacaaca tcgaggacgg cagcgtgcag ctcgccgacc
1800
actaccagca gaacaccccc atcggcgacg gccccgtgct gctgcccgac aaccactacc
1860
tgagcaccca gtccgccctg agcaaagacc ccaacgagaa gcgcgatcac atggtcctgc
1920
tggagttcgt gaccgccgcc gggatcactc tcggcatgga cgagctttac aagtagtgag
1980
tttaaactcc catttaaatg tgagggttaa tgcttcgagc agacatgata agatacattg
2040
atgagtttgg acaaaccaca actagaatgc agtgaaaaaa atgctttatt tgtgaaattt
2100
gtgatgctat tgctttattt gtaaccatta taagctgcaa taaacaagtt aacaacaaca
2160
attgcattca ttttatgttt caggttcagg gggagatgtg ggaggttttt taaagcaagt
2220
aaaacctcta caaatgtggt aaaataacta taacggtcct aaggtagcga gtgagtagtg
2280
ttctggggcg ggggaggacc tgcatgaggg ccagaataac tgaaatctgt gcttttctgt
2340
gtgttgcagc agcatgagcg gaagcggctc ctttgaggga ggggtattca gcccttatct
2400
gacggggcgt ctcccctcct gggcgggagt gcgtcagaat gtgatgggat ccacggtgga
2460
cggccggccc gtgcagcccg cgaactcttc aaccctgacc tatgcaaccc tgagctcttc
2520
gtcgttggac gcagctgccg ccgcagctgc tgcatctgcc gccagcgccg tgcgcggaat
2580
ggccatgggc gccggctact acggcactct ggtggccaac tcgagttcca ccaataatcc
2640
cgccagcctg aacgaggaga agctgttgct gctgatggcc cagctcgagg ccttgaccca
2700
gcgcctgggc gagctgaccc agcaggtggc tcagctgcag gagcagacgc gggccgcggt
2760
tgccacggtg aaatccaaat aaaaaatgaa tcaataaata aacggagacg gttgttgatt
2820
ttaacacaga gtctgaatct ttatttgatt tttcgcgcgc ggtaggccct ggaccaccgg
2880
tctcgatcat tgagcacccg gtggatcttt tccaggaccc ggtagaggtg ggcttggatg
2940
ttgaggtaca tgggcatgag cccgtcccgg gggtggaggt agctccattg cagggcctcg
3000
tgctcggggg tggtgttgta aatcacccag tcatagcagg ggcgcagggc atggtgttgc
3060
acaatatctt tgaggaggag actgatggcc acgggcagcc ctttggtgta ggtgtttaca
3120
aatctgttga gctgggaggg atgcatgcgg ggggagatga ggtgcatctt ggcctggatc
3180
ttgagattgg cgatgttacc gcccagatcc cgcctggggt tcatgttgtg caggaccacc
3240
agcacggtgt atccggtgca cttggggaat ttatcatgca acttggaagg gaaggcgtga
3300
aagaatttgg cgacgccttt gtgcccgccc aggttttcca tgcactcatc catgatgatg
3360
gcgatgggcc cgtgggcggc ggcctgggca aagacgtttc gggggtcgga cacatcatag
3420
ttgtggtcct gggtgaggtc atcataggcc attttaatga atttggggcg gagggtgccg
3480
gactggggga caaaggtacc ctcgatcccg ggggcgtagt tcccctcaca gatctgcatc
3540
tcccaggctt tgagctcgga gggggggatc atgtccacct gcggggcgat aaagaacacg
3600
gtttccgggg cgggggagat gagctgggcc gaaagcaagt tccggagcag ctgggacttg
3660
ccgcagccgg tggggccgta gatgaccccg atgaccggct gcaggtggta gttgagggag
3720
agacagctgc cgtcctcccg gaggaggggg gccacctcgt tcatcatctc gcgcacgtgc
3780
atgttctcgc gcaccagttc cgccaggagg cgctctcccc ccagggatag gagctcctgg
3840
agcgaggcga agtttttcag cggcttgagt ccgtcggcca tgggcatttt ggagagggtt
3900
tgttgcaaga gttccaggcg gtcccagagc tcggtgatgt gctctacggc atctcgatcc
3960
agcagacctc ctcgtttcgc gggttgggac ggctgcggga gtagggcacc agacgatggg
4020
cgtccagcgc agccagggtc cggtccttcc agggtcgcag cgtccgcgtc agggtggtct
4080
ccgtcacggt gaaggggtgc gcgccgggct gggcgcttgc gagggtgcgc ttcaggctca
4140
tccggctggt cgaaaaccgc tcccgatcgg cgccctgcgc gtcggccagg tagcaattga
4200
ccatgagttc gtagttgagc gcctcggccg cgtggccttt ggcgcggagc ttacctttgg
4260
aagtctgccc gcaggcggga cagaggaggg acttgagggc gtagagcttg ggggcgagga
4320
agacggactc gggggcgtag gcgtccgcgc cgcagtgggc gcagacggtc tcgcactcca
4380
cgagccaggt gaggtcgggc tggtcggggt caaaaaccag tttcccgccg ttctttttga
4440
tgcgtttctt acctttggtc tccatgagct cgtgtccccg ctgggtgaca aagaggctgt
4500
ccgtgtcccc gtagaccgac tttatgggcc ggtcctcgag cggtgtgccg cggtcctcct
4560
cgtagaggaa ccccgcccac tccgagacga aagcccgggt ccaggccagc acgaaggagg
4620
ccacgtggga cgggtagcgg tcgttgtcca ccagcgggtc caccttttcc agggtatgca
4680
aacacatgtc cccctcgtcc acatccagga aggtgattgg cttgtaagtg taggccacgt
4740
gaccgggggt cccggccggg ggggtataaa agggtgcggg tccctgctcg tcctcactgt
4800
cttccggatc gctgtccagg agcgccagct gttggggtag gtattccctc tcgaaggcgg
4860
gcatgacctc ggcactcagg ttgtcagttt ctagaaacga ggaggatttg atattgacgg
4920
tgccggcgga gatgcctttc aagagcccct cgtccatctg gtcagaaaag acgatctttt
4980
tgttgtcgag cttggtggcg aaggagccgt agagggcgtt ggagaggagc ttggcgatgg
5040
agcgcatggt ctggtttttt tccttgtcgg cgcgctcctt ggcggcgatg ttgagctgca
5100
cgtactcgcg cgccacgcac ttccattcgg ggaagacggt ggtcagctcg tcgggcacga
5160
ttctgacctg ccagccccga ttatgcaggg tgatgaggtc cacactggtg gccacctcgc
5220
cgcgcagggg ctcattagtc cagcagaggc gtccgccctt gcgcgagcag aaggggggca
5280
gggggtccag catgacctcg tcgggggggt cggcatcgat ggtgaagatg ccgggcagga
5340
ggtcggggtc aaagtagctg atggaagtgg ccagatcgtc cagggcagct tgccattcgc
5400
gcacggccag cgcgctctcg tagggactga ggggcgtgcc ccagggcatg ggatgggtaa
5460
gcgcggaggc gtacatgccg cagatgtcgt agacgtagag gggctcctcg aggatgccga
5520
tgtaggtggg gtagcagcgc cccccgcgga tgctggcgcg cacgtagtca tacagctcgt
5580
gcgagggggc gaggagcccc gggcccaggt tggtgcgact gggcttttcg gcgcggtaga
5640
cgatctggcg gaaaatggca tgcgagttgg aggagatggt gggcctttgg aagatgttga
5700
agtgggcgtg gggcagtccg accgagtcgc ggatgaagtg ggcgtaggag tcttgcagct
5760
tggcgacgag ctcggcggtg actaggacgt ccagagcgca gtagtcgagg gtctcctgga
5820
tgatgtcata cttgagctgt cccttttgtt tccacagctc gcggttgaga aggaactctt
5880
cgcggtcctt ccagtactct tcgaggggga acccgtcctg atctgcacgg taagagccta
5940
gcatgtagaa ctggttgacg gccttgtagg cgcagcagcc cttctccacg gggagggcgt
6000
aggcctgggc ggccttgcgc agggaggtgt gcgtgagggc gaaagtgtcc ctgaccatga
6060
ccttgaggaa ctggtgcttg aagtcgatat cgtcgcagcc cccctgctcc cagagctgga
6120
agtccgtgcg cttcttgtag gcggggttgg gcaaagcgaa agtaacatcg ttgaagagga
6180
tcttgcccgc gcggggcata aagttgcgag tgatgcggaa aggttggggc acctcggccc
6240
ggttgttgat gacctgggcg gcgagcacga tctcgtcgaa gccgttgatg ttgtggccca
6300
cgatgtagag ttccacgaat cgcggacggc ccttgacgtg gggcagtttc ttgagctcct
6360
cgtaggtgag ctcgtcgggg tcgctgagcc cgtgctgctc gagcgcccag tcggcgagat
6420
gggggttggc gcggaggaag gaagtccaga gatccacggc cagggcggtt tgcagacggt
6480
cccggtactg acggaactgc tgcccgacgg ccattttttc gggggtgacg cagtagaagg
6540
tgcgggggtc cccgtgccag cgatcccatt tgagctggag ggcgagatcg agggcgagct
6600
cgacgagccg gtcgtccccg gagagtttca tgaccagcat gaaggggacg agctgcttgc
6660
cgaaggaccc catccaggtg taggtttcca catcgtaggt gaggaagagc ctttcggtgc
6720
gaggatgcga gccgatgggg aagaactgga tctcctgcca ccaattggag gaatggctgt
6780
tgatgtgatg gaagtagaaa tgccgacggc gcgccgaaca ctcgtgcttg tgtttataca
6840
agcggccaca gtgctcgcaa cgctgcacgg gatgcacgtg ctgcacgagc tgtacctgag
6900
ttcctttgac gaggaatttc agtgggaagt ggagtcgtgg cgcctgcatc tcgtgctgta
6960
ctacgtcgtg gtggtcggcc tggccctctt ctgcctcgat ggtggtcatg ctgacgagcc
7020
cgcgcgggag gcaggtccag acctcggcgc gagcgggtcg gagagcgagg acgagggcgc
7080
gcaggccgga gctgtccagg gtcctgagac gctgcggagt caggtcagtg ggcagcggcg
7140
gcgcgcggtt gacttgcagg agtttttcca gggcgcgcgg gaggtccaga tggtacttga
7200
tctccaccgc gccattggtg gcgacgtcga tggcttgcag ggtcccgtgc ccctggggtg
7260
tgaccaccgt cccccgtttc ttcttgggcg gctggggcga cgggggcggt gcctcttcca
7320
tggttagaag cggcggcgag gacgcgcgcc gggcggcagg ggcggctcgg ggcccggagg
7380
caggggcggc aggggcacgt cggcgccgcg cgcgggtagg ttctggtact gcgcccggag
7440
aagactggcg tgagcgacga cgcgacggtt gacgtcctgg atctgacgcc tctgggtgaa
7500
ggccacggga cccgtgagtt tgaacctgaa agagagttcg acagaatcaa tctcggtatc
7560
gttgacggcg gcctgccgca ggatctcttg cacgtcgccc gagttgtcct ggtaggcgat
7620
ctcggtcatg aactgctcga tctcctcctc ttgaaggtct ccgcggccgg cgcgctccac
7680
ggtggccgcg aggtcgttgg agatgcggcc catgagctgc gagaaggcgt tcatgcccgc
7740
ctcgttccag acgcggctgt agaccacgac gccctcggga tcgcgggcgc gcatgaccac
7800
ctgggcgagg ttgagctcca cgtggcgcgt gaagaccgcg tagttgcaga ggcgctggta
7860
gaggtagttg agcgtggtgg cgatgtgctc ggtgacgaag aaatacatga tccagcggcg
7920
gagcggcatc tcgctgacgt cgcccagcgc ctccaaacgt tccatggcct cgtaaaagtc
7980
cacggcgaag ttgaaaaact gggagttgcg cgccgagacg gtcaactcct cctccagaag
8040
acggatgagc tcggcgatgg tggcgcgcac ctcgcgctcg aaggcccccg ggagttcctc
8100
cacttcctct tcttcctcct ccactaacat ctcttctact tcctcctcag gcggcagtgg
8160
tggcggggga gggggcctgc gtcgccggcg gcgcacgggc agacggtcga tgaagcgctc
8220
gatggtctcg ccgcgccggc gtcgcatggt ctcggtgacg gcgcgcccgt cctcgcgggg
8280
ccgcagcgtg aagacgccgc cgcgcatctc caggtggccg ggggggtccc cgttgggcag
8340
ggagagggcg ctgacgatgc atcttatcaa ttgccccgta gggactccgc gcaaggacct
8400
gagcgtctcg agatccacgg gatctgaaaa ccgctgaacg aaggcttcga gccagtcgca
8460
gtcgcaaggt aggctgagca cggtttcttc tggcgggtca tgttggttgg gagcggggcg
8520
ggcgatgctg ctggtgatga agttgaaata ggcggttctg agacggcgga tggtggcgag
8580
gagcaccagg tctttgggcc cggcttgctg gatgcgcaga cggtcggcca tgccccaggc
8640
gtggtcctga cacctggcca ggtccttgta gtagtcctgc atgagccgct ccacgggcac
8700
ctcctcctcg cccgcgcggc cgtgcatgcg cgtgagcccg aagccgcgct ggggctggac
8760
gagcgccagg tcggcgacga cgcgctcggc gaggatggct tgctggatct gggtgagggt
8820
ggtctggaag tcatcaaagt cgacgaagcg gtggtaggct ccggtgttga tggtgtagga
8880
gcagttggcc atgacggacc agttgacggt ctggtggccc ggacgcacga gctcgtggta
8940
cttgaggcgc gagtaggcgc gcgtgtcgaa gatgtagtcg ttgcaggtgc gcaccaggta
9000
ctggtagccg atgaggaagt gcggcggcgg ctggcggtag agcggccatc gctcggtggc
9060
gggggcgccg ggcgcgaggt cctcgagcat ggtgcggtgg tagccgtaga tgtacctgga
9120
catccaggtg atgccggcgg cggtggtgga ggcgcgcggg aactcgcgga cgcggttcca
9180
gatgttgcgc agcggcagga agtagttcat ggtgggcacg gtctggcccg tgaggcgcgc
9240
gcagtcgtgg atgctctata cgggcaaaaa cgaaagcggt cagcggctcg actccgtggc
9300
ctggaggcta agcgaacggg ttgggctgcg cgtgtacccc ggttcgaatc tcgaatcagg
9360
ctggagccgc agctaacgtg gtattggcac tcccgtctcg acccaagcct gcaccaaccc
9420
tccaggatac ggaggcgggt cgttttgcaa cttttttttg gaggccggat gagactagta
9480
agcgcggaaa gcggccgacc gcgatggctc gctgccgtag tctggagaag aatcgccagg
9540
gttgcgttgc ggtgtgcccc ggttcgaggc cggccggatt ccgcggctaa cgagggcgtg
9600
gctgccccgt cgtttccaag accccatagc cagccgactt ctccagttac ggagcgagcc
9660
cctcttttgt tttgtttgtt tttgccagat gcatcccgta ctgcggcaga tgcgccccca
9720
ccaccctcca ccgcaacaac agccccctcc acagccggcg cttctgcccc cgccccagca
9780
gcaacttcca gccacgaccg ccgcggccgc cgtgagcggg gctggacaga gttatgatca
9840
ccagctggcc ttggaagagg gcgaggggct ggcgcgcctg ggggcgtcgt cgccggagcg
9900
gcacccgcgc gtgcagatga aaagggacgc tcgcgaggcc tacgtgccca agcagaacct
9960
gttcagagac aggagcggcg aggagcccga ggagatgcgc gcggcccggt tccacgcggg
10020
gcgggagctg cggcgcggcc tggaccgaaa gagggtgctg agggacgagg atttcgaggc
10080
ggacgagctg acggggatca gccccgcgcg cgcgcacgtg gccgcggcca acctggtcac
10140
ggcgtacgag cagaccgtga aggaggagag caacttccaa aaatccttca acaaccacgt
10200
gcgcaccctg atcgcgcgcg aggaggtgac cctgggcctg atgcacctgt gggacctgct
10260
ggaggccatc gtgcagaacc ccaccagcaa gccgctgacg gcgcagctgt tcctggtggt
10320
gcagcatagt cgggacaacg aagcgttcag ggaggcgctg ctgaatatca ccgagcccga
10380
gggccgctgg ctcctggacc tggtgaacat tctgcagagc atcgtggtgc aggagcgcgg
10440
gctgccgctg tccgagaagc tggcggccat caacttctcg gtgctgagtt tgggcaagta
10500
ctacgctagg aagatctaca agaccccgta cgtgcccata gacaaggagg tgaagatcga
10560
cgggttttac atgcgcatga ccctgaaagt gctgaccctg agcgacgatc tgggggtgta
10620
ccgcaacgac aggatgcacc gtgcggtgag cgccagcagg cggcgcgagc tgagcgacca
10680
ggagctgatg catagtctgc agcgggccct gaccggggcc gggaccgagg gggagagcta
10740
ctttgacatg ggcgcggacc tgcactggca gcccagccgc cgggccttgg aggcggcggc
10800
aggaccctac gtagaagagg tggacgatga ggtggacgag gagggcgagt acctggaaga
10860
ctgatggcgc gaccgtattt ttgctagatg caacaacaac agccacctcc tgatcccgcg
10920
atgcgggcgg cgctgcagag ccagccgtcc ggcattaact cctcggacga ttggacccag
10980
gccatgcaac gcatcatggc gctgacgacc cgcaaccccg aagcctttag acagcagccc
11040
caggccaacc ggctctcggc catcctggag gccgtggtgc cctcgcgctc caaccccacg
11100
cacgagaagg tcctggccat cgtgaacgcg ctggtggaga acaaggccat ccgcggcgac
11160
gaggccggcc tggtgtacaa cgcgctgctg gagcgcgtgg cccgctacaa cagcaccaac
11220
gtgcagacca acctggaccg catggtgacc gacgtgcgcg aggccgtggc ccagcgcgag
11280
cggttccacc gcgagtccaa cctgggatcc atggtggcgc tgaacgcctt cctcagcacc
11340
cagcccgcca acgtgccccg gggccaggag gactacacca acttcatcag cgccctgcgc
11400
ctgatggtga ccgaggtgcc ccagagcgag gtgtaccagt ccgggccgga ctacttcttc
11460
cagaccagtc gccagggctt gcagaccgtg aacctgagcc aggctttcaa gaacttgcag
11520
ggcctgtggg gcgtgcaggc cccggtcggg gaccgcgcga cggtgtcgag cctgctgacg
11580
ccgaactcgc gcctgctgct gctgctggtg gcccccttca cggacagcgg cagcatcaac
11640
cgcaactcgt acctgggcta cctgattaac ctgtaccgcg aggccatcgg ccaggcgcac
11700
gtggacgagc agacctacca ggagatcacc cacgtgagcc gcgccctggg ccaggacgac
11760
ccgggcaacc tggaagccac cctgaacttt ttgctgacca accggtcgca gaagatcccg
11820
ccccagtacg cgctcagcac cgaggaggag cgcatcctgc gttacgtgca gcagagcgtg
11880
ggcctgttcc tgatgcagga gggggccacc cccagcgccg cgctcgacat gaccgcgcgc
11940
aacatggagc ccagcatgta cgccagcaac cgcccgttca tcaataaact gatggactac
12000
ttgcatcggg cggccgccat gaactctgac tatttcacca acgccatcct gaatccccac
12060
tggctcccgc cgccggggtt ctacacgggc gagtacgaca tgcccgaccc caatgacggg
12120
ttcctgtggg acgatgtgga cagcagcgtg ttctcccccc gaccgggtgc taacgagcgc
12180
cccttgtgga agaaggaagg cagcgaccga cgcccgtcct cggcgctgtc cggccgcgag
12240
ggtgctgccg cggcggtgcc cgaggccgcc agtcctttcc cgagcttgcc cttctcgctg
12300
aacagtatcc gcagcagcga gctgggcagg atcacgcgcc cgcgcttgct gggcgaagag
12360
gagtacttga atgactcgct gttgagaccc gagcgggaga agaacttccc caataacggg
12420
atagaaagcc tggtggacaa gatgagccgc tggaagacgt atgcgcagga gcacagggac
12480
gatccccggg cgtcgcaggg ggccacgagc cggggcagcg ccgcccgtaa acgccggtgg
12540
cacgacaggc agcggggaca gatgtgggac gatgaggact ccgccgacga cagcagcgtg
12600
ttggacttgg gtgggagtgg taacccgttc gctcacctgc gcccccgtat cgggcgcatg
12660
atgtaagaga aaccgaaaat aaatgatact caccaaggcc atggcgacca gcgtgcgttc
12720
gtttcttctc tgttgttgtt gtatctagta tgatgaggcg tgcgtacccg gagggtcctc
12780
ctccctcgta cgagagcgtg atgcagcagg cgatggcggc ggcggcgatg cagcccccgc
12840
tggaggctcc ttacgtgccc ccgcggtacc tggcgcctac ggaggggcgg aacagcattc
12900
gttactcgga gctggcaccc ttgtacgata ccacccggtt gtacctggtg gacaacaagt
12960
cggcggacat cgcctcgctg aactaccaga acgaccacag caacttcctg accaccgtgg
13020
tgcagaacaa tgacttcacc cccacggagg ccagcaccca gaccatcaac tttgacgagc
13080
gctcgcggtg gggcggccag ctgaaaacca tcatgcacac caacatgccc aacgtgaacg
13140
agttcatgta cagcaacaag ttcaaggcgc gggtgatggt ctcccgcaag acccccaatg
13200
gggtgacagt gacagaggat tatgatggta gtcaggatga gctgaagtat gaatgggtgg
13260
aatttgagct gcccgaaggc aacttctcgg tgaccatgac catcgacctg atgaacaacg
13320
ccatcatcga caattacttg gcggtggggc ggcagaacgg ggtgctggag agcgacatcg
13380
gcgtgaagtt cgacactagg aacttcaggc tgggctggga ccccgtgacc gagctggtca
13440
tgcccggggt gtacaccaac gaggctttcc atcccgatat tgtcttgctg cccggctgcg
13500
gggtggactt caccgagagc cgcctcagca acctgctggg cattcgcaag aggcagccct
13560
tccaggaagg cttccagatc atgtacgagg atctggaggg gggcaacatc cccgcgctcc
13620
tggatgtcga cgcctatgag aaaagcaagg aggatgcagc agctgaagca actgcagccg
13680
tagctaccgc ctctaccgag gtcaggggcg ataattttgc aagcgccgca gcagtggcag
13740
cggccgaggc ggctgaaacc gaaagtaaga tagtcattca gccggtggag aaggatagca
13800
agaacaggag ctacaacgta ctaccggaca agataaacac cgcctaccgc agctggtacc
13860
tagcctacaa ctatggcgac cccgagaagg gcgtgcgctc ctggacgctg ctcaccacct
13920
cggacgtcac ctgcggcgtg gagcaagtct actggtcgct gcccgacatg atgcaagacc
13980
cggtcacctt ccgctccacg cgtcaagtta gcaactaccc ggtggtgggc gccgagctcc
14040
tgcccgtcta ctccaagagc ttcttcaacg agcaggccgt ctactcgcag cagctgcgcg
14100
ccttcacctc gcttacgcac gtcttcaacc gcttccccga gaaccagatc ctcgtccgcc
14160
cgcccgcgcc caccattacc accgtcagtg aaaacgttcc tgctctcaca gatcacggga
14220
ccctgccgct gcgcagcagt atccggggag tccagcgcgt gaccgttact gacgccagac
14280
gccgcacctg cccctacgtc tacaaggccc tgggcatagt cgcgccgcgc gtcctctcga
14340
gccgcacctt ctaaatgtcc attctcatct cgcccagtaa taacaccggt tggggcctgc
14400
gcgcgcccag caagatgtac ggaggcgctc gccaacgctc cacgcaacac cccgtgcgcg
14460
tgcgcgggca cttccgcgct ccctggggcg ccctcaaggg ccgcgtgcgg tcgcgcacca
14520
ccgtcgacga cgtgatcgac caggtggtgg ccgacgcgcg caactacacc cccgccgccg
14580
cgcccgtctc caccgtggac gccgtcatcg acagcgtggt ggccgacgcg cgccggtacg
14640
cccgcgccaa gagccggcgg cggcgcatcg cccggcggca ccggagcacc cccgccatgc
14700
gcgcggcgcg agccttgctg cgcagggcca ggcgcacggg acgcagggcc atgctcaggg
14760
cggccagacg cgcggcttca ggcgccagcg ccggcaggac ccggagacgc gcggccacgg
14820
cggcggcagc ggccatcgcc agcatgtccc gcccgcggcg agggaacgtg tactgggtgc
14880
gcgacgccgc caccggtgtg cgcgtgcccg tgcgcacccg cccccctcgc acttgaagat
14940
gttcacttcg cgatgttgat gtgtcccagc ggcgaggagg atgtccaagc gcaaattcaa
15000
ggaagagatg ctccaggtca tcgcgcctga gatctacggc cctgcggtgg tgaaggagga
15060
aagaaagccc cgcaaaatca agcgggtcaa aaaggacaaa aaggaagaag aaagtgatgt
15120
ggacggattg gtggagtttg tgcgcgagtt cgccccccgg cggcgcgtgc agtggcgcgg
15180
gcggaaggtg caaccggtgc tgagacccgg caccaccgtg gtcttcacgc ccggcgagcg
15240
ctccggcacc gcttccaagc gctcctacga cgaggtgtac ggggatgatg atattctgga
15300
gcaggcggcc gagcgcctgg gcgagtttgc ttacggcaag cgcagccgtt ccgcaccgaa
15360
ggaagaggcg gtgtccatcc cgctggacca cggcaacccc acgccgagcc tcaagcccgt
15420
gaccttgcag caggtgctgc cgaccgcggc gccgcgccgg gggttcaagc gcgagggcga
15480
ggatctgtac cccaccatgc agctgatggt gcccaagcgc cagaagctgg aagacgtgct
15540
ggagaccatg aaggtggacc cggacgtgca gcccgaggtc aaggtgcggc ccatcaagca
15600
ggtggccccg ggcctgggcg tgcagaccgt ggacatcaag attcccacgg agcccatgga
15660
aacgcagacc gagcccatga tcaagcccag caccagcacc atggaggtgc agacggatcc
15720
ctggatgcca tcggctccta gtcgaagacc ccggcgcaag tacggcgcgg ccagcctgct
15780
gatgcccaac tacgcgctgc atccttccat catccccacg ccgggctacc gcggcacgcg
15840
cttctaccgc ggtcatacca gcagccgccg ccgcaagacc accactcgcc gccgccgtcg
15900
ccgcaccgcc gctgcaacca cccctgccgc cctggtgcgg agagtgtacc gccgcggccg
15960
cgcacctctg accctgccgc gcgcgcgcta ccacccgagc atcgccattt aaactttcgc
16020
ctgctttgca gatcaatggc cctcacatgc cgccttcgcg ttcccattac gggctaccga
16080
ggaagaaaac cgcgccgtag aaggctggcg gggaacggga tgcgtcgcca ccaccaccgg
16140
cggcggcgcg ccatcagcaa gcggttgggg ggaggcttcc tgcccgcgct gatccccatc
16200
atcgccgcgg cgatcggggc gatccccggc attgcttccg tggcggtgca ggcctctcag
16260
cgccactgag acacacttgg aaacatcttg taataaacca atggactctg acgctcctgg
16320
tcctgtgatg tgttttcgta gacagatgga agacatcaat ttttcgtccc tggctccgcg
16380
acacggcacg cggccgttca tgggcacctg gagcgacatc ggcaccagcc aactgaacgg
16440
gggcgccttc aattggagca gtctctggag cgggcttaag aatttcgggt ccacgcttaa
16500
aacctatggc agcaaggcgt ggaacagcac cacagggcag gcgctgaggg ataagctgaa
16560
agagcagaac ttccagcaga aggtggtcga tgggctcgcc tcgggcatca acggggtggt
16620
ggacctggcc aaccaggccg tgcagcggca gatcaacagc cgcctggacc cggtgccgcc
16680
cgccggctcc gtggagatgc cgcaggtgga ggaggagctg cctcccctgg acaagcgggg
16740
cgagaagcga ccccgccccg atgcggagga gacgctgctg acgcacacgg acgagccgcc
16800
cccgtacgag gaggcggtga aactgggtct gcccaccacg cggcccatcg cgcccctggc
16860
caccggggtg ctgaaacccg aaaagcccgc gaccctggac ttgcctcctc cccagccttc
16920
ccgcccctct acagtggcta agcccctgcc gccggtggcc gtggcccgcg cgcgacccgg
16980
gggcaccgcc cgccctcatg cgaactggca gagcactctg aacagcatcg tgggtctggg
17040
agtgcagagt gtgaagcgcc gccgctgcta ttaaacctac cgtagcgctt aacttgcttg
17100
tctgtgtgtg tatgtattat gtcgccgccg ccgctgtcca ccagaaggag gagtgaagag
17160
gcgcgtcgcc gagttgcaag atggccaccc catcgatgct gccccagtgg gcgtacatgc
17220
acatcgccgg acaggacgct tcggagtacc tgagtccggg tctggtgcag tttgcccgcg
17280
ccacagacac ctacttcagt ctggggaaca agtttaggaa ccccacggtg gcgcccacgc
17340
acgatgtgac caccgaccgc agccagcggc tgacgctgcg cttcgtgccc gtggaccgcg
17400
aggacaacac ctactcgtac aaagtgcgct acacgctggc cgtgggcgac aaccgcgtgc
17460
tggacatggc cagcacctac tttgacatcc gcggcgtgct ggatcggggc cctagcttca
17520
aaccctactc cggcaccgcc tacaacagtc tggcccccaa gggagcaccc aacacttgtc
17580
agtggacata taaagccgat ggtgaaactg ccacagaaaa aacctataca tatggaaatg
17640
cacccgtgca gggcattaac atcacaaaag atggtattca acttggaact gacaccgatg
17700
atcagccaat ctacgcagat aaaacctatc agcctgaacc tcaagtgggt gatgctgaat
17760
ggcatgacat cactggtact gatgaaaagt atggaggcag agctcttaag cctgatacca
17820
aaatgaagcc ttgttatggt tcttttgcca agcctactaa taaagaagga ggtcaggcaa
17880
atgtgaaaac aggaacaggc actactaaag aatatgacat agacatggct ttctttgaca
17940
acagaagtgc ggctgctgct ggcctagctc cagaaattgt tttgtatact gaaaatgtgg
18000
atttggaaac tccagatacc catattgtat acaaagcagg cacagatgac agcagctctt
18060
ctattaattt gggtcagcaa gccatgccca acagacctaa ctacattggt ttcagagaca
18120
actttatcgg gctcatgtac tacaacagca ctggcaatat gggggtgctg gccggtcagg
18180
cttctcagct gaatgctgtg gttgacttgc aagacagaaa caccgagctg tcctaccagc
18240
tcttgcttga ctctctgggt gacagaaccc ggtatttcag tatgtggaat caggcggtgg
18300
acagctatga tcctgatgtg cgcattattg aaaatcatgg tgtggaggat gaacttccca
18360
actattgttt ccctctggat gctgttggca gaacagatac ttatcaggga attaaggcta
18420
atggaactga tcaaaccaca tggaccaaag atgacagtgt caatgatgct aatgagatag
18480
gcaagggtaa tccattcgcc atggaaatca acatccaagc caacctgtgg aggaacttcc
18540
tctacgccaa cgtggccctg tacctgcccg actcttacaa gtacacgccg gccaatgtta
18600
ccctgcccac caacaccaac acctacgatt acatgaacgg ccgggtggtg gcgccctcgc
18660
tggtggactc ctacatcaac atcggggcgc gctggtcgct ggatcccatg gacaacgtga
18720
accccttcaa ccaccaccgc aatgcggggc tgcgctaccg ctccatgctc ctgggcaacg
18780
ggcgctacgt gcccttccac atccaggtgc cccagaaatt tttcgccatc aagagcctcc
18840
tgctcctgcc cgggtcctac acctacgagt ggaacttccg caaggacgtc aacatgatcc
18900
tgcagagctc cctcggcaac gacctgcgca cggacggggc ctccatctcc ttcaccagca
18960
tcaacctcta cgccaccttc ttccccatgg cgcacaacac ggcctccacg ctcgaggcca
19020
tgctgcgcaa cgacaccaac gaccagtcct tcaacgacta cctctcggcg gccaacatgc
19080
tctaccccat cccggccaac gccaccaacg tgcccatctc catcccctcg cgcaactggg
19140
ccgccttccg cggctggtcc ttcacgcgtc tcaagaccaa ggagacgccc tcgctgggct
19200
ccgggttcga cccctacttc gtctactcgg gctccatccc ctacctcgac ggcaccttct
19260
acctcaacca caccttcaag aaggtctcca tcaccttcga ctcctccgtc agctggcccg
19320
gcaacgaccg gctcctgacg cccaacgagt tcgaaatcaa gcgcaccgtc gacggcgagg
19380
gctacaacgt ggcccagtgc aacatgacca aggactggtt cctggtccag atgctggccc
19440
actacaacat cggctaccag ggcttctacg tgcccgaggg ctacaaggac cgcatgtact
19500
ccttcttccg caacttccag cccatgagcc gccaggtggt ggacgaggtc aactacaagg
19560
actaccaggc cgtcaccctg gcctaccagc acaacaactc gggcttcgtc ggctacctcg
19620
cgcccaccat gcgccagggc cagccctacc ccgccaacta cccctacccg ctcatcggca
19680
agagcgccgt caccagcgtc acccagaaaa agttcctctg cgacagggtc atgtggcgca
19740
tccccttctc cagcaacttc atgtccatgg gcgcgctcac cgacctcggc cagaacatgc
19800
tctatgccaa ctccgcccac gcgctagaca tgaatttcga agtcgacccc atggatgagt
19860
ccacccttct ctatgttgtc ttcgaagtct tcgacgtcgt ccgagtgcac cagccccacc
19920
gcggcgtcat cgaggccgtc tacctgcgca cccccttctc ggccggtaac gccaccacct
19980
aagctcttgc ttcttgcaag ccatggccgc gggctccggc gagcaggagc tcagggccat
20040
catccgcgac ctgggctgcg ggccctactt cctgggcacc ttcgataagc gcttcccggg
20100
attcatggcc ccgcacaagc tggcctgcgc catcgtcaac acggccggcc gcgagaccgg
20160
gggcgagcac tggctggcct tcgcctggaa cccgcgctcg aacacctgct acctcttcga
20220
ccccttcggg ttctcggacg agcgcctcaa gcagatctac cagttcgagt acgagggcct
20280
gctgcgccgc agcgccctgg ccaccgagga ccgctgcgtc accctggaaa agtccaccca
20340
gaccgtgcag ggtccgcgct cggccgcctg cgggctcttc tgctgcatgt tcctgcacgc
20400
cttcgtgcac tggcccgacc gccccatgga caagaacccc accatgaact tgctgacggg
20460
ggtgcccaac ggcatgctcc agtcgcccca ggtggaaccc accctgcgcc gcaaccagga
20520
ggcgctctac cgcttcctca actcccactc cgcctacttt cgctcccacc gcgcgcgcat
20580
cgagaaggcc accgccttcg accgcatgaa tcaagacatg taaaccgtgt gtgtatgtta
20640
aatgtcttta ataaacagca ctttcatgtt acacatgcat ctgagatgat ttatttagaa
20700
atcgaaaggg ttctgccggg tctcggcatg gcccgcgggc agggacacgt tgcggaactg
20760
gtacttggcc agccacttga actcggggat cagcagtttg ggcagcgggg tgtcggggaa
20820
ggagtcggtc cacagcttcc gcgtcagttg cagggcgccc agcaggtcgg gcgcggagat
20880
cttgaaatcg cagttgggac ccgcgttctg cgcgcgggag ttgcggtaca cggggttgca
20940
gcactggaac accatcaggg ccgggtgctt cacgctcgcc agcaccgtcg cgtcggtgat
21000
gctctccacg tcgaggtcct cggcgttggc catcccgaag ggggtcatct tgcaggtctg
21060
ccttcccatg gtgggcacgc acccgggctt gtggttgcaa tcgcagtgca gggggatcag
21120
catcatctgg gcctggtcgg cgttcatccc cgggtacatg gccttcatga aagcctccaa
21180
ttgcctgaac gcctgctggg ccttggctcc ctcggtgaag aagaccccgc aggacttgct
21240
agagaactgg ttggtggcgc acccggcgtc gtgcacgcag cagcgcgcgt cgttgttggc
21300
cagctgcacc acgctgcgcc cccagcggtt ctgggtgatc ttggcccggt cggggttctc
21360
cttcagcgcg cgctgcccgt tctcgctcgc cacatccatc tcgatcatgt gctccttctg
21420
gatcatggtg gtcccgtgca ggcaccgcag cttgccctcg gcctcggtgc acccgtgcag
21480
ccacagcgcg cacccggtgc actcccagtt cttgtgggcg atctgggaat gcgcgtgcac
21540
gaagccctgc aggaagcggc ccatcatggt ggtcagggtc ttgttgctag tgaaggtcag
21600
cggaatgccg cggtgctcct cgttgatgta caggtggcag atgcggcggt acacctcgcc
21660
ctgctcgggc atcagctgga agttggcttt caggtcggtc tccacgcggt agcggtccat
21720
cagcatagtc atgatttcca tacccttctc ccaggccgag acgatgggca ggctcatagg
21780
gttcttcacc atcatcttag cgctagcagc cgcggccagg gggtcgctct cgtccagggt
21840
ctcaaagctc cgcttgccgt ccttctcggt gatccgcacc ggggggtagc tgaagcccac
21900
ggccgccagc tcctcctcgg cctgtctttc gtcctcgctg tcctggctga cgtcctgcag
21960
gaccacatgc ttggtcttgc ggggtttctt cttgggcggc agcggcggcg gagatgttgg
22020
agatggcgag ggggagcgcg agttctcgct caccactact atctcttcct cttcttggtc
22080
cgaggccacg cggcggtagg tatgtctctt cgggggcaga ggcggaggcg acgggctctc
22140
gccgccgcga cttggcggat ggctggcaga gccccttccg cgttcggggg tgcgctcccg
22200
gcggcgctct gactgacttc ctccgcggcc ggccattgtg ttctcctagg gaggaacaac
22260
aagcatggag actcagccat cgccaacctc gccatctgcc cccaccgccg acgagaagca
22320
gcagcagcag aatgaaagct taaccgcccc gccgcccagc cccgccacct ccgacgcggc
22380
cgtcccagac atgcaagaga tggaggaatc catcgagatt gacctgggct atgtgacgcc
22440
cgcggagcac gaggaggagc tggcagtgcg cttttcacaa gaagagatac accaagaaca
22500
gccagagcag gaagcagaga atgagcagag tcaggctggg ctcgagcatg acggcgacta
22560
cctccacctg agcggggggg aggacgcgct catcaagcat ctggcccggc aggccaccat
22620
cgtcaaggat gcgctgctcg accgcaccga ggtgcccctc agcgtggagg agctcagccg
22680
cgcctacgag ttgaacctct tctcgccgcg cgtgcccccc aagcgccagc ccaatggcac
22740
ctgcgagccc aacccgcgcc tcaacttcta cccggtcttc gcggtgcccg aggccctggc
22800
cacctaccac atctttttca agaaccaaaa gatccccgtc tcctgccgcg ccaaccgcac
22860
ccgcgccgac gcccttttca acctgggtcc cggcgcccgc ctacctgata tcgcctcctt
22920
ggaagaggtt cccaagatct tcgagggtct gggcagcgac gagactcggg ccgcgaacgc
22980
tctgcaagga gaaggaggag agcatgagca ccacagcgcc ctggtcgagt tggaaggcga
23040
caacgcgcgg ctggcggtgc tcaaacgcac ggtcgagctg acccatttcg cctacccggc
23100
tctgaacctg ccccccaaag tcatgagcgc ggtcatggac caggtgctca tcaagcgcgc
23160
gtcgcccatc tccgaggacg agggcatgca agactccgag gagggcaagc ccgtggtcag
23220
cgacgagcag ctggcccggt ggctgggtcc taatgctagt ccccagagtt tggaagagcg
23280
gcgcaaactc atgatggccg tggtcctggt gaccgtggag ctggagtgcc tgcgccgctt
23340
cttcgccgac gcggagaccc tgcgcaaggt cgaggagaac ctgcactacc tcttcaggca
23400
cgggttcgtg cgccaggcct gcaagatctc caacgtggag ctgaccaacc tggtctccta
23460
catgggcatc ttgcacgaga accgcctggg gcagaacgtg ctgcacacca ccctgcgcgg
23520
ggaggcccgg cgcgactaca tccgcgactg cgtctacctc tacctctgcc acacctggca
23580
gacgggcatg ggcgtgtggc agcagtgtct ggaggagcag aacctgaaag agctctgcaa
23640
gctcctgcag aagaacctca agggtctgtg gaccgggttc gacgagcgca ccaccgcctc
23700
ggacctggcc gacctcattt tccccgagcg cctcaggctg acgctgcgca acggcctgcc
23760
cgactttatg agccaaagca tgttgcaaaa ctttcgctct ttcatcctcg aacgctccgg
23820
aatcctgccc gccacctgct ccgcgctgcc ctcggacttc gtgccgctga ccttccgcga
23880
gtgccccccg ccgctgtgga gccactgcta cctgctgcgc ctggccaact acctggccta
23940
ccactcggac gtgatcgagg acgtcagcgg cgagggcctg ctcgagtgcc actgccgctg
24000
caacctctgc acgccgcacc gctccctggc ctgcaacccc cagctgctga gcgagaccca
24060
gatcatcggc accttcgagt tgcaagggcc cagcgaaggc gagggttcag ccgccaaggg
24120
gggtctgaaa ctcaccccgg ggctgtggac ctcggcctac ttgcgcaagt tcgtgcccga
24180
ggactaccat cccttcgaga tcaggttcta cgaggaccaa tcccatccgc ccaaggccga
24240
gctgtcggcc tgcgtcatca cccagggggc gatcctggcc caattgcaag ccatccagaa
24300
atcccgccaa gaattcttgc tgaaaaaggg ccgcggggtc tacctcgacc cccagaccgg
24360
tgaggagctc aaccccggct tcccccagga tgccccgagg aaacaagaag ctgaaagtgg
24420
agctgccgcc cgtggaggat ttggaggaag actgggagaa cagcagtcag gcagaggagg
24480
aggagatgga ggaagactgg gacagcactc aggcagagga ggacagcctg caagacagtc
24540
tggaggaaga cgaggaggag gcagaggagg aggtggaaga agcagccgcc gccagaccgt
24600
cgtcctcggc gggggagaaa gcaagcagca cggataccat ctccgctccg ggtcggggtc
24660
ccgctcgacc acacagtaga tgggacgaga ccggacgatt cccgaacccc accacccaga
24720
ccggtaagaa ggagcggcag ggatacaagt cctggcgggg gcacaaaaac gccatcgtct
24780
cctgcttgca ggcctgcggg ggcaacatct ccttcacccg gcgctacctg ctcttccacc
24840
gcggggtgaa ctttccccgc aacatcttgc attactaccg tcacctccac agcccctact
24900
acttccaaga agaggcagca gcagcagaaa aagaccagca gaaaaccagc agctagaaaa
24960
tccacagcgg cggcagcagg tggactgagg atcgcggcga acgagccggc gcaaacccgg
25020
gagctgagga accggatctt tcccaccctc tatgccatct tccagcagag tcgggggcag
25080
gagcaggaac tgaaagtcaa gaaccgttct ctgcgctcgc tcacccgcag ttgtctgtat
25140
cacaagagcg aagaccaact tcagcgcact ctcgaggacg ccgaggctct cttcaacaag
25200
tactgcgcgc tcactcttaa agagtagccc gcgcccgccc agtcgcagaa aaaggcggga
25260
attacgtcac ctgtgccctt cgccctagcc gcctccaccc atcatcatga gcaaagagat
25320
tcccacgcct tacatgtgga gctaccagcc ccagatgggc ctggccgccg gtgccgccca
25380
ggactactcc acccgcatga attggctcag cgccgggccc gcgatgatct cacgggtgaa
25440
tgacatccgc gcccaccgaa accagatact cctagaacag tcagcgctca ccgccacgcc
25500
ccgcaatcac ctcaatccgc gtaattggcc cgccgccctg gtgtaccagg aaattcccca
25560
gcccacgacc gtactacttc cgcgagacgc ccaggccgaa gtccagctga ctaactcagg
25620
tgtccagctg gcgggcggcg ccaccctgtg tcgtcaccgc cccgctcagg gtataaagcg
25680
gctggtgatc cggggcagag gcacacagct caacgacgag gtggtgagct cttcgctggg
25740
tctgcgacct gacggagtct tccaactcgc cggatcgggg agatcttcct tcacgcctcg
25800
tcaggccgtc ctgactttgg agagttcgtc ctcgcagccc cgctcgggtg gcatcggcac
25860
tctccagttc gtggaggagt tcactccctc ggtctacttc aaccccttct ccggctcccc
25920
cggccactac ccggacgagt tcatcccgaa cttcgacgcc atcagcgagt cggtggacgg
25980
ctacgattga atgtcccatg gtggcgcagc tgacctagct cggcttcgac acctggacca
26040
ctgccgccgc ttccgctgct tcgctcggga tctcgccgag tttgcctact ttgagctgcc
26100
cgaggagcac cctcagggcc cggcccacgg agtgcggatc gtcgtcgaag ggggcctcga
26160
ctcccacctg cttcggatct tcagccagcg tccgatcctg gtcgagcgcg agcaaggaca
26220
gacccttctg actctgtact gcatctgcaa ccaccccggc ctgcatgaaa gtctttgttg
26280
tctgctgtgt actgagtata ataaaagctg agatcagcga ctactccgga cttccgtgtg
26340
ttcctgaatc catcaaccag tctttgttct tcaccgggaa cgagaccgag ctccagctcc
26400
agtgtaagcc ccacaagaag tacctcacct ggctgttcca gggctccccg atcgccgttg
26460
tcaaccactg cgacaacgac ggagtcctgc tgagcggccc tgccaacctt actttttcca
26520
cccgcagaag caagctccag ctcttccaac ccttcctccc cgggacctat cagtgcgtct
26580
cgggaccctg ccatcacacc ttccacctga tcccgaatac cacagcgtcg ctccccgcta
26640
ctaacaacca aactaacctc caccaacgcc accgtcgcga cggccacaat acatgcccat
26700
attagactat gaggccgagc cacagcgacc catgctcccc gctattagtt acttcaatct
26760
aaccggcgga gatgactgac ccactggcca acaacaacgt caacgacctt ctcctggaca
26820
tggacggccg cgcctcggag cagcgactcg cccaacttcg cattcgccag cagcaggaga
26880
gagccgtcaa ggagctgcag gatgcggtgg ccatccacca gtgcaagaga ggcatcttct
26940
gcctggtgaa acaggccaag atctcctacg aggtcactcc aaacgaccat cgcctctcct
27000
acgagctcct gcagcagcgc cagaagttca cctgcctggt cggagtcaac cccatcgtca
27060
tcacccagca gtctggcgat accaaggggt gcatccactg ctcctgcgac tcccccgact
27120
gcgtccacac tctgatcaag accctctgcg gcctccgcga cctcctcccc atgaactaat
27180
caccccctta tccagtgaaa taaagatcat attgatgatg attttacaga aataaaaaat
27240
aatcatttga tttgaaataa agatacaatc atattgatga tttgagttta acaaaaaaat
27300
aaagaatcac ttacttgaaa tctgatacca ggtctctgtc catgttttct gccaacacca
27360
cttcactccc ctcttcccag ctctggtact gcaggccccg gcgggctgca aacttcctcc
27420
acacgctgaa ggggatgtca aattcctcct gtccctcaat cttcatttta tcttctatca
27480
gatgtccaaa aagcgcgtcc gggtggatga tgacttcgac cccgtctacc cctacgatgc
27540
agacaacgca ccgaccgtgc ccttcatcaa cccccccttc gtctcttcag atggattcca
27600
agagaagccc ctgggggtgt tgtccctgcg actggccgac cccgtcacca ccaagaacgg
27660
ggaaatcacc ctcaagctgg gagagggggt ggacctcgat tcctcgggaa aactcatctc
27720
caacacggcc accaaggccg ccgcccctct cagtttttcc aacaacacca tttcccttaa
27780
catggatcac cccttttaca ctaaagatgg aaaattatcc ttacaagttt ctccaccatt
27840
aaatatactg agaacaagca ttctaaacac actagcttta ggttttggat caggtttagg
27900
actccgtggc tctgccttgg cagtacagtt agtctctcca cttacatttg atactgatgg
27960
aaacataaag cttaccttag acagaggttt gcatgttaca acaggagatg caattgaaag
28020
caacataagc tgggctaaag gtttaaaatt tgaagatgga gccatagcaa ccaacattgg
28080
aaatgggtta gagtttggaa gcagtagtac agaaacaggt gttgatgatg cttacccaat
28140
ccaagttaaa cttggatctg gccttagctt tgacagtaca ggagccataa tggctggtaa
28200
caaagaagac gataaactca ctttgtggac aacacctgat ccatcaccaa actgtcaaat
28260
actcgcagaa aatgatgcaa aactaacact ttgcttgact aaatgtggta gtcaaatact
28320
ggccactgtg tcagtcttag ttgtaggaag tggaaaccta aaccccatta ctggcaccgt
28380
aagcagtgct caggtgtttc tacgttttga tgcaaacggt gttcttttaa cagaacattc
28440
tacactaaaa aaatactggg ggtataggca gggagatagc atagatggca ctccatatac
28500
caatgctgta ggattcatgc ccaatttaaa agcttatcca aagtcacaaa gttctactac
28560
taaaaataat atagtagggc aagtatacat gaatggagat gtttcaaaac ctatgcttct
28620
cactataacc ctcaatggta ctgatgacag caacagtaca tattcaatgt cattttcata
28680
cacctggact aatggaagct atgttggagc aacatttggg gctaactctt ataccttctc
28740
atacatcgcc caagaatgaa cactgtatcc caccctgcat gccaaccctt cccaccccac
28800
tctgtggaac aaactctgaa acacaaaata aaataaagtt caagtgtttt attgattcaa
28860
cagttttaca ggattcgagc agttattttt cctccaccct cccaggacat ggaatacacc
28920
accctctccc cccgcacagc cttgaacatc tgaatgccat tggtgatgga catgcttttg
28980
gtctccacgt tccacacagt ttcagagcga gccagtctcg ggtcggtcag ggagatgaaa
29040
ccctccgggc actcccgcat ctgcacctca cagctcaaca gctgaggatt gtcctcggtg
29100
gtcgggatca cggttatctg gaagaagcag aagagcggcg gtgggaatca tagtccgcga
29160
acgggatcgg ccggtggtgt cgcatcaggc cccgcagcag tcgctgccgc cgccgctccg
29220
tcaagctgct gctcaggggg tccgggtcca gggactccct cagcatgatg cccacggccc
29280
tcagcatcag tcgtctggtg cggcgggcgc agcagcgcat gcggatctcg ctcaggtcgc
29340
tgcagtacgt gcaacacaga accaccaggt tgttcaacag tccatagttc aacacgctcc
29400
agccgaaact catcgcggga aggatgctac ccacgtggcc gtcgtaccag atcctcaggt
29460
aaatcaagtg gtgccccctc cagaacacgc tgcccacgta catgatctcc ttgggcatgt
29520
ggcggttcac cacctcccgg taccacatca ccctctggtt gaacatgcag ccccggatga
29580
tcctgcggaa ccacagggcc agcaccgccc cgcccgccat gcagcgaaga gaccccgggt
29640
cccggcaatg gcaatggagg acccaccgct cgtacccgtg gatcatctgg gagctgaaca
29700
agtctatgtt ggcacagcac aggcatatgc tcatgcatct cttcagcact ctcaactcct
29760
cgggggtcaa aaccatatcc cagggcacgg ggaactcttg caggacagcg aaccccgcag
29820
aacagggcaa tcctcgcaca gaacttacat tgtgcatgga cagggtatcg caatcaggca
29880
gcaccgggtg atcctccacc agagaagcgc gggtctcggt ctcctcacag cgtggtaagg
29940
gggccggccg atacgggtga tggcgggacg cggctgatcg tgttcgcgac cgtgtcatga
30000
tgcagttgct ttcggacatt ttcgtacttg ctgtagcaga acctggtccg ggcgctgcac
30060
accgatcgcc ggcggcggtc tcggcgcttg gaacgctcgg tgttgaaatt gtaaaacagc
30120
cactctctca gaccgtgcag cagatctagg gcctcaggag tgatgaagat cccatcatgc
30180
ctgatggctc tgatcacatc gaccaccgtg gaatgggcca gacccagcca gatgatgcaa
30240
ttttgttggg tttcggtgac ggcgggggag ggaagaacag gaagaaccat gattaacttt
30300
taatccaaac ggtctcggag tacttcaaaa tgaagatcgc ggagatggca cctctcgccc
30360
ccgctgtgtt ggtggaaaat aacagccagg tcaaaggtga tacggttctc gagatgttcc
30420
acggtggctt ccagcaaagc ctccacgcgc acatccagaa acaagacaat agcgaaagcg
30480
ggagggttct ctaattcctc aatcatcatg ttacactcct gcaccatccc cagataattt
30540
tcatttttcc agccttgaat gattcgaact agttcgtgag gtaaatccaa gccagccatg
30600
ataaagagct cgcgcagagc gccctccacc ggcattctta agcacaccct cataattcca
30660
agatattctg ctcctggttc acctgcagca gattgacaag cggaatatca aaatctctgc
30720
cgcgatccct gagctcctcc ctcagcaata actgtaagta ctctttcata tcctctccga
30780
aatttttagc cataggacca ccaggaataa gattagggca agccacagta cagataaacc
30840
gaagtcctcc ccagtgagca ttgccaaatg caagactgct ataagcatgc tggctagacc
30900
cggtgatatc ttccagataa ctggacagaa aatcgcccag gcaattttta agaaaatcaa
30960
caaaagaaaa atcctccagg tggacgttta gagcctcggg aacaacgatg aagtaaatgc
31020
aagcggtgcg ttccagcatg gttagttagc tgatctgtag aaaaaacaaa aatgaacatt
31080
aaaccatgct agcctggcga acaggtgggt aaatcgttct ctccagcacc aggcaggcca
31140
cggggtctcc ggcgcgaccc tcgtaaaaat tgtcgctatg attgaaaacc atcacagaga
31200
gacgttcccg gtggccggcg tgaatgattc gacaagatga atacaccccc ggaacattgg
31260
cgtccgcgag tgaaaaaaag cgcccgagga agcaataagg cactacaatg ctcagtctca
31320
agtccagcaa agcgatgcca tgcggatgaa gcacaaaatt ctcaggtgcg tacaaaatgt
31380
aattactccc ctcctgcaca ggcagcaaag cccccgatcc ctccaggtac acatacaaag
31440
cctcagcgtc catagcttac cgagcagcag cacacaacag gcgcaagagt cagagaaagg
31500
ctgagctcta acctgtccac ccgctctctg ctcaatatat agcccagatc tacactgacg
31560
taaaggccaa agtctaaaaa tacccgccaa ataatcacac acgcccagca cacgcccaga
31620
aaccggtgac acactcaaaa aaatacgcgc acttcctcaa acgcccaaaa ctgccgtcat
31680
ttccgggttc ccacgctacg tcatcaaaac acgactttca aattccgtcg accgttaaaa
31740
acgtcacccg ccccgcccct aacggtcgcc cgtctctcag ccaatcagcg ccccgcatcc
31800
ccaaattcaa acacctcatt tgcatattaa cgcgcacaaa aagtttgagg tatattattg
31860
atgatgg
31867
<210> 12
<211> 32788
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 12
ccatcttcaa taatatacct caaacttttt gtgcgcgtta atatgcaaat gaggcgtttg
60
aatttgggga ggaagggcgg tgattggtcg agggatgagc gaccgttagg ggcggggcga
120
gtgacgtttt gatgacgtgg ttgcgaggag gagccagttt gcaagttctc gtgggaaaag
180
tgacgtcaaa cgaggtgtgg tttgaacacg gaaatactca attttcccgc gctctctgac
240
aggaaatgag gtgtttctgg gcggatgcaa gtgaaaacgg gccattttcg cgcgaaaact
300
gaatgaggaa gtgaaaatct gagtaatttc gcgtttatgg cagggaggag tatttgccga
360
gggccgagta gactttgacc gattacgtgg gggtttcgat taccgtgttt ttcacctaaa
420
tttccgcgta cggtgtcaaa gtccggtgtt tttacgtagg tgtcagctga tcgccagggt
480
atttaaacct gcgctctcca gtcaagaggc cactcttgag tgccagcgag aagagttttc
540
tcctccgcgc cgcgagtcag atctacactt tgaaagtagg gataacaggg taatgacatt
600
gattattgac tagttgttaa tagtaatcaa ttacggggtc attagttcat agcccatata
660
tggagttccg cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc
720
cccgcccatt gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc
780
attgacgtca atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt
840
atcatatgcc aagtccgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt
900
atgcccagta catgacctta cgggactttc ctacttggca gtacatctac gtattagtca
960
tcgctattac catggtgatg cggttttggc agtacaccaa tgggcgtgga tagcggtttg
1020
actcacgggg atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc
1080
aaaatcaacg ggactttcca aaatgtcgta ataaccccgc cccgttgacg caaatgggcg
1140
gtaggcgtgt acggtgggag gtctatataa gcagagctcg tttagtgaac cgtcagatcg
1200
cctggaacgc catccacgct gttttgacct ccatagaaga cagcgatcgc gccaccatgg
1260
ccgggatgtt ccaggcactg tccgaaggct gcacacccta tgatattaac cagatgctga
1320
atgtcctggg agaccaccag gtctctggcc tggagcagct ggagagcatc atcaacttcg
1380
agaagctgac cgagtggaca agctccaatg tgatgcctat cctgtcccca ctgaccaagg
1440
gcatcctggg cttcgtgttt accctgacag tgccttctga gcggggcctg tcttgcatca
1500
gcgaggcaga cgcaaccaca ccagagtccg ccaatctggg cgaggagatc ctgtctcagc
1560
tgtacctgtg gccccgggtg acatatcact ccccttctta cgcctatcac cagttcgagc
1620
ggagagccaa gtacaagaga cacttcccag gctttggcca gtctctgctg ttcggctacc
1680
ccgtgtacgt gttcggcgat tgcgtgcagg gcgactggga tgccatccgg tttagatact
1740
gcgcaccacc tggatatgca ctgctgaggt gtaacgacac caattattcc gccctgctgg
1800
cagtgggcgc cctggagggc cctcgcaatc aggattggct gggcgtgcca aggcagctgg
1860
tgacacgcat gcaggccatc cagaacgcag gcctgtgcac cctggtggca atgctggagg
1920
agacaatctt ctggctgcag gcctttctga tggccctgac cgacagcggc cccaagacaa
1980
acatcatcgt ggattcccag tacgtgatgg gcatctccaa gccttctttc caggagtttg
2040
tggactggga gaacgtgagc ccagagctga attccaccga tcagccattc tggcaggcag
2100
gaatcctggc aaggaacctg gtgcctatgg tggccacagt gcagggccag aatctgaagt
2160
accagggcca gagcctggtc atcagcgcct ccatcatcgt gtttaacctg ctggagctgg
2220
agggcgacta tcgggacgat ggcaacgtgt gggtgcacac cccactgagc cccagaacac
2280
tgaacgcctg ggtgaaggcc gtggaggaga agaagggcat cccagtgcac ctggagctgg
2340
cctccatgac caatatggag ctgatgtcta gcatcgtgca ccagcaggtg aggacatacg
2400
gacccgtgtt catgtgcctg ggaggcctgc tgaccatggt ggcaggagcc gtgtggctga
2460
cagtgcgggt gctggagctg ttcagagccg cccagctggc caacgatgtg gtgctgcaga
2520
tcatggagct gtgcggagca gcctttcgcc aggtgtgcca caccacagtg ccatggccca
2580
atgcctccct gacccccaag tggaacaatg agacaacaca gcctcagatc gccaactgta
2640
gcgtgtacga cttcttcgtg tggctgcact actatagcgt gagggatacc ctgtggcccc
2700
gcgtgacata ccacatgaat aagtacgcct atcacatgct ggagaggcgc gccaagtata
2760
agagaggccc tggcccaggc gcaaagtttg tggcagcatg gaccctgaag gccgccgccg
2820
gccccggccc cggccagtat atcaaggcta acagtaagtt cattggaatc acagagctgg
2880
gacccggacc tggataatga gtttaaactc ccatttaaat gtgagggtta atgcttcgag
2940
cagacatgat aagatacatt gatgagtttg gacaaaccac aactagaatg cagtgaaaaa
3000
aatgctttat ttgtgaaatt tgtgatgcta ttgctttatt tgtaaccatt ataagctgca
3060
ataaacaagt taacaacaac aattgcattc attttatgtt tcaggttcag ggggagatgt
3120
gggaggtttt ttaaagcaag taaaacctct acaaatgtgg taaaataact ataacggtcc
3180
taaggtagcg agtgagtagt gttctggggc gggggaggac ctgcatgagg gccagaataa
3240
ctgaaatctg tgcttttctg tgtgttgcag cagcatgagc ggaagcggct cctttgaggg
3300
aggggtattc agcccttatc tgacggggcg tctcccctcc tgggcgggag tgcgtcagaa
3360
tgtgatggga tccacggtgg acggccggcc cgtgcagccc gcgaactctt caaccctgac
3420
ctatgcaacc ctgagctctt cgtcgttgga cgcagctgcc gccgcagctg ctgcatctgc
3480
cgccagcgcc gtgcgcggaa tggccatggg cgccggctac tacggcactc tggtggccaa
3540
ctcgagttcc accaataatc ccgccagcct gaacgaggag aagctgttgc tgctgatggc
3600
ccagctcgag gccttgaccc agcgcctggg cgagctgacc cagcaggtgg ctcagctgca
3660
ggagcagacg cgggccgcgg ttgccacggt gaaatccaaa taaaaaatga atcaataaat
3720
aaacggagac ggttgttgat tttaacacag agtctgaatc tttatttgat ttttcgcgcg
3780
cggtaggccc tggaccaccg gtctcgatca ttgagcaccc ggtggatctt ttccaggacc
3840
cggtagaggt gggcttggat gttgaggtac atgggcatga gcccgtcccg ggggtggagg
3900
tagctccatt gcagggcctc gtgctcgggg gtggtgttgt aaatcaccca gtcatagcag
3960
gggcgcaggg catggtgttg cacaatatct ttgaggagga gactgatggc cacgggcagc
4020
cctttggtgt aggtgtttac aaatctgttg agctgggagg gatgcatgcg gggggagatg
4080
aggtgcatct tggcctggat cttgagattg gcgatgttac cgcccagatc ccgcctgggg
4140
ttcatgttgt gcaggaccac cagcacggtg tatccggtgc acttggggaa tttatcatgc
4200
aacttggaag ggaaggcgtg aaagaatttg gcgacgcctt tgtgcccgcc caggttttcc
4260
atgcactcat ccatgatgat ggcgatgggc ccgtgggcgg cggcctgggc aaagacgttt
4320
cgggggtcgg acacatcata gttgtggtcc tgggtgaggt catcataggc cattttaatg
4380
aatttggggc ggagggtgcc ggactggggg acaaaggtac cctcgatccc gggggcgtag
4440
ttcccctcac agatctgcat ctcccaggct ttgagctcgg agggggggat catgtccacc
4500
tgcggggcga taaagaacac ggtttccggg gcgggggaga tgagctgggc cgaaagcaag
4560
ttccggagca gctgggactt gccgcagccg gtggggccgt agatgacccc gatgaccggc
4620
tgcaggtggt agttgaggga gagacagctg ccgtcctccc ggaggagggg ggccacctcg
4680
ttcatcatct cgcgcacgtg catgttctcg cgcaccagtt ccgccaggag gcgctctccc
4740
cccagggata ggagctcctg gagcgaggcg aagtttttca gcggcttgag tccgtcggcc
4800
atgggcattt tggagagggt ttgttgcaag agttccaggc ggtcccagag ctcggtgatg
4860
tgctctacgg catctcgatc cagcagacct cctcgtttcg cgggttggga cggctgcggg
4920
agtagggcac cagacgatgg gcgtccagcg cagccagggt ccggtccttc cagggtcgca
4980
gcgtccgcgt cagggtggtc tccgtcacgg tgaaggggtg cgcgccgggc tgggcgcttg
5040
cgagggtgcg cttcaggctc atccggctgg tcgaaaaccg ctcccgatcg gcgccctgcg
5100
cgtcggccag gtagcaattg accatgagtt cgtagttgag cgcctcggcc gcgtggcctt
5160
tggcgcggag cttacctttg gaagtctgcc cgcaggcggg acagaggagg gacttgaggg
5220
cgtagagctt gggggcgagg aagacggact cgggggcgta ggcgtccgcg ccgcagtggg
5280
cgcagacggt ctcgcactcc acgagccagg tgaggtcggg ctggtcgggg tcaaaaacca
5340
gtttcccgcc gttctttttg atgcgtttct tacctttggt ctccatgagc tcgtgtcccc
5400
gctgggtgac aaagaggctg tccgtgtccc cgtagaccga ctttatgggc cggtcctcga
5460
gcggtgtgcc gcggtcctcc tcgtagagga accccgccca ctccgagacg aaagcccggg
5520
tccaggccag cacgaaggag gccacgtggg acgggtagcg gtcgttgtcc accagcgggt
5580
ccaccttttc cagggtatgc aaacacatgt ccccctcgtc cacatccagg aaggtgattg
5640
gcttgtaagt gtaggccacg tgaccggggg tcccggccgg gggggtataa aagggtgcgg
5700
gtccctgctc gtcctcactg tcttccggat cgctgtccag gagcgccagc tgttggggta
5760
ggtattccct ctcgaaggcg ggcatgacct cggcactcag gttgtcagtt tctagaaacg
5820
aggaggattt gatattgacg gtgccggcgg agatgccttt caagagcccc tcgtccatct
5880
ggtcagaaaa gacgatcttt ttgttgtcga gcttggtggc gaaggagccg tagagggcgt
5940
tggagaggag cttggcgatg gagcgcatgg tctggttttt ttccttgtcg gcgcgctcct
6000
tggcggcgat gttgagctgc acgtactcgc gcgccacgca cttccattcg gggaagacgg
6060
tggtcagctc gtcgggcacg attctgacct gccagccccg attatgcagg gtgatgaggt
6120
ccacactggt ggccacctcg ccgcgcaggg gctcattagt ccagcagagg cgtccgccct
6180
tgcgcgagca gaaggggggc agggggtcca gcatgacctc gtcggggggg tcggcatcga
6240
tggtgaagat gccgggcagg aggtcggggt caaagtagct gatggaagtg gccagatcgt
6300
ccagggcagc ttgccattcg cgcacggcca gcgcgctctc gtagggactg aggggcgtgc
6360
cccagggcat gggatgggta agcgcggagg cgtacatgcc gcagatgtcg tagacgtaga
6420
ggggctcctc gaggatgccg atgtaggtgg ggtagcagcg ccccccgcgg atgctggcgc
6480
gcacgtagtc atacagctcg tgcgaggggg cgaggagccc cgggcccagg ttggtgcgac
6540
tgggcttttc ggcgcggtag acgatctggc ggaaaatggc atgcgagttg gaggagatgg
6600
tgggcctttg gaagatgttg aagtgggcgt ggggcagtcc gaccgagtcg cggatgaagt
6660
gggcgtagga gtcttgcagc ttggcgacga gctcggcggt gactaggacg tccagagcgc
6720
agtagtcgag ggtctcctgg atgatgtcat acttgagctg tcccttttgt ttccacagct
6780
cgcggttgag aaggaactct tcgcggtcct tccagtactc ttcgaggggg aacccgtcct
6840
gatctgcacg gtaagagcct agcatgtaga actggttgac ggccttgtag gcgcagcagc
6900
ccttctccac ggggagggcg taggcctggg cggccttgcg cagggaggtg tgcgtgaggg
6960
cgaaagtgtc cctgaccatg accttgagga actggtgctt gaagtcgata tcgtcgcagc
7020
ccccctgctc ccagagctgg aagtccgtgc gcttcttgta ggcggggttg ggcaaagcga
7080
aagtaacatc gttgaagagg atcttgcccg cgcggggcat aaagttgcga gtgatgcgga
7140
aaggttgggg cacctcggcc cggttgttga tgacctgggc ggcgagcacg atctcgtcga
7200
agccgttgat gttgtggccc acgatgtaga gttccacgaa tcgcggacgg cccttgacgt
7260
ggggcagttt cttgagctcc tcgtaggtga gctcgtcggg gtcgctgagc ccgtgctgct
7320
cgagcgccca gtcggcgaga tgggggttgg cgcggaggaa ggaagtccag agatccacgg
7380
ccagggcggt ttgcagacgg tcccggtact gacggaactg ctgcccgacg gccatttttt
7440
cgggggtgac gcagtagaag gtgcgggggt ccccgtgcca gcgatcccat ttgagctgga
7500
gggcgagatc gagggcgagc tcgacgagcc ggtcgtcccc ggagagtttc atgaccagca
7560
tgaaggggac gagctgcttg ccgaaggacc ccatccaggt gtaggtttcc acatcgtagg
7620
tgaggaagag cctttcggtg cgaggatgcg agccgatggg gaagaactgg atctcctgcc
7680
accaattgga ggaatggctg ttgatgtgat ggaagtagaa atgccgacgg cgcgccgaac
7740
actcgtgctt gtgtttatac aagcggccac agtgctcgca acgctgcacg ggatgcacgt
7800
gctgcacgag ctgtacctga gttcctttga cgaggaattt cagtgggaag tggagtcgtg
7860
gcgcctgcat ctcgtgctgt actacgtcgt ggtggtcggc ctggccctct tctgcctcga
7920
tggtggtcat gctgacgagc ccgcgcggga ggcaggtcca gacctcggcg cgagcgggtc
7980
ggagagcgag gacgagggcg cgcaggccgg agctgtccag ggtcctgaga cgctgcggag
8040
tcaggtcagt gggcagcggc ggcgcgcggt tgacttgcag gagtttttcc agggcgcgcg
8100
ggaggtccag atggtacttg atctccaccg cgccattggt ggcgacgtcg atggcttgca
8160
gggtcccgtg cccctggggt gtgaccaccg tcccccgttt cttcttgggc ggctggggcg
8220
acgggggcgg tgcctcttcc atggttagaa gcggcggcga ggacgcgcgc cgggcggcag
8280
gggcggctcg gggcccggag gcaggggcgg caggggcacg tcggcgccgc gcgcgggtag
8340
gttctggtac tgcgcccgga gaagactggc gtgagcgacg acgcgacggt tgacgtcctg
8400
gatctgacgc ctctgggtga aggccacggg acccgtgagt ttgaacctga aagagagttc
8460
gacagaatca atctcggtat cgttgacggc ggcctgccgc aggatctctt gcacgtcgcc
8520
cgagttgtcc tggtaggcga tctcggtcat gaactgctcg atctcctcct cttgaaggtc
8580
tccgcggccg gcgcgctcca cggtggccgc gaggtcgttg gagatgcggc ccatgagctg
8640
cgagaaggcg ttcatgcccg cctcgttcca gacgcggctg tagaccacga cgccctcggg
8700
atcgcgggcg cgcatgacca cctgggcgag gttgagctcc acgtggcgcg tgaagaccgc
8760
gtagttgcag aggcgctggt agaggtagtt gagcgtggtg gcgatgtgct cggtgacgaa
8820
gaaatacatg atccagcggc ggagcggcat ctcgctgacg tcgcccagcg cctccaaacg
8880
ttccatggcc tcgtaaaagt ccacggcgaa gttgaaaaac tgggagttgc gcgccgagac
8940
ggtcaactcc tcctccagaa gacggatgag ctcggcgatg gtggcgcgca cctcgcgctc
9000
gaaggccccc gggagttcct ccacttcctc ttcttcctcc tccactaaca tctcttctac
9060
ttcctcctca ggcggcagtg gtggcggggg agggggcctg cgtcgccggc ggcgcacggg
9120
cagacggtcg atgaagcgct cgatggtctc gccgcgccgg cgtcgcatgg tctcggtgac
9180
ggcgcgcccg tcctcgcggg gccgcagcgt gaagacgccg ccgcgcatct ccaggtggcc
9240
gggggggtcc ccgttgggca gggagagggc gctgacgatg catcttatca attgccccgt
9300
agggactccg cgcaaggacc tgagcgtctc gagatccacg ggatctgaaa accgctgaac
9360
gaaggcttcg agccagtcgc agtcgcaagg taggctgagc acggtttctt ctggcgggtc
9420
atgttggttg ggagcggggc gggcgatgct gctggtgatg aagttgaaat aggcggttct
9480
gagacggcgg atggtggcga ggagcaccag gtctttgggc ccggcttgct ggatgcgcag
9540
acggtcggcc atgccccagg cgtggtcctg acacctggcc aggtccttgt agtagtcctg
9600
catgagccgc tccacgggca cctcctcctc gcccgcgcgg ccgtgcatgc gcgtgagccc
9660
gaagccgcgc tggggctgga cgagcgccag gtcggcgacg acgcgctcgg cgaggatggc
9720
ttgctggatc tgggtgaggg tggtctggaa gtcatcaaag tcgacgaagc ggtggtaggc
9780
tccggtgttg atggtgtagg agcagttggc catgacggac cagttgacgg tctggtggcc
9840
cggacgcacg agctcgtggt acttgaggcg cgagtaggcg cgcgtgtcga agatgtagtc
9900
gttgcaggtg cgcaccaggt actggtagcc gatgaggaag tgcggcggcg gctggcggta
9960
gagcggccat cgctcggtgg cgggggcgcc gggcgcgagg tcctcgagca tggtgcggtg
10020
gtagccgtag atgtacctgg acatccaggt gatgccggcg gcggtggtgg aggcgcgcgg
10080
gaactcgcgg acgcggttcc agatgttgcg cagcggcagg aagtagttca tggtgggcac
10140
ggtctggccc gtgaggcgcg cgcagtcgtg gatgctctat acgggcaaaa acgaaagcgg
10200
tcagcggctc gactccgtgg cctggaggct aagcgaacgg gttgggctgc gcgtgtaccc
10260
cggttcgaat ctcgaatcag gctggagccg cagctaacgt ggtattggca ctcccgtctc
10320
gacccaagcc tgcaccaacc ctccaggata cggaggcggg tcgttttgca actttttttt
10380
ggaggccgga tgagactagt aagcgcggaa agcggccgac cgcgatggct cgctgccgta
10440
gtctggagaa gaatcgccag ggttgcgttg cggtgtgccc cggttcgagg ccggccggat
10500
tccgcggcta acgagggcgt ggctgccccg tcgtttccaa gaccccatag ccagccgact
10560
tctccagtta cggagcgagc ccctcttttg ttttgtttgt ttttgccaga tgcatcccgt
10620
actgcggcag atgcgccccc accaccctcc accgcaacaa cagccccctc cacagccggc
10680
gcttctgccc ccgccccagc agcaacttcc agccacgacc gccgcggccg ccgtgagcgg
10740
ggctggacag agttatgatc accagctggc cttggaagag ggcgaggggc tggcgcgcct
10800
gggggcgtcg tcgccggagc ggcacccgcg cgtgcagatg aaaagggacg ctcgcgaggc
10860
ctacgtgccc aagcagaacc tgttcagaga caggagcggc gaggagcccg aggagatgcg
10920
cgcggcccgg ttccacgcgg ggcgggagct gcggcgcggc ctggaccgaa agagggtgct
10980
gagggacgag gatttcgagg cggacgagct gacggggatc agccccgcgc gcgcgcacgt
11040
ggccgcggcc aacctggtca cggcgtacga gcagaccgtg aaggaggaga gcaacttcca
11100
aaaatccttc aacaaccacg tgcgcaccct gatcgcgcgc gaggaggtga ccctgggcct
11160
gatgcacctg tgggacctgc tggaggccat cgtgcagaac cccaccagca agccgctgac
11220
ggcgcagctg ttcctggtgg tgcagcatag tcgggacaac gaagcgttca gggaggcgct
11280
gctgaatatc accgagcccg agggccgctg gctcctggac ctggtgaaca ttctgcagag
11340
catcgtggtg caggagcgcg ggctgccgct gtccgagaag ctggcggcca tcaacttctc
11400
ggtgctgagt ttgggcaagt actacgctag gaagatctac aagaccccgt acgtgcccat
11460
agacaaggag gtgaagatcg acgggtttta catgcgcatg accctgaaag tgctgaccct
11520
gagcgacgat ctgggggtgt accgcaacga caggatgcac cgtgcggtga gcgccagcag
11580
gcggcgcgag ctgagcgacc aggagctgat gcatagtctg cagcgggccc tgaccggggc
11640
cgggaccgag ggggagagct actttgacat gggcgcggac ctgcactggc agcccagccg
11700
ccgggccttg gaggcggcgg caggacccta cgtagaagag gtggacgatg aggtggacga
11760
ggagggcgag tacctggaag actgatggcg cgaccgtatt tttgctagat gcaacaacaa
11820
cagccacctc ctgatcccgc gatgcgggcg gcgctgcaga gccagccgtc cggcattaac
11880
tcctcggacg attggaccca ggccatgcaa cgcatcatgg cgctgacgac ccgcaacccc
11940
gaagccttta gacagcagcc ccaggccaac cggctctcgg ccatcctgga ggccgtggtg
12000
ccctcgcgct ccaaccccac gcacgagaag gtcctggcca tcgtgaacgc gctggtggag
12060
aacaaggcca tccgcggcga cgaggccggc ctggtgtaca acgcgctgct ggagcgcgtg
12120
gcccgctaca acagcaccaa cgtgcagacc aacctggacc gcatggtgac cgacgtgcgc
12180
gaggccgtgg cccagcgcga gcggttccac cgcgagtcca acctgggatc catggtggcg
12240
ctgaacgcct tcctcagcac ccagcccgcc aacgtgcccc ggggccagga ggactacacc
12300
aacttcatca gcgccctgcg cctgatggtg accgaggtgc cccagagcga ggtgtaccag
12360
tccgggccgg actacttctt ccagaccagt cgccagggct tgcagaccgt gaacctgagc
12420
caggctttca agaacttgca gggcctgtgg ggcgtgcagg ccccggtcgg ggaccgcgcg
12480
acggtgtcga gcctgctgac gccgaactcg cgcctgctgc tgctgctggt ggcccccttc
12540
acggacagcg gcagcatcaa ccgcaactcg tacctgggct acctgattaa cctgtaccgc
12600
gaggccatcg gccaggcgca cgtggacgag cagacctacc aggagatcac ccacgtgagc
12660
cgcgccctgg gccaggacga cccgggcaac ctggaagcca ccctgaactt tttgctgacc
12720
aaccggtcgc agaagatccc gccccagtac gcgctcagca ccgaggagga gcgcatcctg
12780
cgttacgtgc agcagagcgt gggcctgttc ctgatgcagg agggggccac ccccagcgcc
12840
gcgctcgaca tgaccgcgcg caacatggag cccagcatgt acgccagcaa ccgcccgttc
12900
atcaataaac tgatggacta cttgcatcgg gcggccgcca tgaactctga ctatttcacc
12960
aacgccatcc tgaatcccca ctggctcccg ccgccggggt tctacacggg cgagtacgac
13020
atgcccgacc ccaatgacgg gttcctgtgg gacgatgtgg acagcagcgt gttctccccc
13080
cgaccgggtg ctaacgagcg ccccttgtgg aagaaggaag gcagcgaccg acgcccgtcc
13140
tcggcgctgt ccggccgcga gggtgctgcc gcggcggtgc ccgaggccgc cagtcctttc
13200
ccgagcttgc ccttctcgct gaacagtatc cgcagcagcg agctgggcag gatcacgcgc
13260
ccgcgcttgc tgggcgaaga ggagtacttg aatgactcgc tgttgagacc cgagcgggag
13320
aagaacttcc ccaataacgg gatagaaagc ctggtggaca agatgagccg ctggaagacg
13380
tatgcgcagg agcacaggga cgatccccgg gcgtcgcagg gggccacgag ccggggcagc
13440
gccgcccgta aacgccggtg gcacgacagg cagcggggac agatgtggga cgatgaggac
13500
tccgccgacg acagcagcgt gttggacttg ggtgggagtg gtaacccgtt cgctcacctg
13560
cgcccccgta tcgggcgcat gatgtaagag aaaccgaaaa taaatgatac tcaccaaggc
13620
catggcgacc agcgtgcgtt cgtttcttct ctgttgttgt tgtatctagt atgatgaggc
13680
gtgcgtaccc ggagggtcct cctccctcgt acgagagcgt gatgcagcag gcgatggcgg
13740
cggcggcgat gcagcccccg ctggaggctc cttacgtgcc cccgcggtac ctggcgccta
13800
cggaggggcg gaacagcatt cgttactcgg agctggcacc cttgtacgat accacccggt
13860
tgtacctggt ggacaacaag tcggcggaca tcgcctcgct gaactaccag aacgaccaca
13920
gcaacttcct gaccaccgtg gtgcagaaca atgacttcac ccccacggag gccagcaccc
13980
agaccatcaa ctttgacgag cgctcgcggt ggggcggcca gctgaaaacc atcatgcaca
14040
ccaacatgcc caacgtgaac gagttcatgt acagcaacaa gttcaaggcg cgggtgatgg
14100
tctcccgcaa gacccccaat ggggtgacag tgacagagga ttatgatggt agtcaggatg
14160
agctgaagta tgaatgggtg gaatttgagc tgcccgaagg caacttctcg gtgaccatga
14220
ccatcgacct gatgaacaac gccatcatcg acaattactt ggcggtgggg cggcagaacg
14280
gggtgctgga gagcgacatc ggcgtgaagt tcgacactag gaacttcagg ctgggctggg
14340
accccgtgac cgagctggtc atgcccgggg tgtacaccaa cgaggctttc catcccgata
14400
ttgtcttgct gcccggctgc ggggtggact tcaccgagag ccgcctcagc aacctgctgg
14460
gcattcgcaa gaggcagccc ttccaggaag gcttccagat catgtacgag gatctggagg
14520
ggggcaacat ccccgcgctc ctggatgtcg acgcctatga gaaaagcaag gaggatgcag
14580
cagctgaagc aactgcagcc gtagctaccg cctctaccga ggtcaggggc gataattttg
14640
caagcgccgc agcagtggca gcggccgagg cggctgaaac cgaaagtaag atagtcattc
14700
agccggtgga gaaggatagc aagaacagga gctacaacgt actaccggac aagataaaca
14760
ccgcctaccg cagctggtac ctagcctaca actatggcga ccccgagaag ggcgtgcgct
14820
cctggacgct gctcaccacc tcggacgtca cctgcggcgt ggagcaagtc tactggtcgc
14880
tgcccgacat gatgcaagac ccggtcacct tccgctccac gcgtcaagtt agcaactacc
14940
cggtggtggg cgccgagctc ctgcccgtct actccaagag cttcttcaac gagcaggccg
15000
tctactcgca gcagctgcgc gccttcacct cgcttacgca cgtcttcaac cgcttccccg
15060
agaaccagat cctcgtccgc ccgcccgcgc ccaccattac caccgtcagt gaaaacgttc
15120
ctgctctcac agatcacggg accctgccgc tgcgcagcag tatccgggga gtccagcgcg
15180
tgaccgttac tgacgccaga cgccgcacct gcccctacgt ctacaaggcc ctgggcatag
15240
tcgcgccgcg cgtcctctcg agccgcacct tctaaatgtc cattctcatc tcgcccagta
15300
ataacaccgg ttggggcctg cgcgcgccca gcaagatgta cggaggcgct cgccaacgct
15360
ccacgcaaca ccccgtgcgc gtgcgcgggc acttccgcgc tccctggggc gccctcaagg
15420
gccgcgtgcg gtcgcgcacc accgtcgacg acgtgatcga ccaggtggtg gccgacgcgc
15480
gcaactacac ccccgccgcc gcgcccgtct ccaccgtgga cgccgtcatc gacagcgtgg
15540
tggccgacgc gcgccggtac gcccgcgcca agagccggcg gcggcgcatc gcccggcggc
15600
accggagcac ccccgccatg cgcgcggcgc gagccttgct gcgcagggcc aggcgcacgg
15660
gacgcagggc catgctcagg gcggccagac gcgcggcttc aggcgccagc gccggcagga
15720
cccggagacg cgcggccacg gcggcggcag cggccatcgc cagcatgtcc cgcccgcggc
15780
gagggaacgt gtactgggtg cgcgacgccg ccaccggtgt gcgcgtgccc gtgcgcaccc
15840
gcccccctcg cacttgaaga tgttcacttc gcgatgttga tgtgtcccag cggcgaggag
15900
gatgtccaag cgcaaattca aggaagagat gctccaggtc atcgcgcctg agatctacgg
15960
ccctgcggtg gtgaaggagg aaagaaagcc ccgcaaaatc aagcgggtca aaaaggacaa
16020
aaaggaagaa gaaagtgatg tggacggatt ggtggagttt gtgcgcgagt tcgccccccg
16080
gcggcgcgtg cagtggcgcg ggcggaaggt gcaaccggtg ctgagacccg gcaccaccgt
16140
ggtcttcacg cccggcgagc gctccggcac cgcttccaag cgctcctacg acgaggtgta
16200
cggggatgat gatattctgg agcaggcggc cgagcgcctg ggcgagtttg cttacggcaa
16260
gcgcagccgt tccgcaccga aggaagaggc ggtgtccatc ccgctggacc acggcaaccc
16320
cacgccgagc ctcaagcccg tgaccttgca gcaggtgctg ccgaccgcgg cgccgcgccg
16380
ggggttcaag cgcgagggcg aggatctgta ccccaccatg cagctgatgg tgcccaagcg
16440
ccagaagctg gaagacgtgc tggagaccat gaaggtggac ccggacgtgc agcccgaggt
16500
caaggtgcgg cccatcaagc aggtggcccc gggcctgggc gtgcagaccg tggacatcaa
16560
gattcccacg gagcccatgg aaacgcagac cgagcccatg atcaagccca gcaccagcac
16620
catggaggtg cagacggatc cctggatgcc atcggctcct agtcgaagac cccggcgcaa
16680
gtacggcgcg gccagcctgc tgatgcccaa ctacgcgctg catccttcca tcatccccac
16740
gccgggctac cgcggcacgc gcttctaccg cggtcatacc agcagccgcc gccgcaagac
16800
caccactcgc cgccgccgtc gccgcaccgc cgctgcaacc acccctgccg ccctggtgcg
16860
gagagtgtac cgccgcggcc gcgcacctct gaccctgccg cgcgcgcgct accacccgag
16920
catcgccatt taaactttcg cctgctttgc agatcaatgg ccctcacatg ccgccttcgc
16980
gttcccatta cgggctaccg aggaagaaaa ccgcgccgta gaaggctggc ggggaacggg
17040
atgcgtcgcc accaccaccg gcggcggcgc gccatcagca agcggttggg gggaggcttc
17100
ctgcccgcgc tgatccccat catcgccgcg gcgatcgggg cgatccccgg cattgcttcc
17160
gtggcggtgc aggcctctca gcgccactga gacacacttg gaaacatctt gtaataaacc
17220
aatggactct gacgctcctg gtcctgtgat gtgttttcgt agacagatgg aagacatcaa
17280
tttttcgtcc ctggctccgc gacacggcac gcggccgttc atgggcacct ggagcgacat
17340
cggcaccagc caactgaacg ggggcgcctt caattggagc agtctctgga gcgggcttaa
17400
gaatttcggg tccacgctta aaacctatgg cagcaaggcg tggaacagca ccacagggca
17460
ggcgctgagg gataagctga aagagcagaa cttccagcag aaggtggtcg atgggctcgc
17520
ctcgggcatc aacggggtgg tggacctggc caaccaggcc gtgcagcggc agatcaacag
17580
ccgcctggac ccggtgccgc ccgccggctc cgtggagatg ccgcaggtgg aggaggagct
17640
gcctcccctg gacaagcggg gcgagaagcg accccgcccc gatgcggagg agacgctgct
17700
gacgcacacg gacgagccgc ccccgtacga ggaggcggtg aaactgggtc tgcccaccac
17760
gcggcccatc gcgcccctgg ccaccggggt gctgaaaccc gaaaagcccg cgaccctgga
17820
cttgcctcct ccccagcctt cccgcccctc tacagtggct aagcccctgc cgccggtggc
17880
cgtggcccgc gcgcgacccg ggggcaccgc ccgccctcat gcgaactggc agagcactct
17940
gaacagcatc gtgggtctgg gagtgcagag tgtgaagcgc cgccgctgct attaaaccta
18000
ccgtagcgct taacttgctt gtctgtgtgt gtatgtatta tgtcgccgcc gccgctgtcc
18060
accagaagga ggagtgaaga ggcgcgtcgc cgagttgcaa gatggccacc ccatcgatgc
18120
tgccccagtg ggcgtacatg cacatcgccg gacaggacgc ttcggagtac ctgagtccgg
18180
gtctggtgca gtttgcccgc gccacagaca cctacttcag tctggggaac aagtttagga
18240
accccacggt ggcgcccacg cacgatgtga ccaccgaccg cagccagcgg ctgacgctgc
18300
gcttcgtgcc cgtggaccgc gaggacaaca cctactcgta caaagtgcgc tacacgctgg
18360
ccgtgggcga caaccgcgtg ctggacatgg ccagcaccta ctttgacatc cgcggcgtgc
18420
tggatcgggg ccctagcttc aaaccctact ccggcaccgc ctacaacagt ctggccccca
18480
agggagcacc caacacttgt cagtggacat ataaagccga tggtgaaact gccacagaaa
18540
aaacctatac atatggaaat gcacccgtgc agggcattaa catcacaaaa gatggtattc
18600
aacttggaac tgacaccgat gatcagccaa tctacgcaga taaaacctat cagcctgaac
18660
ctcaagtggg tgatgctgaa tggcatgaca tcactggtac tgatgaaaag tatggaggca
18720
gagctcttaa gcctgatacc aaaatgaagc cttgttatgg ttcttttgcc aagcctacta
18780
ataaagaagg aggtcaggca aatgtgaaaa caggaacagg cactactaaa gaatatgaca
18840
tagacatggc tttctttgac aacagaagtg cggctgctgc tggcctagct ccagaaattg
18900
ttttgtatac tgaaaatgtg gatttggaaa ctccagatac ccatattgta tacaaagcag
18960
gcacagatga cagcagctct tctattaatt tgggtcagca agccatgccc aacagaccta
19020
actacattgg tttcagagac aactttatcg ggctcatgta ctacaacagc actggcaata
19080
tgggggtgct ggccggtcag gcttctcagc tgaatgctgt ggttgacttg caagacagaa
19140
acaccgagct gtcctaccag ctcttgcttg actctctggg tgacagaacc cggtatttca
19200
gtatgtggaa tcaggcggtg gacagctatg atcctgatgt gcgcattatt gaaaatcatg
19260
gtgtggagga tgaacttccc aactattgtt tccctctgga tgctgttggc agaacagata
19320
cttatcaggg aattaaggct aatggaactg atcaaaccac atggaccaaa gatgacagtg
19380
tcaatgatgc taatgagata ggcaagggta atccattcgc catggaaatc aacatccaag
19440
ccaacctgtg gaggaacttc ctctacgcca acgtggccct gtacctgccc gactcttaca
19500
agtacacgcc ggccaatgtt accctgccca ccaacaccaa cacctacgat tacatgaacg
19560
gccgggtggt ggcgccctcg ctggtggact cctacatcaa catcggggcg cgctggtcgc
19620
tggatcccat ggacaacgtg aaccccttca accaccaccg caatgcgggg ctgcgctacc
19680
gctccatgct cctgggcaac gggcgctacg tgcccttcca catccaggtg ccccagaaat
19740
ttttcgccat caagagcctc ctgctcctgc ccgggtccta cacctacgag tggaacttcc
19800
gcaaggacgt caacatgatc ctgcagagct ccctcggcaa cgacctgcgc acggacgggg
19860
cctccatctc cttcaccagc atcaacctct acgccacctt cttccccatg gcgcacaaca
19920
cggcctccac gctcgaggcc atgctgcgca acgacaccaa cgaccagtcc ttcaacgact
19980
acctctcggc ggccaacatg ctctacccca tcccggccaa cgccaccaac gtgcccatct
20040
ccatcccctc gcgcaactgg gccgccttcc gcggctggtc cttcacgcgt ctcaagacca
20100
aggagacgcc ctcgctgggc tccgggttcg acccctactt cgtctactcg ggctccatcc
20160
cctacctcga cggcaccttc tacctcaacc acaccttcaa gaaggtctcc atcaccttcg
20220
actcctccgt cagctggccc ggcaacgacc ggctcctgac gcccaacgag ttcgaaatca
20280
agcgcaccgt cgacggcgag ggctacaacg tggcccagtg caacatgacc aaggactggt
20340
tcctggtcca gatgctggcc cactacaaca tcggctacca gggcttctac gtgcccgagg
20400
gctacaagga ccgcatgtac tccttcttcc gcaacttcca gcccatgagc cgccaggtgg
20460
tggacgaggt caactacaag gactaccagg ccgtcaccct ggcctaccag cacaacaact
20520
cgggcttcgt cggctacctc gcgcccacca tgcgccaggg ccagccctac cccgccaact
20580
acccctaccc gctcatcggc aagagcgccg tcaccagcgt cacccagaaa aagttcctct
20640
gcgacagggt catgtggcgc atccccttct ccagcaactt catgtccatg ggcgcgctca
20700
ccgacctcgg ccagaacatg ctctatgcca actccgccca cgcgctagac atgaatttcg
20760
aagtcgaccc catggatgag tccacccttc tctatgttgt cttcgaagtc ttcgacgtcg
20820
tccgagtgca ccagccccac cgcggcgtca tcgaggccgt ctacctgcgc acccccttct
20880
cggccggtaa cgccaccacc taagctcttg cttcttgcaa gccatggccg cgggctccgg
20940
cgagcaggag ctcagggcca tcatccgcga cctgggctgc gggccctact tcctgggcac
21000
cttcgataag cgcttcccgg gattcatggc cccgcacaag ctggcctgcg ccatcgtcaa
21060
cacggccggc cgcgagaccg ggggcgagca ctggctggcc ttcgcctgga acccgcgctc
21120
gaacacctgc tacctcttcg accccttcgg gttctcggac gagcgcctca agcagatcta
21180
ccagttcgag tacgagggcc tgctgcgccg cagcgccctg gccaccgagg accgctgcgt
21240
caccctggaa aagtccaccc agaccgtgca gggtccgcgc tcggccgcct gcgggctctt
21300
ctgctgcatg ttcctgcacg ccttcgtgca ctggcccgac cgccccatgg acaagaaccc
21360
caccatgaac ttgctgacgg gggtgcccaa cggcatgctc cagtcgcccc aggtggaacc
21420
caccctgcgc cgcaaccagg aggcgctcta ccgcttcctc aactcccact ccgcctactt
21480
tcgctcccac cgcgcgcgca tcgagaaggc caccgccttc gaccgcatga atcaagacat
21540
gtaaaccgtg tgtgtatgtt aaatgtcttt aataaacagc actttcatgt tacacatgca
21600
tctgagatga tttatttaga aatcgaaagg gttctgccgg gtctcggcat ggcccgcggg
21660
cagggacacg ttgcggaact ggtacttggc cagccacttg aactcgggga tcagcagttt
21720
gggcagcggg gtgtcgggga aggagtcggt ccacagcttc cgcgtcagtt gcagggcgcc
21780
cagcaggtcg ggcgcggaga tcttgaaatc gcagttggga cccgcgttct gcgcgcggga
21840
gttgcggtac acggggttgc agcactggaa caccatcagg gccgggtgct tcacgctcgc
21900
cagcaccgtc gcgtcggtga tgctctccac gtcgaggtcc tcggcgttgg ccatcccgaa
21960
gggggtcatc ttgcaggtct gccttcccat ggtgggcacg cacccgggct tgtggttgca
22020
atcgcagtgc agggggatca gcatcatctg ggcctggtcg gcgttcatcc ccgggtacat
22080
ggccttcatg aaagcctcca attgcctgaa cgcctgctgg gccttggctc cctcggtgaa
22140
gaagaccccg caggacttgc tagagaactg gttggtggcg cacccggcgt cgtgcacgca
22200
gcagcgcgcg tcgttgttgg ccagctgcac cacgctgcgc ccccagcggt tctgggtgat
22260
cttggcccgg tcggggttct ccttcagcgc gcgctgcccg ttctcgctcg ccacatccat
22320
ctcgatcatg tgctccttct ggatcatggt ggtcccgtgc aggcaccgca gcttgccctc
22380
ggcctcggtg cacccgtgca gccacagcgc gcacccggtg cactcccagt tcttgtgggc
22440
gatctgggaa tgcgcgtgca cgaagccctg caggaagcgg cccatcatgg tggtcagggt
22500
cttgttgcta gtgaaggtca gcggaatgcc gcggtgctcc tcgttgatgt acaggtggca
22560
gatgcggcgg tacacctcgc cctgctcggg catcagctgg aagttggctt tcaggtcggt
22620
ctccacgcgg tagcggtcca tcagcatagt catgatttcc atacccttct cccaggccga
22680
gacgatgggc aggctcatag ggttcttcac catcatctta gcgctagcag ccgcggccag
22740
ggggtcgctc tcgtccaggg tctcaaagct ccgcttgccg tccttctcgg tgatccgcac
22800
cggggggtag ctgaagccca cggccgccag ctcctcctcg gcctgtcttt cgtcctcgct
22860
gtcctggctg acgtcctgca ggaccacatg cttggtcttg cggggtttct tcttgggcgg
22920
cagcggcggc ggagatgttg gagatggcga gggggagcgc gagttctcgc tcaccactac
22980
tatctcttcc tcttcttggt ccgaggccac gcggcggtag gtatgtctct tcgggggcag
23040
aggcggaggc gacgggctct cgccgccgcg acttggcgga tggctggcag agccccttcc
23100
gcgttcgggg gtgcgctccc ggcggcgctc tgactgactt cctccgcggc cggccattgt
23160
gttctcctag ggaggaacaa caagcatgga gactcagcca tcgccaacct cgccatctgc
23220
ccccaccgcc gacgagaagc agcagcagca gaatgaaagc ttaaccgccc cgccgcccag
23280
ccccgccacc tccgacgcgg ccgtcccaga catgcaagag atggaggaat ccatcgagat
23340
tgacctgggc tatgtgacgc ccgcggagca cgaggaggag ctggcagtgc gcttttcaca
23400
agaagagata caccaagaac agccagagca ggaagcagag aatgagcaga gtcaggctgg
23460
gctcgagcat gacggcgact acctccacct gagcgggggg gaggacgcgc tcatcaagca
23520
tctggcccgg caggccacca tcgtcaagga tgcgctgctc gaccgcaccg aggtgcccct
23580
cagcgtggag gagctcagcc gcgcctacga gttgaacctc ttctcgccgc gcgtgccccc
23640
caagcgccag cccaatggca cctgcgagcc caacccgcgc ctcaacttct acccggtctt
23700
cgcggtgccc gaggccctgg ccacctacca catctttttc aagaaccaaa agatccccgt
23760
ctcctgccgc gccaaccgca cccgcgccga cgcccttttc aacctgggtc ccggcgcccg
23820
cctacctgat atcgcctcct tggaagaggt tcccaagatc ttcgagggtc tgggcagcga
23880
cgagactcgg gccgcgaacg ctctgcaagg agaaggagga gagcatgagc accacagcgc
23940
cctggtcgag ttggaaggcg acaacgcgcg gctggcggtg ctcaaacgca cggtcgagct
24000
gacccatttc gcctacccgg ctctgaacct gccccccaaa gtcatgagcg cggtcatgga
24060
ccaggtgctc atcaagcgcg cgtcgcccat ctccgaggac gagggcatgc aagactccga
24120
ggagggcaag cccgtggtca gcgacgagca gctggcccgg tggctgggtc ctaatgctag
24180
tccccagagt ttggaagagc ggcgcaaact catgatggcc gtggtcctgg tgaccgtgga
24240
gctggagtgc ctgcgccgct tcttcgccga cgcggagacc ctgcgcaagg tcgaggagaa
24300
cctgcactac ctcttcaggc acgggttcgt gcgccaggcc tgcaagatct ccaacgtgga
24360
gctgaccaac ctggtctcct acatgggcat cttgcacgag aaccgcctgg ggcagaacgt
24420
gctgcacacc accctgcgcg gggaggcccg gcgcgactac atccgcgact gcgtctacct
24480
ctacctctgc cacacctggc agacgggcat gggcgtgtgg cagcagtgtc tggaggagca
24540
gaacctgaaa gagctctgca agctcctgca gaagaacctc aagggtctgt ggaccgggtt
24600
cgacgagcgc accaccgcct cggacctggc cgacctcatt ttccccgagc gcctcaggct
24660
gacgctgcgc aacggcctgc ccgactttat gagccaaagc atgttgcaaa actttcgctc
24720
tttcatcctc gaacgctccg gaatcctgcc cgccacctgc tccgcgctgc cctcggactt
24780
cgtgccgctg accttccgcg agtgcccccc gccgctgtgg agccactgct acctgctgcg
24840
cctggccaac tacctggcct accactcgga cgtgatcgag gacgtcagcg gcgagggcct
24900
gctcgagtgc cactgccgct gcaacctctg cacgccgcac cgctccctgg cctgcaaccc
24960
ccagctgctg agcgagaccc agatcatcgg caccttcgag ttgcaagggc ccagcgaagg
25020
cgagggttca gccgccaagg ggggtctgaa actcaccccg gggctgtgga cctcggccta
25080
cttgcgcaag ttcgtgcccg aggactacca tcccttcgag atcaggttct acgaggacca
25140
atcccatccg cccaaggccg agctgtcggc ctgcgtcatc acccaggggg cgatcctggc
25200
ccaattgcaa gccatccaga aatcccgcca agaattcttg ctgaaaaagg gccgcggggt
25260
ctacctcgac ccccagaccg gtgaggagct caaccccggc ttcccccagg atgccccgag
25320
gaaacaagaa gctgaaagtg gagctgccgc ccgtggagga tttggaggaa gactgggaga
25380
acagcagtca ggcagaggag gaggagatgg aggaagactg ggacagcact caggcagagg
25440
aggacagcct gcaagacagt ctggaggaag acgaggagga ggcagaggag gaggtggaag
25500
aagcagccgc cgccagaccg tcgtcctcgg cgggggagaa agcaagcagc acggatacca
25560
tctccgctcc gggtcggggt cccgctcgac cacacagtag atgggacgag accggacgat
25620
tcccgaaccc caccacccag accggtaaga aggagcggca gggatacaag tcctggcggg
25680
ggcacaaaaa cgccatcgtc tcctgcttgc aggcctgcgg gggcaacatc tccttcaccc
25740
ggcgctacct gctcttccac cgcggggtga actttccccg caacatcttg cattactacc
25800
gtcacctcca cagcccctac tacttccaag aagaggcagc agcagcagaa aaagaccagc
25860
agaaaaccag cagctagaaa atccacagcg gcggcagcag gtggactgag gatcgcggcg
25920
aacgagccgg cgcaaacccg ggagctgagg aaccggatct ttcccaccct ctatgccatc
25980
ttccagcaga gtcgggggca ggagcaggaa ctgaaagtca agaaccgttc tctgcgctcg
26040
ctcacccgca gttgtctgta tcacaagagc gaagaccaac ttcagcgcac tctcgaggac
26100
gccgaggctc tcttcaacaa gtactgcgcg ctcactctta aagagtagcc cgcgcccgcc
26160
cagtcgcaga aaaaggcggg aattacgtca cctgtgccct tcgccctagc cgcctccacc
26220
catcatcatg agcaaagaga ttcccacgcc ttacatgtgg agctaccagc cccagatggg
26280
cctggccgcc ggtgccgccc aggactactc cacccgcatg aattggctca gcgccgggcc
26340
cgcgatgatc tcacgggtga atgacatccg cgcccaccga aaccagatac tcctagaaca
26400
gtcagcgctc accgccacgc cccgcaatca cctcaatccg cgtaattggc ccgccgccct
26460
ggtgtaccag gaaattcccc agcccacgac cgtactactt ccgcgagacg cccaggccga
26520
agtccagctg actaactcag gtgtccagct ggcgggcggc gccaccctgt gtcgtcaccg
26580
ccccgctcag ggtataaagc ggctggtgat ccggggcaga ggcacacagc tcaacgacga
26640
ggtggtgagc tcttcgctgg gtctgcgacc tgacggagtc ttccaactcg ccggatcggg
26700
gagatcttcc ttcacgcctc gtcaggccgt cctgactttg gagagttcgt cctcgcagcc
26760
ccgctcgggt ggcatcggca ctctccagtt cgtggaggag ttcactccct cggtctactt
26820
caaccccttc tccggctccc ccggccacta cccggacgag ttcatcccga acttcgacgc
26880
catcagcgag tcggtggacg gctacgattg aatgtcccat ggtggcgcag ctgacctagc
26940
tcggcttcga cacctggacc actgccgccg cttccgctgc ttcgctcggg atctcgccga
27000
gtttgcctac tttgagctgc ccgaggagca ccctcagggc ccggcccacg gagtgcggat
27060
cgtcgtcgaa gggggcctcg actcccacct gcttcggatc ttcagccagc gtccgatcct
27120
ggtcgagcgc gagcaaggac agacccttct gactctgtac tgcatctgca accaccccgg
27180
cctgcatgaa agtctttgtt gtctgctgtg tactgagtat aataaaagct gagatcagcg
27240
actactccgg acttccgtgt gttcctgaat ccatcaacca gtctttgttc ttcaccggga
27300
acgagaccga gctccagctc cagtgtaagc cccacaagaa gtacctcacc tggctgttcc
27360
agggctcccc gatcgccgtt gtcaaccact gcgacaacga cggagtcctg ctgagcggcc
27420
ctgccaacct tactttttcc acccgcagaa gcaagctcca gctcttccaa cccttcctcc
27480
ccgggaccta tcagtgcgtc tcgggaccct gccatcacac cttccacctg atcccgaata
27540
ccacagcgtc gctccccgct actaacaacc aaactaacct ccaccaacgc caccgtcgcg
27600
acggccacaa tacatgccca tattagacta tgaggccgag ccacagcgac ccatgctccc
27660
cgctattagt tacttcaatc taaccggcgg agatgactga cccactggcc aacaacaacg
27720
tcaacgacct tctcctggac atggacggcc gcgcctcgga gcagcgactc gcccaacttc
27780
gcattcgcca gcagcaggag agagccgtca aggagctgca ggatgcggtg gccatccacc
27840
agtgcaagag aggcatcttc tgcctggtga aacaggccaa gatctcctac gaggtcactc
27900
caaacgacca tcgcctctcc tacgagctcc tgcagcagcg ccagaagttc acctgcctgg
27960
tcggagtcaa ccccatcgtc atcacccagc agtctggcga taccaagggg tgcatccact
28020
gctcctgcga ctcccccgac tgcgtccaca ctctgatcaa gaccctctgc ggcctccgcg
28080
acctcctccc catgaactaa tcaccccctt atccagtgaa ataaagatca tattgatgat
28140
gattttacag aaataaaaaa taatcatttg atttgaaata aagatacaat catattgatg
28200
atttgagttt aacaaaaaaa taaagaatca cttacttgaa atctgatacc aggtctctgt
28260
ccatgttttc tgccaacacc acttcactcc cctcttccca gctctggtac tgcaggcccc
28320
ggcgggctgc aaacttcctc cacacgctga aggggatgtc aaattcctcc tgtccctcaa
28380
tcttcatttt atcttctatc agatgtccaa aaagcgcgtc cgggtggatg atgacttcga
28440
ccccgtctac ccctacgatg cagacaacgc accgaccgtg cccttcatca accccccctt
28500
cgtctcttca gatggattcc aagagaagcc cctgggggtg ttgtccctgc gactggccga
28560
ccccgtcacc accaagaacg gggaaatcac cctcaagctg ggagaggggg tggacctcga
28620
ttcctcggga aaactcatct ccaacacggc caccaaggcc gccgcccctc tcagtttttc
28680
caacaacacc atttccctta acatggatca ccccttttac actaaagatg gaaaattatc
28740
cttacaagtt tctccaccat taaatatact gagaacaagc attctaaaca cactagcttt
28800
aggttttgga tcaggtttag gactccgtgg ctctgccttg gcagtacagt tagtctctcc
28860
acttacattt gatactgatg gaaacataaa gcttacctta gacagaggtt tgcatgttac
28920
aacaggagat gcaattgaaa gcaacataag ctgggctaaa ggtttaaaat ttgaagatgg
28980
agccatagca accaacattg gaaatgggtt agagtttgga agcagtagta cagaaacagg
29040
tgttgatgat gcttacccaa tccaagttaa acttggatct ggccttagct ttgacagtac
29100
aggagccata atggctggta acaaagaaga cgataaactc actttgtgga caacacctga
29160
tccatcacca aactgtcaaa tactcgcaga aaatgatgca aaactaacac tttgcttgac
29220
taaatgtggt agtcaaatac tggccactgt gtcagtctta gttgtaggaa gtggaaacct
29280
aaaccccatt actggcaccg taagcagtgc tcaggtgttt ctacgttttg atgcaaacgg
29340
tgttctttta acagaacatt ctacactaaa aaaatactgg gggtataggc agggagatag
29400
catagatggc actccatata ccaatgctgt aggattcatg cccaatttaa aagcttatcc
29460
aaagtcacaa agttctacta ctaaaaataa tatagtaggg caagtataca tgaatggaga
29520
tgtttcaaaa cctatgcttc tcactataac cctcaatggt actgatgaca gcaacagtac
29580
atattcaatg tcattttcat acacctggac taatggaagc tatgttggag caacatttgg
29640
ggctaactct tataccttct catacatcgc ccaagaatga acactgtatc ccaccctgca
29700
tgccaaccct tcccacccca ctctgtggaa caaactctga aacacaaaat aaaataaagt
29760
tcaagtgttt tattgattca acagttttac aggattcgag cagttatttt tcctccaccc
29820
tcccaggaca tggaatacac caccctctcc ccccgcacag ccttgaacat ctgaatgcca
29880
ttggtgatgg acatgctttt ggtctccacg ttccacacag tttcagagcg agccagtctc
29940
gggtcggtca gggagatgaa accctccggg cactcccgca tctgcacctc acagctcaac
30000
agctgaggat tgtcctcggt ggtcgggatc acggttatct ggaagaagca gaagagcggc
30060
ggtgggaatc atagtccgcg aacgggatcg gccggtggtg tcgcatcagg ccccgcagca
30120
gtcgctgccg ccgccgctcc gtcaagctgc tgctcagggg gtccgggtcc agggactccc
30180
tcagcatgat gcccacggcc ctcagcatca gtcgtctggt gcggcgggcg cagcagcgca
30240
tgcggatctc gctcaggtcg ctgcagtacg tgcaacacag aaccaccagg ttgttcaaca
30300
gtccatagtt caacacgctc cagccgaaac tcatcgcggg aaggatgcta cccacgtggc
30360
cgtcgtacca gatcctcagg taaatcaagt ggtgccccct ccagaacacg ctgcccacgt
30420
acatgatctc cttgggcatg tggcggttca ccacctcccg gtaccacatc accctctggt
30480
tgaacatgca gccccggatg atcctgcgga accacagggc cagcaccgcc ccgcccgcca
30540
tgcagcgaag agaccccggg tcccggcaat ggcaatggag gacccaccgc tcgtacccgt
30600
ggatcatctg ggagctgaac aagtctatgt tggcacagca caggcatatg ctcatgcatc
30660
tcttcagcac tctcaactcc tcgggggtca aaaccatatc ccagggcacg gggaactctt
30720
gcaggacagc gaaccccgca gaacagggca atcctcgcac agaacttaca ttgtgcatgg
30780
acagggtatc gcaatcaggc agcaccgggt gatcctccac cagagaagcg cgggtctcgg
30840
tctcctcaca gcgtggtaag ggggccggcc gatacgggtg atggcgggac gcggctgatc
30900
gtgttcgcga ccgtgtcatg atgcagttgc tttcggacat tttcgtactt gctgtagcag
30960
aacctggtcc gggcgctgca caccgatcgc cggcggcggt ctcggcgctt ggaacgctcg
31020
gtgttgaaat tgtaaaacag ccactctctc agaccgtgca gcagatctag ggcctcagga
31080
gtgatgaaga tcccatcatg cctgatggct ctgatcacat cgaccaccgt ggaatgggcc
31140
agacccagcc agatgatgca attttgttgg gtttcggtga cggcggggga gggaagaaca
31200
ggaagaacca tgattaactt ttaatccaaa cggtctcgga gtacttcaaa atgaagatcg
31260
cggagatggc acctctcgcc cccgctgtgt tggtggaaaa taacagccag gtcaaaggtg
31320
atacggttct cgagatgttc cacggtggct tccagcaaag cctccacgcg cacatccaga
31380
aacaagacaa tagcgaaagc gggagggttc tctaattcct caatcatcat gttacactcc
31440
tgcaccatcc ccagataatt ttcatttttc cagccttgaa tgattcgaac tagttcgtga
31500
ggtaaatcca agccagccat gataaagagc tcgcgcagag cgccctccac cggcattctt
31560
aagcacaccc tcataattcc aagatattct gctcctggtt cacctgcagc agattgacaa
31620
gcggaatatc aaaatctctg ccgcgatccc tgagctcctc cctcagcaat aactgtaagt
31680
actctttcat atcctctccg aaatttttag ccataggacc accaggaata agattagggc
31740
aagccacagt acagataaac cgaagtcctc cccagtgagc attgccaaat gcaagactgc
31800
tataagcatg ctggctagac ccggtgatat cttccagata actggacaga aaatcgccca
31860
ggcaattttt aagaaaatca acaaaagaaa aatcctccag gtggacgttt agagcctcgg
31920
gaacaacgat gaagtaaatg caagcggtgc gttccagcat ggttagttag ctgatctgta
31980
gaaaaaacaa aaatgaacat taaaccatgc tagcctggcg aacaggtggg taaatcgttc
32040
tctccagcac caggcaggcc acggggtctc cggcgcgacc ctcgtaaaaa ttgtcgctat
32100
gattgaaaac catcacagag agacgttccc ggtggccggc gtgaatgatt cgacaagatg
32160
aatacacccc cggaacattg gcgtccgcga gtgaaaaaaa gcgcccgagg aagcaataag
32220
gcactacaat gctcagtctc aagtccagca aagcgatgcc atgcggatga agcacaaaat
32280
tctcaggtgc gtacaaaatg taattactcc cctcctgcac aggcagcaaa gcccccgatc
32340
cctccaggta cacatacaaa gcctcagcgt ccatagctta ccgagcagca gcacacaaca
32400
ggcgcaagag tcagagaaag gctgagctct aacctgtcca cccgctctct gctcaatata
32460
tagcccagat ctacactgac gtaaaggcca aagtctaaaa atacccgcca aataatcaca
32520
cacgcccagc acacgcccag aaaccggtga cacactcaaa aaaatacgcg cacttcctca
32580
aacgcccaaa actgccgtca tttccgggtt cccacgctac gtcatcaaaa cacgactttc
32640
aaattccgtc gaccgttaaa aacgtcaccc gccccgcccc taacggtcgc ccgtctctca
32700
gccaatcagc gccccgcatc cccaaattca aacacctcat ttgcatatta acgcgcacaa
32760
aaagtttgag gtatattatt gatgatgg
32788
<210> 13
<211> 30684
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 13
ccatcttcaa taatatacct caaacttttt gtgcgcgtta atatgcaaat gaggcgtttg
60
aatttgggga ggaagggcgg tgattggtcg agggatgagc gaccgttagg ggcggggcga
120
gtgacgtttt gatgacgtgg ttgcgaggag gagccagttt gcaagttctc gtgggaaaag
180
tgacgtcaaa cgaggtgtgg tttgaacacg gaaatactca attttcccgc gctctctgac
240
aggaaatgag gtgtttctgg gcggatgcaa gtgaaaacgg gccattttcg cgcgaaaact
300
gaatgaggaa gtgaaaatct gagtaatttc gcgtttatgg cagggaggag tatttgccga
360
gggccgagta gactttgacc gattacgtgg gggtttcgat taccgtgttt ttcacctaaa
420
tttccgcgta cggtgtcaaa gtccggtgtt tttacgtagg tgtcagctga tcgccagggt
480
atttaaacct gcgctctcca gtcaagaggc cactcttgag tgccagcgag aagagttttc
540
tcctccgcgc cgcgagtcag atctacactt tgaaagtagg gataacaggg taatgacatt
600
gattattgac tagttgttaa tagtaatcaa ttacggggtc attagttcat agcccatata
660
tggagttccg cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc
720
cccgcccatt gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc
780
attgacgtca atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt
840
atcatatgcc aagtccgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt
900
atgcccagta catgacctta cgggactttc ctacttggca gtacatctac gtattagtca
960
tcgctattac catggtgatg cggttttggc agtacaccaa tgggcgtgga tagcggtttg
1020
actcacgggg atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc
1080
aaaatcaacg ggactttcca aaatgtcgta ataaccccgc cccgttgacg caaatgggcg
1140
gtaggcgtgt acggtgggag gtctatataa gcagagctcg tttagtgaac cgtcagatcg
1200
cctggaacgc catccacgct gttttgacct ccatagaaga cagcgatcgc gccaccatgg
1260
tgagcaaggg cgaggagctg ttcaccgggg tggtgcccat cctggtcgag ctggacggcg
1320
acgtaaacgg ccacaagttc agcgtgtccg gcgagggcga gggcgatgcc acctacggca
1380
agctgaccct gaagttcatc tgcaccaccg gcaagctgcc cgtgccctgg cccaccctcg
1440
tgaccaccct gacctacggc gtgcagtgct tcagccgcta ccccgaccac atgaagcagc
1500
acgacttctt caagtccgcc atgcccgaag gctacgtcca ggagcgcacc atcttcttca
1560
aggacgacgg caactacaag acccgcgccg aggtgaagtt cgagggcgac accctggtga
1620
accgcatcga gctgaagggc atcgacttca aggaggacgg caacatcctg gggcacaagc
1680
tggagtacaa ctacaacagc cacaacgtct atatcatggc cgacaagcag aagaacggca
1740
tcaaggtgaa cttcaagatc cgccacaaca tcgaggacgg cagcgtgcag ctcgccgacc
1800
actaccagca gaacaccccc atcggcgacg gccccgtgct gctgcccgac aaccactacc
1860
tgagcaccca gtccgccctg agcaaagacc ccaacgagaa gcgcgatcac atggtcctgc
1920
tggagttcgt gaccgccgcc gggatcactc tcggcatgga cgagctttac aagtagtgag
1980
tttaaactcc catttaaatg tgagggttaa tgcttcgagc agacatgata agatacattg
2040
atgagtttgg acaaaccaca actagaatgc agtgaaaaaa atgctttatt tgtgaaattt
2100
gtgatgctat tgctttattt gtaaccatta taagctgcaa taaacaagtt aacaacaaca
2160
attgcattca ttttatgttt caggttcagg gggagatgtg ggaggttttt taaagcaagt
2220
aaaacctcta caaatgtggt aaaataacta taacggtcct aaggtagcga gtgagtagtg
2280
ttctggggcg ggggaggacc tgcatgaggg ccagaataac tgaaatctgt gcttttctgt
2340
gtgttgcagc agcatgagcg gaagcggctc ctttgaggga ggggtattca gcccttatct
2400
gacggggcgt ctcccctcct gggcgggagt gcgtcagaat gtgatgggat ccacggtgga
2460
cggccggccc gtgcagcccg cgaactcttc aaccctgacc tatgcaaccc tgagctcttc
2520
gtcgttggac gcagctgccg ccgcagctgc tgcatctgcc gccagcgccg tgcgcggaat
2580
ggccatgggc gccggctact acggcactct ggtggccaac tcgagttcca ccaataatcc
2640
cgccagcctg aacgaggaga agctgttgct gctgatggcc cagctcgagg ccttgaccca
2700
gcgcctgggc gagctgaccc agcaggtggc tcagctgcag gagcagacgc gggccgcggt
2760
tgccacggtg aaatccaaat aaaaaatgaa tcaataaata aacggagacg gttgttgatt
2820
ttaacacaga gtctgaatct ttatttgatt tttcgcgcgc ggtaggccct ggaccaccgg
2880
tctcgatcat tgagcacccg gtggatcttt tccaggaccc ggtagaggtg ggcttggatg
2940
ttgaggtaca tgggcatgag cccgtcccgg gggtggaggt agctccattg cagggcctcg
3000
tgctcggggg tggtgttgta aatcacccag tcatagcagg ggcgcagggc atggtgttgc
3060
acaatatctt tgaggaggag actgatggcc acgggcagcc ctttggtgta ggtgtttaca
3120
aatctgttga gctgggaggg atgcatgcgg ggggagatga ggtgcatctt ggcctggatc
3180
ttgagattgg cgatgttacc gcccagatcc cgcctggggt tcatgttgtg caggaccacc
3240
agcacggtgt atccggtgca cttggggaat ttatcatgca acttggaagg gaaggcgtga
3300
aagaatttgg cgacgccttt gtgcccgccc aggttttcca tgcactcatc catgatgatg
3360
gcgatgggcc cgtgggcggc ggcctgggca aagacgtttc gggggtcgga cacatcatag
3420
ttgtggtcct gggtgaggtc atcataggcc attttaatga atttggggcg gagggtgccg
3480
gactggggga caaaggtacc ctcgatcccg ggggcgtagt tcccctcaca gatctgcatc
3540
tcccaggctt tgagctcgga gggggggatc atgtccacct gcggggcgat aaagaacacg
3600
gtttccgggg cgggggagat gagctgggcc gaaagcaagt tccggagcag ctgggacttg
3660
ccgcagccgg tggggccgta gatgaccccg atgaccggct gcaggtggta gttgagggag
3720
agacagctgc cgtcctcccg gaggaggggg gccacctcgt tcatcatctc gcgcacgtgc
3780
atgttctcgc gcaccagttc cgccaggagg cgctctcccc ccagggatag gagctcctgg
3840
agcgaggcga agtttttcag cggcttgagt ccgtcggcca tgggcatttt ggagagggtt
3900
tgttgcaaga gttccaggcg gtcccagagc tcggtgatgt gctctacggc atctcgatcc
3960
agcagacctc ctcgtttcgc gggttgggac ggctgcggga gtagggcacc agacgatggg
4020
cgtccagcgc agccagggtc cggtccttcc agggtcgcag cgtccgcgtc agggtggtct
4080
ccgtcacggt gaaggggtgc gcgccgggct gggcgcttgc gagggtgcgc ttcaggctca
4140
tccggctggt cgaaaaccgc tcccgatcgg cgccctgcgc gtcggccagg tagcaattga
4200
ccatgagttc gtagttgagc gcctcggccg cgtggccttt ggcgcggagc ttacctttgg
4260
aagtctgccc gcaggcggga cagaggaggg acttgagggc gtagagcttg ggggcgagga
4320
agacggactc gggggcgtag gcgtccgcgc cgcagtgggc gcagacggtc tcgcactcca
4380
cgagccaggt gaggtcgggc tggtcggggt caaaaaccag tttcccgccg ttctttttga
4440
tgcgtttctt acctttggtc tccatgagct cgtgtccccg ctgggtgaca aagaggctgt
4500
ccgtgtcccc gtagaccgac tttatgggcc ggtcctcgag cggtgtgccg cggtcctcct
4560
cgtagaggaa ccccgcccac tccgagacga aagcccgggt ccaggccagc acgaaggagg
4620
ccacgtggga cgggtagcgg tcgttgtcca ccagcgggtc caccttttcc agggtatgca
4680
aacacatgtc cccctcgtcc acatccagga aggtgattgg cttgtaagtg taggccacgt
4740
gaccgggggt cccggccggg ggggtataaa agggtgcggg tccctgctcg tcctcactgt
4800
cttccggatc gctgtccagg agcgccagct gttggggtag gtattccctc tcgaaggcgg
4860
gcatgacctc ggcactcagg ttgtcagttt ctagaaacga ggaggatttg atattgacgg
4920
tgccggcgga gatgcctttc aagagcccct cgtccatctg gtcagaaaag acgatctttt
4980
tgttgtcgag cttggtggcg aaggagccgt agagggcgtt ggagaggagc ttggcgatgg
5040
agcgcatggt ctggtttttt tccttgtcgg cgcgctcctt ggcggcgatg ttgagctgca
5100
cgtactcgcg cgccacgcac ttccattcgg ggaagacggt ggtcagctcg tcgggcacga
5160
ttctgacctg ccagccccga ttatgcaggg tgatgaggtc cacactggtg gccacctcgc
5220
cgcgcagggg ctcattagtc cagcagaggc gtccgccctt gcgcgagcag aaggggggca
5280
gggggtccag catgacctcg tcgggggggt cggcatcgat ggtgaagatg ccgggcagga
5340
ggtcggggtc aaagtagctg atggaagtgg ccagatcgtc cagggcagct tgccattcgc
5400
gcacggccag cgcgcgctcg tagggactga ggggcgtgcc ccagggcatg ggatgggtaa
5460
gcgcggaggc gtacatgccg cagatgtcgt agacgtagag gggctcctcg aggatgccga
5520
tgtaggtggg gtagcagcgc cccccgcgga tgctggcgcg cacgtagtca tacagctcgt
5580
gcgagggggc gaggagcccc gggcccaggt tggtgcgact gggcttttcg gcgcggtaga
5640
cgatctggcg gaaaatggca tgcgagttgg aggagatggt gggcctttgg aagatgttga
5700
agtgggcgtg gggcagtccg accgagtcgc ggatgaagtg ggcgtaggag tcttgcagct
5760
tggcgacgag ctcggcggtg actaggacgt ccagagcgca gtagtcgagg gtctcctgga
5820
tgatgtcata cttgagctgt cccttttgtt tccacagctc gcggttgaga aggaactctt
5880
cgcggtcctt ccagtactct tcgaggggga acccgtcctg atctgcacgg taagagccta
5940
gcatgtagaa ctggttgacg gccttgtagg cgcagcagcc cttctccacg gggagggcgt
6000
aggcctgggc ggccttgcgc agggaggtgt gcgtgagggc gaaagtgtcc ctgaccatga
6060
ccttgaggaa ctggtgcttg aagtcgatat cgtcgcagcc cccctgctcc cagagctgga
6120
agtccgtgcg cttcttgtag gcggggttgg gcaaagcgaa agtaacatcg ttgaagagga
6180
tcttgcccgc gcggggcata aagttgcgag tgatgcggaa aggttggggc acctcggccc
6240
ggttgttgat gacctgggcg gcgagcacga tctcgtcgaa gccgttgatg ttgtggccca
6300
cgatgtagag ttccacgaat cgcggacggc ccttgacgtg gggcagtttc ttgagctcct
6360
cgtaggtgag ctcgtcgggg tcgctgagcc cgtgctgctc gagcgcccag tcggcgagat
6420
gggggttggc gcggaggaag gaagtccaga gatccacggc cagggcggtt tgcagacggt
6480
cccggtactg acggaactgc tgcccgacgg ccattttttc gggggtgacg cagtagaagg
6540
tgcgggggtc cccgtgccag cgatcccatt tgagctggag ggcgagatcg agggcgagct
6600
cgacgagccg gtcgtccccg gagagtttca tgaccagcat gaaggggacg agctgcttgc
6660
cgaaggaccc catccaggtg taggtttcca catcgtaggt gaggaagagc ctttcggtgc
6720
gaggatgcga gccgatgggg aagaactgga tctcctgcca ccaattggag gaatggctgt
6780
tgatgtgatg gaagtagaaa tgccgacggc gcgccgaaca ctcgtgcttg tgtttataca
6840
agcggccaca gtgctcgcaa cgctgcacgg gatgcacgtg ctgcacgagc tgtacctgag
6900
ttcctttgac gaggaatttc agtgggaagt ggagtcgtgg cgcctgcatc tcgtgctgta
6960
ctacgtcgtg gtggtcggcc tggccctctt ctgcctcgat ggtggtcatg ctgacgagcc
7020
cgcgcgggag gcaggtccag acctcggcgc gagcgggtcg gagagcgagg acgagggcgc
7080
gcaggccgga gctgtccagg gtcctgagac gctgcggagt caggtcagtg ggcagcggcg
7140
gcgcgcggtt gacttgcagg agtttttcca gggcgcgcgg gaggtccaga tggtacttga
7200
tctccaccgc gccattggtg gcgacgtcga tggcttgcag ggtcccgtgc ccctggggtg
7260
tgaccaccgt cccccgtttc ttcttgggcg gctggggcga cgggggcggt gcctcttcca
7320
tggttagaag cggcggcgag gacgcgcgcc gggcggcagg ggcggctcgg ggcccggagg
7380
caggggcggc aggggcacgt cggcgccgcg cgcgggtagg ttctggtact gcgcccggag
7440
aagactggcg tgagcgacga cgcgacggtt gacgtcctgg atctgacgcc tctgggtgaa
7500
ggccacggga cccgtgagtt tgaacctgaa agagagttcg acagaatcaa tctcggtatc
7560
gttgacggcg gcctgccgca ggatctcttg cacgtcgccc gagttgtcct ggtaggcgat
7620
ctcggtcatg aactgctcga tctcctcctc ttgaaggtct ccgcggccgg cgcgctccac
7680
ggtggccgcg aggtcgttgg agatgcggcc catgagctgc gagaaggcgt tcatgcccgc
7740
ctcgttccag acgcggctgt agaccacgac gccctcggga tcgcgggcgc gcatgaccac
7800
ctgggcgagg ttgagctcca cgtggcgcgt gaagaccgcg tagttgcaga ggcgctggta
7860
gaggtagttg agcgtggtgg cgatgtgctc ggtgacgaag aaatacatga tccagcggcg
7920
gagcggcatc tcgctgacgt cgcccagcgc ctccaaacgt tccatggcct cgtaaaagtc
7980
cacggcgaag ttgaaaaact gggagttgcg cgccgagacg gtcaactcct cctccagaag
8040
acggatgagc tcggcgatgg tggcgcgcac ctcgcgctcg aaggcccccg ggagttcctc
8100
cacttcctct tcttcctcct ccactaacat ctcttctact tcctcctcag gcggcagtgg
8160
tggcggggga gggggcctgc gtcgccggcg gcgcacgggc agacggtcga tgaagcgctc
8220
gatggtctcg ccgcgccggc gtcgcatggt ctcggtgacg gcgcgcccgt cctcgcgggg
8280
ccgcagcgtg aagacgccgc cgcgcatctc caggtggccg ggggggtccc cgttgggcag
8340
ggagagggcg ctgacgatgc atcttatcaa ttgccccgta gggactccgc gcaaggacct
8400
gagcgtctcg agatccacgg gatctgaaaa ccgctgaacg aaggcttcga gccagtcgca
8460
gtcgcaaggt aggctgagca cggtttcttc tggcgggtca tgttggttgg gagcggggcg
8520
ggcgatgctg ctggtgatga agttgaaata ggcggttctg agacggcgga tggtggcgag
8580
gagcaccagg tctttgggcc cggcttgctg gatgcgcaga cggtcggcca tgccccaggc
8640
gtggtcctga cacctggcca ggtccttgta gtagtcctgc atgagccgct ccacgggcac
8700
ctcctcctcg cccgcgcggc cgtgcatgcg cgtgagcccg aagccgcgct ggggctggac
8760
gagcgccagg tcggcgacga cgcgctcggc gaggatggct tgctggatct gggtgagggt
8820
ggtctggaag tcatcaaagt cgacgaagcg gtggtaggct ccggtgttga tggtgtagga
8880
gcagttggcc atgacggacc agttgacggt ctggtggccc ggacgcacga gctcgtggta
8940
cttgaggcgc gagtaggcgc gcgtgtcgaa gatgtagtcg ttgcaggtgc gcaccaggta
9000
ctggtagccg atgaggaagt gcggcggcgg ctggcggtag agcggccatc gctcggtggc
9060
gggggcgccg ggcgcgaggt cctcgagcat ggtgcggtgg tagccgtaga tgtacctgga
9120
catccaggtg atgccggcgg cggtggtgga ggcgcgcggg aactcgcgga cgcggttcca
9180
gatgttgcgc agcggcagga agtagttcat ggtgggcacg gtctggcccg tgaggcgcgc
9240
gcagtcgtgg atgctctata cgggcaaaaa cgaaagcggt cagcggctcg actccgtggc
9300
ctggaggcta agcgaacggg ttgggctgcg cgtgtacccc ggttcgaatc tcgaatcagg
9360
ctggagccgc agctaacgtg gtattggcac tcccgtctcg acccaagcct gcaccaaccc
9420
tccaggatac ggaggcgggt cgttttgcaa cttttttttg gaggccggat gagactagta
9480
agcgcggaaa gcggccgacc gcgatggctc gctgccgtag tctggagaag aatcgccagg
9540
gttgcgttgc ggtgtgcccc ggttcgaggc cggccggatt ccgcggctaa cgagggcgtg
9600
gctgccccgt cgtttccaag accccatagc cagccgactt ctccagttac ggagcgagcc
9660
cctcttttgt tttgtttgtt tttgccagat gcatcccgta ctgcggcaga tgcgccccca
9720
ccaccctcca ccgcaacaac agccccctcc acagccggcg cttctgcccc cgccccagca
9780
gcaacttcca gccacgaccg ccgcggccgc cgtgagcggg gctggacaga gttatgatca
9840
ccagctggcc ttggaagagg gcgaggggct ggcgcgcctg ggggcgtcgt cgccggagcg
9900
gcacccgcgc gtgcagatga aaagggacgc tcgcgaggcc tacgtgccca agcagaacct
9960
gttcagagac aggagcggcg aggagcccga ggagatgcgc gcggcccggt tccacgcggg
10020
gcgggagctg cggcgcggcc tggaccgaaa gagggtgctg agggacgagg atttcgaggc
10080
ggacgagctg acggggatca gccccgcgcg cgcgcacgtg gccgcggcca acctggtcac
10140
ggcgtacgag cagaccgtga aggaggagag caacttccaa aaatccttca acaaccacgt
10200
gcgcaccctg atcgcgcgcg aggaggtgac cctgggcctg atgcacctgt gggacctgct
10260
ggaggccatc gtgcagaacc ccaccagcaa gccgctgacg gcgcagctgt tcctggtggt
10320
gcagcatagt cgggacaacg aagcgttcag ggaggcgctg ctgaatatca ccgagcccga
10380
gggccgctgg ctcctggacc tggtgaacat tctgcagagc atcgtggtgc aggagcgcgg
10440
gctgccgctg tccgagaagc tggcggccat caacttctcg gtgctgagtt tgggcaagta
10500
ctacgctagg aagatctaca agaccccgta cgtgcccata gacaaggagg tgaagatcga
10560
cgggttttac atgcgcatga ccctgaaagt gctgaccctg agcgacgatc tgggggtgta
10620
ccgcaacgac aggatgcacc gtgcggtgag cgccagcagg cggcgcgagc tgagcgacca
10680
ggagctgatg catagtctgc agcgggccct gaccggggcc gggaccgagg gggagagcta
10740
ctttgacatg ggcgcggacc tgcactggca gcccagccgc cgggccttgg aggcggcggc
10800
aggaccctac gtagaagagg tggacgatga ggtggacgag gagggcgagt acctggaaga
10860
ctgatggcgc gaccgtattt ttgctagatg caacaacaac agccacctcc tgatcccgcg
10920
atgcgggcgg cgctgcagag ccagccgtcc ggcattaact cctcggacga ttggacccag
10980
gccatgcaac gcatcatggc gctgacgacc cgcaaccccg aagcctttag acagcagccc
11040
caggccaacc ggctctcggc catcctggag gccgtggtgc cctcgcgctc caaccccacg
11100
cacgagaagg tcctggccat cgtgaacgcg ctggtggaga acaaggccat ccgcggcgac
11160
gaggccggcc tggtgtacaa cgcgctgctg gagcgcgtgg cccgctacaa cagcaccaac
11220
gtgcagacca acctggaccg catggtgacc gacgtgcgcg aggccgtggc ccagcgcgag
11280
cggttccacc gcgagtccaa cctgggatcc atggtggcgc tgaacgcctt cctcagcacc
11340
cagcccgcca acgtgccccg gggccaggag gactacacca acttcatcag cgccctgcgc
11400
ctgatggtga ccgaggtgcc ccagagcgag gtgtaccagt ccgggccgga ctacttcttc
11460
cagaccagtc gccagggctt gcagaccgtg aacctgagcc aggctttcaa gaacttgcag
11520
ggcctgtggg gcgtgcaggc cccggtcggg gaccgcgcga cggtgtcgag cctgctgacg
11580
ccgaactcgc gcctgctgct gctgctggtg gcccccttca cggacagcgg cagcatcaac
11640
cgcaactcgt acctgggcta cctgattaac ctgtaccgcg aggccatcgg ccaggcgcac
11700
gtggacgagc agacctacca ggagatcacc cacgtgagcc gcgccctggg ccaggacgac
11760
ccgggcaacc tggaagccac cctgaacttt ttgctgacca accggtcgca gaagatcccg
11820
ccccagtacg cgctcagcac cgaggaggag cgcatcctgc gttacgtgca gcagagcgtg
11880
ggcctgttcc tgatgcagga gggggccacc cccagcgccg cgctcgacat gaccgcgcgc
11940
aacatggagc ccagcatgta cgccagcaac cgcccgttca tcaataaact gatggactac
12000
ttgcatcggg cggccgccat gaactctgac tatttcacca acgccatcct gaatccccac
12060
tggctcccgc cgccggggtt ctacacgggc gagtacgaca tgcccgaccc caatgacggg
12120
ttcctgtggg acgatgtgga cagcagcgtg ttctcccccc gaccgggtgc taacgagcgc
12180
cccttgtgga agaaggaagg cagcgaccga cgcccgtcct cggcgctgtc cggccgcgag
12240
ggtgctgccg cggcggtgcc cgaggccgcc agtcctttcc cgagcttgcc cttctcgctg
12300
aacagtatcc gcagcagcga gctgggcagg atcacgcgcc cgcgcttgct gggcgaagag
12360
gagtacttga atgactcgct gttgagaccc gagcgggaga agaacttccc caataacggg
12420
atagaaagcc tggtggacaa gatgagccgc tggaagacgt atgcgcagga gcacagggac
12480
gatccccggg cgtcgcaggg ggccacgagc cggggcagcg ccgcccgtaa acgccggtgg
12540
cacgacaggc agcggggaca gatgtgggac gatgaggact ccgccgacga cagcagcgtg
12600
ttggacttgg gtgggagtgg taacccgttc gctcacctgc gcccccgtat cgggcgcatg
12660
atgtaagaga aaccgaaaat aaatgatact caccaaggcc atggcgacca gcgtgcgttc
12720
gtttcttctc tgttgttgtt gtatctagta tgatgaggcg tgcgtacccg gagggtcctc
12780
ctccctcgta cgagagcgtg atgcagcagg cgatggcggc ggcggcgatg cagcccccgc
12840
tggaggctcc ttacgtgccc ccgcggtacc tggcgcctac ggaggggcgg aacagcattc
12900
gttactcgga gctggcaccc ttgtacgata ccacccggtt gtacctggtg gacaacaagt
12960
cggcggacat cgcctcgctg aactaccaga acgaccacag caacttcctg accaccgtgg
13020
tgcagaacaa tgacttcacc cccacggagg ccagcaccca gaccatcaac tttgacgagc
13080
gctcgcggtg gggcggccag ctgaaaacca tcatgcacac caacatgccc aacgtgaacg
13140
agttcatgta cagcaacaag ttcaaggcgc gggtgatggt ctcccgcaag acccccaatg
13200
gggtgacagt gacagaggat tatgatggta gtcaggatga gctgaagtat gaatgggtgg
13260
aatttgagct gcccgaaggc aacttctcgg tgaccatgac catcgacctg atgaacaacg
13320
ccatcatcga caattacttg gcggtggggc ggcagaacgg ggtgctggag agcgacatcg
13380
gcgtgaagtt cgacactagg aacttcaggc tgggctggga ccccgtgacc gagctggtca
13440
tgcccggggt gtacaccaac gaggctttcc atcccgatat tgtcttgctg cccggctgcg
13500
gggtggactt caccgagagc cgcctcagca acctgctggg cattcgcaag aggcagccct
13560
tccaggaagg cttccagatc atgtacgagg atctggaggg gggcaacatc cccgcgctcc
13620
tggatgtcga cgcctatgag aaaagcaagg aggatgcagc agctgaagca actgcagccg
13680
tagctaccgc ctctaccgag gtcaggggcg ataattttgc aagcgccgca gcagtggcag
13740
cggccgaggc ggctgaaacc gaaagtaaga tagtcattca gccggtggag aaggatagca
13800
agaacaggag ctacaacgta ctaccggaca agataaacac cgcctaccgc agctggtacc
13860
tagcctacaa ctatggcgac cccgagaagg gcgtgcgctc ctggacgctg ctcaccacct
13920
cggacgtcac ctgcggcgtg gagcaagtct actggtcgct gcccgacatg atgcaagacc
13980
cggtcacctt ccgctccacg cgtcaagtta gcaactaccc ggtggtgggc gccgagctcc
14040
tgcccgtcta ctccaagagc ttcttcaacg agcaggccgt ctactcgcag cagctgcgcg
14100
ccttcacctc gcttacgcac gtcttcaacc gcttccccga gaaccagatc ctcgtccgcc
14160
cgcccgcgcc caccattacc accgtcagtg aaaacgttcc tgctctcaca gatcacggga
14220
ccctgccgct gcgcagcagt atccggggag tccagcgcgt gaccgttact gacgccagac
14280
gccgcacctg cccctacgtc tacaaggccc tgggcatagt cgcgccgcgc gtcctctcga
14340
gccgcacctt ctaaatgtcc attctcatct cgcccagtaa taacaccggt tggggcctgc
14400
gcgcgcccag caagatgtac ggaggcgctc gccaacgctc cacgcaacac cccgtgcgcg
14460
tgcgcgggca cttccgcgct ccctggggcg ccctcaaggg ccgcgtgcgg tcgcgcacca
14520
ccgtcgacga cgtgatcgac caggtggtgg ccgacgcgcg caactacacc cccgccgccg
14580
cgcccgtctc caccgtggac gccgtcatcg acagcgtggt ggccgacgcg cgccggtacg
14640
cccgcgccaa gagccggcgg cggcgcatcg cccggcggca ccggagcacc cccgccatgc
14700
gcgcggcgcg agccttgctg cgcagggcca ggcgcacggg acgcagggcc atgctcaggg
14760
cggccagacg cgcggcttca ggcgccagcg ccggcaggac ccggagacgc gcggccacgg
14820
cggcggcagc ggccatcgcc agcatgtccc gcccgcggcg agggaacgtg tactgggtgc
14880
gcgacgccgc caccggtgtg cgcgtgcccg tgcgcacccg cccccctcgc acttgaagat
14940
gttcacttcg cgatgttgat gtgtcccagc ggcgaggagg atgtccaagc gcaaattcaa
15000
ggaagagatg ctccaggtca tcgcgcctga gatctacggc cctgcggtgg tgaaggagga
15060
aagaaagccc cgcaaaatca agcgggtcaa aaaggacaaa aaggaagaag aaagtgatgt
15120
ggacggattg gtggagtttg tgcgcgagtt cgccccccgg cggcgcgtgc agtggcgcgg
15180
gcggaaggtg caaccggtgc tgagacccgg caccaccgtg gtcttcacgc ccggcgagcg
15240
ctccggcacc gcttccaagc gctcctacga cgaggtgtac ggggatgatg atattctgga
15300
gcaggcggcc gagcgcctgg gcgagtttgc ttacggcaag cgcagccgtt ccgcaccgaa
15360
ggaagaggcg gtgtccatcc cgctggacca cggcaacccc acgccgagcc tcaagcccgt
15420
gaccttgcag caggtgctgc cgaccgcggc gccgcgccgg gggttcaagc gcgagggcga
15480
ggatctgtac cccaccatgc agctgatggt gcccaagcgc cagaagctgg aagacgtgct
15540
ggagaccatg aaggtggacc cggacgtgca gcccgaggtc aaggtgcggc ccatcaagca
15600
ggtggccccg ggcctgggcg tgcagaccgt ggacatcaag attcccacgg agcccatgga
15660
aacgcagacc gagcccatga tcaagcccag caccagcacc atggaggtgc agacggatcc
15720
ctggatgcca tcggctccta gtcgaagacc ccggcgcaag tacggcgcgg ccagcctgct
15780
gatgcccaac tacgcgctgc atccttccat catccccacg ccgggctacc gcggcacgcg
15840
cttctaccgc ggtcatacca gcagccgccg ccgcaagacc accactcgcc gccgccgtcg
15900
ccgcaccgcc gctgcaacca cccctgccgc cctggtgcgg agagtgtacc gccgcggccg
15960
cgcacctctg accctgccgc gcgcgcgcta ccacccgagc atcgccattt aaactttcgc
16020
ctgctttgca gatcaatggc cctcacatgc cgccttcgcg ttcccattac gggctaccga
16080
ggaagaaaac cgcgccgtag aaggctggcg gggaacggga tgcgtcgcca ccaccaccgg
16140
cggcggcgcg ccatcagcaa gcggttgggg ggaggcttcc tgcccgcgct gatccccatc
16200
atcgccgcgg cgatcggggc gatccccggc attgcttccg tggcggtgca ggcctctcag
16260
cgccactgag acacacttgg aaacatcttg taataaacca atggactctg acgctcctgg
16320
tcctgtgatg tgttttcgta gacagatgga agacatcaat ttttcgtccc tggctccgcg
16380
acacggcacg cggccgttca tgggcacctg gagcgacatc ggcaccagcc aactgaacgg
16440
gggcgccttc aattggagca gtctctggag cgggcttaag aatttcgggt ccacgcttaa
16500
aacctatggc agcaaggcgt ggaacagcac cacagggcag gcgctgaggg ataagctgaa
16560
agagcagaac ttccagcaga aggtggtcga tgggctcgcc tcgggcatca acggggtggt
16620
ggacctggcc aaccaggccg tgcagcggca gatcaacagc cgcctggacc cggtgccgcc
16680
cgccggctcc gtggagatgc cgcaggtgga ggaggagctg cctcccctgg acaagcgggg
16740
cgagaagcga ccccgccccg atgcggagga gacgctgctg acgcacacgg acgagccgcc
16800
cccgtacgag gaggcggtga aactgggtct gcccaccacg cggcccatcg cgcccctggc
16860
caccggggtg ctgaaacccg aaaagcccgc gaccctggac ttgcctcctc cccagccttc
16920
ccgcccctct acagtggcta agcccctgcc gccggtggcc gtggcccgcg cgcgacccgg
16980
gggcaccgcc cgccctcatg cgaactggca gagcactctg aacagcatcg tgggtctggg
17040
agtgcagagt gtgaagcgcc gccgctgcta ttaaacctac cgtagcgctt aacttgcttg
17100
tctgtgtgtg tatgtattat gtcgccgccg ccgctgtcca ccagaaggag gagtgaagag
17160
gcgcgtcgcc gagttgcaag atggccaccc catcgatgct gccccagtgg gcgtacatgc
17220
acatcgccgg acaggacgct tcggagtacc tgagtccggg tctggtgcag tttgcccgcg
17280
ccacagacac ctacttcagt ctggggaaca agtttaggaa ccccacggtg gcgcccacgc
17340
acgatgtgac caccgaccgc agccagcggc tgacgctgcg cttcgtgccc gtggaccgcg
17400
aggacaacac ctactcgtac aaagtgcgct acacgctggc cgtgggcgac aaccgcgtgc
17460
tggacatggc cagcacctac tttgacatcc gcggcgtgct ggatcggggc cctagcttca
17520
aaccctactc cggcaccgcc tacaacagtc tggcccccaa gggagcaccc aacacttgtc
17580
agtggacata taaagccgat ggtgaaactg ccacagaaaa aacctataca tatggaaatg
17640
cacccgtgca gggcattaac atcacaaaag atggtattca acttggaact gacaccgatg
17700
atcagccaat ctacgcagat aaaacctatc agcctgaacc tcaagtgggt gatgctgaat
17760
ggcatgacat cactggtact gatgaaaagt atggaggcag agctcttaag cctgatacca
17820
aaatgaagcc ttgttatggt tcttttgcca agcctactaa taaagaagga ggtcaggcaa
17880
atgtgaaaac aggaacaggc actactaaag aatatgacat agacatggct ttctttgaca
17940
acagaagtgc ggctgctgct ggcctagctc cagaaattgt tttgtatact gaaaatgtgg
18000
atttggaaac tccagatacc catattgtat acaaagcagg cacagatgac agcagctctt
18060
ctattaattt gggtcagcaa gccatgccca acagacctaa ctacattggt ttcagagaca
18120
actttatcgg gctcatgtac tacaacagca ctggcaatat gggggtgctg gccggtcagg
18180
cttctcagct gaatgctgtg gttgacttgc aagacagaaa caccgagctg tcctaccagc
18240
tcttgcttga ctctctgggt gacagaaccc ggtatttcag tatgtggaat caggcggtgg
18300
acagctatga tcctgatgtg cgcattattg aaaatcatgg tgtggaggat gaacttccca
18360
actattgttt ccctctggat gctgttggca gaacagatac ttatcaggga attaaggcta
18420
atggaactga tcaaaccaca tggaccaaag atgacagtgt caatgatgct aatgagatag
18480
gcaagggtaa tccattcgcc atggaaatca acatccaagc caacctgtgg aggaacttcc
18540
tctacgccaa cgtggccctg tacctgcccg actcttacaa gtacacgccg gccaatgtta
18600
ccctgcccac caacaccaac acctacgatt acatgaacgg ccgggtggtg gcgccctcgc
18660
tggtggactc ctacatcaac atcggggcgc gctggtcgct ggatcccatg gacaacgtga
18720
accccttcaa ccaccaccgc aatgcggggc tgcgctaccg ctccatgctc ctgggcaacg
18780
ggcgctacgt gcccttccac atccaggtgc cccagaaatt tttcgccatc aagagcctcc
18840
tgctcctgcc cgggtcctac acctacgagt ggaacttccg caaggacgtc aacatgatcc
18900
tgcagagctc cctcggcaac gacctgcgca cggacggggc ctccatctcc ttcaccagca
18960
tcaacctcta cgccaccttc ttccccatgg cgcacaacac ggcctccacg ctcgaggcca
19020
tgctgcgcaa cgacaccaac gaccagtcct tcaacgacta cctctcggcg gccaacatgc
19080
tctaccccat cccggccaac gccaccaacg tgcccatctc catcccctcg cgcaactggg
19140
ccgccttccg cggctggtcc ttcacgcgtc tcaagaccaa ggagacgccc tcgctgggct
19200
ccgggttcga cccctacttc gtctactcgg gctccatccc ctacctcgac ggcaccttct
19260
acctcaacca caccttcaag aaggtctcca tcaccttcga ctcctccgtc agctggcccg
19320
gcaacgaccg gctcctgacg cccaacgagt tcgaaatcaa gcgcaccgtc gacggcgagg
19380
gctacaacgt ggcccagtgc aacatgacca aggactggtt cctggtccag atgctggccc
19440
actacaacat cggctaccag ggcttctacg tgcccgaggg ctacaaggac cgcatgtact
19500
ccttcttccg caacttccag cccatgagcc gccaggtggt ggacgaggtc aactacaagg
19560
actaccaggc cgtcaccctg gcctaccagc acaacaactc gggcttcgtc ggctacctcg
19620
cgcccaccat gcgccagggc cagccctacc ccgccaacta cccctacccg ctcatcggca
19680
agagcgccgt caccagcgtc acccagaaaa agttcctctg cgacagggtc atgtggcgca
19740
tccccttctc cagcaacttc atgtccatgg gcgcgctcac cgacctcggc cagaacatgc
19800
tctatgccaa ctccgcccac gcgctagaca tgaatttcga agtcgacccc atggatgagt
19860
ccacccttct ctatgttgtc ttcgaagtct tcgacgtcgt ccgagtgcac cagccccacc
19920
gcggcgtcat cgaggccgtc tacctgcgca cccccttctc ggccggtaac gccaccacct
19980
aagctcttgc ttcttgcaag ccatggccgc gggctccggc gagcaggagc tcagggccat
20040
catccgcgac ctgggctgcg ggccctactt cctgggcacc ttcgataagc gcttcccggg
20100
attcatggcc ccgcacaagc tggcctgcgc catcgtcaac acggccggcc gcgagaccgg
20160
gggcgagcac tggctggcct tcgcctggaa cccgcgctcg aacacctgct acctcttcga
20220
ccccttcggg ttctcggacg agcgcctcaa gcagatctac cagttcgagt acgagggcct
20280
gctgcgccgc agcgccctgg ccaccgagga ccgctgcgtc accctggaaa agtccaccca
20340
gaccgtgcag ggtccgcgct cggccgcctg cgggctcttc tgctgcatgt tcctgcacgc
20400
cttcgtgcac tggcccgacc gccccatgga caagaacccc accatgaact tgctgacggg
20460
ggtgcccaac ggcatgctcc agtcgcccca ggtggaaccc accctgcgcc gcaaccagga
20520
ggcgctctac cgcttcctca actcccactc cgcctacttt cgctcccacc gcgcgcgcat
20580
cgagaaggcc accgccttcg accgcatgaa tcaagacatg taaaccgtgt gtgtatgtta
20640
aatgtcttta ataaacagca ctttcatgtt acacatgcat ctgagatgat ttatttagaa
20700
atcgaaaggg ttctgccggg tctcggcatg gcccgcgggc agggacacgt tgcggaactg
20760
gtacttggcc agccacttga actcggggat cagcagtttg ggcagcgggg tgtcggggaa
20820
ggagtcggtc cacagcttcc gcgtcagttg cagggcgccc agcaggtcgg gcgcggagat
20880
cttgaaatcg cagttgggac ccgcgttctg cgcgcgggag ttgcggtaca cggggttgca
20940
gcactggaac accatcaggg ccgggtgctt cacgctcgcc agcaccgtcg cgtcggtgat
21000
gctctccacg tcgaggtcct cggcgttggc catcccgaag ggggtcatct tgcaggtctg
21060
ccttcccatg gtgggcacgc acccgggctt gtggttgcaa tcgcagtgca gggggatcag
21120
catcatctgg gcctggtcgg cgttcatccc cgggtacatg gccttcatga aagcctccaa
21180
ttgcctgaac gcctgctggg ccttggctcc ctcggtgaag aagaccccgc aggacttgct
21240
agagaactgg ttggtggcgc acccggcgtc gtgcacgcag cagcgcgcgt cgttgttggc
21300
cagctgcacc acgctgcgcc cccagcggtt ctgggtgatc ttggcccggt cggggttctc
21360
cttcagcgcg cgctgcccgt tctcgctcgc cacatccatc tcgatcatgt gctccttctg
21420
gatcatggtg gtcccgtgca ggcaccgcag cttgccctcg gcctcggtgc acccgtgcag
21480
ccacagcgcg cacccggtgc actcccagtt cttgtgggcg atctgggaat gcgcgtgcac
21540
gaagccctgc aggaagcggc ccatcatggt ggtcagggtc ttgttgctag tgaaggtcag
21600
cggaatgccg cggtgctcct cgttgatgta caggtggcag atgcggcggt acacctcgcc
21660
ctgctcgggc atcagctgga agttggcttt caggtcggtc tccacgcggt agcggtccat
21720
cagcatagtc atgatttcca tacccttctc ccaggccgag acgatgggca ggctcatagg
21780
gttcttcacc atcatcttag cgctagcagc cgcggccagg gggtcgctct cgtccagggt
21840
ctcaaagctc cgcttgccgt ccttctcggt gatccgcacc ggggggtagc tgaagcccac
21900
ggccgccagc tcctcctcgg cctgtctttc gtcctcgctg tcctggctga cgtcctgcag
21960
gaccacatgc ttggtcttgc ggggtttctt cttgggcggc agcggcggcg gagatgttgg
22020
agatggcgag ggggagcgcg agttctcgct caccactact atctcttcct cttcttggtc
22080
cgaggccacg cggcggtagg tatgtctctt cgggggcaga ggcggaggcg acgggctctc
22140
gccgccgcga cttggcggat ggctggcaga gccccttccg cgttcggggg tgcgctcccg
22200
gcggcgctct gactgacttc ctccgcggcc ggccattgtg ttctcctagg gaggaacaac
22260
aagcatggag actcagccat cgccaacctc gccatctgcc cccaccgccg acgagaagca
22320
gcagcagcag aatgaaagct taaccgcccc gccgcccagc cccgccacct ccgacgcggc
22380
cgtcccagac atgcaagaga tggaggaatc catcgagatt gacctgggct atgtgacgcc
22440
cgcggagcac gaggaggagc tggcagtgcg cttttcacaa gaagagatac accaagaaca
22500
gccagagcag gaagcagaga atgagcagag tcaggctggg ctcgagcatg acggcgacta
22560
cctccacctg agcggggggg aggacgcgct catcaagcat ctggcccggc aggccaccat
22620
cgtcaaggat gcgctgctcg accgcaccga ggtgcccctc agcgtggagg agctcagccg
22680
cgcctacgag ttgaacctct tctcgccgcg cgtgcccccc aagcgccagc ccaatggcac
22740
ctgcgagccc aacccgcgcc tcaacttcta cccggtcttc gcggtgcccg aggccctggc
22800
cacctaccac atctttttca agaaccaaaa gatccccgtc tcctgccgcg ccaaccgcac
22860
ccgcgccgac gcccttttca acctgggtcc cggcgcccgc ctacctgata tcgcctcctt
22920
ggaagaggtt cccaagatct tcgagggtct gggcagcgac gagactcggg ccgcgaacgc
22980
tctgcaagga gaaggaggag agcatgagca ccacagcgcc ctggtcgagt tggaaggcga
23040
caacgcgcgg ctggcggtgc tcaaacgcac ggtcgagctg acccatttcg cctacccggc
23100
tctgaacctg ccccccaaag tcatgagcgc ggtcatggac caggtgctca tcaagcgcgc
23160
gtcgcccatc tccgaggacg agggcatgca agactccgag gagggcaagc ccgtggtcag
23220
cgacgagcag ctggcccggt ggctgggtcc taatgctagt ccccagagtt tggaagagcg
23280
gcgcaaactc atgatggccg tggtcctggt gaccgtggag ctggagtgcc tgcgccgctt
23340
cttcgccgac gcggagaccc tgcgcaaggt cgaggagaac ctgcactacc tcttcaggca
23400
cgggttcgtg cgccaggcct gcaagatctc caacgtggag ctgaccaacc tggtctccta
23460
catgggcatc ttgcacgaga accgcctggg gcagaacgtg ctgcacacca ccctgcgcgg
23520
ggaggcccgg cgcgactaca tccgcgactg cgtctacctc tacctctgcc acacctggca
23580
gacgggcatg ggcgtgtggc agcagtgtct ggaggagcag aacctgaaag agctctgcaa
23640
gctcctgcag aagaacctca agggtctgtg gaccgggttc gacgagcgca ccaccgcctc
23700
ggacctggcc gacctcattt tccccgagcg cctcaggctg acgctgcgca acggcctgcc
23760
cgactttatg agccaaagca tgttgcaaaa ctttcgctct ttcatcctcg aacgctccgg
23820
aatcctgccc gccacctgct ccgcgctgcc ctcggacttc gtgccgctga ccttccgcga
23880
gtgccccccg ccgctgtgga gccactgcta cctgctgcgc ctggccaact acctggccta
23940
ccactcggac gtgatcgagg acgtcagcgg cgagggcctg ctcgagtgcc actgccgctg
24000
caacctctgc acgccgcacc gctccctggc ctgcaacccc cagctgctga gcgagaccca
24060
gatcatcggc accttcgagt tgcaagggcc cagcgaaggc gagggttcag ccgccaaggg
24120
gggtctgaaa ctcaccccgg ggctgtggac ctcggcctac ttgcgcaagt tcgtgcccga
24180
ggactaccat cccttcgaga tcaggttcta cgaggaccaa tcccatccgc ccaaggccga
24240
gctgtcggcc tgcgtcatca cccagggggc gatcctggcc caattgcaag ccatccagaa
24300
atcccgccaa gaattcttgc tgaaaaaggg ccgcggggtc tacctcgacc cccagaccgg
24360
tgaggagctc aaccccggct tcccccagga tgccccgagg aaacaagaag ctgaaagtgg
24420
agctgccgcc cgtggaggat ttggaggaag actgggagaa cagcagtcag gcagaggagg
24480
aggagatgga ggaagactgg gacagcactc aggcagagga ggacagcctg caagacagtc
24540
tggaggaaga cgaggaggag gcagaggagg aggtggaaga agcagccgcc gccagaccgt
24600
cgtcctcggc gggggagaaa gcaagcagca cggataccat ctccgctccg ggtcggggtc
24660
ccgctcgacc acacagtaga tgggacgaga ccggacgatt cccgaacccc accacccaga
24720
ccggtaagaa ggagcggcag ggatacaagt cctggcgggg gcacaaaaac gccatcgtct
24780
cctgcttgca ggcctgcggg ggcaacatct ccttcacccg gcgctacctg ctcttccacc
24840
gcggggtgaa ctttccccgc aacatcttgc attactaccg tcacctccac agcccctact
24900
acttccaaga agaggcagca gcagcagaaa aagaccagca gaaaaccagc agctagaaaa
24960
tccacagcgg cggcagcagg tggactgagg atcgcggcga acgagccggc gcaaacccgg
25020
gagctgagga accggatctt tcccaccctc tatgccatct tccagcagag tcgggggcag
25080
gagcaggaac tgaaagtcaa gaaccgttct ctgcgctcgc tcacccgcag ttgtctgtat
25140
cacaagagcg aagaccaact tcagcgcact ctcgaggacg ccgaggctct cttcaacaag
25200
tactgcgcgc tcactcttaa agagtagccc gcgcccgccc agtcgcagaa aaaggcggga
25260
attacgtcac ctgtgccctt cgccctagcc gcctccaccc atcatcatga gcaaagagat
25320
tcccacgcct tacatgtgga gctaccagcc ccagatgggc ctggccgccg gtgccgccca
25380
ggactactcc acccgcatga attggctcag cgccgggccc gcgatgatct cacgggtgaa
25440
tgacatccgc gcccaccgaa accagatact cctagaacag tcagcgctca ccgccacgcc
25500
ccgcaatcac ctcaatccgc gtaattggcc cgccgccctg gtgtaccagg aaattcccca
25560
gcccacgacc gtactacttc cgcgagacgc ccaggccgaa gtccagctga ctaactcagg
25620
tgtccagctg gcgggcggcg ccaccctgtg tcgtcaccgc cccgctcagg gtataaagcg
25680
gctggtgatc cggggcagag gcacacagct caacgacgag gtggtgagct cttcgctggg
25740
tctgcgacct gacggagtct tccaactcgc cggatcgggg agatcttcct tcacgcctcg
25800
tcaggccgtc ctgactttgg agagttcgtc ctcgcagccc cgctcgggtg gcatcggcac
25860
tctccagttc gtggaggagt tcactccctc ggtctacttc aaccccttct ccggctcccc
25920
cggccactac ccggacgagt tcatcccgaa cttcgacgcc atcagcgagt cggtggacgg
25980
ctacgattga aactaatcac ccccttatcc agtgaaataa agatcatatt gatgatgatt
26040
ttacagaaat aaaaaataat catttgattt gaaataaaga tacaatcata ttgatgattt
26100
gagtttaaca aaaaaataaa gaatcactta cttgaaatct gataccaggt ctctgtccat
26160
gttttctgcc aacaccactt cactcccctc ttcccagctc tggtactgca ggccccggcg
26220
ggctgcaaac ttcctccaca cgctgaaggg gatgtcaaat tcctcctgtc cctcaatctt
26280
cattttatct tctatcagat gtccaaaaag cgcgtccggg tggatgatga cttcgacccc
26340
gtctacccct acgatgcaga caacgcaccg accgtgccct tcatcaaccc ccccttcgtc
26400
tcttcagatg gattccaaga gaagcccctg ggggtgttgt ccctgcgact ggccgacccc
26460
gtcaccacca agaacgggga aatcaccctc aagctgggag agggggtgga cctcgattcc
26520
tcgggaaaac tcatctccaa cacggccacc aaggccgccg cccctctcag tttttccaac
26580
aacaccattt cccttaacat ggatcacccc ttttacacta aagatggaaa attatcctta
26640
caagtttctc caccattaaa tatactgaga acaagcattc taaacacact agctttaggt
26700
tttggatcag gtttaggact ccgtggctct gccttggcag tacagttagt ctctccactt
26760
acatttgata ctgatggaaa cataaagctt accttagaca gaggtttgca tgttacaaca
26820
ggagatgcaa ttgaaagcaa cataagctgg gctaaaggtt taaaatttga agatggagcc
26880
atagcaacca acattggaaa tgggttagag tttggaagca gtagtacaga aacaggtgtt
26940
gatgatgctt acccaatcca agttaaactt ggatctggcc ttagctttga cagtacagga
27000
gccataatgg ctggtaacaa agaagacgat aaactcactt tgtggacaac acctgatcca
27060
tcaccaaact gtcaaatact cgcagaaaat gatgcaaaac taacactttg cttgactaaa
27120
tgtggtagtc aaatactggc cactgtgtca gtcttagttg taggaagtgg aaacctaaac
27180
cccattactg gcaccgtaag cagtgctcag gtgtttctac gttttgatgc aaacggtgtt
27240
cttttaacag aacattctac actaaaaaaa tactgggggt ataggcaggg agatagcata
27300
gatggcactc catataccaa tgctgtagga ttcatgccca atttaaaagc ttatccaaag
27360
tcacaaagtt ctactactaa aaataatata gtagggcaag tatacatgaa tggagatgtt
27420
tcaaaaccta tgcttctcac tataaccctc aatggtactg atgacagcaa cagtacatat
27480
tcaatgtcat tttcatacac ctggactaat ggaagctatg ttggagcaac atttggggct
27540
aactcttata ccttctcata catcgcccaa gaatgaacac tgtatcccac cctgcatgcc
27600
aacccttccc accccactct gtggaacaaa ctctgaaaca caaaataaaa taaagttcaa
27660
gtgttttatt gattcaacag ttttacagga ttcgagcagt tatttttcct ccaccctccc
27720
aggacatgga atacaccacc ctctcccccc gcacagcctt gaacatctga atgccattgg
27780
tgatggacat gcttttggtc tccacgttcc acacagtttc agagcgagcc agtctcgggt
27840
cggtcaggga gatgaaaccc tccgggcact cccgcatctg cacctcacag ctcaacagct
27900
gaggattgtc ctcggtggtc gggatcacgg ttatctggaa gaagcagaag agcggcggtg
27960
ggaatcatag tccgcgaacg ggatcggccg gtggtgtcgc atcaggcccc gcagcagtcg
28020
ctgccgccgc cgctccgtca agctgctgct cagggggtcc gggtccaggg actccctcag
28080
catgatgccc acggccctca gcatcagtcg tctggtgcgg cgggcgcagc agcgcatgcg
28140
gatctcgctc aggtcgctgc agtacgtgca acacagaacc accaggttgt tcaacagtcc
28200
atagttcaac acgctccagc cgaaactcat cgcgggaagg atgctaccca cgtggccgtc
28260
gtaccagatc ctcaggtaaa tcaagtggtg ccccctccag aacacgctgc ccacgtacat
28320
gatctccttg ggcatgtggc ggttcaccac ctcccggtac cacatcaccc tctggttgaa
28380
catgcagccc cggatgatcc tgcggaacca cagggccagc accgccccgc ccgccatgca
28440
gcgaagagac cccgggtccc ggcaatggca atggaggacc caccgctcgt acccgtggat
28500
catctgggag ctgaacaagt ctatgttggc acagcacagg catatgctca tgcatctctt
28560
cagcactctc aactcctcgg gggtcaaaac catatcccag ggcacgggga actcttgcag
28620
gacagcgaac cccgcagaac agggcaatcc tcgcacagaa cttacattgt gcatggacag
28680
ggtatcgcaa tcaggcagca ccgggtgatc ctccaccaga gaagcgcggg tctcggtctc
28740
ctcacagcgt ggtaaggggg ccggccgata cgggtgatgg cgggacgcgg ctgatcgtgt
28800
tcgcgaccgt gtcatgatgc agttgctttc ggacattttc gtacttgctg tagcagaacc
28860
tggtccgggc gctgcacacc gatcgccggc ggcggtctcg gcgcttggaa cgctcggtgt
28920
tgaaattgta aaacagccac tctctcagac cgtgcagcag atctagggcc tcaggagtga
28980
tgaagatccc atcatgcctg atggctctga tcacatcgac caccgtggaa tgggccagac
29040
ccagccagat gatgcaattt tgttgggttt cggtgacggc gggggaggga agaacaggaa
29100
gaaccatgat taacttttaa tccaaacggt ctcggagtac ttcaaaatga agatcgcgga
29160
gatggcacct ctcgcccccg ctgtgttggt ggaaaataac agccaggtca aaggtgatac
29220
ggttctcgag atgttccacg gtggcttcca gcaaagcctc cacgcgcaca tccagaaaca
29280
agacaatagc gaaagcggga gggttctcta attcctcaat catcatgtta cactcctgca
29340
ccatccccag ataattttca tttttccagc cttgaatgat tcgaactagt tcctgaggta
29400
aatccaagcc agccatgata aagagctcgc gcagagcgcc ctccaccggc attcttaagc
29460
acaccctcat aattccaaga tattctgctc ctggttcacc tgcagcagat tgacaagcgg
29520
aatatcaaaa tctctgccgc gatccctgag ctcctccctc agcaataact gtaagtactc
29580
tttcatatcc tctccgaaat ttttagccat aggaccacca ggaataagat tagggcaagc
29640
cacagtacag ataaaccgaa gtcctcccca gtgagcattg ccaaatgcaa gactgctata
29700
agcatgctgg ctagacccgg tgatatcttc cagataactg gacagaaaat cgcccaggca
29760
atttttaaga aaatcaacaa aagaaaaatc ctccaggtgg acgtttagag cctcgggaac
29820
aacgatgaag taaatgcaag cggtgcgttc cagcatggtt agttagctga tctgtagaaa
29880
aaacaaaaat gaacattaaa ccatgctagc ctggcgaaca ggtgggtaaa tcgttctctc
29940
cagcaccagg caggccacgg ggtctccggc gcgaccctcg taaaaattgt cgctatgatt
30000
gaaaaccatc acagagagac gttcccggtg gccggcgtga atgattcgac aagatgaata
30060
cacccccgga acattggcgt ccgcgagtga aaaaaagcgc ccgaggaagc aataaggcac
30120
tacaatgctc agtctcaagt ccagcaaagc gatgccatgc ggatgaagca caaaattctc
30180
aggtgcgtac aaaatgtaat tactcccctc ctgcacaggc agcaaagccc ccgatccctc
30240
caggtacaca tacaaagcct cagcgtccat agcttaccga gcagcagcac acaacaggcg
30300
caagagtcag agaaaggctg agctctaacc tgtccacccg ctctctgctc aatatatagc
30360
ccagatctac actgacgtaa aggccaaagt ctaaaaatac ccgccaaata atcacacacg
30420
cccagcacac gcccagaaac cggtgacaca ctcaaaaaaa tacgcgcact tcctcaaacg
30480
cccaaaactg ccgtcatttc cgggttccca cgctacgtca tcaaaacacg actttcaaat
30540
tccgtcgacc gttaaaaacg tcacccgccc cgcccctaac ggtcgcccgt ctctcagcca
30600
atcagcgccc cgcatcccca aattcaaaca cctcatttgc atattaacgc gcacaaaaag
30660
tttgaggtat attattgatg atgg
30684
<210> 14
<211> 8602
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 14
atgggcggcg catgagagaa gcccagacca attacctacc caaaatggag aaagttcacg
60
ttgacatcga ggaagacagc ccattcctca gagctttgca gcggagcttc ccgcagtttg
120
aggtagaagc caagcaggtc actgataatg accatgctaa tgccagagcg ttttcgcatc
180
tggcttcaaa actgatcgaa acggaggtgg acccatccga cacgatcctt gacattggaa
240
gtgcgcccgc ccgcagaatg tattctaagc acaagtatca ttgtatctgt ccgatgagat
300
gtgcggaaga tccggacaga ttgtataagt atgcaactaa gctgaagaaa aactgtaagg
360
aaataactga taaggaattg gacaagaaaa tgaaggagct cgccgccgtc atgagcgacc
420
ctgacctgga aactgagact atgtgcctcc acgacgacga gtcgtgtcgc tacgaagggc
480
aagtcgctgt ttaccaggat gtatacgcgg ttgacggacc gacaagtctc tatcaccaag
540
ccaataaggg agttagagtc gcctactgga taggctttga caccacccct tttatgttta
600
agaacttggc tggagcatat ccatcatact ctaccaactg ggccgacgaa accgtgttaa
660
cggctcgtaa cataggccta tgcagctctg acgttatgga gcggtcacgt agagggatgt
720
ccattcttag aaagaagtat ttgaaaccat ccaacaatgt tctattctct gttggctcga
780
ccatctacca cgagaagagg gacttactga ggagctggca cctgccgtct gtatttcact
840
tacgtggcaa gcaaaattac acatgtcggt gtgagactat agttagttgc gacgggtacg
900
tcgttaaaag aatagctatc agtccaggcc tgtatgggaa gccttcaggc tatgctgcta
960
cgatgcaccg cgagggattc ttgtgctgca aagtgacaga cacattgaac ggggagaggg
1020
tctcttttcc cgtgtgcacg tatgtgccag ctacattgtg tgaccaaatg actggcatac
1080
tggcaacaga tgtcagtgcg gacgacgcgc aaaaactgct ggttgggctc aaccagcgta
1140
tagtcgtcaa cggtcgcacc cagagaaaca ccaataccat gaaaaattac cttttgcccg
1200
tagtggccca ggcatttgct aggtgggcaa aggaatataa ggaagatcaa gaagatgaaa
1260
ggccactagg actacgagat agacagttag tcatggggtg ttgttgggct tttagaaggc
1320
acaagataac atctatttat aagcgcccgg atacccaaac catcatcaaa gtgaacagcg
1380
atttccactc attcgtgctg cccaggatag gcagtaacac attggagatc gggctgagaa
1440
caagaatcag gaaaatgtta gaggagcaca aggagccgtc acctctcatt accgccgagg
1500
acgtacaaga agctaagtgc gcagccgatg aggctaagga ggtgcgtgaa gccgaggagt
1560
tgcgcgcagc tctaccacct ttggcagctg atgttgagga gcccactctg gaagccgatg
1620
tcgacttgat gttacaagag gctggggccg gctcagtgga gacacctcgt ggcttgataa
1680
aggttaccag ctacgctggc gaggacaaga tcggctctta cgctgtgctt tctccgcagg
1740
ctgtactcaa gagtgaaaaa ttatcttgca tccaccctct cgctgaacaa gtcatagtga
1800
taacacactc tggccgaaaa gggcgttatg ccgtggaacc ataccatggt aaagtagtgg
1860
tgccagaggg acatgcaata cccgtccagg actttcaagc tctgagtgaa agtgccacca
1920
ttgtgtacaa cgaacgtgag ttcgtaaaca ggtacctgca ccatattgcc acacatggag
1980
gagcgctgaa cactgatgaa gaatattaca aaactgtcaa gcccagcgag cacgacggcg
2040
aatacctgta cgacatcgac aggaaacagt gcgtcaagaa agaactagtc actgggctag
2100
ggctcacagg cgagctggtg gatcctccct tccatgaatt cgcctacgag agtctgagaa
2160
cacgaccagc cgctccttac caagtaccaa ccataggggt gtatggcgtg ccaggatcag
2220
gcaagtctgg catcattaaa agcgcagtca ccaaaaaaga tctagtggtg agcgccaaga
2280
aagaaaactg tgcagaaatt ataagggacg tcaagaaaat gaaagggctg gacgtcaatg
2340
ccagaactgt ggactcagtg ctcttgaatg gatgcaaaca ccccgtagag accctgtata
2400
ttgacgaagc ttttgcttgt catgcaggta ctctcagagc gctcatagcc attataagac
2460
ctaaaaaggc agtgctctgc ggggatccca aacagtgcgg tttttttaac atgatgtgcc
2520
tgaaagtgca ttttaaccac gagatttgca cacaagtctt ccacaaaagc atctctcgcc
2580
gttgcactaa atctgtgact tcggtcgtct caaccttgtt ttacgacaaa aaaatgagaa
2640
cgacgaatcc gaaagagact aagattgtga ttgacactac cggcagtacc aaacctaagc
2700
aggacgatct cattctcact tgtttcagag ggtgggtgaa gcagttgcaa atagattaca
2760
aaggcaacga aataatgacg gcagctgcct ctcaagggct gacccgtaaa ggtgtgtatg
2820
ccgttcggta caaggtgaat gaaaatcctc tgtacgcacc cacctcagaa catgtgaacg
2880
tcctactgac ccgcacggag gaccgcatcg tgtggaaaac actagccggc gacccatgga
2940
taaaaacact gactgccaag taccctggga atttcactgc cacgatagag gagtggcaag
3000
cagagcatga tgccatcatg aggcacatct tggagagacc ggaccctacc gacgtcttcc
3060
agaataaggc aaacgtgtgt tgggccaagg ctttagtgcc ggtgctgaag accgctggca
3120
tagacatgac cactgaacaa tggaacactg tggattattt tgaaacggac aaagctcact
3180
cagcagagat agtattgaac caactatgcg tgaggttctt tggactcgat ctggactccg
3240
gtctattttc tgcacccact gttccgttat ccattaggaa taatcactgg gataactccc
3300
cgtcgcctaa catgtacggg ctgaataaag aagtggtccg tcagctctct cgcaggtacc
3360
cacaactgcc tcgggcagtt gccactggaa gagtctatga catgaacact ggtacactgc
3420
gcaattatga tccgcgcata aacctagtac ctgtaaacag aagactgcct catgctttag
3480
tcctccacca taatgaacac ccacagagtg acttttcttc attcgtcagc aaattgaagg
3540
gcagaactgt cctggtggtc ggggaaaagt tgtccgtccc aggcaaaatg gttgactggt
3600
tgtcagaccg gcctgaggct accttcagag ctcggctgga tttaggcatc ccaggtgatg
3660
tgcccaaata tgacataata tttgttaatg tgaggacccc atataaatac catcactatc
3720
agcagtgtga agaccatgcc attaagctta gcatgttgac caagaaagct tgtctgcatc
3780
tgaatcccgg cggaacctgt gtcagcatag gttatggtta cgctgacagg gccagcgaaa
3840
gcatcattgg tgctatagcg cggcagttca agttttcccg ggtatgcaaa ccgaaatcct
3900
cacttgaaga gacggaagtt ctgtttgtat tcattgggta cgatcgcaag gcccgtacgc
3960
acaatcctta caagctttca tcaaccttga ccaacattta tacaggttcc agactccacg
4020
aagccggatg tgcaccctca tatcatgtgg tgcgagggga tattgccacg gccaccgaag
4080
gagtgattat aaatgctgct aacagcaaag gacaacctgg cggaggggtg tgcggagcgc
4140
tgtataagaa attcccggaa agcttcgatt tacagccgat cgaagtagga aaagcgcgac
4200
tggtcaaagg tgcagctaaa catatcattc atgccgtagg accaaacttc aacaaagttt
4260
cggaggttga aggtgacaaa cagttggcag aggcttatga gtccatcgct aagattgtca
4320
acgataacaa ttacaagtca gtagcgattc cactgttgtc caccggcatc ttttccggga
4380
acaaagatcg actaacccaa tcattgaacc atttgctgac agctttagac accactgatg
4440
cagatgtagc catatactgc agggacaaga aatgggaaat gactctcaag gaagcagtgg
4500
ctaggagaga agcagtggag gagatatgca tatccgacga ctcttcagtg acagaacctg
4560
atgcagagct ggtgagggtg catccgaaga gttctttggc tggaaggaag ggctacagca
4620
caagcgatgg caaaactttc tcatatttgg aagggaccaa gtttcaccag gcggccaagg
4680
atatagcaga aattaatgcc atgtggcccg ttgcaacgga ggccaatgag caggtatgca
4740
tgtatatcct cggagaaagc atgagcagta ttaggtcgaa atgccccgtc gaagagtcgg
4800
aagcctccac accacctagc acgctgcctt gcttgtgcat ccatgccatg actccagaaa
4860
gagtacagcg cctaaaagcc tcacgtccag aacaaattac tgtgtgctca tcctttccat
4920
tgccgaagta tagaatcact ggtgtgcaga agatccaatg ctcccagcct atattgttct
4980
caccgaaagt gcctgcgtat attcatccaa ggaagtatct cgtggaaaca ccaccggtag
5040
acgagactcc ggagccatcg gcagagaacc aatccacaga ggggacacct gaacaaccac
5100
cacttataac cgaggatgag accaggacta gaacgcctga gccgatcatc atcgaagagg
5160
aagaagagga tagcataagt ttgctgtcag atggcccgac ccaccaggtg ctgcaagtcg
5220
aggcagacat tcacgggccg ccctctgtat ctagctcatc ctggtccatt cctcatgcat
5280
ccgactttga tgtggacagt ttatccatac ttgacaccct ggagggagct agcgtgacca
5340
gcggggcaac gtcagccgag actaactctt acttcgcaaa gagtatggag tttctggcgc
5400
gaccggtgcc tgcgcctcga acagtattca ggaaccctcc acatcccgct ccgcgcacaa
5460
gaacaccgtc acttgcaccc agcagggcct gctcgagaac cagcctagtt tccaccccgc
5520
caggcgtgaa tagggtgatc actagagagg agctcgaggc gcttaccccg tcacgcactc
5580
ctagcaggtc ggtctcgaga accagcctgg tctccaaccc gccaggcgta aatagggtga
5640
ttacaagaga ggagtttgag gcgttcgtag cacaacaaca atgacggttt gatgcgggtg
5700
catacatctt ttcctccgac accggtcaag ggcatttaca acaaaaatca gtaaggcaaa
5760
cggtgctatc cgaagtggtg ttggagagga ccgaattgga gatttcgtat gccccgcgcc
5820
tcgaccaaga aaaagaagaa ttactacgca agaaattaca gttaaatccc acacctgcta
5880
acagaagcag ataccagtcc aggaaggtgg agaacatgaa agccataaca gctagacgta
5940
ttctgcaagg cctagggcat tatttgaagg cagaaggaaa agtggagtgc taccgaaccc
6000
tgcatcctgt tcctttgtat tcatctagtg tgaaccgtgc cttttcaagc cccaaggtcg
6060
cagtggaagc ctgtaacgcc atgttgaaag agaactttcc gactgtggct tcttactgta
6120
ttattccaga gtacgatgcc tatttggaca tggttgacgg agcttcatgc tgcttagaca
6180
ctgccagttt ttgccctgca aagctgcgca gctttccaaa gaaacactcc tatttggaac
6240
ccacaatacg atcggcagtg ccttcagcga tccagaacac gctccagaac gtcctggcag
6300
ctgccacaaa aagaaattgc aatgtcacgc aaatgagaga attgcccgta ttggattcgg
6360
cggcctttaa tgtggaatgc ttcaagaaat atgcgtgtaa taatgaatat tgggaaacgt
6420
ttaaagaaaa ccccatcagg cttactgaag aaaacgtggt aaattacatt accaaattaa
6480
aaggaccaaa agctgctgct ctttttgcga agacacataa tttgaatatg ttgcaggaca
6540
taccaatgga caggtttgta atggacttaa agagagacgt gaaagtgact ccaggaacaa
6600
aacatactga agaacggccc aaggtacagg tgatccaggc tgccgatccg ctagcaacag
6660
cgtatctgtg cggaatccac cgagagctgg ttaggagatt aaatgcggtc ctgcttccga
6720
acattcatac actgtttgat atgtcggctg aagactttga cgctattata gccgagcact
6780
tccagcctgg ggattgtgtt ctggaaactg acatcgcgtc gtttgataaa agtgaggacg
6840
acgccatggc tctgaccgcg ttaatgattc tggaagactt aggtgtggac gcagagctgt
6900
tgacgctgat tgaggcggct ttcggcgaaa tttcatcaat acatttgccc actaaaacta
6960
aatttaaatt cggagccatg atgaaatctg gaatgttcct cacactgttt gtgaacacag
7020
tcattaacat tgtaatcgca agcagagtgt tgagagaacg gctaaccgga tcaccatgtg
7080
cagcattcat tggagatgac aatatcgtga aaggagtcaa atcggacaaa ttaatggcag
7140
acaggtgcgc cacctggttg aatatggaag tcaagattat agatgctgtg gtgggcgaga
7200
aagcgcctta tttctgtgga gggtttattt tgtgtgactc cgtgaccggc acagcgtgcc
7260
gtgtggcaga ccccctaaaa aggctgttta agcttggcaa acctctggca gcagacgatg
7320
aacatgatga tgacaggaga agggcattgc atgaagagtc aacacgctgg aaccgagtgg
7380
gtattctttc agagctgtgc aaggcagtag aatcaaggta tgaaaccgta ggaacttcca
7440
tcatagttat ggccatgact actctagcta gcagtgttaa atcattcagc tacctgagag
7500
gggcccctat aactctctac ggctaacctg aatggactac gactctagaa tagtctttaa
7560
ttaaagtccg ccatatgagg ccaccatgca gatcttcgtg aagaccctga ccggcaagac
7620
catcacccta gaggtggagc ccagtgacac catcgagaac gtgaaggcca agatccagga
7680
taaagagggc atcccccctg accagcagag gctgatcttt gccggcaagc agctggaaga
7740
tggccgcacc ctctctgatt acaacatcca gaaggagtca accctgcacc tggtccttcg
7800
cctgagaggt ggcgctgctt acagtataat caactttgaa aaactggctg cttacggcat
7860
cctgggcttt gtgtttacac tggctgccta cctgctgttt ggctatcctg tgtacgtggc
7920
cgcttatgga ctgtgtaccc tggtggccat gctggctgct tacaatctgg tgcctatggt
7980
ggccacagtg gccgcctatt gtcttggcgg actgctgaca atggtggcag cctacagccc
8040
gagctatgcg tatcatcagt ttgcagccta cggcccagga ccaggcgcta aatttgtggc
8100
tgcctggaca ctgaaagccg ccgctggacc aggtcctgga cagtacatca aggccaacag
8160
caagttcatc ggcatcaccg aactcggccc aggaccaggc tatccctacg atgtgcctga
8220
ttacgcctga tagtgatgat tcgaacggcc gtatcacgcc caaacattta cagccgcggt
8280
gtcaaaaacc gcgtggacgt ggttaacatc cctgctggga ggatcagccg taattattat
8340
aattggcttg gtgctggcta ctattgtggc catgtacgtg ctgaccaacc agaaacataa
8400
ttgaatacag cagcaattgg caagctgctt acatagaact cgcggcgatt ggcatgccgc
8460
cttaaaattt ttattttatt ttttcttttc ttttccgaat cggattttgt ttttaatatt
8520
tcaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa
8580
aaaaaaaaaa aaaaaaaaaa aa
8602
<210> 15
<211> 9595
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 15
atgggcggcg catgagagaa gcccagacca attacctacc caaaatggag aaagttcacg
60
ttgacatcga ggaagacagc ccattcctca gagctttgca gcggagcttc ccgcagtttg
120
aggtagaagc caagcaggtc actgataatg accatgctaa tgccagagcg ttttcgcatc
180
tggcttcaaa actgatcgaa acggaggtgg acccatccga cacgatcctt gacattggaa
240
gtgcgcccgc ccgcagaatg tattctaagc acaagtatca ttgtatctgt ccgatgagat
300
gtgcggaaga tccggacaga ttgtataagt atgcaactaa gctgaagaaa aactgtaagg
360
aaataactga taaggaattg gacaagaaaa tgaaggagct cgccgccgtc atgagcgacc
420
ctgacctgga aactgagact atgtgcctcc acgacgacga gtcgtgtcgc tacgaagggc
480
aagtcgctgt ttaccaggat gtatacgcgg ttgacggacc gacaagtctc tatcaccaag
540
ccaataaggg agttagagtc gcctactgga taggctttga caccacccct tttatgttta
600
agaacttggc tggagcatat ccatcatact ctaccaactg ggccgacgaa accgtgttaa
660
cggctcgtaa cataggccta tgcagctctg acgttatgga gcggtcacgt agagggatgt
720
ccattcttag aaagaagtat ttgaaaccat ccaacaatgt tctattctct gttggctcga
780
ccatctacca cgagaagagg gacttactga ggagctggca cctgccgtct gtatttcact
840
tacgtggcaa gcaaaattac acatgtcggt gtgagactat agttagttgc gacgggtacg
900
tcgttaaaag aatagctatc agtccaggcc tgtatgggaa gccttcaggc tatgctgcta
960
cgatgcaccg cgagggattc ttgtgctgca aagtgacaga cacattgaac ggggagaggg
1020
tctcttttcc cgtgtgcacg tatgtgccag ctacattgtg tgaccaaatg actggcatac
1080
tggcaacaga tgtcagtgcg gacgacgcgc aaaaactgct ggttgggctc aaccagcgta
1140
tagtcgtcaa cggtcgcacc cagagaaaca ccaataccat gaaaaattac cttttgcccg
1200
tagtggccca ggcatttgct aggtgggcaa aggaatataa ggaagatcaa gaagatgaaa
1260
ggccactagg actacgagat agacagttag tcatggggtg ttgttgggct tttagaaggc
1320
acaagataac atctatttat aagcgcccgg atacccaaac catcatcaaa gtgaacagcg
1380
atttccactc attcgtgctg cccaggatag gcagtaacac attggagatc gggctgagaa
1440
caagaatcag gaaaatgtta gaggagcaca aggagccgtc acctctcatt accgccgagg
1500
acgtacaaga agctaagtgc gcagccgatg aggctaagga ggtgcgtgaa gccgaggagt
1560
tgcgcgcagc tctaccacct ttggcagctg atgttgagga gcccactctg gaagccgatg
1620
tcgacttgat gttacaagag gctggggccg gctcagtgga gacacctcgt ggcttgataa
1680
aggttaccag ctacgctggc gaggacaaga tcggctctta cgctgtgctt tctccgcagg
1740
ctgtactcaa gagtgaaaaa ttatcttgca tccaccctct cgctgaacaa gtcatagtga
1800
taacacactc tggccgaaaa gggcgttatg ccgtggaacc ataccatggt aaagtagtgg
1860
tgccagaggg acatgcaata cccgtccagg actttcaagc tctgagtgaa agtgccacca
1920
ttgtgtacaa cgaacgtgag ttcgtaaaca ggtacctgca ccatattgcc acacatggag
1980
gagcgctgaa cactgatgaa gaatattaca aaactgtcaa gcccagcgag cacgacggcg
2040
aatacctgta cgacatcgac aggaaacagt gcgtcaagaa agaactagtc actgggctag
2100
ggctcacagg cgagctggtg gatcctccct tccatgaatt cgcctacgag agtctgagaa
2160
cacgaccagc cgctccttac caagtaccaa ccataggggt gtatggcgtg ccaggatcag
2220
gcaagtctgg catcattaaa agcgcagtca ccaaaaaaga tctagtggtg agcgccaaga
2280
aagaaaactg tgcagaaatt ataagggacg tcaagaaaat gaaagggctg gacgtcaatg
2340
ccagaactgt ggactcagtg ctcttgaatg gatgcaaaca ccccgtagag accctgtata
2400
ttgacgaagc ttttgcttgt catgcaggta ctctcagagc gctcatagcc attataagac
2460
ctaaaaaggc agtgctctgc ggggatccca aacagtgcgg tttttttaac atgatgtgcc
2520
tgaaagtgca ttttaaccac gagatttgca cacaagtctt ccacaaaagc atctctcgcc
2580
gttgcactaa atctgtgact tcggtcgtct caaccttgtt ttacgacaaa aaaatgagaa
2640
cgacgaatcc gaaagagact aagattgtga ttgacactac cggcagtacc aaacctaagc
2700
aggacgatct cattctcact tgtttcagag ggtgggtgaa gcagttgcaa atagattaca
2760
aaggcaacga aataatgacg gcagctgcct ctcaagggct gacccgtaaa ggtgtgtatg
2820
ccgttcggta caaggtgaat gaaaatcctc tgtacgcacc cacctcagaa catgtgaacg
2880
tcctactgac ccgcacggag gaccgcatcg tgtggaaaac actagccggc gacccatgga
2940
taaaaacact gactgccaag taccctggga atttcactgc cacgatagag gagtggcaag
3000
cagagcatga tgccatcatg aggcacatct tggagagacc ggaccctacc gacgtcttcc
3060
agaataaggc aaacgtgtgt tgggccaagg ctttagtgcc ggtgctgaag accgctggca
3120
tagacatgac cactgaacaa tggaacactg tggattattt tgaaacggac aaagctcact
3180
cagcagagat agtattgaac caactatgcg tgaggttctt tggactcgat ctggactccg
3240
gtctattttc tgcacccact gttccgttat ccattaggaa taatcactgg gataactccc
3300
cgtcgcctaa catgtacggg ctgaataaag aagtggtccg tcagctctct cgcaggtacc
3360
cacaactgcc tcgggcagtt gccactggaa gagtctatga catgaacact ggtacactgc
3420
gcaattatga tccgcgcata aacctagtac ctgtaaacag aagactgcct catgctttag
3480
tcctccacca taatgaacac ccacagagtg acttttcttc attcgtcagc aaattgaagg
3540
gcagaactgt cctggtggtc ggggaaaagt tgtccgtccc aggcaaaatg gttgactggt
3600
tgtcagaccg gcctgaggct accttcagag ctcggctgga tttaggcatc ccaggtgatg
3660
tgcccaaata tgacataata tttgttaatg tgaggacccc atataaatac catcactatc
3720
agcagtgtga agaccatgcc attaagctta gcatgttgac caagaaagct tgtctgcatc
3780
tgaatcccgg cggaacctgt gtcagcatag gttatggtta cgctgacagg gccagcgaaa
3840
gcatcattgg tgctatagcg cggcagttca agttttcccg ggtatgcaaa ccgaaatcct
3900
cacttgaaga gacggaagtt ctgtttgtat tcattgggta cgatcgcaag gcccgtacgc
3960
acaatcctta caagctttca tcaaccttga ccaacattta tacaggttcc agactccacg
4020
aagccggatg tgcaccctca tatcatgtgg tgcgagggga tattgccacg gccaccgaag
4080
gagtgattat aaatgctgct aacagcaaag gacaacctgg cggaggggtg tgcggagcgc
4140
tgtataagaa attcccggaa agcttcgatt tacagccgat cgaagtagga aaagcgcgac
4200
tggtcaaagg tgcagctaaa catatcattc atgccgtagg accaaacttc aacaaagttt
4260
cggaggttga aggtgacaaa cagttggcag aggcttatga gtccatcgct aagattgtca
4320
acgataacaa ttacaagtca gtagcgattc cactgttgtc caccggcatc ttttccggga
4380
acaaagatcg actaacccaa tcattgaacc atttgctgac agctttagac accactgatg
4440
cagatgtagc catatactgc agggacaaga aatgggaaat gactctcaag gaagcagtgg
4500
ctaggagaga agcagtggag gagatatgca tatccgacga ctcttcagtg acagaacctg
4560
atgcagagct ggtgagggtg catccgaaga gttctttggc tggaaggaag ggctacagca
4620
caagcgatgg caaaactttc tcatatttgg aagggaccaa gtttcaccag gcggccaagg
4680
atatagcaga aattaatgcc atgtggcccg ttgcaacgga ggccaatgag caggtatgca
4740
tgtatatcct cggagaaagc atgagcagta ttaggtcgaa atgccccgtc gaagagtcgg
4800
aagcctccac accacctagc acgctgcctt gcttgtgcat ccatgccatg actccagaaa
4860
gagtacagcg cctaaaagcc tcacgtccag aacaaattac tgtgtgctca tcctttccat
4920
tgccgaagta tagaatcact ggtgtgcaga agatccaatg ctcccagcct atattgttct
4980
caccgaaagt gcctgcgtat attcatccaa ggaagtatct cgtggaaaca ccaccggtag
5040
acgagactcc ggagccatcg gcagagaacc aatccacaga ggggacacct gaacaaccac
5100
cacttataac cgaggatgag accaggacta gaacgcctga gccgatcatc atcgaagagg
5160
aagaagagga tagcataagt ttgctgtcag atggcccgac ccaccaggtg ctgcaagtcg
5220
aggcagacat tcacgggccg ccctctgtat ctagctcatc ctggtccatt cctcatgcat
5280
ccgactttga tgtggacagt ttatccatac ttgacaccct ggagggagct agcgtgacca
5340
gcggggcaac gtcagccgag actaactctt acttcgcaaa gagtatggag tttctggcgc
5400
gaccggtgcc tgcgcctcga acagtattca ggaaccctcc acatcccgct ccgcgcacaa
5460
gaacaccgtc acttgcaccc agcagggcct gctcgagaac cagcctagtt tccaccccgc
5520
caggcgtgaa tagggtgatc actagagagg agctcgaggc gcttaccccg tcacgcactc
5580
ctagcaggtc ggtctcgaga accagcctgg tctccaaccc gccaggcgta aatagggtga
5640
ttacaagaga ggagtttgag gcgttcgtag cacaacaaca atgacggttt gatgcgggtg
5700
catacatctt ttcctccgac accggtcaag ggcatttaca acaaaaatca gtaaggcaaa
5760
cggtgctatc cgaagtggtg ttggagagga ccgaattgga gatttcgtat gccccgcgcc
5820
tcgaccaaga aaaagaagaa ttactacgca agaaattaca gttaaatccc acacctgcta
5880
acagaagcag ataccagtcc aggaaggtgg agaacatgaa agccataaca gctagacgta
5940
ttctgcaagg cctagggcat tatttgaagg cagaaggaaa agtggagtgc taccgaaccc
6000
tgcatcctgt tcctttgtat tcatctagtg tgaaccgtgc cttttcaagc cccaaggtcg
6060
cagtggaagc ctgtaacgcc atgttgaaag agaactttcc gactgtggct tcttactgta
6120
ttattccaga gtacgatgcc tatttggaca tggttgacgg agcttcatgc tgcttagaca
6180
ctgccagttt ttgccctgca aagctgcgca gctttccaaa gaaacactcc tatttggaac
6240
ccacaatacg atcggcagtg ccttcagcga tccagaacac gctccagaac gtcctggcag
6300
ctgccacaaa aagaaattgc aatgtcacgc aaatgagaga attgcccgta ttggattcgg
6360
cggcctttaa tgtggaatgc ttcaagaaat atgcgtgtaa taatgaatat tgggaaacgt
6420
ttaaagaaaa ccccatcagg cttactgaag aaaacgtggt aaattacatt accaaattaa
6480
aaggaccaaa agctgctgct ctttttgcga agacacataa tttgaatatg ttgcaggaca
6540
taccaatgga caggtttgta atggacttaa agagagacgt gaaagtgact ccaggaacaa
6600
aacatactga agaacggccc aaggtacagg tgatccaggc tgccgatccg ctagcaacag
6660
cgtatctgtg cggaatccac cgagagctgg ttaggagatt aaatgcggtc ctgcttccga
6720
acattcatac actgtttgat atgtcggctg aagactttga cgctattata gccgagcact
6780
tccagcctgg ggattgtgtt ctggaaactg acatcgcgtc gtttgataaa agtgaggacg
6840
acgccatggc tctgaccgcg ttaatgattc tggaagactt aggtgtggac gcagagctgt
6900
tgacgctgat tgaggcggct ttcggcgaaa tttcatcaat acatttgccc actaaaacta
6960
aatttaaatt cggagccatg atgaaatctg gaatgttcct cacactgttt gtgaacacag
7020
tcattaacat tgtaatcgca agcagagtgt tgagagaacg gctaaccgga tcaccatgtg
7080
cagcattcat tggagatgac aatatcgtga aaggagtcaa atcggacaaa ttaatggcag
7140
acaggtgcgc cacctggttg aatatggaag tcaagattat agatgctgtg gtgggcgaga
7200
aagcgcctta tttctgtgga gggtttattt tgtgtgactc cgtgaccggc acagcgtgcc
7260
gtgtggcaga ccccctaaaa aggctgttta agcttggcaa acctctggca gcagacgatg
7320
aacatgatga tgacaggaga agggcattgc atgaagagtc aacacgctgg aaccgagtgg
7380
gtattctttc agagctgtgc aaggcagtag aatcaaggta tgaaaccgta ggaacttcca
7440
tcatagttat ggccatgact actctagcta gcagtgttaa atcattcagc tacctgagag
7500
gggcccctat aactctctac ggctaacctg aatggactac gactctagaa tagtctttaa
7560
ttaaagtccg ccatatgaga tggaagatgc caaaaacatt aagaagggcc cagcgccatt
7620
ctacccactc gaagacggga ccgccggcga gcagctgcac aaagccatga agcgctacgc
7680
cctggtgccc ggcaccatcg cctttaccga cgcacatatc gaggtggaca ttacctacgc
7740
cgagtacttc gagatgagcg ttcggctggc agaagctatg aagcgctatg ggctgaatac
7800
aaaccatcgg atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg
7860
tgccctgttc atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct
7920
gctgaacagc atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca
7980
aaagatcctc aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag
8040
caagaccgac taccagggct tccaaagcat gtacaccttc gtgacttccc atttgccacc
8100
cggcttcaac gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct
8160
gatcatgaac agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac
8220
cgcttgtgtc cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga
8280
caccgctatc ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg
8340
ctacttgatc tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt
8400
gcgcagcttg caagactata agattcaatc tgccctgctg gtgcccacac tatttagctt
8460
cttcgctaag agcactctca tcgacaagta cgacctaagc aacttgcacg agatcgccag
8520
cggcggggcg ccgctcagca aggaggtagg tgaggccgtg gccaaacgct tccacctacc
8580
aggcatccgc cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga
8640
aggggacgac aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt
8700
ggacttggac accggtaaga cactgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg
8760
ccccatgatc atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa
8820
ggacggctgg ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat
8880
cgtggaccgg ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact
8940
ggagagcatc ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga
9000
cgacgatgcc ggcgagctgc ccgccgcagt cgtcgtgctg gaacacggta aaaccatgac
9060
cgagaaggag atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg
9120
tggtgttgtg ttcgtggacg aggtgcctaa aggactgacc ggcaagttgg acgcccgcaa
9180
gatccgcgag attctcatta aggccaagaa gggcggcaag atcgccgtgt aattcgaacg
9240
gccgtatcac gcccaaacat ttacagccgc ggtgtcaaaa accgcgtgga cgtggttaac
9300
atccctgctg ggaggatcag ccgtaattat tataattggc ttggtgctgg ctactattgt
9360
ggccatgtac gtgctgacca accagaaaca taattgaata cagcagcaat tggcaagctg
9420
cttacataga actcgcggcg attggcatgc cgccttaaaa tttttatttt attttttctt
9480
ttcttttccg aatcggattt tgtttttaat atttcaaaaa aaaaaaaaaa aaaaaaaaaa
9540
aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaa
9595
<210> 16
<211> 139
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полипептид
<400> 16
Pro Ser Ser Leu Ser Ala Ser Val Gly Asp Arg Val Thr Ile Thr Cys
1 5 10 15
Arg Ala Ser Gln Ser Ile Asn Ser Tyr Leu Asp Trp Tyr Gln Gln Lys
20 25 30
Pro Gly Lys Ala Pro Lys Leu Leu Ile Tyr Ala Ala Ser Ser Leu Gln
35 40 45
Ser Gly Val Pro Ser Arg Phe Ser Gly Ser Gly Ser Gly Thr Asp Phe
50 55 60
Thr Leu Thr Ile Ser Ser Leu Gln Pro Glu Asp Phe Ala Thr Tyr Tyr
65 70 75 80
Cys Gln Gln Tyr Tyr Ser Thr Pro Phe Thr Phe Gly Pro Gly Thr Lys
85 90 95
Val Glu Ile Lys Arg Thr Val Ala Ala Pro Ser Val Phe Ile Phe Pro
100 105 110
Pro Ser Asp Glu Gln Leu Lys Ser Gly Thr Ala Ser Val Val Cys Leu
115 120 125
Leu Asn Asn Phe Tyr Pro Arg Glu Ala Lys Val
130 135
<210> 17
<211> 167
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полипептид
<400> 17
Gly Val Val Gln Pro Gly Arg Ser Leu Arg Leu Ser Cys Ala Ala Ser
1 5 10 15
Gly Phe Thr Phe Ser Ser Tyr Gly Met His Trp Val Arg Gln Ala Pro
20 25 30
Gly Lys Gly Leu Glu Trp Val Ala Val Ile Trp Tyr Asp Gly Ser Asn
35 40 45
Lys Tyr Tyr Ala Asp Ser Val Lys Gly Arg Phe Thr Ile Ser Arg Asp
50 55 60
Asn Ser Lys Asn Thr Leu Tyr Leu Gln Met Asn Ser Leu Arg Ala Glu
65 70 75 80
Asp Thr Ala Val Tyr Tyr Cys Ala Arg Asp Pro Arg Gly Ala Thr Leu
85 90 95
Tyr Tyr Tyr Tyr Tyr Gly Met Asp Val Trp Gly Gln Gly Thr Thr Val
100 105 110
Thr Val Ser Ser Ala Ser Thr Lys Gly Pro Ser Val Phe Pro Leu Ala
115 120 125
Pro Cys Ser Arg Ser Thr Ser Glu Ser Thr Ala Ala Leu Gly Cys Leu
130 135 140
Val Lys Asp Tyr Phe Pro Glu Pro Val Thr Val Ser Trp Asn Ser Gly
145 150 155 160
Ala Leu Thr Ser Gly Val His
165
<210> 18
<211> 10
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 18
Gly Phe Thr Phe Ser Ser Tyr Gly Met His
1 5 10
<210> 19
<211> 15
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 19
Val Ile Trp Tyr Asp Gly Ser Asn Lys Tyr Tyr Ala Asp Ser Val
1 5 10 15
<210> 20
<211> 16
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 20
Asp Pro Arg Gly Ala Thr Leu Tyr Tyr Tyr Tyr Tyr Gly Met Asp Val
1 5 10 15
<210> 21
<211> 11
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 21
Arg Ala Ser Gln Ser Ile Asn Ser Tyr Leu Asp
1 5 10
<210> 22
<211> 7
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 22
Ala Ala Ser Ser Leu Gln Ser
1 5
<210> 23
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 23
Gln Gln Tyr Tyr Ser Thr Pro Phe Thr
1 5
<210> 24
<211> 108
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полипептид
<400> 24
Glu Ile Val Leu Thr Gln Ser Pro Gly Thr Leu Ser Leu Ser Pro Gly
1 5 10 15
Glu Arg Ala Thr Leu Ser Cys Arg Ala Ser Gln Arg Val Ser Ser Ser
20 25 30
Tyr Leu Ala Trp Tyr Gln Gln Lys Pro Gly Gln Ala Pro Arg Leu Leu
35 40 45
Ile Tyr Asp Ala Ser Ser Arg Ala Thr Gly Ile Pro Asp Arg Phe Ser
50 55 60
Gly Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Arg Leu Glu
65 70 75 80
Pro Glu Asp Phe Ala Val Tyr Tyr Cys Gln Gln Tyr Gly Ser Leu Pro
85 90 95
Trp Thr Phe Gly Gln Gly Thr Lys Val Glu Ile Lys
100 105
<210> 25
<211> 121
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полипептид
<400> 25
Glu Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Gln Pro Gly Gly
1 5 10 15
Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Ser Arg Tyr
20 25 30
Trp Met Ser Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val
35 40 45
Ala Asn Ile Lys Gln Asp Gly Ser Glu Lys Tyr Tyr Val Asp Ser Val
50 55 60
Lys Gly Arg Phe Thr Ile Ser Arg Asp Asn Ala Lys Asn Ser Leu Tyr
65 70 75 80
Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys
85 90 95
Ala Arg Glu Gly Gly Trp Phe Gly Glu Leu Ala Phe Asp Tyr Trp Gly
100 105 110
Gln Gly Thr Leu Val Thr Val Ser Ser
115 120
<210> 26
<211> 5
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 26
Arg Tyr Trp Met Ser
1 5
<210> 27
<211> 17
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 27
Asn Ile Lys Gln Asp Gly Ser Glu Lys Tyr Tyr Val Asp Ser Val Lys
1 5 10 15
Gly
<210> 28
<211> 12
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 28
Glu Gly Gly Trp Phe Gly Glu Leu Ala Phe Asp Tyr
1 5 10
<210> 29
<211> 12
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 29
Arg Ala Ser Gln Arg Val Ser Ser Ser Tyr Leu Ala
1 5 10
<210> 30
<211> 7
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 30
Asp Ala Ser Ser Arg Ala Thr
1 5
<210> 31
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 31
Gln Gln Tyr Gly Ser Leu Pro Trp Thr
1 5
<210> 32
<211> 2019
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 32
gcccgggcat ttaaatgcga tcgcatcgat tacgactcta gaatagtcta gtccgcaggc
60
caccatgcag atcttcgtga agaccctgac cggcaagacc atcaccctag aggtggagcc
120
cagtgacacc atcgagaacg tgaaggccaa gatccaggat aaagagggca tcccccctga
180
ccagcagagg ctgatctttg ccggcaagca gctggaagat ggccgcaccc tctctgatta
240
caacatccag aaggagtcaa ccctgcacct ggtccttcgc ctgagaggtg ccatgtttca
300
ggcgctgagc gaaggctgca ccccgtatga tattaaccag atgctgaacg tgctgggcga
360
tcatcaggtc tcaggccttg agcagcttga gagtataatc aactttgaaa aactgactga
420
atggaccagt tctaatgtta tgcctatcct gtctcctctg acaaagggca tcctgggctt
480
cgtgtttacc ctgaccgtgc cttctgagag aggacttagc tgcattagcg aagcggatgc
540
gaccaccccg gaaagcgcga acctgggcga agaaattctg agccagctgt atctttggcc
600
aagggtgacc taccattccc ctagttatgc ttaccaccaa tttgaaagac gagccaaata
660
taaaagacac ttccccggct ttggccagag cctgctgttt ggctaccctg tgtacgtgtt
720
cggcgattgc gtgcagggcg attgggatgc gattcgcttt cgctattgcg cgccgccggg
780
ctatgcgctg ctgcgctgca acgataccaa ctatagcgct ctgctggctg tgggggccct
840
agaaggaccc aggaatcagg actggcttgg tgtcccaaga caacttgtaa ctcggatgca
900
ggctattcag aatgccggcc tgtgtaccct ggtggccatg ctggaagaga caatcttctg
960
gctgcaagcg tttctgatgg cgctgaccga tagcggcccg aaaaccaaca ttattgtgga
1020
tagccagtat gtgatgggca ttagcaaacc gagctttcag gaatttgtgg attgggaaaa
1080
cgtgagcccg gaactgaaca gcaccgatca gccgttttgg caagccggaa tcctggccag
1140
aaatctggtg cctatggtgg ccacagtgca gggccagaac ctgaagtacc agggtcagtc
1200
actagtcatc tctgcttcta tcattgtctt caacctgctg gaactggaag gtgattatcg
1260
agatgatggc aacgtgtggg tgcatacccc gctgagcccg cgcaccctga acgcgtgggt
1320
gaaagcggtg gaagaaaaaa aaggtattcc agttcaccta gagctggcca gtatgaccaa
1380
catggagctc atgagcagta ttgtgcatca gcaggtcaga acatacggcc ccgtgttcat
1440
gtgtctcggc ggactgctta caatggtggc tggtgctgtg tggctgacag tgcgagtgct
1500
cgagctgttc cgggccgcgc agctggccaa cgacgtggtc ctccagatca tggagctttg
1560
tggtgcagcg tttcgccagg tgtgccatac caccgtgccg tggccgaacg cgagcctgac
1620
cccgaaatgg aacaacgaaa ccacccagcc ccagatcgcc aactgcagcg tgtatgactt
1680
ttttgtgtgg ctccattatt attctgttcg agacacactt tggccaaggg tgacctacca
1740
tatgaacaaa tatgcgtatc atatgctgga aagacgagcc aaatataaaa gaggaccagg
1800
acctggcgct aaatttgtgg ccgcctggac actgaaagcc gctgctggtc ctggacctgg
1860
ccagtacatc aaggccaaca gcaagttcat cggcatcacc gaactcggac ccggaccagg
1920
ctgatgattt cgaaatttaa ataagcttgc ggccgctagg gataacaggg taattatcac
1980
gcccaaacat ttacagccgc ggtgtcaaaa accgcgtgg
2019
<210> 33
<211> 619
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полипептид
<400> 33
Met Gln Ile Phe Val Lys Thr Leu Thr Gly Lys Thr Ile Thr Leu Glu
1 5 10 15
Val Glu Pro Ser Asp Thr Ile Glu Asn Val Lys Ala Lys Ile Gln Asp
20 25 30
Lys Glu Gly Ile Pro Pro Asp Gln Gln Arg Leu Ile Phe Ala Gly Lys
35 40 45
Gln Leu Glu Asp Gly Arg Thr Leu Ser Asp Tyr Asn Ile Gln Lys Glu
50 55 60
Ser Thr Leu His Leu Val Leu Arg Leu Arg Gly Ala Met Phe Gln Ala
65 70 75 80
Leu Ser Glu Gly Cys Thr Pro Tyr Asp Ile Asn Gln Met Leu Asn Val
85 90 95
Leu Gly Asp His Gln Val Ser Gly Leu Glu Gln Leu Glu Ser Ile Ile
100 105 110
Asn Phe Glu Lys Leu Thr Glu Trp Thr Ser Ser Asn Val Met Pro Ile
115 120 125
Leu Ser Pro Leu Thr Lys Gly Ile Leu Gly Phe Val Phe Thr Leu Thr
130 135 140
Val Pro Ser Glu Arg Gly Leu Ser Cys Ile Ser Glu Ala Asp Ala Thr
145 150 155 160
Thr Pro Glu Ser Ala Asn Leu Gly Glu Glu Ile Leu Ser Gln Leu Tyr
165 170 175
Leu Trp Pro Arg Val Thr Tyr His Ser Pro Ser Tyr Ala Tyr His Gln
180 185 190
Phe Glu Arg Arg Ala Lys Tyr Lys Arg His Phe Pro Gly Phe Gly Gln
195 200 205
Ser Leu Leu Phe Gly Tyr Pro Val Tyr Val Phe Gly Asp Cys Val Gln
210 215 220
Gly Asp Trp Asp Ala Ile Arg Phe Arg Tyr Cys Ala Pro Pro Gly Tyr
225 230 235 240
Ala Leu Leu Arg Cys Asn Asp Thr Asn Tyr Ser Ala Leu Leu Ala Val
245 250 255
Gly Ala Leu Glu Gly Pro Arg Asn Gln Asp Trp Leu Gly Val Pro Arg
260 265 270
Gln Leu Val Thr Arg Met Gln Ala Ile Gln Asn Ala Gly Leu Cys Thr
275 280 285
Leu Val Ala Met Leu Glu Glu Thr Ile Phe Trp Leu Gln Ala Phe Leu
290 295 300
Met Ala Leu Thr Asp Ser Gly Pro Lys Thr Asn Ile Ile Val Asp Ser
305 310 315 320
Gln Tyr Val Met Gly Ile Ser Lys Pro Ser Phe Gln Glu Phe Val Asp
325 330 335
Trp Glu Asn Val Ser Pro Glu Leu Asn Ser Thr Asp Gln Pro Phe Trp
340 345 350
Gln Ala Gly Ile Leu Ala Arg Asn Leu Val Pro Met Val Ala Thr Val
355 360 365
Gln Gly Gln Asn Leu Lys Tyr Gln Gly Gln Ser Leu Val Ile Ser Ala
370 375 380
Ser Ile Ile Val Phe Asn Leu Leu Glu Leu Glu Gly Asp Tyr Arg Asp
385 390 395 400
Asp Gly Asn Val Trp Val His Thr Pro Leu Ser Pro Arg Thr Leu Asn
405 410 415
Ala Trp Val Lys Ala Val Glu Glu Lys Lys Gly Ile Pro Val His Leu
420 425 430
Glu Leu Ala Ser Met Thr Asn Met Glu Leu Met Ser Ser Ile Val His
435 440 445
Gln Gln Val Arg Thr Tyr Gly Pro Val Phe Met Cys Leu Gly Gly Leu
450 455 460
Leu Thr Met Val Ala Gly Ala Val Trp Leu Thr Val Arg Val Leu Glu
465 470 475 480
Leu Phe Arg Ala Ala Gln Leu Ala Asn Asp Val Val Leu Gln Ile Met
485 490 495
Glu Leu Cys Gly Ala Ala Phe Arg Gln Val Cys His Thr Thr Val Pro
500 505 510
Trp Pro Asn Ala Ser Leu Thr Pro Lys Trp Asn Asn Glu Thr Thr Gln
515 520 525
Pro Gln Ile Ala Asn Cys Ser Val Tyr Asp Phe Phe Val Trp Leu His
530 535 540
Tyr Tyr Ser Val Arg Asp Thr Leu Trp Pro Arg Val Thr Tyr His Met
545 550 555 560
Asn Lys Tyr Ala Tyr His Met Leu Glu Arg Arg Ala Lys Tyr Lys Arg
565 570 575
Gly Pro Gly Pro Gly Ala Lys Phe Val Ala Ala Trp Thr Leu Lys Ala
580 585 590
Ala Ala Gly Pro Gly Pro Gly Gln Tyr Ile Lys Ala Asn Ser Lys Phe
595 600 605
Ile Gly Ile Thr Glu Leu Gly Pro Gly Pro Gly
610 615
<210> 34
<211> 1638
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 34
atggccggga tgttccaggc actgtccgaa ggctgcacac cctatgatat taaccagatg
60
ctgaatgtcc tgggagacca ccaggtctct ggcctggagc agctggagag catcatcaac
120
ttcgagaagc tgaccgagtg gacaagctcc aatgtgatgc ctatcctgtc cccactgacc
180
aagggcatcc tgggcttcgt gtttaccctg acagtgcctt ctgagcgggg cctgtcttgc
240
atcagcgagg cagacgcaac cacaccagag tccgccaatc tgggcgagga gatcctgtct
300
cagctgtacc tgtggccccg ggtgacatat cactcccctt cttacgccta tcaccagttc
360
gagcggagag ccaagtacaa gagacacttc ccaggctttg gccagtctct gctgttcggc
420
taccccgtgt acgtgttcgg cgattgcgtg cagggcgact gggatgccat ccggtttaga
480
tactgcgcac cacctggata tgcactgctg aggtgtaacg acaccaatta ttccgccctg
540
ctggcagtgg gcgccctgga gggccctcgc aatcaggatt ggctgggcgt gccaaggcag
600
ctggtgacac gcatgcaggc catccagaac gcaggcctgt gcaccctggt ggcaatgctg
660
gaggagacaa tcttctggct gcaggccttt ctgatggccc tgaccgacag cggccccaag
720
acaaacatca tcgtggattc ccagtacgtg atgggcatct ccaagccttc tttccaggag
780
tttgtggact gggagaacgt gagcccagag ctgaattcca ccgatcagcc attctggcag
840
gcaggaatcc tggcaaggaa cctggtgcct atggtggcca cagtgcaggg ccagaatctg
900
aagtaccagg gccagagcct ggtcatcagc gcctccatca tcgtgtttaa cctgctggag
960
ctggagggcg actatcggga cgatggcaac gtgtgggtgc acaccccact gagccccaga
1020
acactgaacg cctgggtgaa ggccgtggag gagaagaagg gcatcccagt gcacctggag
1080
ctggcctcca tgaccaatat ggagctgatg tctagcatcg tgcaccagca ggtgaggaca
1140
tacggacccg tgttcatgtg cctgggaggc ctgctgacca tggtggcagg agccgtgtgg
1200
ctgacagtgc gggtgctgga gctgttcaga gccgcccagc tggccaacga tgtggtgctg
1260
cagatcatgg agctgtgcgg agcagccttt cgccaggtgt gccacaccac agtgccatgg
1320
cccaatgcct ccctgacccc caagtggaac aatgagacaa cacagcctca gatcgccaac
1380
tgtagcgtgt acgacttctt cgtgtggctg cactactata gcgtgaggga taccctgtgg
1440
ccccgcgtga cataccacat gaataagtac gcctatcaca tgctggagag gcgcgccaag
1500
tataagagag gccctggccc aggcgcaaag tttgtggcag catggaccct gaaggccgcc
1560
gccggccccg gccccggcca gtatatcaag gctaacagta agttcattgg aatcacagag
1620
ctgggacccg gacctgga
1638
<210> 35
<211> 546
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полипептид
<400> 35
Met Ala Gly Met Phe Gln Ala Leu Ser Glu Gly Cys Thr Pro Tyr Asp
1 5 10 15
Ile Asn Gln Met Leu Asn Val Leu Gly Asp His Gln Val Ser Gly Leu
20 25 30
Glu Gln Leu Glu Ser Ile Ile Asn Phe Glu Lys Leu Thr Glu Trp Thr
35 40 45
Ser Ser Asn Val Met Pro Ile Leu Ser Pro Leu Thr Lys Gly Ile Leu
50 55 60
Gly Phe Val Phe Thr Leu Thr Val Pro Ser Glu Arg Gly Leu Ser Cys
65 70 75 80
Ile Ser Glu Ala Asp Ala Thr Thr Pro Glu Ser Ala Asn Leu Gly Glu
85 90 95
Glu Ile Leu Ser Gln Leu Tyr Leu Trp Pro Arg Val Thr Tyr His Ser
100 105 110
Pro Ser Tyr Ala Tyr His Gln Phe Glu Arg Arg Ala Lys Tyr Lys Arg
115 120 125
His Phe Pro Gly Phe Gly Gln Ser Leu Leu Phe Gly Tyr Pro Val Tyr
130 135 140
Val Phe Gly Asp Cys Val Gln Gly Asp Trp Asp Ala Ile Arg Phe Arg
145 150 155 160
Tyr Cys Ala Pro Pro Gly Tyr Ala Leu Leu Arg Cys Asn Asp Thr Asn
165 170 175
Tyr Ser Ala Leu Leu Ala Val Gly Ala Leu Glu Gly Pro Arg Asn Gln
180 185 190
Asp Trp Leu Gly Val Pro Arg Gln Leu Val Thr Arg Met Gln Ala Ile
195 200 205
Gln Asn Ala Gly Leu Cys Thr Leu Val Ala Met Leu Glu Glu Thr Ile
210 215 220
Phe Trp Leu Gln Ala Phe Leu Met Ala Leu Thr Asp Ser Gly Pro Lys
225 230 235 240
Thr Asn Ile Ile Val Asp Ser Gln Tyr Val Met Gly Ile Ser Lys Pro
245 250 255
Ser Phe Gln Glu Phe Val Asp Trp Glu Asn Val Ser Pro Glu Leu Asn
260 265 270
Ser Thr Asp Gln Pro Phe Trp Gln Ala Gly Ile Leu Ala Arg Asn Leu
275 280 285
Val Pro Met Val Ala Thr Val Gln Gly Gln Asn Leu Lys Tyr Gln Gly
290 295 300
Gln Ser Leu Val Ile Ser Ala Ser Ile Ile Val Phe Asn Leu Leu Glu
305 310 315 320
Leu Glu Gly Asp Tyr Arg Asp Asp Gly Asn Val Trp Val His Thr Pro
325 330 335
Leu Ser Pro Arg Thr Leu Asn Ala Trp Val Lys Ala Val Glu Glu Lys
340 345 350
Lys Gly Ile Pro Val His Leu Glu Leu Ala Ser Met Thr Asn Met Glu
355 360 365
Leu Met Ser Ser Ile Val His Gln Gln Val Arg Thr Tyr Gly Pro Val
370 375 380
Phe Met Cys Leu Gly Gly Leu Leu Thr Met Val Ala Gly Ala Val Trp
385 390 395 400
Leu Thr Val Arg Val Leu Glu Leu Phe Arg Ala Ala Gln Leu Ala Asn
405 410 415
Asp Val Val Leu Gln Ile Met Glu Leu Cys Gly Ala Ala Phe Arg Gln
420 425 430
Val Cys His Thr Thr Val Pro Trp Pro Asn Ala Ser Leu Thr Pro Lys
435 440 445
Trp Asn Asn Glu Thr Thr Gln Pro Gln Ile Ala Asn Cys Ser Val Tyr
450 455 460
Asp Phe Phe Val Trp Leu His Tyr Tyr Ser Val Arg Asp Thr Leu Trp
465 470 475 480
Pro Arg Val Thr Tyr His Met Asn Lys Tyr Ala Tyr His Met Leu Glu
485 490 495
Arg Arg Ala Lys Tyr Lys Arg Gly Pro Gly Pro Gly Ala Lys Phe Val
500 505 510
Ala Ala Trp Thr Leu Lys Ala Ala Ala Gly Pro Gly Pro Gly Gln Tyr
515 520 525
Ile Lys Ala Asn Ser Lys Phe Ile Gly Ile Thr Glu Leu Gly Pro Gly
530 535 540
Pro Gly
545
<210> 36
<211> 2019
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 36
gcccgggcat ttaaatgcga tcgcatcgat tacgactcta gaatagtcta gtccgcaggc
60
caccatgcag atcttcgtga agaccctgac cggcaagacc atcaccctag aggtggagcc
120
cagtgacacc atcgagaacg tgaaggccaa gatccaggat aaagagggca tcccccctga
180
ccagcagagg ctgatctttg ccggcaagca gctggaagat ggccgcaccc tctctgatta
240
caacatccag aaggagtcaa ccctgcacct ggtccttcgc ctgagaggtg ccatgtttca
300
ggcgctgagc gaaggctgca ccccgtatga tattaaccag atgctgaacg tgctgggcga
360
tcatcagttt aagcacatca aagcctttga ccggacattt gctaacaacc caggtcccat
420
ggttgtgttt gccacacctg ggcctatcct gtctcctctg acaaagggca tcctgggctt
480
cgtgtttacc ctgaccgtgc cttctgagag aggacttagc tgcattagcg aagcggatgc
540
gaccaccccg gaaagcgcga acctgggcga agaaattctg agccagctgt atctttggcc
600
aagggtgacc taccattccc ctagttatgc ttaccaccaa tttgaaagac gagccaaata
660
taaaagacac ttccccggct ttggccagag cctgctgttt ggctaccctg tgtacgtgtt
720
cggcgattgc gtgcagggcg attgggatgc gattcgcttt cgctattgcg cgccgccggg
780
ctatgcgctg ctgcgctgca acgataccaa ctatagcgct ctgctggctg tgggggccct
840
agaaggaccc aggaatcagg actggcttgg tgtcccaaga caacttgtaa ctcggatgca
900
ggctattcag aatgccggcc tgtgtaccct ggtggccatg ctggaagaga caatcttctg
960
gctgcaagcg tttctgatgg cgctgaccga tagcggcccg aaaaccaaca ttattgtgga
1020
tagccagtat gtgatgggca ttagcaaacc gagctttcag gaatttgtgg attgggaaaa
1080
cgtgagcccg gaactgaaca gcaccgatca gccgttttgg caagccggaa tcctggccag
1140
aaatctggtg cctatggtgg ccacagtgca gggccagaac ctgaagtacc agggtcagtc
1200
actagtcatc tctgcttcta tcattgtctt caacctgctg gaactggaag gtgattatcg
1260
agatgatggc aacgtgtggg tgcatacccc gctgagcccg cgcaccctga acgcgtgggt
1320
gaaagcggtg gaagaaaaaa aaggtattcc agttcaccta gagctggcca gtatgaccaa
1380
catggagctc atgagcagta ttgtgcatca gcaggtcaga acatacggcc ccgtgttcat
1440
gtgtctcggc ggactgctta caatggtggc tggtgctgtg tggctgacag tgcgagtgct
1500
cgagctgttc cgggccgcgc agctggccaa cgacgtggtc ctccagatca tggagctttg
1560
tggtgcagcg tttcgccagg tgtgccatac caccgtgccg tggccgaacg cgagcctgac
1620
cccgaaatgg aacaacgaaa ccacccagcc ccagatcgcc aactgcagcg tgtatgactt
1680
ttttgtgtgg ctccattatt attctgttcg agacacactt tggccaaggg tgacctacca
1740
tatgaacaaa tatgcgtatc atatgctgga aagacgagcc aaatataaaa gaggaccagg
1800
acctggcgct aaatttgtgg ccgcctggac actgaaagcc gctgctggtc ctggacctgg
1860
ccagtacatc aaggccaaca gcaagttcat cggcatcacc gaactcggac ccggaccagg
1920
ctgatgattt cgaaatttaa ataagcttgc ggccgctagg gataacaggg taattatcac
1980
gcccaaacat ttacagccgc ggtgtcaaaa accgcgtgg
2019
<210> 37
<211> 619
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полипептид
<400> 37
Met Gln Ile Phe Val Lys Thr Leu Thr Gly Lys Thr Ile Thr Leu Glu
1 5 10 15
Val Glu Pro Ser Asp Thr Ile Glu Asn Val Lys Ala Lys Ile Gln Asp
20 25 30
Lys Glu Gly Ile Pro Pro Asp Gln Gln Arg Leu Ile Phe Ala Gly Lys
35 40 45
Gln Leu Glu Asp Gly Arg Thr Leu Ser Asp Tyr Asn Ile Gln Lys Glu
50 55 60
Ser Thr Leu His Leu Val Leu Arg Leu Arg Gly Ala Met Phe Gln Ala
65 70 75 80
Leu Ser Glu Gly Cys Thr Pro Tyr Asp Ile Asn Gln Met Leu Asn Val
85 90 95
Leu Gly Asp His Gln Phe Lys His Ile Lys Ala Phe Asp Arg Thr Phe
100 105 110
Ala Asn Asn Pro Gly Pro Met Val Val Phe Ala Thr Pro Gly Pro Ile
115 120 125
Leu Ser Pro Leu Thr Lys Gly Ile Leu Gly Phe Val Phe Thr Leu Thr
130 135 140
Val Pro Ser Glu Arg Gly Leu Ser Cys Ile Ser Glu Ala Asp Ala Thr
145 150 155 160
Thr Pro Glu Ser Ala Asn Leu Gly Glu Glu Ile Leu Ser Gln Leu Tyr
165 170 175
Leu Trp Pro Arg Val Thr Tyr His Ser Pro Ser Tyr Ala Tyr His Gln
180 185 190
Phe Glu Arg Arg Ala Lys Tyr Lys Arg His Phe Pro Gly Phe Gly Gln
195 200 205
Ser Leu Leu Phe Gly Tyr Pro Val Tyr Val Phe Gly Asp Cys Val Gln
210 215 220
Gly Asp Trp Asp Ala Ile Arg Phe Arg Tyr Cys Ala Pro Pro Gly Tyr
225 230 235 240
Ala Leu Leu Arg Cys Asn Asp Thr Asn Tyr Ser Ala Leu Leu Ala Val
245 250 255
Gly Ala Leu Glu Gly Pro Arg Asn Gln Asp Trp Leu Gly Val Pro Arg
260 265 270
Gln Leu Val Thr Arg Met Gln Ala Ile Gln Asn Ala Gly Leu Cys Thr
275 280 285
Leu Val Ala Met Leu Glu Glu Thr Ile Phe Trp Leu Gln Ala Phe Leu
290 295 300
Met Ala Leu Thr Asp Ser Gly Pro Lys Thr Asn Ile Ile Val Asp Ser
305 310 315 320
Gln Tyr Val Met Gly Ile Ser Lys Pro Ser Phe Gln Glu Phe Val Asp
325 330 335
Trp Glu Asn Val Ser Pro Glu Leu Asn Ser Thr Asp Gln Pro Phe Trp
340 345 350
Gln Ala Gly Ile Leu Ala Arg Asn Leu Val Pro Met Val Ala Thr Val
355 360 365
Gln Gly Gln Asn Leu Lys Tyr Gln Gly Gln Ser Leu Val Ile Ser Ala
370 375 380
Ser Ile Ile Val Phe Asn Leu Leu Glu Leu Glu Gly Asp Tyr Arg Asp
385 390 395 400
Asp Gly Asn Val Trp Val His Thr Pro Leu Ser Pro Arg Thr Leu Asn
405 410 415
Ala Trp Val Lys Ala Val Glu Glu Lys Lys Gly Ile Pro Val His Leu
420 425 430
Glu Leu Ala Ser Met Thr Asn Met Glu Leu Met Ser Ser Ile Val His
435 440 445
Gln Gln Val Arg Thr Tyr Gly Pro Val Phe Met Cys Leu Gly Gly Leu
450 455 460
Leu Thr Met Val Ala Gly Ala Val Trp Leu Thr Val Arg Val Leu Glu
465 470 475 480
Leu Phe Arg Ala Ala Gln Leu Ala Asn Asp Val Val Leu Gln Ile Met
485 490 495
Glu Leu Cys Gly Ala Ala Phe Arg Gln Val Cys His Thr Thr Val Pro
500 505 510
Trp Pro Asn Ala Ser Leu Thr Pro Lys Trp Asn Asn Glu Thr Thr Gln
515 520 525
Pro Gln Ile Ala Asn Cys Ser Val Tyr Asp Phe Phe Val Trp Leu His
530 535 540
Tyr Tyr Ser Val Arg Asp Thr Leu Trp Pro Arg Val Thr Tyr His Met
545 550 555 560
Asn Lys Tyr Ala Tyr His Met Leu Glu Arg Arg Ala Lys Tyr Lys Arg
565 570 575
Gly Pro Gly Pro Gly Ala Lys Phe Val Ala Ala Trp Thr Leu Lys Ala
580 585 590
Ala Ala Gly Pro Gly Pro Gly Gln Tyr Ile Lys Ala Asn Ser Lys Phe
595 600 605
Ile Gly Ile Thr Glu Leu Gly Pro Gly Pro Gly
610 615
<210> 38
<211> 228
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 38
atgcagatct tcgtgaagac cctgaccggc aagaccatca ccctagaggt ggagcccagt
60
gacaccatcg agaacgtgaa ggccaagatc caggataaag agggcatccc ccctgaccag
120
cagaggctga tctttgccgg caagcagctg gaagatggcc gcaccctctc tgattacaac
180
atccagaagg agtcaaccct gcacctggtc cttcgcctga gaggtggc
228
<210> 39
<211> 228
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 39
atgcagatct tcgtgaagac cctgaccggc aagaccatca ccctagaggt ggagcccagt
60
gacaccatcg agaacgtgaa ggccaagatc caggataaag agggcatccc ccctgaccag
120
cagaggctga tctttgccgg caagcagctg gaagatggcc gcaccctctc tgattacaac
180
atccagaagg agtcaaccct gcacctggtc cttcgcctga gaggtgcc
228
<210> 40
<211> 78
<212> ДНК
<213> Homo sapiens
<400> 40
atggccgtca tggcgccccg aaccctcgtc ctgctactct cgggggctct ggccctgacc
60
cagacctggg cgggctct
78
<210> 41
<211> 201
<212> ДНК
<213> Homo sapiens
<400> 41
ccgtcttccc agcccaccat ccccatcgtg ggcatcattg ctggcctggt tctctttgga
60
gctgtgatca ctggagctgt ggtcgctgct gtgatgtgga ggaggaagag ctcagataga
120
aaaggaggga gctactctca ggctgcaagc agtgacagtg cccagggctc tgatgtgtct
180
ctcacagctt gtaaagtgtg a
201
<210> 42
<211> 60
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
oligonucleotide
<400> 42
atggagaccg atacactgct gctgtgggtg ctgctcctgt gggtgccagg aagcacaggc
60
<210> 43
<211> 3178
<212> ДНК
<213> Homo sapiens
<400> 43
ggcaccgatt cggggcctgc ccggacttcg ccgcacgctg cagaacctcg cccagcgccc
60
accatgcccc ggcagctcag cgcggcggcc gcgctcttcg cgtccctggc cgtaattttg
120
cacgatggca gtcaaatgag agcaaaagca tttccagaaa ccagagatta ttctcaacct
180
actgcagcag caacagtaca ggacataaaa aaacctgtcc agcaaccagc taagcaagca
240
cctcaccaaa ctttagcagc aagattcatg gatggtcata tcacctttca aacagcggcc
300
acagtaaaaa ttccaacaac taccccagca actacaaaaa acactgcaac caccagccca
360
attacctaca ccctggtcac aacccaggcc acacccaaca actcacacac agctcctcca
420
gttactgaag ttacagtcgg ccctagctta gccccttatt cactgccacc caccatcacc
480
ccaccagctc atacagctgg aaccagttca tcaaccgtca gccacacaac tgggaacacc
540
actcaaccca gtaaccagac cacccttcca gcaactttat cgatagcact gcacaaaagc
600
acaaccggtc agaagcctga tcaacccacc catgccccag gaacaacggc agctgcccac
660
aataccaccc gcacagctgc acctgcctcc acggttcctg ggcccaccct tgcacctcag
720
ccatcgtcag tcaagactgg aatttatcag gttctaaacg gaagcagact ctgtataaaa
780
gcagagatgg ggatacagct gattgttcaa gacaaggagt cggttttttc acctcggaga
840
tacttcaaca tcgaccccaa cgcaacgcaa gcctctggga actgtggcac ccgaaaatcc
900
aaccttctgt tgaattttca gggcggattt gtgaatctca catttaccaa ggatgaagaa
960
tcatattata tcagtgaagt gggagcctat ttgaccgtct cagatccaga gacagtttac
1020
caaggaatca aacatgcggt ggtgatgttc cagacagcag tcgggcattc cttcaagtgc
1080
gtgagtgaac agagcctcca gttgtcagcc cacctgcagg tgaaaacaac cgatgtccaa
1140
cttcaagcct ttgattttga agatgaccac tttggaaatg tggatgagtg ctcgtctgac
1200
tacacaattg tgcttcctgt gattggggcc atcgtggttg gtctctgcct tatgggtatg
1260
ggtgtctata aaatccgcct aaggtgtcaa tcatctggat accagagaat ctaattgttg
1320
cccgggggga atgaaaataa tggaatttag agaactcttt catcccttcc aggatggatg
1380
ttgggaaatt ccctcagagt gtgggtcctt caaacaatgt aaaccaccat cttctattca
1440
aatgaagtga gtcatgtgtg atttaagttc aggcagcaca tcaatttcta aatacttttt
1500
gtttatttta tgaaagatat agtgagctgt ttattttcta gtttccttta gaatatttta
1560
gccactcaaa gtcaacattt gagatatgtt gaattaacat aatatatgta aagtagaata
1620
agccttcaaa ttataaacca agggtcaatt gtaactaata ctactgtgtg tgcattgaag
1680
attttatttt acccttgatc ttaacaaagc ctttgctttg ttatcaaatg gactttcagt
1740
gcttttacta tctgtgtttt atggtttcat gtaacataca tattcctggt gtagcactta
1800
actccttttc cactttaaat ttgtttttgt tttttgagac ggagtttcac tcttgtcacc
1860
caggctggag tacagtggca cgatctcggc ttatggcaac ctccgcctcc cgggttcaag
1920
tgattctcct gcttcagctt cccgagtagc tgggattaca ggcacacact accacgcctg
1980
gctaattttt gtatttttat tatagacggg tttcaccatg ttggccagac tggtcttgaa
2040
ctcttgacct caggtgatcc acccacctca gcctcccaaa gtgctgggat tacaggcatg
2100
agccattgcg cccggcctta aatgtttttt ttaatcatca aaaagaacaa catatctcag
2160
gttgtctaag tgtttttatg taaaaccaac aaaaagaaca aatcagctta tattttttat
2220
cttgatgact cctgctccag aattgctaga ctaagaatta ggtggctaca gatggtagaa
2280
ctaaacaata agcaagagac aataataatg gcccttaatt attaacaaag tgccagagtc
2340
taggctaagc actttatcta tatctcattt cattctcaca acttataagt gaatgagtaa
2400
actgagactt aagggaactg aatcacttaa atgtcacctg gctaactgat ggcagagcca
2460
gagcttgaat tcatgttggt ctgacatcaa ggtctttggt cttctcccta caccaagtta
2520
cctacaagaa caatgacacc acactctgcc tgaaggctca cacctcatac cagcatacgc
2580
tcaccttaca gggaaatggg tttatccagg atcatgagac attagggtag atgaaaggag
2640
agctttgcag ataacaaaat agcctatcct taataaatcc tccactctct ggaaggagac
2700
tgaggggctt tgtaaaacat tagtcagttg ctcattttta tgggattgct tagctgggct
2760
gtaaagatga aggcatcaaa taaactcaaa gtatttttaa atttttttga taatagagaa
2820
acttcgctaa ccaactgttc tttcttgagt gtatagcccc atcttgtggt aacttgctgc
2880
ttctgcactt catatccata tttcctattg ttcactttat tctgtagagc agcctgccaa
2940
gaattttatt tctgctgttt tttttgctgc taaagaaagg aactaagtca ggatgttaac
3000
agaaaagtcc acataaccct agaattctta gtcaaggaat aattcaagtc agcctagaga
3060
ccatgttgac tttcctcatg tgtttcctta tgactcagta agttggcaag gtcctgactt
3120
tagtcttaat aaaacattga attgtagtaa aggtttttgc aataaaaact tactttgg
3178
<210> 44
<211> 1858
<212> ДНК
<213> Mus sp.
<400> 44
attccggagg tgaaaaacaa tggcacaacg tgtataatgg ccagcttctc tgcctccttt
60
ctgaccacct acgagactgc gaatggttct cagatcgtga acatttccct gccagcctct
120
gcagaagtac tgaaaaatgg cagttcttgt ggtaaagaaa atgtttctga ccccagcctc
180
acaattactt ttggaagagg atatttactg acactcaact tcacaaaaaa tacaacacgt
240
tacagtgtcc agcatatgta ttttacatat aacttgtcag atacagaaca ttttcccaat
300
gccatcagca aagagatcta caccatggat tccacaactg acatcaaggc agacatcaac
360
aaagcatacc ggtgtgtcag tgatatccgg gtctacatga agaatgtgac cgttgtgctc
420
cgggatgcca ctatccaggc ctacctgtcg agtggcaact tcagcaagga agagacacac
480
tgcacacagg atggaccttc cccaaccact gggccaccca gcccctcacc accacttgtg
540
cccacaaacc ccactgtatc caagtacaat gttactggta acaacggaac ctgcctgctg
600
gcctctatgg cactgcaact gaatatcacc tacctgaaaa aggacaacaa gacggtgacc
660
agagcgttca acatcagccc aaatgacaca tctagtggga gttgcggtat caacttggtg
720
accctgaaag tggagaacaa gaacagagcc ctggaattgc agtttgggat gaatgccagc
780
tctagcctgt ttttcttgca aggagtgcgc ttgaatatga ctcttcctga tgccctagtg
840
cccacattca gcatctccaa ccattcactg aaagctcttc aggccactgt gggaaactca
900
tacaagtgca acactgagga acacatcttt gtcagcaaga tgctctccct caatgtcttc
960
agtgtgcagg tccaggcttt caaggtggac agtgacaggt ttgggtctgt ggaagagtgt
1020
gttcaggatg gtaacaacat gttgatcccc attgctgtgg gcggtgccct ggcagggctg
1080
atcctcatcg tcctcattgc ctacctcatt ggcaggaaga ggagtcacgc cggctatcag
1140
accatctagc ctggtgggca ggtgcaccag agatgcacag gggcctgttc tcacatcccc
1200
aagcttagat aggtgtggaa gggaggcaca ctttctggca aactgtttta aaatctgctt
1260
tatcaaatgt gaagttcatc ttgcaacatt tactatgcac aaaggaataa ctattgaaat
1320
gacggtgtta attttgctaa ctgggttaaa tattgatgag aaggctccac tgatttgact
1380
tttaagactt ggtgtttggt tcttcattct tttactcaga tttaagccta tcaaagggat
1440
actctggtcc agaccttggc ctggcaaggg tggctgatgg ttaggctgca cacacttaag
1500
aagcaacggg agcagggaag gcttgcacac aggcacgcac agggtcaacc tctggacact
1560
tggcttgggc tacctggcct tgggggggct gaactctggc atctggctgg gtacacaccc
1620
ccccaatttc tgtgctctgc cacccgtgag ctgccacttt cctaaataga aaatggcatt
1680
atttttattt acttttttgt aaagtgattt ccagtcttgt gttggcgttc agggtggccc
1740
tgtctctgca ctgtgtacaa taatagattc acactgctga cgtgtcttgc agcgtaggtg
1800
ggttgtacac tgggcatcag ctcacgtaat gcattgcctg taacgatgct aataaaaa
1858
<210> 45
<211> 2339
<212> ДНК
<213> Homo sapiens
<400> 45
ggcccaaccg ccgcccgcgc ccccgctctc cgcaccgtac ccggccgcct cgcgccatgg
60
cggcccccgg cagcgcccgg cgacccctgc tgctgctact gctgttgctg ctgctcggcc
120
tcatgcattg tgcgtcagca gcaatgttta tggtgaaaaa tggcaacggg accgcgtgca
180
taatggccaa cttctctgct gccttctcag tgaactacga caccaagagt ggccctaaga
240
acatgacctt tgacctgcca tcagatgcca cagtggtgct caaccgcagc tcctgtggaa
300
aagagaacac ttctgacccc agtctcgtga ttgcttttgg aagaggacat acactcactc
360
tcaatttcac gagaaatgca acacgttaca gcgtccagct catgagtttt gtttataact
420
tgtcagacac acaccttttc cccaatgcga gctccaaaga aatcaagact gtggaatcta
480
taactgacat cagggcagat atagataaaa aatacagatg tgttagtggc acccaggtcc
540
acatgaacaa cgtgaccgta acgctccatg atgccaccat ccaggcgtac ctttccaaca
600
gcagcttcag caggggagag acacgctgtg aacaagacag gccttcccca accacagcgc
660
cccctgcgcc acccagcccc tcgccctcac ccgtgcccaa gagcccctct gtggacaagt
720
acaacgtgag cggcaccaac gggacctgcc tgctggccag catggggctg cagctgaacc
780
tcacctatga gaggaaggac aacacgacgg tgacaaggct tctcaacatc aaccccaaca
840
agacctcggc cagcgggagc tgcggcgccc acctggtgac tctggagctg cacagcgagg
900
gcaccaccgt cctgctcttc cagttcggga tgaatgcaag ttctagccgg tttttcctac
960
aaggaatcca gttgaataca attcttcctg acgccagaga ccctgccttt aaagctgcca
1020
acggctccct gcgagcgctg caggccacag tcggcaattc ctacaagtgc aacgcggagg
1080
agcacgtccg tgtcacgaag gcgttttcag tcaatatatt caaagtgtgg gtccaggctt
1140
tcaaggtgga aggtggccag tttggctctg tggaggagtg tctgctggac gagaacagca
1200
tgctgatccc catcgctgtg ggtggtgccc tggcggggct ggtcctcatc gtcctcatcg
1260
cctacctcgt cggcaggaag aggagtcacg caggctacca gactatctag cctggtgcac
1320
gcaggcacag cagctgcagg ggcctctgtt cctttctctg ggcttagggt cctgtcgaag
1380
gggaggcaca ctttctggca aacgtttctc aaatctgctt catccaatgt gaagttcatc
1440
ttgcagcatt tactatgcac aacagagtaa ctatcgaaat gacggtgtta attttgctaa
1500
ctgggttaaa tattttgcta actggttaaa cattaatatt taccaaagta ggattttgag
1560
ggtgggggtg ctctctctga gggggtgggg gtgccgctgt ctctgagggg tgggggtgcc
1620
gctgtctctg aggggtgggg gtgccgctct ctctgagggg gtgggggtgc cgctttctct
1680
gagggggtgg gggtgccgct ctctctgagg gggtgggggt gctgctctct ccgaggggtg
1740
gaatgccgct gtctctgagg ggtgggggtg ccgctctaaa ttggctccat atcatttgag
1800
tttagggttc tggtgtttgg tttcttcatt ctttactgca ctcagattta agccttacaa
1860
agggaaagcc tctggccgtc acacgtagga cgcatgaagg tcactcgtgg tgaggctgac
1920
atgctcacac attacaacag tagagaggga aaatcctaag acagaggaac tccagagatg
1980
agtgtctgga gcgcttcagt tcagctttaa aggccaggac gggccacacg tggctggcgg
2040
cctcgttcca gtggcggcac gtccttgggc gtctctaatg tctgcagctc aagggctggc
2100
acttttttaa atataaaaat gggtgttatt tttatttttt tttgtaaagt gatttttggt
2160
cttctgttga cattcggggt gatcctgttc tgcgctgtgt acaatgtgag atcggtgcgt
2220
tctcctgatg ttttgccgtg gcttggggat tgtacacggg accagctcac gtaatgcatt
2280
gcctgtaaca atgtaataaa aagcctcttt cttttaaaaa aaaaaaaaaa aaaaaaaaa
2339
<210> 46
<211> 45
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
oligonucleotide
<400> 46
cagtacatca aggccaacag caagttcatc ggcatcaccg aactc
45
<210> 47
<211> 15
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 47
Gln Tyr Ile Lys Ala Asn Ser Lys Phe Ile Gly Ile Thr Glu Leu
1 5 10 15
<210> 48
<211> 39
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
oligonucleotide
<400> 48
gctaaatttg tggctgcctg gacactgaaa gccgccgct
39
<210> 49
<211> 13
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 49
Ala Lys Phe Val Ala Ala Trp Thr Leu Lys Ala Ala Ala
1 5 10
<210> 50
<211> 593
<212> ДНК
<213> Woodchuck hepatitis virus
<400> 50
aatcaacctc tggattacaa aatttgtgaa agattgactg gtattcttaa ctatgttgct
60
ccttttacgc tatgtggata cgctgcttta atgcctttgt atcatgctat tgcttcccgt
120
atggctttca ttttctcctc cttgtataaa tcctggttgc tgtctcttta tgaggagttg
180
tggcccgttg tcaggcaacg tggcgtggtg tgcactgtgt ttgctgacgc aacccccact
240
ggttggggca ttgccaccac ctgtcagctc ctttccggga ctttcgcttt ccccctccct
300
attgccacgg cggaactcat cgccgcctgc cttgcccgct gctggacagg ggctcggctg
360
ttgggcactg acaattccgt ggtgttgtcg gggaagctga cgtcctttcc atggctgctc
420
gcctgtgttg ccacctggat tctgcgcggg acgtccttct gctacgtccc ttcggccctc
480
aatccagcgg accttccttc ccgcggcctg ctgccggctc tgcggcctct tccgcgtctt
540
cgccttcgcc ctcagacgag tcggatctcc ctttgggccg cctccccgcc tgt
593
<210> 51
<211> 589
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 51
tctccccccc ccccctctcc ctcccccccc cctaacgtta ctggccgaag ccgcttggaa
60
taaggccggt gtgcgtttgt ctatatgtta ttttccacca tattgccgtc ttttggcaat
120
gtgagggccc ggaaacctgg ccctgtcttc ttgacgagca ttcctagggg tctttcccct
180
ctcgccaaag gaatgcaagg tctgttgaat gtcgtgaagg aagcagttcc tctggaagct
240
tcttgaagac aaacaacgtc tgtagcgacc ctttgcaggc agcggaaccc cccacctggc
300
gacaggtgcc tctgcggcca aaagccacgt gtataagata cacctgcaaa ggcggcacaa
360
ccccagtgcc acgttgtgag ttggatagtt gtggaaagag tcaaatggct ctcctcaagc
420
gtattcaaca aggggctgaa ggatgcccag aaggtacccc attgtatggg atctgatctg
480
gggcctcggt gcacatgctt tacatgtgtt tagtcgaggt taaaaaaacg tctaggcccc
540
ccgaaccacg gggacgtggt tttcctttga aaaacacgat gataatatg
589
<210> 52
<211> 720
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 52
atggtgagca agggcgagga gctgttcacc ggggtggtgc ccatcctggt cgagctggac
60
ggcgacgtaa acggccacaa gttcagcgtg tccggcgagg gcgagggcga tgccacctac
120
ggcaagctga ccctgaagtt catctgcacc accggcaagc tgcccgtgcc ctggcccacc
180
ctcgtgacca ccctgaccta cggcgtgcag tgcttcagcc gctaccccga ccacatgaag
240
cagcacgact tcttcaagtc cgccatgccc gaaggctacg tccaggagcg caccatcttc
300
ttcaaggacg acggcaacta caagacccgc gccgaggtga agttcgaggg cgacaccctg
360
gtgaaccgca tcgagctgaa gggcatcgac ttcaaggagg acggcaacat cctggggcac
420
aagctggagt acaactacaa cagccacaac gtctatatca tggccgacaa gcagaagaac
480
ggcatcaagg tgaacttcaa gatccgccac aacatcgagg acggcagcgt gcagctcgcc
540
gaccactacc agcagaacac ccccatcggc gacggccccg tgctgctgcc cgacaaccac
600
tacctgagca cccagtccgc cctgagcaaa gaccccaacg agaagcgcga tcacatggtc
660
ctgctggagt tcgtgaccgc cgccgggatc actctcggca tggacgagct gtacaagtag
720
<210> 53
<211> 1563
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 53
atgctgctgc tgctgctgct gctgggcctg aggctacagc tctccctggg catcatccca
60
gttgaggagg agaacccgga cttctggaac cgcgaggcag ccgaggccct gggtgccgcc
120
aagaagctgc agcctgcaca gacagccgcc aagaacctca tcatcttcct gggcgatggg
180
atgggggtgt ctacggtgac agctgccagg atcctaaaag ggcagaagaa ggacaaactg
240
gggcctgaga tacccctggc catggaccgc ttcccatatg tggctctgtc caagacatac
300
aatgtagaca aacatgtgcc agacagtgga gccacagcca cggcctacct gtgcggggtc
360
aagggcaact tccagaccat tggcttgagt gcagccgccc gctttaacca gtgcaacacg
420
acacgcggca acgaggtcat ctccgtgatg aatcgggcca agaaagcagg gaagtcagtg
480
ggagtggtaa ccaccacacg agtgcagcac gcctcgccag ccggcaccta cgcccacacg
540
gtgaaccgca actggtactc ggacgccgac gtgcctgcct cggcccgcca ggaggggtgc
600
caggacatcg ctacgcagct catctccaac atggacattg acgtgatcct aggtggaggc
660
cgaaagtaca tgtttcgcat gggaacccca gaccctgagt acccagatga ctacagccaa
720
ggtgggacca ggctggacgg gaagaatctg gtgcaggaat ggctggcgaa gcgccagggt
780
gcccggtatg tgtggaaccg cactgagctc atgcaggctt ccctggaccc gtctgtgacc
840
catctcatgg gtctctttga gcctggagac atgaaatacg agatccaccg agactccaca
900
ctggacccct ccctgatgga gatgacagag gctgccctgc gcctgctgag caggaacccc
960
cgcggcttct tcctcttcgt ggagggtggt cgcatcgacc atggtcatca tgaaagcagg
1020
gcttaccggg cactgactga gacgatcatg ttcgacgacg ccattgagag ggcgggccag
1080
ctcaccagcg aggaggacac gctgagcctc gtcactgccg accactccca cgtcttctcc
1140
ttcggaggct accccctgcg agggagctcc atcttcgggc tggcccctgg caaggcccgg
1200
gacaggaagg cctacacggt cctcctatac ggaaacggtc caggctatgt gctcaaggac
1260
ggcgcccggc cggatgttac cgagagcgag agcgggagcc ccgagtatcg gcagcagtca
1320
gcagtgcccc tggacgaaga gacccacgca ggcgaggacg tggcggtgtt cgcgcgcggc
1380
ccgcaggcgc acctggttca cggcgtgcag gagcagacct tcatagcgca cgtcatggcc
1440
ttcgccgcct gcctggagcc ctacaccgcc tgcgacctgg cgccccccgc cggcaccacc
1500
gacgccgcgc acccgggtta ctctagagtc ggggcggccg gccgcttcga gcagacatga
1560
taa
1563
<210> 54
<211> 1653
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полинуклеотид
<400> 54
atggaagatg ccaaaaacat taagaagggc ccagcgccat tctacccact cgaagacggg
60
accgccggcg agcagctgca caaagccatg aagcgctacg ccctggtgcc cggcaccatc
120
gcctttaccg acgcacatat cgaggtggac attacctacg ccgagtactt cgagatgagc
180
gttcggctgg cagaagctat gaagcgctat gggctgaata caaaccatcg gatcgtggtg
240
tgcagcgaga atagcttgca gttcttcatg cccgtgttgg gtgccctgtt catcggtgtg
300
gctgtggccc cagctaacga catctacaac gagcgcgagc tgctgaacag catgggcatc
360
agccagccca ccgtcgtatt cgtgagcaag aaagggctgc aaaagatcct caacgtgcaa
420
aagaagctac cgatcataca aaagatcatc atcatggata gcaagaccga ctaccagggc
480
ttccaaagca tgtacacctt cgtgacttcc catttgccac ccggcttcaa cgagtacgac
540
ttcgtgcccg agagcttcga ccgggacaaa accatcgccc tgatcatgaa cagtagtggc
600
agtaccggat tgcccaaggg cgtagcccta ccgcaccgca ccgcttgtgt ccgattcagt
660
catgcccgcg accccatctt cggcaaccag atcatccccg acaccgctat cctcagcgtg
720
gtgccatttc accacggctt cggcatgttc accacgctgg gctacttgat ctgcggcttt
780
cgggtcgtgc tcatgtaccg cttcgaggag gagctattct tgcgcagctt gcaagactat
840
aagattcaat ctgccctgct ggtgcccaca ctatttagct tcttcgctaa gagcactctc
900
atcgacaagt acgacctaag caacttgcac gagatcgcca gcggcggggc gccgctcagc
960
aaggaggtag gtgaggccgt ggccaaacgc ttccacctac caggcatccg ccagggctac
1020
ggcctgacag aaacaaccag cgccattctg atcacccccg aaggggacga caagcctggc
1080
gcagtaggca aggtggtgcc cttcttcgag gctaaggtgg tggacttgga caccggtaag
1140
acactgggtg tgaaccagcg cggcgagctg tgcgtccgtg gccccatgat catgagcggc
1200
tacgttaaca accccgaggc tacaaacgct ctcatcgaca aggacggctg gctgcacagc
1260
ggcgacatcg cctactggga cgaggacgag cacttcttca tcgtggaccg gctgaagagc
1320
ctgatcaaat acaagggcta ccaggtagcc ccagccgaac tggagagcat cctgctgcaa
1380
caccccaaca tcttcgacgc cggggtcgcc ggcctgcccg acgacgatgc cggcgagctg
1440
cccgccgcag tcgtcgtgct ggaacacggt aaaaccatga ccgagaagga gatcgtggac
1500
tatgtggcca gccaggttac aaccgccaag aagctgcgcg gtggtgttgt gttcgtggac
1560
gaggtgccta aaggactgac cggcaagttg gacgcccgca agatccgcga gattctcatt
1620
aaggccaaga agggcggcaa gatcgccgtg taa
1653
<210> 55
<211> 66
<212> ДНК
<213> Foot-and-mouth disease virus
<400> 55
gtaaagcaaa cactgaactt tgaccttctc aagttggctg gagacgttga gtccaatcct
60
gggccc
66
<210> 56
<211> 5
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 56
Gly Pro Gly Pro Gly
1 5
<210> 57
<211> 8
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 57
Ser Ile Ile Asn Phe Glu Lys Leu
1 5
<210> 58
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 58
Ser Pro Ser Tyr Ala Tyr His Gln Phe
1 5
<210> 59
<211> 10
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 59
Tyr Val Tyr Val Ala Asp Val Ala Ala Lys
1 5 10
<210> 60
<211> 8
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 60
Tyr Glu Met Phe Asn Asp Lys Ser
1 5
<210> 61
<211> 17
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 61
Tyr Glu Met Phe Asn Asp Lys Ser Gln Arg Ala Pro Asp Asp Lys Met
1 5 10 15
Phe
<210> 62
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 62
Tyr Glu Met Phe Asn Asp Lys Ser Phe
1 5
<210> 63
<211> 11
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (3)..(3)
<223> Пирролизин
<220>
<221> МОД_ОСТ
<222> (11)..(11)
<223> Ile или Leu
<400> 63
His Arg Xaa Glu Ile Phe Ser His Asp Phe Xaa
1 5 10
<210> 64
<211> 10
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (2)..(2)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (5)..(5)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (7)..(7)
<223> Пирролизин
<400> 64
Phe Xaa Ile Glu Xaa Phe Xaa Glu Ser Ser
1 5 10
<210> 65
<211> 10
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (4)..(4)
<223> Пирролизин
<400> 65
Asn Glu Ile Xaa Arg Glu Ile Arg Glu Ile
1 5 10
<210> 66
<211> 15
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (1)..(1)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (11)..(11)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (15)..(15)
<223> Селеноцистеин
<400> 66
Xaa Phe Lys Ser Ile Phe Glu Met Met Ser Xaa Asp Ser Ser Xaa
1 5 10 15
<210> 67
<211> 13
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (11)..(11)
<223> Пирролизин
<400> 67
Lys Asn Phe Leu Glu Asn Phe Ile Glu Ser Xaa Phe Ile
1 5 10
<210> 68
<211> 27
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (1)..(1)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (11)..(11)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (15)..(15)
<223> Селеноцистеин
<220>
<221> МОД_ОСТ
<222> (21)..(21)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (27)..(27)
<223> Ile или Leu
<400> 68
Xaa Phe Lys Ser Ile Phe Glu Met Met Ser Xaa Asp Ser Ser Xaa Ile
1 5 10 15
Phe Leu Lys Ser Xaa Phe Ile Glu Ile Phe Xaa
20 25
<210> 69
<211> 15
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (2)..(2)
<223> Пирролизин
<220>
<221> МОД_ОСТ
<222> (14)..(14)
<223> Ile или Leu
<400> 69
Phe Xaa Glu Ile Phe Asn Asp Lys Ser Leu Asp Lys Phe Xaa Ile
1 5 10 15
<210> 70
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (5)..(5)
<223> Пирролизин
<400> 70
Gln Cys Glu Ile Xaa Trp Ala Arg Glu
1 5
<210> 71
<211> 8
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (4)..(4)
<223> Селеноцистеин
<400> 71
Phe Ile Glu Xaa His Phe Trp Ile
1 5
<210> 72
<211> 12
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (7)..(7)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (10)..(10)
<223> Селеноцистеин
<220>
<221> МОД_ОСТ
<222> (11)..(11)
<223> Ile или Leu
<400> 72
Phe Glu Trp Arg His Arg Xaa Thr Arg Xaa Xaa Arg
1 5 10
<210> 73
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (4)..(4)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (5)..(5)
<223> Пирролизин
<220>
<221> МОД_ОСТ
<222> (8)..(8)
<223> Ile или Leu
<400> 73
Gln Ile Glu Xaa Xaa Glu Ile Xaa Glu
1 5
<210> 74
<211> 14
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (2)..(2)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (9)..(9)
<223> Пирролизин
<220>
<221> МОД_ОСТ
<222> (11)..(11)
<223> Ile или Leu
<400> 74
Phe Xaa Glu Leu Phe Ile Ser Asx Xaa Ser Xaa Phe Ile Glu
1 5 10
<210> 75
<211> 16
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (5)..(5)
<223> Пирролизин
<220>
<221> МОД_ОСТ
<222> (16)..(16)
<223> Ile или Leu
<400> 75
Gln Cys Glu Ile Xaa Trp Ala Arg Glu Phe Leu Lys Glu Ile Gly Xaa
1 5 10 15
<210> 76
<211> 11
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (5)..(5)
<223> Пирролизин
<220>
<221> МОД_ОСТ
<222> (9)..(9)
<223> Ile или Leu
<400> 76
Ile Glu Phe Arg Xaa Glu Ile Phe Xaa Glu Phe
1 5 10
<210> 77
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (5)..(5)
<223> Пирролизин
<220>
<221> МОД_ОСТ
<222> (9)..(9)
<223> Ile или Leu
<400> 77
Ile Glu Phe Arg Xaa Glu Ile Phe Xaa
1 5
<210> 78
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (4)..(4)
<223> Пирролизин
<220>
<221> МОД_ОСТ
<222> (8)..(8)
<223> Ile или Leu
<400> 78
Glu Phe Arg Xaa Glu Ile Phe Xaa Glu
1 5
<210> 79
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (3)..(3)
<223> Пирролизин
<220>
<221> МОД_ОСТ
<222> (7)..(7)
<223> Ile или Leu
<400> 79
Phe Arg Xaa Glu Ile Phe Xaa Glu Phe
1 5
<210> 80
<211> 7
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 80
Ser Ile Asn Phe Glu Lys Leu
1 5
<210> 81
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 81
Leu Leu Leu Leu Leu Val Val Val Val
1 5
<210> 82
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 82
Glu Lys Leu Ala Ala Tyr Leu Leu Leu
1 5
<210> 83
<211> 10
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 83
Lys Leu Ala Ala Tyr Leu Leu Leu Leu Leu
1 5 10
<210> 84
<211> 8
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 84
Phe Glu Lys Leu Ala Ala Tyr Leu
1 5
<210> 85
<211> 8
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 85
Ala Ala Tyr Leu Leu Leu Leu Leu
1 5
<210> 86
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 86
Tyr Leu Leu Leu Leu Leu Val Val Val
1 5
<210> 87
<211> 10
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 87
Val Val Val Val Ala Ala Tyr Ser Ile Asn
1 5 10
<210> 88
<211> 7
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 88
Val Val Val Val Ala Ala Tyr
1 5
<210> 89
<211> 8
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 89
Ala Tyr Ser Ile Asn Phe Glu Lys
1 5
<210> 90
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 90
Tyr Asn Tyr Ser Tyr Trp Ile Ser Ile Phe Ala His Thr Met Trp Tyr
1 5 10 15
Asn Ile Trp His Val Gln Trp Asn Lys
20 25
<210> 91
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 91
Ile Glu Ala Leu Pro Tyr Val Phe Leu Gln Asp Gln Phe Glu Leu Arg
1 5 10 15
Leu Leu Lys Gly Glu Gln Gly Asn Asn
20 25
<210> 92
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 92
Asp Ser Glu Glu Thr Asn Thr Asn Tyr Leu His Tyr Cys His Phe His
1 5 10 15
Trp Thr Trp Ala Gln Gln Thr Thr Val
20 25
<210> 93
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 93
Gly Met Leu Ser Gln Tyr Glu Leu Lys Asp Cys Ser Leu Gly Phe Ser
1 5 10 15
Trp Asn Asp Pro Ala Lys Tyr Leu Arg
20 25
<210> 94
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 94
Val Arg Ile Asp Lys Phe Leu Met Tyr Val Trp Tyr Ser Ala Pro Phe
1 5 10 15
Ser Ala Tyr Pro Leu Tyr Gln Asp Ala
20 25
<210> 95
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 95
Cys Val His Ile Tyr Asn Asn Tyr Pro Arg Met Leu Gly Ile Pro Phe
1 5 10 15
Ser Val Met Val Ser Gly Phe Ala Met
20 25
<210> 96
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 96
Phe Thr Phe Lys Gly Asn Ile Trp Ile Glu Met Ala Gly Gln Phe Glu
1 5 10 15
Arg Thr Trp Asn Tyr Pro Leu Ser Leu
20 25
<210> 97
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 97
Ala Asn Asp Asp Thr Pro Asp Phe Arg Lys Cys Tyr Ile Glu Asp His
1 5 10 15
Ser Phe Arg Phe Ser Gln Thr Met Asn
20 25
<210> 98
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 98
Ala Ala Gln Tyr Ile Ala Cys Met Val Asn Arg Gln Met Thr Ile Val
1 5 10 15
Tyr His Leu Thr Arg Trp Gly Met Lys
20 25
<210> 99
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 99
Lys Tyr Leu Lys Glu Phe Thr Gln Leu Leu Thr Phe Val Asp Cys Tyr
1 5 10 15
Met Trp Ile Thr Phe Cys Gly Pro Asp
20 25
<210> 100
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 100
Ala Met His Tyr Arg Thr Asp Ile His Gly Tyr Trp Ile Glu Tyr Arg
1 5 10 15
Gln Val Asp Asn Gln Met Trp Asn Thr
20 25
<210> 101
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 101
Thr His Val Asn Glu His Gln Leu Glu Ala Val Tyr Arg Phe His Gln
1 5 10 15
Val His Cys Arg Phe Pro Tyr Glu Asn
20 25
<210> 102
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 102
Gln Thr Phe Ser Glu Cys Leu Phe Phe His Cys Leu Lys Val Trp Asn
1 5 10 15
Asn Val Lys Tyr Ala Lys Ser Leu Lys
20 25
<210> 103
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 103
Ser Phe Ser Ser Trp His Tyr Lys Glu Ser His Ile Ala Leu Leu Met
1 5 10 15
Ser Pro Lys Lys Asn His Asn Asn Thr
20 25
<210> 104
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 104
Ile Leu Asp Gly Ile Met Ser Arg Trp Glu Lys Val Cys Thr Arg Gln
1 5 10 15
Thr Arg Tyr Ser Tyr Cys Gln Cys Ala
20 25
<210> 105
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 105
Tyr Arg Ala Ala Gln Met Ser Lys Trp Pro Asn Lys Tyr Phe Asp Phe
1 5 10 15
Pro Glu Phe Met Ala Tyr Met Pro Ile
20 25
<210> 106
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 106
Pro Arg Pro Gly Met Pro Cys Gln His His Asn Thr His Gly Leu Asn
1 5 10 15
Asp Arg Gln Ala Phe Asp Asp Phe Val
20 25
<210> 107
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 107
His Asn Ile Ile Ser Asp Glu Thr Glu Val Trp Glu Gln Ala Pro His
1 5 10 15
Ile Thr Trp Val Tyr Met Trp Cys Arg
20 25
<210> 108
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 108
Ala Tyr Ser Trp Pro Val Val Pro Met Lys Trp Ile Pro Tyr Arg Ala
1 5 10 15
Leu Cys Ala Asn His Pro Pro Gly Thr
20 25
<210> 109
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 109
His Val Met Pro His Val Ala Met Asn Ile Cys Asn Trp Tyr Glu Phe
1 5 10 15
Leu Tyr Arg Ile Ser His Ile Gly Arg
20 25
<210> 110
<211> 484
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полипептид
<400> 110
Thr His Val Asn Glu His Gln Leu Glu Ala Val Tyr Arg Phe His Gln
1 5 10 15
Val His Cys Arg Phe Pro Tyr Glu Asn Ala Met His Tyr Gln Met Trp
20 25 30
Asn Thr Tyr Arg Ala Ala Gln Met Ser Lys Trp Pro Asn Lys Tyr Phe
35 40 45
Asp Phe Pro Glu Phe Met Ala Tyr Met Pro Ile Cys Val His Ile Tyr
50 55 60
Asn Asn Tyr Pro Arg Met Leu Gly Ile Pro Phe Ser Val Met Val Ser
65 70 75 80
Gly Phe Ala Met Ala Tyr Ser Trp Pro Val Val Pro Met Lys Trp Ile
85 90 95
Pro Tyr Arg Ala Leu Cys Ala Asn His Pro Pro Gly Thr Ala Asn Asp
100 105 110
Asp Thr Pro Asp Phe Arg Lys Cys Tyr Ile Glu Asp His Ser Phe Arg
115 120 125
Phe Ser Gln Thr Met Asn Ile Glu Ala Leu Pro Tyr Val Phe Leu Gln
130 135 140
Asp Gln Phe Glu Leu Arg Leu Leu Lys Gly Glu Gln Gly Asn Asn Asp
145 150 155 160
Ser Glu Glu Thr Asn Thr Asn Tyr Leu His Tyr Cys His Phe His Trp
165 170 175
Thr Trp Ala Gln Gln Thr Thr Val Ile Leu Asp Gly Ile Met Ser Arg
180 185 190
Trp Glu Lys Val Cys Thr Arg Gln Thr Arg Tyr Ser Tyr Cys Gln Cys
195 200 205
Ala Phe Thr Phe Lys Gly Asn Ile Trp Ile Glu Met Ala Gly Gln Phe
210 215 220
Glu Arg Thr Trp Asn Tyr Pro Leu Ser Leu Ser Phe Ser Ser Trp His
225 230 235 240
Tyr Lys Glu Ser His Ile Ala Leu Leu Met Ser Pro Lys Lys Asn His
245 250 255
Asn Asn Thr Gln Thr Phe Ser Glu Cys Leu Phe Phe His Cys Leu Lys
260 265 270
Val Trp Asn Asn Val Lys Tyr Ala Lys Ser Leu Lys His Val Met Pro
275 280 285
His Val Ala Met Asn Ile Cys Asn Trp Tyr Glu Phe Leu Tyr Arg Ile
290 295 300
Ser His Ile Gly Arg His Asn Ile Ile Ser Asp Glu Thr Glu Val Trp
305 310 315 320
Glu Gln Ala Pro His Ile Thr Trp Val Tyr Met Trp Cys Arg Val Arg
325 330 335
Ile Asp Lys Phe Leu Met Tyr Val Trp Tyr Ser Ala Pro Phe Ser Ala
340 345 350
Tyr Pro Leu Tyr Gln Asp Ala Lys Tyr Leu Lys Glu Phe Thr Gln Leu
355 360 365
Leu Thr Phe Val Asp Cys Tyr Met Trp Ile Thr Phe Cys Gly Pro Asp
370 375 380
Ala Ala Gln Tyr Ile Ala Cys Met Val Asn Arg Gln Met Thr Ile Val
385 390 395 400
Tyr His Leu Thr Arg Trp Gly Met Lys Tyr Asn Tyr Ser Tyr Trp Ile
405 410 415
Ser Ile Phe Ala His Thr Met Trp Tyr Asn Ile Trp His Val Gln Trp
420 425 430
Asn Lys Gly Met Leu Ser Gln Tyr Glu Leu Lys Asp Cys Ser Leu Gly
435 440 445
Phe Ser Trp Asn Asp Pro Ala Lys Tyr Leu Arg Pro Arg Pro Gly Met
450 455 460
Pro Cys Gln His His Asn Thr His Gly Leu Asn Asp Arg Gln Ala Phe
465 470 475 480
Asp Asp Phe Val
<210> 111
<211> 484
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
полипептид
<400> 111
Ile Glu Ala Leu Pro Tyr Val Phe Leu Gln Asp Gln Phe Glu Leu Arg
1 5 10 15
Leu Leu Lys Gly Glu Gln Gly Asn Asn Ile Leu Asp Gly Ile Met Ser
20 25 30
Arg Trp Glu Lys Val Cys Thr Arg Gln Thr Arg Tyr Ser Tyr Cys Gln
35 40 45
Cys Ala His Val Met Pro His Val Ala Met Asn Ile Cys Asn Trp Tyr
50 55 60
Glu Phe Leu Tyr Arg Ile Ser His Ile Gly Arg Thr His Val Asn Glu
65 70 75 80
His Gln Leu Glu Ala Val Tyr Arg Phe His Gln Val His Cys Arg Phe
85 90 95
Pro Tyr Glu Asn Phe Thr Phe Lys Gly Asn Ile Trp Ile Glu Met Ala
100 105 110
Gly Gln Phe Glu Arg Thr Trp Asn Tyr Pro Leu Ser Leu Ala Met His
115 120 125
Tyr Gln Met Trp Asn Thr Ser Phe Ser Ser Trp His Tyr Lys Glu Ser
130 135 140
His Ile Ala Leu Leu Met Ser Pro Lys Lys Asn His Asn Asn Thr Val
145 150 155 160
Arg Ile Asp Lys Phe Leu Met Tyr Val Trp Tyr Ser Ala Pro Phe Ser
165 170 175
Ala Tyr Pro Leu Tyr Gln Asp Ala Gln Thr Phe Ser Glu Cys Leu Phe
180 185 190
Phe His Cys Leu Lys Val Trp Asn Asn Val Lys Tyr Ala Lys Ser Leu
195 200 205
Lys Tyr Arg Ala Ala Gln Met Ser Lys Trp Pro Asn Lys Tyr Phe Asp
210 215 220
Phe Pro Glu Phe Met Ala Tyr Met Pro Ile Ala Tyr Ser Trp Pro Val
225 230 235 240
Val Pro Met Lys Trp Ile Pro Tyr Arg Ala Leu Cys Ala Asn His Pro
245 250 255
Pro Gly Thr Cys Val His Ile Tyr Asn Asn Tyr Pro Arg Met Leu Gly
260 265 270
Ile Pro Phe Ser Val Met Val Ser Gly Phe Ala Met His Asn Ile Ile
275 280 285
Ser Asp Glu Thr Glu Val Trp Glu Gln Ala Pro His Ile Thr Trp Val
290 295 300
Tyr Met Trp Cys Arg Ala Ala Gln Tyr Ile Ala Cys Met Val Asn Arg
305 310 315 320
Gln Met Thr Ile Val Tyr His Leu Thr Arg Trp Gly Met Lys Tyr Asn
325 330 335
Tyr Ser Tyr Trp Ile Ser Ile Phe Ala His Thr Met Trp Tyr Asn Ile
340 345 350
Trp His Val Gln Trp Asn Lys Gly Met Leu Ser Gln Tyr Glu Leu Lys
355 360 365
Asp Cys Ser Leu Gly Phe Ser Trp Asn Asp Pro Ala Lys Tyr Leu Arg
370 375 380
Lys Tyr Leu Lys Glu Phe Thr Gln Leu Leu Thr Phe Val Asp Cys Tyr
385 390 395 400
Met Trp Ile Thr Phe Cys Gly Pro Asp Ala Asn Asp Asp Thr Pro Asp
405 410 415
Phe Arg Lys Cys Tyr Ile Glu Asp His Ser Phe Arg Phe Ser Gln Thr
420 425 430
Met Asn Asp Ser Glu Glu Thr Asn Thr Asn Tyr Leu His Tyr Cys His
435 440 445
Phe His Trp Thr Trp Ala Gln Gln Thr Thr Val Pro Arg Pro Gly Met
450 455 460
Pro Cys Gln His His Asn Thr His Gly Leu Asn Asp Arg Gln Ala Phe
465 470 475 480
Asp Asp Phe Val
<210> 112
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 112
Ser Ser Thr Pro Tyr Leu Tyr Tyr Gly Thr Ser Ser Val Ser Tyr Gln
1 5 10 15
Phe Pro Met Val Pro Gly Gly Asp Arg
20 25
<210> 113
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 113
Glu Met Ala Gly Lys Ile Asp Leu Leu Arg Asp Ser Tyr Ile Phe Gln
1 5 10 15
Leu Phe Trp Arg Glu Ala Ala Glu Pro
20 25
<210> 114
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 114
Ala Leu Lys Gln Arg Thr Trp Gln Ala Leu Ala His Lys Tyr Asn Ser
1 5 10 15
Gln Pro Ser Val Ser Leu Arg Asp Phe
20 25
<210> 115
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 115
Val Ser Ser His Ser Ser Gln Ala Thr Lys Asp Ser Ala Val Gly Leu
1 5 10 15
Lys Tyr Ser Ala Ser Thr Pro Val Arg
20 25
<210> 116
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 116
Lys Glu Ala Ile Asp Ala Trp Ala Pro Tyr Leu Pro Glu Tyr Ile Asp
1 5 10 15
His Val Ile Ser Pro Gly Val Thr Ser
20 25
<210> 117
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 117
Ser Pro Val Ile Thr Ala Pro Pro Ser Ser Pro Val Phe Asp Thr Ser
1 5 10 15
Asp Ile Arg Lys Glu Pro Met Asn Ile
20 25
<210> 118
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 118
Pro Ala Glu Val Ala Glu Gln Tyr Ser Glu Lys Leu Val Tyr Met Pro
1 5 10 15
His Thr Phe Phe Ile Gly Asp His Ala
20 25
<210> 119
<211> 22
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 119
Met Ala Asp Leu Asp Lys Leu Asn Ile His Ser Ile Ile Gln Arg Leu
1 5 10 15
Leu Glu Val Arg Gly Ser
20
<210> 120
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 120
Ala Ala Ala Tyr Asn Glu Lys Ser Gly Arg Ile Thr Leu Leu Ser Leu
1 5 10 15
Leu Phe Gln Lys Val Phe Ala Gln Ile
20 25
<210> 121
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 121
Lys Ile Glu Glu Val Arg Asp Ala Met Glu Asn Glu Ile Arg Thr Gln
1 5 10 15
Leu Arg Arg Gln Ala Ala Ala His Thr
20 25
<210> 122
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 122
Asp Arg Gly His Tyr Val Leu Cys Asp Phe Gly Ser Thr Thr Asn Lys
1 5 10 15
Phe Gln Asn Pro Gln Thr Glu Gly Val
20 25
<210> 123
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 123
Gln Val Asp Asn Arg Lys Ala Glu Ala Glu Glu Ala Ile Lys Arg Leu
1 5 10 15
Ser Tyr Ile Ser Gln Lys Val Ser Asp
20 25
<210> 124
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 124
Cys Leu Ser Asp Ala Gly Val Arg Lys Met Thr Ala Ala Val Arg Val
1 5 10 15
Met Lys Arg Gly Leu Glu Asn Leu Thr
20 25
<210> 125
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 125
Leu Pro Pro Arg Ser Leu Pro Ser Asp Pro Phe Ser Gln Val Pro Ala
1 5 10 15
Ser Pro Gln Ser Gln Ser Ser Ser Gln
20 25
<210> 126
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 126
Glu Leu Val Leu Glu Asp Leu Gln Asp Gly Asp Val Lys Met Gly Gly
1 5 10 15
Ser Phe Arg Gly Ala Phe Ser Asn Ser
20 25
<210> 127
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 127
Val Thr Met Asp Gly Val Arg Glu Glu Asp Leu Ala Ser Phe Ser Leu
1 5 10 15
Arg Lys Arg Trp Glu Ser Glu Pro His
20 25
<210> 128
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 128
Ile Val Gly Val Met Phe Phe Glu Arg Ala Phe Asp Glu Gly Ala Asp
1 5 10 15
Ala Ile Tyr Asp His Ile Asn Glu Gly
20 25
<210> 129
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 129
Thr Val Thr Pro Thr Pro Thr Pro Thr Gly Thr Gln Ser Pro Thr Pro
1 5 10 15
Thr Pro Ile Thr Thr Thr Thr Thr Val
20 25
<210> 130
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 130
Gln Glu Glu Met Pro Pro Arg Pro Cys Gly Gly His Thr Ser Ser Ser
1 5 10 15
Leu Pro Lys Ser His Leu Glu Pro Ser
20 25
<210> 131
<211> 21
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 131
Pro Asn Ile Gln Ala Val Leu Leu Pro Lys Lys Thr Asp Ser His His
1 5 10 15
Lys Ala Lys Gly Lys
20
<210> 132
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 132
Asn Leu Val Pro Met Val Ala Thr Val
1 5
<210> 133
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 133
Cys Leu Gly Gly Leu Leu Thr Met Val
1 5
<210> 134
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 134
Gly Ile Leu Gly Phe Val Phe Thr Leu
1 5
<210> 135
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 135
Leu Leu Phe Gly Tyr Pro Val Tyr Val
1 5
<210> 136
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 136
Gly Leu Cys Thr Leu Val Ala Met Leu
1 5
<210> 137
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 137
Trp Leu Ser Leu Leu Val Pro Phe Val
1 5
<210> 138
<211> 8
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 138
Phe Leu Leu Thr Arg Ile Cys Thr
1 5
<210> 139
<211> 8
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 139
Trp Gln Ala Gly Ile Leu Ala Arg
1 5
<210> 140
<211> 8
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 140
Gln Gly Gln Asn Leu Lys Tyr Gln
1 5
<210> 141
<211> 25
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 141
Trp Gln Ala Gly Ile Leu Ala Arg Asn Leu Val Pro Met Val Ala Thr
1 5 10 15
Val Gln Gly Gln Asn Leu Lys Tyr Gln
20 25
<210> 142
<211> 20
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
праймер
<400> 142
gtggtgtgca gcgagaatag
20
<210> 143
<211> 22
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
праймер
<400> 143
cgctcgttgt agatgtcgtt ag
22
<210> 144
<211> 15
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
зонд
<400> 144
ttcatgcccg tgttg
15
<210> 145
<211> 22
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
праймер
<400> 145
gtttttgatc cagacccaga tg
22
<210> 146
<211> 21
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
праймер
<400> 146
gcccattatt cagagcgagt a
21
<210> 147
<211> 14
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
зонд
<400> 147
tcaccaggat ccac
14
<210> 148
<211> 17
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
праймер
<400> 148
ccttgcacat gccggag
17
<210> 149
<211> 17
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
праймер
<400> 149
acagagcctc gcctttg
17
<210> 150
<211> 12
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
зонд
<400> 150
gtgagctggc gg
12
<210> 151
<211> 22
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
праймер
<400> 151
ctgaaagctc ggtttgctaa tg
22
<210> 152
<211> 21
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
праймер
<400> 152
ccatgctgga agagacaatc t
21
<210> 153
<211> 15
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
зонд
<400> 153
tggcgctgac cgata
15
<210> 154
<211> 22
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
праймер
<400> 154
tatgcctatc ctgtctcctc tg
22
<210> 155
<211> 22
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
праймер
<400> 155
gctaatgcag ctaagtcctc tc
22
<210> 156
<211> 15
<212> ДНК
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
зонд
<400> 156
tgaccgtgcc ttctg
15
<210> 157
<211> 18
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 157
Tyr Glu Met Phe Asn Asp Lys Ser Phe Gln Arg Ala Pro Asp Asp Lys
1 5 10 15
Met Phe
<210> 158
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (6)..(6)
<223> Селеноцистеин
<220>
<221> МОД_ОСТ
<222> (7)..(8)
<223> Пирролизин
<400> 158
Phe Glu Gly Arg Lys Xaa Xaa Xaa Ile
1 5
<210> 159
<211> 14
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<220>
<221> МОД_ОСТ
<222> (2)..(2)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (5)..(5)
<223> Пирролизин
<220>
<221> МОД_ОСТ
<222> (7)..(7)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (8)..(8)
<223> Пирролизин
<220>
<221> МОД_ОСТ
<222> (10)..(10)
<223> Ile или Leu
<220>
<221> МОД_ОСТ
<222> (14)..(14)
<223> Пирролизин
<400> 159
Pro Xaa Phe Ile Xaa Glu Xaa Xaa Ile Xaa Gly Glu Ile Xaa
1 5 10
<210> 160
<211> 13
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 160
Ala Lys Phe Val Ala Ala Trp Thr Leu Lys Ala Ala Ala
1 5 10
<210> 161
<211> 14
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 161
Gln Tyr Ile Lys Ala Asn Ser Lys Phe Ile Gly Ile Thr Glu
1 5 10
<210> 162
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 162
Asp Leu Met Gly Tyr Ile Pro Ala Val
1 5
<210> 163
<211> 10
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 163
Phe Leu Pro Ser Asp Phe Phe Pro Ser Val
1 5 10
<210> 164
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 164
Phe Leu Leu Thr Arg Ile Leu Thr Ile
1 5
<210> 165
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 165
Phe Leu Leu Ser Leu Gly Ile His Leu
1 5
<210> 166
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 166
Ile Leu Lys Glu Pro Val His Gly Val
1 5
<210> 167
<211> 10
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 167
Tyr Met Leu Asp Leu Gln Pro Glu Thr Thr
1 5 10
<210> 168
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 168
Cys Ile Asn Gly Val Cys Trp Thr Val
1 5
<210> 169
<211> 10
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 169
Tyr Leu Leu Pro Arg Arg Gly Pro Arg Leu
1 5 10
<210> 170
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 170
Phe Leu Tyr Ala Leu Ala Leu Leu Leu
1 5
<210> 171
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 171
Ala Ala Gly Ile Gly Ile Leu Thr Val
1 5
<210> 172
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 172
Ser Leu Leu Met Trp Ile Thr Gln Val
1 5
<210> 173
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 173
Lys Leu Gly Gly Ala Leu Gln Ala Lys
1 5
<210> 174
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 174
Arg Leu Arg Ala Glu Ala Gln Val Lys
1 5
<210> 175
<211> 10
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 175
Glu Glu Asn Leu Leu Asp Phe Val Arg Phe
1 5 10
<210> 176
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 176
Glu Glu Tyr Leu Gln Ala Phe Thr Tyr
1 5
<210> 177
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 177
Cys Thr Pro Tyr Asp Ile Asn Gln Met
1 5
<210> 178
<211> 8
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 178
Thr Thr Pro Glu Ser Ala Asn Leu
1 5
<210> 179
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 179
Cys Ala Pro Pro Gly Tyr Ala Leu Leu
1 5
<210> 180
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 180
Ser Gly Pro Lys Thr Asn Ile Ile Val
1 5
<210> 181
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 181
Leu Ser Pro Arg Thr Leu Asn Ala Trp
1 5
<210> 182
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 182
Thr Val Pro Trp Pro Asn Ala Ser Leu
1 5
<210> 183
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 183
Glu Gly Pro Arg Asn Gln Asp Trp Leu
1 5
<210> 184
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 184
Asp Trp Glu Asn Val Ser Pro Glu Leu
1 5
<210> 185
<211> 8
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 185
Ser Ile Ile Val Phe Asn Leu Leu
1 5
<210> 186
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 186
Ala Ser Met Thr Asn Met Glu Leu Met
1 5
<210> 187
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 187
Ala Gln Leu Ala Asn Asp Val Val Leu
1 5
<210> 188
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 188
Ser Val Tyr Asp Phe Phe Val Trp Leu
1 5
<210> 189
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 189
Met Asn Lys Tyr Ala Tyr His Met Leu
1 5
<210> 190
<211> 15
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 190
Gln Tyr Ile Lys Ala Asn Ser Lys Phe Ile Gly Ile Thr Glu Leu
1 5 10 15
<210> 191
<211> 19
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 191
Ser Ile Asn Phe Glu Lys Leu Ala Ala Tyr Leu Leu Leu Leu Leu Val
1 5 10 15
Val Val Val
<210> 192
<211> 19
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 192
Leu Leu Leu Leu Leu Val Val Val Val Ala Ala Tyr Ser Ile Asn Phe
1 5 10 15
Glu Lys Leu
<210> 193
<211> 9
<212> Белок
<213> Искусственная последовательность
<220>
<223> Описание искусственной последовательности: Синтетический
пептид
<400> 193
Ser Pro Ser Tyr Val Tyr His Gln Phe
1 5
<---

Claims (141)

1. Неоантигенная экспрессионная система, содержащая один или более векторов, причем один или более векторов содержит:
(a) РНК-остов альфавируса, причем РНК-остов альфавируса содержит последовательности РНК-остова альфавируса, которые позволяют осуществлять саморепликацию вирусного генома, и причем РНК-остов альфавируса дополнительно содержит, кодируемые от 5' к 3':
(i) по меньшей мере одну нуклеотидную последовательность промотора и
(ii) по меньшей мере одну последовательность полиаденилирования (поли(А)); и
(b) неоантигенную кассету, причем неоантигенная кассета, содержит:
по меньшей мере одну кодирующую неоантиген последовательность нуклеиновой кислоты, причем неоантиген присутствует в опухолевой клетке или ткани субъекта, но не в соответствующей нормальной клетке или ткани субъекта, содержащую:
по меньшей мере одну последовательность нуклеиновой кислоты, кодирующую опухолеспецифический и субъект-специфический ГКГС класс I неоантиген, содержащую:
последовательность нуклеиновой кислоты, кодирующую ГКГС класс I эпитоп с по меньшей мере одним изменением, которое отличает кодируемую пептидную последовательность от соответствующей пептидной последовательности, кодируемой последовательностью нуклеиновой кислоты дикого типа, причем изменение представляет собой индел со смещением рамки считывания или без смещения рамки считывания, миссенс замену, нонсенс замену, изменение сайта сплайсинга, геномную перестройку или слияние генов, и причем неоантигенная кассета интегрирована между по меньшей мере одной нуклеотидной последовательностью промотора и по меньшей мере одной последовательностью поли(А); и/или
причем нуклеотидная последовательность промотора, функционально связана с кодирующей неоантиген последовательностью нуклеиновой кислоты.
2. Неоантигенная экспрессионная система по п. 1, отличающаяся тем, что упорядоченная последовательность каждого элемента неоантигенной кассеты описана в формуле от 5' к 3' и содержит:
Pa-(L5b-Nc-L3d)X-(G5e-Uf)Y-G3g
где P содержит нуклеотидную последовательность второго промотора, где а = 0 или 1,
N содержит одну из кодирующих ГКГС класс I эпитоп последовательностей нуклеиновых кислот, где с = 1,
L5 содержит 5' линкерную последовательность, где b = 0 или 1,
L3 содержит 3' линкерную последовательность, где d = 0 или 1,
G5 содержит одну из по меньшей мере одной последовательности нуклеиновой кислоты, кодирующей аминокислотный линкер GPGPG (SEQ ID NO: 56), где е = 0 или 1,
G3 содержит одну из по меньшей мере одной последовательности нуклеиновой кислоты, кодирующей аминокислотный линкер GPGPG (SEQ ID NO: 56), где g = 0 или 1,
U содержит одну из по меньшей мере одной кодирующей ГКГС класс II антиген последовательности нуклеиновой кислоты, где f=1,
X = от 1 до 400, где в случае каждого X соответствующий Nc представляет собой кодирующую эпитоп последовательность нуклеиновой кислоты, и
Y = 0, 1 или 2, где в случае каждого Y соответствующий Uf представляет собой кодирующую антиген последовательность нуклеиновой кислоты; необязательно,
(i) причем в случае каждого X соответствующий Nc представляет собой последовательность нуклеиновой кислоты, кодирующую отличный ГКГС класс I эпитоп; и/или
(ii) причем в случае каждого Y соответствующий Uf представляет собой последовательность нуклеиновой кислоты, кодирующую отличный ГКГС класс II антиген.
3. Неоантигенная экспрессионная система по п. 2, отличающаяся тем, что
а = 0, b = 1, d = 1, е = 1, g = 1, h = 1, X = 20, Y = 2,
указанная по меньшей мере одна нуклеотидная последовательность промотора представляет собой нуклеотидную последовательность одного промотора 26S, входящую в состав РНК-остова альфавируса,
указанная по меньшей мере одна последовательность полиаденилирования поли(А) представляет собой последовательность поли(А) из по меньшей мере 100 последовательных нуклеотидов А, входящих в состав РНК-остова альфавируса, каждый N кодирует ГКГС класс I эпитоп длиной 7-15 аминокислот,
L5 представляет собой нативную 5' линкерную последовательность, которая кодирует нативную N-концевую аминокислотную последовательность ГКГС I эпитопа, и причем 5' линкерная последовательность кодирует пептид длиной по меньшей мере 3 аминокислоты,
L3 представляет собой нативную 3' линкерную последовательность, которая кодирует нативную С-концевую аминокислотную последовательность ГКГС I эпитопа, и причем 3' линкерная последовательность кодирует пептид длиной по меньшей мере 3 аминокислоты,
U представляет собой каждую из последовательности ГКГС класс II PADRE и последовательности ГКГС класс II столбнячного анатоксина,
РНК-остов альфавируса представляет собой последовательность, приведенную в SEQ ID NO:6, и
каждая из кодирующих ГКГС класс I неоантиген последовательностей нуклеиновых кислот кодирует полипептид длиной от 13 до 25 аминокислот.
4. Неоантигенная экспрессионная система по любому из предыдущих пунктов, отличающаяся тем, что дополнительно содержит средство доставки в форме наночастиц; необязательно,
(i) причем средство доставки в форме наночастиц представляет собой липидную наночастицу (ЛНЧ), необязательно, причем ЛНЧ содержит ионизируемые аминолипиды, которые необязательно, содержат МС3-подобные (дилинолеилметил-4-диметиламинобутират) молекулы; и/или
причем средство доставки в форме наночастиц инкапсулирует неоантигенную экспрессионную систему.
5. Неоантигенная экспрессионная система по любому из пп. 1, 2 или 4, отличающаяся тем, что
(i) один или более векторов включают один или более +-цепочечных РНК-векторов, необязательно, один или более+-цепочечных РНК-векторов содержат 5' 7-метилгуанозиновый (m7g) кэп, и/или один или более +-цепочечных РНК-векторов получают путем in vitro транскрипции; и/или
(ii) один или более векторов способны к саморепликации в клетке млекопитающего; и/или
(iii) РНК-остов альфавируса содержит по меньшей мере одну нуклеотидную последовательность вируса Аура, вируса Форт Морган, вируса венесуэльского энцефалита лошадей, вируса Росс-ривер, вируса леса Семлики, вируса Синдбис, вируса Майаро или вируса венесуэльского энцефалита лошадей,, необязательно,
(а) причем РНК-остов альфавируса содержит по меньшей мере последовательности для опосредованной неструктурным белком амплификации, последовательность промотора 26S,
последовательность поли(А), ген неструктурного белка 1 (nsP1), ген nsP2, ген nsP3 и ген nsP4, кодируемые нуклеотидной последовательностью вируса Аура, вируса Форт Морган, вируса венесуэльского энцефалита лошадей, вируса Росс-ривер, вируса леса Семлики, вируса Синдбис или вируса Майаро, или причем РНК-остов альфавируса содержит по меньшей мере последовательности для опосредованной неструктурным белком амплификации, последовательность промотора 26S и последовательность поли(А), кодируемые нуклеотидной последовательностью вируса Аура, вируса Форт Морган, вируса венесуэльского энцефалита лошадей, вируса Росс-ривер, вируса леса Семлики, вируса Синдбис или вируса Майаро,
необязательно, причем последовательности для опосредованной неструктурным белком амплификации выбраны из группы, состоящей из: 5' НТО альфавируса, 51-нт КЭП, 24-нт КЭП, субгеномной последовательности промотора 26S, 19-нт КЭП, 3' НТО альфавируса или их комбинаций; и/или
причем РНК-остов альфавируса не кодирует капсид структурных белков вириона Е2 и Е1, необязательно, причем неоантигенная кассета вставлена на место структурных белков вириона в нуклеотидной последовательности вируса Аура, вируса Форт Морган, вируса венесуэльского энцефалита лошадей, вируса Росс-ривер, вируса леса Семлики, вируса Синдбис или вируса Майаро, необязательно, причем вставка неоантигенной кассеты обеспечивает транскрипцию полицистронной РНК, содержащей гены nsP1-4 и по меньшей мере одну кодирующую антиген последовательность нуклеиновой кислоты, причем гены nsP1-4 и по меньшей мере одна кодирующая антиген последовательность нуклеиновой кислоты находятся в отдельных открытых рамках считывания; или (b) причем вирус венесуэльского энцефалита лошадей содержит последовательность SEQ ID NO:3 или SEQ ID NO:5; или причем вирус венесуэльского энцефалита лошадей содержит последовательность SEQ ID NO:3 или SEQ ID NO:5, дополнительно содержащую делецию между парами оснований 7544 и 11175,необязательно, причем РНК-остов альфавируса представляет собой последовательность, приведенную в SEQ ID NO:6 или SEQ ID NO:7, и/или причем неоантигенная кассета вставлена в положении 7544 вместо делеции между парами оснований 7544 и 11175, как приведено в последовательности SEQ ID NO:3 или SEQ ID NO:5; необязательно, причем вставка неоантигенной кассеты обеспечивает транскрипцию полицистронной РНК, содержащей гены nsP1-4 и по меньшей мере одну кодирующую антиген последовательность нуклеиновой кислоты, причем гены nsP1-4 и по меньшей мере одна кодирующая антиген последовательность нуклеиновой кислоты находятся в отдельных открытых рамках считывания; и/или
(iv) по меньшей мере одна нуклеотидная последовательность промотора представляет собой нуклеотидную последовательность нативного промотора 26S, кодируемую РНК-остовом альфавируса, или причем по меньшей мере одна нуклеотидная последовательность промотора представляет собой экзогенный промотор РНК; и/или
(v) вторая нуклеотидная последовательность промотора представляет собой нуклеотидную последовательность промотора 26S, или вторая нуклеотидная последовательность промотора содержит некоторое количество нуклеотидных последовательностей промотора 26S, причем каждая нуклеотидная последовательность промотора 26S обеспечивает транскрипцию одной или более отдельных открытых рамок считывания.
6. Неоантигенная экспрессионная система по любому из предыдущих пунктов, отличающаяся тем, что:
один или более векторов, каждый, имеют размер по меньшей мере 300 нт;
и/или
один или более векторов, каждый, имеют размер по меньшей мере 1 т.п.о.;
и/или
один или более векторов, каждый, имеют размер 2 т.п.о.; и/или
один или более векторов, каждый, имеют размер менее 5 т.п.о.; и/или
по меньшей мере одна из по меньшей мере одной кодирующей неоантиген последовательности нуклеиновой кислоты кодирует полипептидную последовательность или ее часть, которая презентируется ГКГС класса I на опухолевой клетке.
7. Неоантигенная экспрессионная система по любому из пп. 1, 2 или 4-6, отличающаяся тем, что по меньшей мере одна последовательность нуклеиновой кислоты, кодирующая опухолеспецифический и субъект-специфический ГКГС класс I неоантиген, содержит 5' линкерную последовательность и/или 3' линкерную последовательность, необязательно при этом:
каждая кодирующая антиген последовательность нуклеиновой кислоты напрямую связана с другой; и/или
причем по меньшей мере одна из по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты связана с отличной кодирующей антиген последовательностью нуклеиновой кислоты посредством последовательности нуклеиновой кислоты, кодирующей линкер, необязательно, причем
линкер связывает две ГКГС класс I последовательности или ГКГС класс I последовательность с ГКГС класс II последовательностью, и, необязательно, причем такой линкер выбран из группы, состоящей из: (1) последовательных остатков глицина длиной по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9 или 10 остатков; (2) последовательных остатков аланина длиной по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9 или 10 остатков; (3) двух остатков аргинина (RR); (4) аланина, аланина, тирозина (AAY); (5) консенсусной последовательности длиной по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9 или 10 аминокислотных остатков, которая эффективно процессируется протеасомой млекопитающего; и (6) одной или более нативных последовательностей, фланкирующих антиген, полученный из когнатного белка точки начала репликации, и который имеет длину по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 или 2-20 аминокислотных остатков, или
линкер связывает две ГКГС класс II последовательности или ГКГС класс II последовательность с ГКГС класс I последовательностью, необязательно, причем линкер содержит последовательность GPGPG;
и/или
по меньшей мере, одна последовательность из по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты связана, функционально или напрямую, с отдельной или смежной последовательностью, которая усиливает экспрессию, стабильность, клеточный перенос, процессинг и презентацию и/или иммуногенность по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты, необязательно, причем отдельная или смежная последовательность содержит по меньшей мере одно из: последовательности убиквитина, последовательности убиквитина, модифицированной для повышения протеасомного нацеливания, сигнальной последовательности иммуноглобулина, последовательности главного комплекса гистосовместимости класса I, лизосомально-ассоциированного мембранного белка (LAMP)-1, лизосомально-ассоциированного мембранного белка дендритных клеток человека и последовательности главного комплекса гистосовместимости класса II; необязательно, при этом последовательность убиквитина модифицирована для повышения протеасомного нацеливания за счет замены Gly на Ala в положении 76.
8. Неоантигенная экспрессионная система по любому из предыдущих пунктов, отличающаяся тем, что:
по меньшей мере одна из по меньшей мере одной кодирующей неоантиген последовательности нуклеиновой кислоты кодирует полипептидную последовательность или ее часть, которая обладает повышенной аффинностью связывания с соответствующей аллелью ГКГС по сравнению с транслированной соответствующей последовательностью нуклеиновой кислоты дикого типа; и/или
по меньшей мере одна из по меньшей мере одной кодирующей неоантиген последовательности нуклеиновой кислоты кодирует полипептидную последовательность или ее часть, которая обладает повышенной стабильностью связывания с соответствующей аллелью ГКГС по сравнению с транслированной соответствующей последовательностью нуклеиновой кислоты дикого типа; и/или
по меньшей мере одна из по меньшей мере одной кодирующей неоантиген последовательности нуклеиновой кислоты кодирует полипептидную последовательность или ее часть, которая имеет повышенную вероятность презентации на соответствующей аллели ГКГС по сравнению с транслированной соответствующей последовательностью нуклеиновой кислоты дикого типа;
по меньшей мере одно изменение включает точечную мутацию, мутацию со сдвигом рамки считывания, мутацию без сдвига рамки считывания, мутацию делеции, мутацию вставки, вариант сплайсинга, геномную перестройку или сплайсированный антиген, генерируемый протеасомой; и/или
опухоль выбрана из группы, состоящей из: рака легкого, меланомы, рака молочной железы, рака яичника, рака предстательной железы, рака почки, рака желудка, рака толстой кишки, рака яичка, рака головы и шеи, рака поджелудочной железы, рака мочевого пузыря, рака головного мозга, В-клеточной лимфомы, острого миелогенного лейкоза, острого лимфобластного лейкоза взрослых, хронического миелогенного лейкоза, хронического лимфоцитарного лейкоза, Т-клеточного лимфоцитарного лейкоза, немелкоклеточного рака легкого и мелкоклеточного рака легкого.
9. Неоантигенная экспрессионная система по любому из пп. 1, 2 или 4-8, отличающаяся тем, что
по меньшей мере одна кодирующая неоантиген последовательность нуклеиновой кислоты содержит по меньшей мере 2-10, 2, 3, 4, 5, 6, 7, 8, 9 или 10 последовательностей нуклеиновых кислот; или
по меньшей мере одна кодирующая неоантиген последовательность нуклеиновой кислоты содержит по меньшей мере 11-20, 15-20, 11-100, 11-200, 11-300, 11-400, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 или до 400 последовательностей нуклеиновых кислот; или
по меньшей мере одна кодирующая неоантиген последовательность нуклеиновой кислоты содержит по меньшей мере 2-400 последовательностей нуклеиновых кислот, и при этом по меньшей мере две из кодирующих неоантиген последовательностей нуклеиновых кислот кодируют полипептидные последовательности или их части, которые презентируются ГКГС класса I на поверхности опухолевой клетки.
10. Неоантигенная экспрессионная система по п. 3, отличающаяся тем, что по меньшей мере две из кодирующих неоантиген последовательностей нуклеиновых кислот кодируют полипептидные последовательности или их части, которые презентируются ГКГС класса I на поверхности опухолевой клетки.
11. Неоантигенная экспрессионная система по любому из предыдущих пунктов, отличающаяся тем, что
при введении субъекту и трансляции по меньшей мере один из неоантигенов, кодируемых по меньшей мере одной кодирующей неоантиген последовательностью нуклеиновой кислоты, презентируется на антиген-презентирующих клетках, что приводит к иммунному ответу, направленному по меньшей мере на один из неоантигенов на поверхности опухолевой клетки; и/или
когда по меньшей мере одна из кодирующих неоантиген последовательностей нуклеиновых кислот вводится субъекту и транслируется, по меньшей мере один из неоантигенов ГКГС класса I или класса II презентируется на антиген-презентирующих клетках, что приводит к иммунному ответу, направленному по меньшей мере на один из неоантигенов на поверхности опухолевой клетки, и, необязательно, при этом экспрессия каждой из по меньшей мере одной кодирующих неоантиген последовательностей нуклеиновых кислот управляется по меньшей мере одной нуклеотидной последовательностью промотора.
12. Неоантигенная экспрессионная система по любому из пп. 1, 2 или 4-11, отличающаяся тем, что
каждая кодирующая ГКГС класс I неоантиген последовательность нуклеиновой кислоты кодирует полипептидную последовательность длиной от 8 до 35 аминокислот, необязательно, длиной 9-17, 9-25, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34 или 35 аминокислот; и/или
присутствует по меньшей мере одна кодирующая ГКГС класс II антиген последовательность нуклеиновой кислоты, или причем присутствует по меньшей мере одна кодирующая ГКГС класс II антиген последовательность нуклеиновой кислоты и содержит по меньшей мере одну кодирующую ГКГС класс II неоантиген последовательность нуклеиновой кислоты, которая содержит по меньшей мере одно изменение, которое отличает кодируемую пептидную последовательность от соответствующей пептидной последовательности, кодируемой
последовательностью нуклеиновой кислоты дикого типа; и/или
по меньшей мере одна кодирующая ГКГС класс II антиген последовательность нуклеиновой кислоты имеет длину 12-20, 12, 13, 14, 15, 16, 17, 18, 19, 20 или 20-40 нуклеотидов; и/или
присутствует по меньшей мере одна кодирующая ГКГС класс II антиген последовательность нуклеиновой кислоты и содержит по меньшей мере одну универсальную кодирующую ГКГС класс II антиген последовательность нуклеиновой кислоты, необязательно, при этом по меньшей мере одна универсальная последовательность содержит по меньшей мере одно из столбнячного анатоксина и PADRE; и/или
по меньшей мере одна нуклеотидная последовательность промотора или
вторая нуклеотидная последовательность промотора является
индуцибельной или является неиндуцибельной; и/или
по меньшей мере одна последовательность поли(А) содержит последовательность поли(А), нативную для альфавируса, или меньшей мере одна последовательность поли(А) содержит последовательность поли(А), экзогенную для альфавируса; и/или
по меньшей мере одна последовательность поли(А) функционально связана с по меньшей мере одной из кодирующих антиген последовательностей нуклеиновых кислот; и/или
по меньшей мере одна последовательность поли(А) состоит из по меньшей мере 20, по меньшей мере 30, по меньшей мере 40, по меньшей мере 50, по меньшей мере 60, по меньшей мере 70, по меньшей мере 80 или по меньшей мере 90 последовательных нуклеотидов А, или причем по меньшей мере одна последовательность поли(А) состоит из по меньшей мере 100 последовательных нуклеотидов А.
13. Неоантигенная экспрессионная система по любому из предыдущих пунктов, отличающаяся тем, что
неоантигенная кассета дополнительно содержит по меньшей мере одно из: последовательности интрона, последовательности посттранскрипционного регуляторного элемента вируса гепатита сурка (WPRE), последовательности внутренней посадки рибосомы (IRES), нуклеотидной последовательности, кодирующей саморасщепляющуюся пептидную последовательность 2А, нуклеотидной последовательности, кодирующей сайт расщепления фурином, или последовательности в 5' или 3' некодирующей области, которая, как известно, увеличивает ядерный экспорт, стабильность или эффективность трансляции мРНК, которая функционально связана по меньшей мере с одной из по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты; и/или
неоантигенная кассета дополнительно содержит репортерный ген, включая, но не ограничиваясь этим, зеленый флуоресцентный белок (ЗФБ), вариант ЗФБ, секретируемую щелочную фосфатазу, люциферазу, вариант люциферазы или пригодный для обнаружения пептид или эпитоп, необязательно, причем пригодный для обнаружения пептид или эпитоп выбран из группы, состоящей из НА-тэга, Flag-тэга, His-тэга или V5-тэга; и/или
один или более векторов дополнительно содержат одну или более последовательностей нуклеиновых кислот, кодирующих по меньшей мере один иммуномодулятор, необязательно, причем:
иммуномодулятор представляет собой антитело к CTLA4 или его антигенсвязывающий фрагмент, антитело к PD-1 или его антигенсвязывающий фрагмент, антитело к PD-L1 или его антигенсвязывающий фрагмент, антитело к 4-1 ВВ или его антигенсвязывающий фрагмент или антитело к ОХ-40 или его антигенсвязывающий фрагмент; необязательно, причем
антитело или его антигенсвязывающий фрагмент представляет собой Fab-фрагмент, Fab'-фрагмент, одноцепочечный Fv (scFv), однодоменное антитело (sdAb), односпецифическое или имеющее элементы множественной специфичности, связанные вместе (, или полноразмерное одноцепочечное антитело; и/или
последовательности тяжелой и легкой цепи антитела представляют собой непрерывную последовательность, разделенную саморасщепляющейся последовательностью, такой как 2А или IRES; или последовательности тяжелой и легкой цепи антитела связаны гибким линкером, таким как последовательные остатки глицина; или
иммуномодулятор представляет собой цитокин, необязательно, причем цитокин представляет собой по меньшей мере один из ИЛ-2, ИЛ-7, ИЛ-12, ИЛ-15 или ИЛ-21 или вариант каждого из них. 14. Неоантигенная экспрессионная система по любому из предыдущих пунктов, отличающаяся тем, что
(i) неоантигенная экспрессионная система представляет собой неоантигенную экспрессионную систему по любому из пп. 1, 2 или 4-13, и причем по меньшей мере одну кодирующую ГКГС класс I неоантиген последовательность нуклеиновой кислоты выбирают, проводя этапы:
(a) получения данных опухолевого нуклеотидного секвенирования по меньшей мере одного из экзома, транскриптома или цельного генома из опухоли, при этом данные опухолевого нуклеотидного секвенирования применяют для получения данных, представляющих пептидные последовательности каждого из набора неоантигенов, необязательно, причем число выбранных неоантигенов в наборе составляет 2-20;
(b) ввода пептидной последовательности каждого неоантигена в презентационную модель для генерации набора числовых вероятностей того, что каждый из неоантигенов презентируется одной или более аллелями ГКГС на поверхности опухолевой клетки опухоли, при этом набор числовых вероятностей идентифицируется, по меньшей мере, на основании полученных масс-спектрометрических данных; и
(c) выбора поднабора из набора неоантигенов на основании набора числовых вероятностей для генерации набора выбранных неоантигенов, которые используют для получения по меньшей мере одной кодирующей ГКГС класс I неоантиген последовательности нуклеиновой кислоты; или
(ii) неоантигенная экспрессионная система представляет собой неоантигенную
экспрессионную систему по п. 3, и причем каждую из кодирующих ГКГС класс I эпитоп последовательностей нуклеиновых кислот выбирают, проводя этапы:
(a) получения данных опухолевого нуклеотидного секвенирования по меньшей мере одного из экзома, транскриптома или цельного генома из опухоли, при этом данные опухолевого нуклеотидного секвенирования применяют для получения данных, представляющих пептидные последовательности каждого из набора неоантигенов;
(b) ввода пептидной последовательности каждого неоантигена в презентационную модель для генерации набора числовых вероятностей того, что каждый из неоантигенов презентируется одной или более аллелями ГКГС на поверхности опухолевой клетки опухоли, при этом набор числовых вероятностей идентифицируется, по меньшей мере, на основании полученных масс-спектрометрических данных; и
(c) выбора поднабора из набора неоантигенов на основании набора числовых вероятностей для генерации набора выбранных неоантигенов, которые используют для получения по меньшей мере 20 кодирующих ГКГС класс I неоантиген последовательностей нуклеиновых кислот.
15. Неоантигенная экспрессионная система по п. 14, отличающаяся тем, что
(i) презентационная модель представляет зависимость между:
(a) присутствием пары из конкретной одной из аллелей ГКГС и конкретной аминокислоты в конкретном положении пептидной последовательности; и
(b) вероятностью презентации на поверхности опухолевой клетки конкретной одной из аллелей ГКГС из пары такой пептидной последовательности, содержащей конкретную аминокислоту в конкретном положении; и/или
(ii) выбор набора выбранных неоантигенов включает выбор неоантигенов, которые имеют повышенную вероятность презентации на поверхности опухолевых клеток по сравнению с невыбранными неоантигенами на основании презентационной модели; и/или
(iii) выбор набора выбранных неоантигенов включает выбор неоантигенов, которые имеют повышенную вероятность того, что они способны индуцировать опухолеспецифический иммунный ответ у субъекта по сравнению с невыбранными неоантигенами на основании презентационной модели; и/или
(iv) выбор набора выбранных неоантигенов включает выбор неоантигенов, которые имеют повышенную вероятность того, что они могут презентироваться наивным Т-клеткам специализированными антиген-презентирующими клетками (АПК) по сравнению с невыбранными неоантигенами на основании презентационной модели, необязательно, при этом АПК представляет собой дендритную клетку (ДК); и/или
(v) выбор набора выбранных неоантигенов включает выбор неоантигенов, которые имеют пониженную вероятность ингибирования за счет центральной или периферической толерантности по сравнению с невыбранными неоантигенами на основании презентационной модели; и/или
(vi) выбор набора выбранных неоантигенов включает выбор неоантигенов, которые имеют пониженную вероятность того, что они способны индуцировать аутоиммунный ответ на нормальную ткань у субъекта по сравнению с невыбранными неоантигенами на основании презентационной модели; и/или
(vii) данные секвенирования нуклеотидов экзома или транскриптома получают путем выполнения секвенирования на опухолевой ткани, необязательно, причем секвенирование представляет собой секвенирование следующего поколения (NGS - next generation sequencing) или любой подход массового параллельного секвенирования.
16. Неоантигенная экспрессионная система по любому из предыдущих пунктов, отличающаяся тем, что
неоантигенная кассета содержит соединительные эпитопные последовательности, образованные смежными последовательностями в неоантигенной кассете, необязательно, причем по меньшей мере одна или каждая соединительная эпитопная последовательность имеет аффинность к ГКГС более 500 нМ, и/или причем каждая соединительная эпитопная последовательность является несобственной; и/или
неоантигенная кассета не кодирует последовательность нуклеиновой кислоты нетерапевтического ГКГС класс I эпитопа или класса II, содержащую транслированную последовательность нуклеиновой кислоты дикого типа, при этом, как предсказывается, нетерапевтический эпитоп отображается на аллели ГКГС субъекта, необязательно, причем предсказанная последовательность нетерапевтического ГКГС класс I эпитопа или класса II представляет собой соединительную эпитопную последовательность, образованную смежными последовательностями в неоантигенной кассете; и/или
предсказание основано на вероятностях презентации, генерируемых путем ввода последовательностей нетерапевтических эпитопов в презентационную модель; и/или
причем порядок по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты в неоантигенной кассете определяют рядом этапов, включающих:
(a) создание набора последовательностей кандидатной неоантигенной кассеты, соответствующих разным вариантам упорядочения по меньшей мере одной кодирующей антиген последовательности нуклеиновой кислоты;
(b) определение для каждой последовательности кандидатной неоантигенной кассеты оценки презентации на основании презентации нетерапевтических эпитопов в последовательности кандидатной неоантигенной кассеты; и
(с) выбор последовательности кандидатной неоантигенной кассеты, имеющей оценку презентации ниже заданного порога, в качестве последовательности неоантигенной кассеты для неоантигенной вакцины.
17. Фармацевтическая композиция для стимуляции иммунного ответа у субъекта, содержащая эффективное количество неоантигенной экспрессионной системы по любому из предыдущих пунктов и фармацевтически приемлемый носитель, необязательно:
причем композиция дополнительно содержит вспомогательное вещество; и/или
причем композиция дополнительно содержит иммуномодулятор, необязательно, причем иммуномодулятор представляет собой антитело к CTLA4 или его антигенсвязывающий фрагмент, антитело к PD-1 или его антигенсвязывающий фрагмент, антитело к PD-L1 или его антигенсвязывающий фрагмент, антитело к 4-1 ВВ или его антигенсвязывающий фрагмент или антитело к ОХ-40 или его антигенсвязывающий фрагмент.
18. Применение неоантигенной экспрессионной системы по любому из пунктов 1-16 или фармацевтической композиции по п. 17 для лечения рака у субъекта, имеющего рак.
19. Применение неоантигенной экспрессионной системы по любому из пп. 1-16 или фармацевтической композиции по п. 17 для стимуляции иммунного ответа у субъекта.
20. Применение по п. 18 или 19, причем по меньшей мере одна кодирующая ГКГС класс I неоантиген последовательность нуклеиновой кислоты, полученная из опухоли, получена из опухоли субъекта; или
по меньшей мере одна кодирующая ГКГС класс I неоантиген последовательность нуклеиновой кислоты не получена из опухоли субъекта.
21. Применение по любому из пп. 18-20, причем:
(i) неоантигенную экспрессионную систему вводят внутримышечно (В/М), внутрикожно (В/К), подкожно (П/К) или внутривенно (В/В); и/или
(ii) применение дополнительно включает введение одного или более иммуномодуляторов, необязательно, при этом иммуномодулятор вводят до, одновременно или после введения неоантигенной экспрессионной системы или фармацевтической композиции, необязательно, причем:
один или более иммуномодуляторов выбраны из группы, состоящей из антитела к CTLA4 или его антигенсвязывающего фрагмента, антитела к PD-1 или его антигенсвязывающего фрагмента, антитела к PD-L1 или его антигенсвязывающего фрагмента, антитела к 4-1 ВВ или его антигенсвязывающего фрагмента или антитела к ОХ-40 или его антигенсвязывающего фрагмента; и/или
иммуномодулятор вводят внутривенно (В/В), внутримышечно (В/М), внутрикожно (В/К) или подкожно (П/К), необязательно, причем подкожное введение осуществляют вблизи места введения неоантигенной экспрессионной системы или фармацевтической композиции или в непосредственной близости от одного или более дренирующих лимфатических узлов для вектора или композиции.
22. Применение по любому из пп. 18-21, дополнительно включающее введение субъекту второй вакцинной композиции, необязательно, причем:
вторую вакцинную композицию вводят до введения неоантигенной экспрессионной системы или фармацевтической композиции, вводимой на (i); или причем вторую вакцинную композицию вводят после введения неоантигенной экспрессионной системы или фармацевтической композиции, вводимой на (i);
необязательно, причем вторая вакцинная композиция является такой же, как и неоантигенная экспрессионная система или фармацевтическая композиция, вводимая на (i);
или причем вторая вакцинная композиция отличается от нео антигенной экспрессионной системы или фармацевтической композиции, вводимой на (i), необязательно, причем вторая вакцинная композиция содержит аденовирусный вектор шимпанзе, кодирующий по меньшей мере одну кодирующую антиген последовательность нуклеиновой кислоты, причем, необязательно, по меньшей мере одна кодирующая антиген последовательность нуклеиновой кислоты, кодируемая аденовирусным вектором шимпанзе, является такой же, как и по меньшей мере одна кодирующая антиген последовательность нуклеиновой кислоты по любому из предыдущих пунктов для неоантигенной экспрессионной системы или композиций.
23. Неоантигенная экспрессионная система по любому из пп. 1-16, причем неоантигенная экспрессионная кассета дополнительно содержит:
(i) вторую нуклеотидную последовательность промотора, функционально связанную с кодирующей неоантиген последовательностью нуклеиновой кислоты, и/или
(ii) по меньшей мере одну кодирующую ГКГС класс II антиген последовательность нуклеиновой кислоты; и/или
(iii) по меньшей мере одну последовательность нуклеиновой кислоты, кодирующую аминокислотную линкерную последовательность GPGPG (SEQ ID NO: 56); и/или
(iv) по меньшей мере одну вторую последовательность поли(А), причем вторая последовательность поли(А) представляет собой нативную последовательность поли(А) или экзогенную последовательность поли(А) для альфавируса.
RU2019138741A 2017-05-08 2018-05-08 Неоантигенные векторы на основе альфавируса RU2803566C2 (ru)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201762503283P 2017-05-08 2017-05-08
US62/503,283 2017-05-08
US201762523201P 2017-06-21 2017-06-21
US62/523,201 2017-06-21
US201762590163P 2017-11-22 2017-11-22
US62/590,163 2017-11-22
PCT/US2018/031696 WO2018208856A1 (en) 2017-05-08 2018-05-08 Alphavirus neoantigen vectors

Publications (3)

Publication Number Publication Date
RU2019138741A RU2019138741A (ru) 2021-06-09
RU2019138741A3 RU2019138741A3 (ru) 2021-09-23
RU2803566C2 true RU2803566C2 (ru) 2023-09-15

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2206329C2 (ru) * 1995-11-23 2003-06-20 Берингер Ингельхайм Интернациональ Гмбх Иммуностимулятор, вызывающий специфичный к опухоли клеточный иммунный ответ и способ его получения
US20100041737A1 (en) * 2005-05-27 2010-02-18 Fondazione Centro San Raffaele Del Monte Tabor Gene Vector
US20100120897A1 (en) * 2008-06-13 2010-05-13 New York University Novel helper plasmid, defective sindbis viral vectors and methods of use thereof
US9255126B2 (en) * 2001-05-31 2016-02-09 Novartis Vaccines And Diagnostics, Inc. Chimeric alphavirus replicon particles

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2206329C2 (ru) * 1995-11-23 2003-06-20 Берингер Ингельхайм Интернациональ Гмбх Иммуностимулятор, вызывающий специфичный к опухоли клеточный иммунный ответ и способ его получения
US9255126B2 (en) * 2001-05-31 2016-02-09 Novartis Vaccines And Diagnostics, Inc. Chimeric alphavirus replicon particles
US20100041737A1 (en) * 2005-05-27 2010-02-18 Fondazione Centro San Raffaele Del Monte Tabor Gene Vector
US20100120897A1 (en) * 2008-06-13 2010-05-13 New York University Novel helper plasmid, defective sindbis viral vectors and methods of use thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIU, Z et al. Reviving virus based cancer vaccines by using cytomegalovirus vectors expressing modified tumor antigens. Oncoimmunology. Epub: 5 June 2015, Vol. 5, No. 1; pages 1-3. *

Similar Documents

Publication Publication Date Title
JP2023123766A (ja) アルファウイルス新生抗原ベクター
KR20210013105A (ko) 공유 항원
KR20190098147A (ko) 신생항원의 바이러스성 전달
KR20220016137A (ko) 변형된 아데노바이러스
KR20210090650A (ko) 알파바이러스 신생항원 벡터 및 인터페론 억제제
KR20220098379A (ko) 공유 네오항원을 표적으로 하는 항원-결합 단백질
KR20210013589A (ko) 면역 체크포인트 억제제 공동-발현 벡터
KR20220041844A (ko) Hiv 항원 및 mhc 복합체
KR20230014694A (ko) 항원-코딩 카세트
KR20230015914A (ko) 캡핑 화합물, 조성물 및 이의 사용 방법
KR20230046313A (ko) 다중에피토프 백신 카세트
EP4125973A1 (en) Neoantigen vaccine therapy
KR20230006825A (ko) 전염성 질병 항원 및 백신
RU2803566C2 (ru) Неоантигенные векторы на основе альфавируса
KR20230117163A (ko) 상동 아데노바이러스 백신접종