RU2805557C2 - B4galt1 options and their applications - Google Patents

B4galt1 options and their applications Download PDF

Info

Publication number
RU2805557C2
RU2805557C2 RU2019144018A RU2019144018A RU2805557C2 RU 2805557 C2 RU2805557 C2 RU 2805557C2 RU 2019144018 A RU2019144018 A RU 2019144018A RU 2019144018 A RU2019144018 A RU 2019144018A RU 2805557 C2 RU2805557 C2 RU 2805557C2
Authority
RU
Russia
Prior art keywords
b4galt1
seq
nucleic acid
sequence
polypeptide
Prior art date
Application number
RU2019144018A
Other languages
Russian (ru)
Other versions
RU2019144018A (en
RU2019144018A3 (en
Inventor
Мэй МОНТАССЕР
Кристофер ВАН ХАУТ
Алан ШУЛЬДИНЕР
Джузи Делла ГАТТА
Мэттью ХИЛИ
Марья ПУРУНЕН
Original Assignee
Ридженерон Фармасьютикалз, Инк.
Юниверсити Оф Мэрилэнд, Балтимор
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ридженерон Фармасьютикалз, Инк., Юниверсити Оф Мэрилэнд, Балтимор filed Critical Ридженерон Фармасьютикалз, Инк.
Priority claimed from PCT/US2018/035806 external-priority patent/WO2018226560A1/en
Publication of RU2019144018A publication Critical patent/RU2019144018A/en
Publication of RU2019144018A3 publication Critical patent/RU2019144018A3/ru
Application granted granted Critical
Publication of RU2805557C2 publication Critical patent/RU2805557C2/en

Links

Images

Abstract

FIELD: biotechnology.
SUBSTANCE: invention is related to an isolated polypeptide of the B4GALT1 variant containing a serine corresponding to position 352, a fusion protein containing it, and also to an isolated nucleic acid molecule encoding it. A method for modifying a cell using the above nucleic acid molecule, as well as a method for detecting a variant of the B4GALT1 nucleic acid molecule encoding serine at position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide are also disclosed.
EFFECT: invention is effective for determining the susceptibility of a human subject to developing cardiovascular disease in the subject, as well as for treating a subject who is not a carrier of the B4GALT1 variant and has or is susceptible to developing cardiovascular disease in the subject.
36 cl, 20 dwg, 5 tbl, 11 ex

Description

Ссылка на правительственные грантыLink to government grants

Данное раскрытие было сделано при государственной поддержке по гранту HL121007, присужденному Национальными институтами здравоохранения (NIH - National Institutes of Health). Правительство имеет определенные права на данное изобретение.This disclosure was made with the support of grant HL121007 awarded by the National Institutes of Health (NIH). The government has certain rights to this invention.

Ссылка на Перечень последовательностей Link to Sequence List

Данная заявка включает в себя перечень последовательностей, представленный в электронном виде в виде текстового файла с именем 18923800202SEQ, созданного 4 июня 2018 года, размером 161 КБ. Перечень последовательностей включен в данный документ посредством ссылки.This application includes a sequence listing submitted electronically as a text file named 18923800202SEQ, created on June 4, 2018, 161 KB in size. The sequence listing is incorporated herein by reference.

Область техникиTechnical field

Данное раскрытие предоставляет молекулы нуклеиновой кислоты генома, мРНК, кДНК и полипептиды варианта B4GALT1, способы обнаружения присутствия этих молекул, способы модуляции эндогенных молекул нуклеиновой кислоты генома, мРНК, кДНК и полипептидов B4GALT1, методы определения риска развития сердечно-сосудистых заболеваний путем выявления наличия или отсутствия молекулы нуклеиновой кислоты генома, мРНК, кДНК и полипептидов варианта B4GALT1, а также методы лечения сердечно-сосудистых заболеваний.This disclosure provides B4GALT1 variant genomic nucleic acid molecules, mRNA, cDNA, and polypeptides, methods for detecting the presence of these molecules, methods for modulating endogenous B4GALT1 genomic nucleic acid molecules, mRNA, cDNA, and polypeptides, methods for determining cardiovascular disease risk by detecting the presence or absence genome nucleic acid molecules, mRNA, cDNA and polypeptides of the B4GALT1 variant, as well as treatments for cardiovascular diseases.

Уровень техникиState of the art

Различные публикации, включая патенты, опубликованные заявки, регистрационные номера, технические статьи и научные статьи, цитируются в описании. Каждая цитируемая публикация включена в данный документ посредством ссылки во всей ее полноте и для любых целей.Various publications, including patents, published applications, registration numbers, technical articles and scientific articles, are cited in the description. Each publication cited is incorporated herein by reference in its entirety and for all purposes.

Бета-1,4-галактозилтрансфераза 1 (B4GALT1) является членом семейства генов бета-1,4-галактозилтрансферазы, которые кодируют мембранные гликопротеины типа II, которые играют роль в биосинтезе различных гликоконъюгатов и сахаридных структур. Фермент, кодируемый B4GALT1, играет критическую роль в процессировании N-связанных олигосахаридных фрагментов в гликопротеинах, а связанные с белком сахарные цепи часто модулируют биологические функции гликопротеина. Таким образом, нарушение активности B4GALT1 может изменить структуру всех гликопротеинов, содержащих N-связанные олигосахариды. Длинная форма фермента B4GALT1 локализована в транс-Гольджи, где он переносит остатки галактозила в остатки N-ацетилглюкозамина в ходе биосинтетической обработки гликанов с высоким содержанием маннозы в N-связанные олигосахариды сложного типа. Поскольку добавление галактозильных остатков является необходимым условием для добавления сиаловых кислот, дефект в B4GALT1 оказывает непрямой эффект блокирования добавления остатков сиаловой кислоты и, следовательно, может изменять период полураспада гликопротеинов плазмы. Сообщалось, что дефекты гликозилирования нарушают внутриклеточный перенос различных гликопротеинов, включая рецептор ЛПНП (ЛПНП - low density lipoproteins). Кроме того, структурные аномалии в N-связанных олигосахаридах могут изменять фолдинг (сворачивание) белков, что, в свою очередь, может изменять функцию гликопротеинов и их секрецию. Большой процент белков содержит N-связанное гликозилирование, включая рецепторы клеточной поверхности (например, рецепторы ЛПНП и рецепторы инсулина), а также различные циркулирующие белки плазмы (например, аполипопротеин B и фибриноген). Были сообщения о пациентах с генетическим заболеванием из-за гомозиготности по мутациям укорочения белков в гене B4GALT1. У одного такого пациента был тяжелый фенотип, характеризующийся а) тяжелыми нарушениями развития нервной системы (включая гидроцефалию), b) миопатией и c) нарушениями свертываемости крови. Как и предполагалось, в олигосахаридах, полученных из циркулирующего трансферрина, отсутствуют остатки галактозы и сиаловой кислоты. Два дополнительных пациента с таким же генетическим дефектом имели более мягкий фенотип, характеризующийся нарушениями свертывания крови, гепатопатией и дисморфизмом. Beta-1,4-galactosyltransferase 1 ( B4GALT1 ) is a member of the beta-1,4-galactosyltransferase gene family that encodes type II membrane glycoproteins that play a role in the biosynthesis of various glycoconjugates and saccharide structures. The enzyme encoded by B4GALT1 plays a critical role in the processing of N-linked oligosaccharide moieties in glycoproteins, and protein-associated sugar chains often modulate the biological functions of the glycoprotein. Thus, disruption of B4GALT1 activity can alter the structure of all glycoproteins containing N-linked oligosaccharides. The long form of the B4GALT1 enzyme is localized to the trans-Golgi, where it transfers galactosyl residues to N-acetylglucosamine residues during the biosynthetic processing of high-mannose glycans into complex N-linked oligosaccharides. Because the addition of galactosyl residues is a prerequisite for the addition of sialic acids, the defect in B4GALT1 has the indirect effect of blocking the addition of sialic acid residues and may therefore alter the half-life of plasma glycoproteins. Defects in glycosylation have been reported to impair the intracellular trafficking of various glycoproteins, including the LDL receptor (LDL - low density lipoproteins). In addition, structural abnormalities in N-linked oligosaccharides can alter protein folding, which in turn can alter glycoprotein function and secretion. A large percentage of proteins contain N-linked glycosylation, including cell surface receptors (eg, LDL receptors and insulin receptors) as well as various circulating plasma proteins (eg, apolipoprotein B and fibrinogen). There have been reports of patients with a genetic disorder due to homozygosity for protein truncation mutations in the B4GALT1 gene. One such patient had a severe phenotype characterized by a) severe neurodevelopmental disorders (including hydrocephalus), b) myopathy, and c) bleeding disorders. As expected, oligosaccharides derived from circulating transferrin lack galactose and sialic acid residues. Two additional patients with the same genetic defect had a milder phenotype characterized by coagulation disorders, hepatopathy, and dysmorphism.

Сердечно-сосудистые заболевания являются основной причиной смерти в Соединенных Штатах и других западных странах. Основные факторы риска развития атеротромботических сердечно-сосудистых заболеваний, таких как инсульт и инфаркт миокарда, включают повышенный уровень холестерина в крови и склонность к тромбозам. Многие белки, которые участвуют в метаболизме и коагуляции липидов, гликозилированы и, таким образом, подвергаются модуляции с помощью B4GALT1. Знание генетических факторов, лежащих в основе развития и прогрессирования сердечно-сосудистых заболеваний, может улучшить стратификацию риска и обеспечить основу для новых терапевтических стратегий. Cardiovascular disease is the leading cause of death in the United States and other Western countries. The main risk factors for the development of atherothrombotic cardiovascular diseases, such as stroke and myocardial infarction, include elevated blood cholesterol levels and a tendency to thrombosis. Many proteins that are involved in lipid metabolism and coagulation are glycosylated and thus subject to modulation by B4GALT1 . Knowledge of the genetic factors underlying the development and progression of cardiovascular disease may improve risk stratification and provide the basis for new therapeutic strategies.

Краткое изложение сущности изобретенияSummary of the invention

Данное раскрытие относится к молекулам нуклеиновой кислоты, содержащим последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную геномной последовательности варианта B4GALT1 (которая содержит ОНП, обозначенный rs551564683), при условии, что последовательность нуклеиновой кислоты также содержит нуклеотиды, которые кодируют серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.This disclosure relates to nucleic acid molecules containing a nucleic acid sequence that is at least about 90% identical to the genomic sequence of the B4GALT1 variant (which contains the SNP designated rs551564683 ), provided that the nucleic acid sequence also contains nucleotides that encode the serine at position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide.

Данное раскрытие также относится к молекулам нуклеиновой кислоты, содержащим последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную последовательности мРНК варианта B4GALT1 (которая содержит ОНП, обозначенный rs551564683), при условии, что последовательность нуклеиновой кислоты также кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.This disclosure also relates to nucleic acid molecules containing a nucleic acid sequence that is at least about 90% identical to the mRNA sequence of the B4GALT1 variant (which contains the SNP designated rs551564683 ), provided that the nucleic acid sequence also encodes a serine at a position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide.

Данное раскрытие относится к молекулам кДНК, кодирующим полипептид B4GALT1, содержащим последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную последовательности кДНК варианта B4GALT1 (которая содержит ОНП, обозначенный rs551564683), при условии, что последовательность нуклеиновой кислоты также кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.This disclosure relates to cDNA molecules encoding a B4GALT1 polypeptide containing a nucleic acid sequence at least about 90% identical to the cDNA sequence of the B4GALT1 variant (which contains the SNP designated rs551564683), provided that the nucleic acid sequence also encodes a serine at position , corresponding to position 352 of the full-length/mature B4GALT1 polypeptide.

Данное раскрытие также предоставляет векторы или экзогенные донорные последовательности, содержащие любую одну или более из этих молекул нуклеиновой кислоты.This disclosure also provides vectors or exogenous donor sequences containing any one or more of these nucleic acid molecules.

Данное раскрытие также относится к выделенным полипептидам, содержащим аминокислотную последовательность, по меньшей мере, на около 90% идентичную полипептиду B4GALT1, имеющему серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.This disclosure also relates to isolated polypeptides containing an amino acid sequence at least about 90% identical to a B4GALT1 polypeptide having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide.

Данное раскрытие также относится к клеткам-хозяевам, содержащим любую одну из этих молекул нуклеиновой кислоты, функционально связанных с гетерологичным промотором, активным в клетке-хозяине.This disclosure also relates to host cells containing any one of these nucleic acid molecules operably linked to a heterologous promoter active in the host cell.

Данное раскрытие также обеспечивает способы получения полипептида B4GALT1 путем культивирования клетки-хозяина, содержащей молекулу нуклеиновой кислоты, кодирующей полипептид B4GALT1, при этом указанная молекула нуклеиновой кислоты функционально связана с гетерологичным промотором, активным в клетке-хозяине, посредством чего указанная молекула нуклеиновой кислоты экспрессируется, и выделения изолированного полипептида.This disclosure also provides methods for producing a B4GALT1 polypeptide by culturing a host cell containing a nucleic acid molecule encoding a B4GALT1 polypeptide, wherein said nucleic acid molecule is operably linked to a heterologous promoter active in the host cell, whereby said nucleic acid molecule is expressed, and isolation of an isolated polypeptide.

Данное раскрытие также обеспечивает композиции, содержащие эти молекулы нуклеиновой кислоты или полипептиды и носитель для повышения их стабильности.This disclosure also provides compositions containing these nucleic acid molecules or polypeptides and a carrier to enhance their stability.

Данное раскрытие также обеспечивает способы обнаружения наличия или отсутствия молекулы нуклеиновой кислоты варианта B4GALT1 варианта (который содержит ОНП, обозначенный rs551564683) у человека, включающий выполнение анализа биологического образца от человека, который определяет содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует вариантный полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1. This disclosure also provides methods for detecting the presence or absence of a B4GALT1 variant nucleic acid molecule (which contains the SNP designated rs551564683) in a human, comprising performing an assay on a biological sample from the human that determines whether the nucleic acid molecule in the biological sample contains a nucleic acid sequence that encodes a variant B4GALT1 polypeptide having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide.

Данное раскрытие также предоставляет способы обнаружения присутствия варианта полипептида B4GALT1, имеющего серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 у человека, включающий проведение анализа на биологическом образце от человека, который определяет наличие варианта полипептида B4GALT1.This disclosure also provides methods for detecting the presence of a variant B4GALT1 polypeptide having a serine at position corresponding to position 352 in a full-length/mature B4GALT1 polypeptide in a human, comprising performing an assay on a biological sample from a human that detects the presence of the variant B4GALT1 polypeptide.

Данное раскрытие также предоставляет способы определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 ; и b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, обнаружена в биологическом образце или классифицирует человека, как имеющего повышенный риск развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, не обнаружена в биологическом образце.This disclosure also provides methods for determining the susceptibility of a human subject to the development of cardiovascular disease, comprising: a) performing an assay on a biological sample from the human subject that determines whether a nucleic acid molecule in the biological sample contains a nucleic acid sequence that encodes a B4GALT1 polypeptide variant having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide; and b) classifying a human subject as being at reduced risk of developing cardiovascular disease if a nucleic acid molecule comprising a nucleic acid sequence that encodes a variant B4GALT1 polypeptide having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide is found in biological specimen or classifies an individual as having an increased risk of developing cardiovascular disease if a nucleic acid molecule containing a nucleic acid sequence that encodes a variant B4GALT1 polypeptide having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide is not found in biological sample.

Данное раскрытие также предоставляет способы определения восприимчивости человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от человека, который определяет, содержит ли полипептид B4GALT1 в биологическом образце серин в позиции, соответствующей позиции 352; и b) классификацию субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если в биологическом образце обнаружен полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, или классификация субъекта-человека, как имеющего повышенный риск развития сердечно-сосудистого заболевания, если в биологическом образце не обнаружен полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.This disclosure also provides methods for determining a person's susceptibility to developing cardiovascular disease, comprising: a) performing an assay on a biological sample from the person that determines whether the B4GALT1 polypeptide in the biological sample contains a serine at a position corresponding to position 352; and b) classifying a human subject as having a reduced risk of developing cardiovascular disease if a B4GALT1 polypeptide is detected in a biological specimen having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide, or classifying the human subject as having an increased risk of developing cardiovascular disease unless a B4GALT1 polypeptide is detected in a biological sample that has a serine at position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide.

Данное раскрытие также обеспечивает направляющие молекулы РНК, эффективные для направления фермента Cas для связывания или расщепления эндогенного B4GALT1, причем направляющая РНК содержит нацеленный на ДНК сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в последовательности эндогенного гена B4GALT1, которая включает в себя или является ближайшей (например, в пределах определенного числа нуклеотидов, таких как обсуждено ниже) к положению, соответствующему положениям с 53575 по 53577 гена B4GALT1 дикого типа.This disclosure also provides guide RNA molecules effective for directing the Cas enzyme to bind or cleave endogenous B4GALT1, wherein the guide RNA comprises a DNA targeting segment that hybridizes to a sequence recognized by the guide RNA in the endogenous B4GALT1 gene sequence that includes or is closest (eg, within a certain number of nucleotides, such as discussed below) to the position corresponding to positions 53575 to 53577 of the wild-type B4GALT1 gene.

Данное раскрытие также предоставляет способы модификации эндогенного гена B4GALT1 в клетке, включающие приведение генома клетки в контакт с: а) белком Cas; и b) направляющей РНК, которая образует комплекс с белком Cas и гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая направляющей РНК, включает или находится близко от (например, в пределах определенного числа нуклеотидов, такого как обсуждается ниже) в положении, соответствующем положениям 53575-53577 гена B4GALT1 дикого типа, при этом белок Cas расщепляет эндогенный ген B4GALT1.This disclosure also provides methods for modifying an endogenous B4GALT1 gene in a cell, comprising contacting the cell's genome with: a) a Cas protein; and b) a guide RNA that forms a complex with the Cas protein and hybridizes to a guide RNA recognition sequence in the endogenous B4GALT1 gene, wherein the guide RNA recognition sequence includes or is located close to (for example, within a certain number of nucleotides, such as discussed below) at a position corresponding to positions 53575-53577 of the wild-type B4GALT1 gene, with the Cas protein cleaving the endogenous B4GALT1 gene.

Данное раскрытие также предоставляет способы модификации эндогенного гена B4GALT1 в клетке, включающие приведение генома клетки в контакт с: а) белком Cas; и b) первой направляющей РНК, которая образует комплекс с белком Cas и гибридизуется с последовательностью распознаваемой первой направляющей РНК в эндогенном гене B4GALT1, при этом последовательность, распознаваемая первой направляющей РНК, включает старт-кодон гена B4GALT1 или находится в пределах 1000 нуклеотидов от старт-кодона, при этом белок Cas расщепляет или изменяет экспрессию эндогенного гена B4GALT1.This disclosure also provides methods for modifying an endogenous B4GALT1 gene in a cell, comprising contacting the cell's genome with: a) a Cas protein; and b) a first guide RNA that forms a complex with the Cas protein and hybridizes to a first guide RNA recognition sequence in the endogenous B4GALT1 gene, wherein the sequence recognized by the first guide RNA includes the start codon of the B4GALT1 gene or is within 1000 nucleotides from the start codon codon, with the Cas protein cleaving or altering the expression of the endogenous B4GALT1 gene.

Данное раскрытие также предоставляет способы модификации клетки, включающие введение вектора экспрессии в клетку, причем вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.This disclosure also provides methods for modifying a cell, comprising introducing an expression vector into a cell, wherein the expression vector contains a recombinant B4GALT1 gene containing a nucleotide sequence encoding a B4GALT1 polypeptide having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide.

Данное раскрытие также предоставляет способы модификации клетки, включающие введение вектора экспрессии в клетку, при этом вектор экспрессии содержит молекулу нуклеиновой кислоты, кодирующую полипептид, который, по меньшей мере, на около 90% идентичен полипептиду B4GALT1, имеющему серин в положение, соответствующему положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом полипептид также содержит серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.This disclosure also provides methods for modifying a cell, comprising introducing an expression vector into a cell, wherein the expression vector contains a nucleic acid molecule encoding a polypeptide that is at least about 90% identical to a B4GALT1 polypeptide having a serine at position corresponding to position 352 in full-length/mature B4GALT1 polypeptide, wherein the polypeptide also contains a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide.

Данное раскрытие также предоставляет способы модификации клетки, включающие введение полипептида или его фрагмента в клетку, при этом полипептид, по меньшей мере, на 90% идентичен полипептиду B4GALT1, имеющему серин, в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 и при этом полипептид также содержит серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.This disclosure also provides methods for modifying a cell, comprising introducing a polypeptide or fragment thereof into a cell, wherein the polypeptide is at least 90% identical to a B4GALT1 polypeptide having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide and wherein the polypeptide also contains a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide.

Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и который имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту: а) белка Cas или нуклеиновой кислоты, кодирующей белок Cas; b) направляющей РНК или нуклеиновой кислоты, кодирующей направляющую РНК, при этом направляющая РНК образует комплекс с белком Cas и гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая направляющей РНК, включает или находится близко к положению, соответствующему положениям 53575-53577 гена B4GALT1 дикого типа; и c) экзогенную донорную последовательность, содержащую 5' гомологичный конец, который гибридизуется с 5' последовательностью-мишенью в положениях, соответствующих положениям 53575-53577 гена B4GALT1 дикого типа, 3' гомологичный конец, который гибридизуется с 3' последовательностью-мишенью в положениях, соответствующих положениям 53575-53577 гена B4GALT1 дикого типа, и вставку нуклеиновой кислоты, содержащей нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352, в полноразмерном/зрелом полипептиде B4GALT1, фланкированную 5'-плечом гомологии и 3'-плечом гомологии, при этом Cas расщепляет эндогенный ген B4GALT1 в клетке субъекта, а последовательность экзогенного донора рекомбинирует с эндогенным B4GALT1 геном в клетке, при этом при рекомбинации экзогенной донорной последовательности с эндогенным геном B4GALT1 серин вставляется в нуклеотиды, соответствующие положениям с 53575 по 53577 гена дикого типа B4GALT1.This disclosure also provides methods for treating a subject who does not carry a B4GALT1 variant polypeptide or nucleic acid molecule (which contains the SNP designated rs551564683 ) and who has or is susceptible to developing cardiovascular disease, comprising administering to the subject: a) a Cas protein or nucleic acid, encoding the Cas protein; b) a guide RNA or a nucleic acid encoding a guide RNA, wherein the guide RNA forms a complex with a Cas protein and hybridizes to a guide RNA recognition sequence in the endogenous B4GALT1 gene, wherein the guide RNA recognition sequence includes or is close to the position, corresponding to positions 53575-53577 of the wild-type B4GALT1 gene; and c) an exogenous donor sequence containing a 5' homologous end that hybridizes to the 5' target sequence at positions corresponding to positions 53575-53577 of the wild-type B4GALT1 gene, a 3' homologous end that hybridizes to the 3' target sequence at positions corresponding to positions 53575-53577 of the wild-type B4GALT1 gene, and a nucleic acid insert containing a nucleotide sequence encoding a B4GALT1 polypeptide having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide, flanked by a 5' homology arm and a 3' homology arm homology, wherein Cas cleaves the endogenous B4GALT1 gene in the subject's cell, and the exogenous donor sequence recombines with the endogenous B4GALT1 gene in the cell, and when the exogenous donor sequence recombines with the endogenous B4GALT1 gene, a serine is inserted at nucleotides corresponding to positions 53575 to 53577 of the wild type gene B4GALT1 .

Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и который имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту: а) белка Cas или нуклеиновой кислоты, кодирующей белок Cas; b) первой направляющей РНК или нуклеиновой кислоты, кодирующей первую направляющую РНК, при этом первая направляющая РНК образует комплекс с белком Cas и гибридизуется с первой последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, при этом первая последовательность, распознаваемая направляющей РНК, содержит стартовый кодон для эндогенного гена B4GALT1 или находится в пределах около 1000 нуклеотидов от стартового кодона; и c) экспрессионный вектор, содержащий рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом Cas расщепляет или изменяет экспрессию эндогенного гена B4GALT1 в клетке у субъекта, а вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке у субъекта.This disclosure also provides methods for treating a subject who does not carry a B4GALT1 variant polypeptide or nucleic acid molecule (which contains the SNP designated rs551564683 ) and who has or is susceptible to developing cardiovascular disease, comprising administering to the subject: a) a Cas protein or nucleic acid, encoding the Cas protein; b) a first guide RNA or a nucleic acid encoding a first guide RNA, wherein the first guide RNA forms a complex with the Cas protein and hybridizes to a first guide RNA recognition sequence in the endogenous B4GALT1 gene, wherein the first guide RNA recognition sequence contains a start codon for the endogenous B4GALT1 gene or is within about 1000 nucleotides of the start codon; and c) an expression vector containing a recombinant B4GALT1 gene containing a nucleotide sequence encoding a B4GALT1 polypeptide having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide, wherein Cas cleaves or alters the expression of the endogenous B4GALT1 gene in a cell in the subject, and the expression vector expresses the recombinant B4GALT1 gene in a cell in the subject.

Данное раскрытие также обеспечивает способы лечения субъекта, который не является носителем молекулы нуклеиновой кислоты или полипептида варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту антисмысловой ДНК, РНК, миРНК или кшРНК, которая гибридизуется с последовательностью внутри эндогенного гена B4GALT1 и снижает экспрессию полипептида B4GALT1 в клетке субъекта.This disclosure also provides methods of treating a subject who does not carry a B4GALT1 variant nucleic acid molecule or polypeptide (which contains the SNP designated rs551564683) and has or is susceptible to developing cardiovascular disease, comprising administering to the subject an antisense DNA, RNA, siRNA, or shRNA that hybridizes to a sequence within the endogenous B4GALT1 gene and reduces the expression of the B4GALT1 polypeptide in the subject's cell.

Данное раскрытие также обеспечивает способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистых заболеваний, включающий введение вектора экспрессии субъекту, при этом вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке субъекта.This disclosure also provides methods for treating a subject who does not carry a B4GALT1 variant polypeptide or nucleic acid molecule (which contains the SNP designated rs551564683 ) and has or is susceptible to developing cardiovascular disease, comprising administering an expression vector to the subject, wherein the expression vector contains a recombinant gene B4GALT1 containing a nucleotide sequence encoding a B4GALT1 polypeptide having a serine at position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide, wherein the expression vector expresses the recombinant B4GALT1 gene in a cell of the subject.

Данное раскрытие также обеспечивает способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистых заболеваний, включающий введение вектора экспрессии субъекту, при этом вектор экспрессии включает молекулу нуклеиновой кислоты, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом вектор экспрессии экспрессирует нуклеиновую кислоту, кодирующую полипептид B4GALT1, в клетке у субъекта.This disclosure also provides methods for treating a subject who does not carry a B4GALT1 variant polypeptide or nucleic acid molecule (which contains the SNP designated rs551564683 ) and has or is susceptible to developing cardiovascular disease, comprising administering an expression vector to the subject, wherein the expression vector includes a nucleic acid molecule an acid encoding a B4GALT1 polypeptide having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide, wherein the expression vector expresses the nucleic acid encoding the B4GALT1 polypeptide in a cell in the subject.

Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы нуклеиновой кислоты или полипептида варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение мРНК субъекту, при этом мРНК кодирует полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом мРНК экспрессирует полипептид B4GALT1 в клетке субъекта.This disclosure also provides methods of treating a subject who does not carry a B4GALT1 variant nucleic acid molecule or polypeptide (which contains the SNP designated rs551564683 ) and has or is susceptible to developing cardiovascular disease, comprising administering an mRNA to the subject, wherein the mRNA encodes a B4GALT1 polypeptide having serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide, wherein the mRNA expresses the B4GALT1 polypeptide in a cell of the subject.

Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы нуклеиновой кислоты или полипептида варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение полипептида B4GALT1, имеющего серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 или его фрагмента субъекту.This disclosure also provides methods of treating a subject who does not carry a B4GALT1 variant nucleic acid molecule or polypeptide (which contains the SNP designated rs551564683 ) and has or is susceptible to developing cardiovascular disease, comprising administering a B4GALT1 polypeptide having a serine at a position corresponding to position 352 in a full-length/mature B4GALT1 polypeptide or a fragment thereof to a subject.

В любом из способов, описанных или приведенных в качестве примера в данном документе, сердечно-сосудистое заболевание может содержать уровни одного или более сывороточных липидов, которые увеличивают атеросклеротический риск. Липиды сыворотки включают один или более из холестерина, ЛПНП (липопротеин низкой плотности - low density lipoprotein - LDL), ЛПВП (липопротеин высокой плотности - high density lipoprotein - HDL), триглицеридов, холестерина ЛПВП и холестерина не-ЛПВП или любой их субфракции (например, ЛПВП2, ЛПВП2a, ЛПВП2b, ЛПВП2c, ЛПВП3, ЛПВП3a, ЛПВП3b, ЛПВП3c, ЛПВП3d,ЛПНП1, ЛПНП2, ЛПНП3, липопротеин A, Lpa1, Lpa1, Lpa3, Lpa4 или Lpa5). Сердечно-сосудистое заболевание может включать повышенные уровни кальцификации коронарной артерии. Сердечно-сосудистое заболевание может характеризоваться повышенным уровнем перикардиального жира. Сердечно-сосудистое заболевание может включать атеротромботическое заболевание. Атеротромботическое заболевание может включать повышенные уровни фибриногена. Атеротромботическое заболевание может включать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать повышенные уровни фибриногена. Сердечно-сосудистое заболевание может содержать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать сгусток крови, образованный в результате активности фибриногена. Фибриноген-опосредованный сгусток крови или сгусток крови, образованный при участии активности фибриногена, может находиться в любой вене или артерии в организме.In any of the methods described or exemplified herein, cardiovascular disease may contain levels of one or more serum lipids that increase atherosclerotic risk. Serum lipids include one or more of cholesterol, LDL (low density lipoprotein - LDL), HDL (high density lipoprotein - HDL), triglycerides, HDL cholesterol and non-HDL cholesterol or any subfraction thereof (eg , HDL2, HDL2a, HDL2b, HDL2c, HDL3, HDL3a, HDL3b, HDL3c, HDL3d, LDL1, LDL2, LDL3, lipoprotein A, Lpa1, Lpa1, Lpa3, Lpa4 or Lpa5). Cardiovascular disease may include increased levels of coronary artery calcification. Cardiovascular disease may be characterized by increased levels of pericardial fat. Cardiovascular disease may include atherothrombotic disease. Atherothrombotic disease may involve elevated levels of fibrinogen. Atherothrombotic disease may involve fibrinogen-mediated blood clot. Cardiovascular disease may involve elevated levels of fibrinogen. Cardiovascular disease may contain a fibrinogen-mediated blood clot. Cardiovascular disease may involve a blood clot formed as a result of fibrinogen activity. A fibrinogen-mediated blood clot, or a blood clot formed by the activity of fibrinogen, can be located in any vein or artery in the body.

Краткое описание графических материаловBrief description of graphic materials

На Фиг. 1 продемонстрированы результаты типичной полногеномной ассоциации варианта B4GALT1 с ЛПНП.In FIG. Figure 1 shows the results of a typical genome-wide association of the B4GALT1 variant with LDL.

На Фиг. 2 продемонстрированы результаты типичной ассоциации TOPMed WGS варианта B4GALT1 с ЛПНП.In FIG. Figure 2 demonstrates the results of a typical TOPMed WGS association of the B4GALT1 variant with LDL.

На Фиг. 3 продемонстрированы результаты типичной структуры гаплотипа основных ОНП (SNP), связанных с B4GALT1.In FIG. Figure 3 shows the results of a typical haplotype structure of the major SNPs associated with B4GALT1 .

На Фиг. 4 продемонстрирована ассоциация варианта гена B4GALT1 с ЛПНП у амишей, идентифицированная секвенированием экзома.In FIG. Figure 4 demonstrates the association of the B4GALT1 gene variant with LDL in the Amish, identified by exome sequencing.

На Фиг. 5 продемонстрировано, что частота варианта гена B4GALT1 более чем в 1000 раз выше у амишей.In FIG. 5 demonstrates that the frequency of the B4GALT1 gene variant is more than 1000 times higher in the Amish.

На Фиг. 6 продемонстрирована ассоциация Asn352Ser B4GALT1 с пониженным содержанием липидов в сыворотке.In FIG. Figure 6 demonstrates the association of Asn352Ser B4GALT1 with decreased serum lipids.

На Фиг. 7 продемонстрирована высокая степень ассоциации Asn352Ser B4GALT1 с уменьшением липидов в сыворотке и повышением АСТ.In FIG. 7 demonstrated a high degree of association of Asn352Ser B4GALT1 with a decrease in serum lipids and an increase in AST.

На Фиг. 8 продемонстрирована ассоциация Asn352Ser B4GALT1 со всеми липидными субфракциями.In FIG. Figure 8 demonstrates the association of Asn352Ser B4GALT1 with all lipid subfractions.

На Фиг. 9 продемонстрирована ассоциация Asn352Ser B4GALT1 с пониженными уровнями фибриногена.In FIG. 9 demonstrates the association of Asn352Ser B4GALT1 with decreased fibrinogen levels.

На Фиг. 10 продемонстрировано уменьшение уровня транскрипта b4galt1 через 5 дней после оплодотворения личинок рыбок данио, которым инъецировали антисмысловой морфолино олигонуклеотид в указанных концентрациях.In FIG. 10 demonstrates a decrease in b4galt1 transcript levels at 5 days post-fertilization in zebrafish larvae injected with antisense morpholino oligonucleotide at the indicated concentrations.

На Фиг. 11 продемонстрирован диагностический маркер антисмысловых эффектов морфолиноолигонуклеотида вне мишени через 5 дней после оплодотворения личинок рыбок данио, которым вводили антисмысловой морфолино олигонуклеотид в указанных концентрациях.In FIG. 11 demonstrates a diagnostic marker for antisense off-target effects of a morpholino oligonucleotide at 5 days post-fertilization in zebrafish larvae administered antisense morpholino oligonucleotide at the indicated concentrations.

Фиг. 12 демонстрирует среднюю концентрацию ЛПНП в гомогенатах через 5 дней после оплодотворения 100 личинок рыбок данио на эксперимент.Fig. 12 shows the average LDL concentration in homogenates at 5 days post-fertilization of 100 zebrafish larvae per experiment.

На Фиг. 13 продемонстрировано восстановление фенотипа ЛПНП-c путем коэкспрессии 50 мкг мРНК человеческого B4GALT1 в рыбках данио.In FIG. 13 demonstrates restoration of the LDL-c phenotype by coexpression of 50 μg of human B4GALT1 mRNA in zebrafish.

На Фиг. 14 продемонстрированы результаты генетической ассоциации между N352S B4GALT1 и ЛПНП с использованием целевого генотипирования.In FIG. 14 demonstrates the results of a genetic association between N352S B4GALT1 and LDL using targeted genotyping.

На Фиг. 15 продемонстрированы изображения конфокальной микроскопии субклеточной локализации Flag-352Asn или Flag-352Ser.In FIG. Figure 15 shows confocal microscopy images of subcellular localization of Flag-352Asn or Flag-352Ser.

На Фиг. 16 продемонстрированы изображения конфокальной микроскопии эндогенной субклеточной локализации B4GALT1, Flag-352Asn и Flag-352Se в связи с маркером trans Golgi Network TGN46.In FIG. Figure 16 demonstrates confocal microscopy images of the endogenous subcellular localization of B4GALT1 , Flag-352Asn, and Flag-352Se in association with the trans Golgi Network marker TGN46.

На Фиг. 17 (панели A и B) продемонстрировано влияние 352Ser на устойчивые уровни белка B4GALT1; (Панель A) COS7-клетки, экспрессирующие 352Asn или 352Ser Flag-тег белки, слитые со свободным EGFP; и (Панель B) уровни экспрессии мРНК для гена B4GALT1, определенные с помощью анализа ОТ-кПЦР (RT-qPCR). In FIG. 17 (panels A and B) demonstrates the effect of 352Ser on steady-state levels of B4GALT1 protein; (Panel A) COS7 cells expressing 352Asn or 352Ser Flag tag proteins fused to free EGFP; and (Panel B) mRNA expression levels for the B4GALT1 gene determined by RT-qPCR (RT-qPCR) analysis.

На Фиг. 18 (панели A, B и C) продемонстрировано влияние мутации 352Ser на активность; (Панели A и B) клетки COS7, экспрессирующие слитые белки 352Asn или 352Ser Flag-тэг, экспрессированные в клетках COS7 и проанализированные с помощью вестерн-блоттинга на B4GALT1 или Flag; (Панель C) Активность B4GALT1 в иммунопреципитатах.In FIG. 18 (panels A, B and C) demonstrates the effect of the 352Ser mutation on activity; (Panels A and B) COS7 cells expressing 352Asn or 352Ser Flag tag fusion proteins expressed in COS7 cells and analyzed by Western blotting for B4GALT1 or Flag; (Panel C) B4GALT1 activity in immunoprecipitates.

На Фиг. 19 продемонстрировано соотношение три-сиало/ди-олиго по группе генотипа N352S B4GALT1.In FIG. 19 demonstrates the tri-sialo/di-oligo ratio for the N352S B4GALT1 genotype group.

На Фиг. 20 продемонстрирован репрезентативный HILIC-FLR-MS спектр N-гликанового анализа гликопротеина из подобранной пары рецессивных (SS) и доминантных (NN) гомозигот N352S B4GALT1.In FIG. 20 shows a representative HILIC-FLR-MS spectrum of N-glycan analysis of a glycoprotein from a matched pair of recessive (SS) and dominant (NN) N352S B4GALT1 homozygotes.

Подробное описание сущности изобретенияDetailed description of the invention

Как указано в данном документе, в исследованиях секвенирования идентифицирован вариант B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 вместо присутствующего аспарагина у около 11% -12% индивидуумов амишей Старого Порядка (OOA - Old Order Amish) (частота альтернативных аллелей=6%) и встречается крайне редко среди населения в целом. Эта мутация заменяет аспарагин на серин в положении 352 (N352S) человеческого белка длиной 398 аминокислот или в положении 311 короткой изоформы. Было обнаружено, что вариант B4GALT1 связан с более низкими уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина и фибриногена и рСКФ (расчетная скорость клубочковой фильтрации - eGFR), повышенными уровнями аспартаттрансаминазы (AST) (но не аланинтрансаминазы (ALT)), и уровни экспрессии креатинкиназы и креатинина сыворотке, экспрессии в мышечной ткани (но не в печени или эритроцитах) и снижение уровня базофилов. Считается, что вариант N352S защищает от одного или более сердечно-сосудистых заболеваний. Также считается, что B4GALT1, включая его вариантный статус, можно использовать для диагностики риска развития сердечно-сосудистых заболеваний у пациента.As reported herein, sequencing studies have identified a B4GALT1 variant having a serine at position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide instead of the asparagine present in about 11%-12% of Old Order Amish (OOA) individuals (frequency alternative alleles = 6%) and is extremely rare in the general population. This mutation replaces asparagine with serine at position 352 (N352S) of the 398 amino acid long human protein, or at position 311 of the short isoform. The B4GALT1 variant has been found to be associated with lower levels of low-density lipoprotein (LDL) cholesterol, total cholesterol and fibrinogen and eGFR (estimated glomerular filtration rate - eGFR), increased levels of aspartate transaminase (AST) (but not alanine transaminase (ALT)), and levels of serum creatine kinase and creatinine expression, expression in muscle tissue (but not liver or red blood cells), and decreased basophil levels. The N352S variant is thought to protect against one or more cardiovascular diseases. It is also believed that B4GALT1 , including its variant status, can be used to diagnose a patient's risk of developing cardiovascular disease.

Фраза «соответствующий» при использовании в контексте нумерации какой-либо данной аминокислотной или полинуклеотидной последовательности относится к нумерации остатков указанной эталонной последовательности, когда данную аминокислотную или полинуклеотидную последовательность сравнивают с эталонной последовательностью (в данном случае ссылочной последовательностью является полинуклеотид (последовательность гДНК, последовательность мРНК, последовательность кДНК) или полипептид (дикого типа/полноразмерный B4GALT1). Другими словами, номер остатка или положение остатка данного полимера обозначено относительно контрольной последовательности, а не фактическим числовым положением остатка в данной аминокислотной или полинуклеотидной последовательности. Например, данная аминокислотная последовательность может быть выровнена с эталонной последовательностью путем введения пробелов/промежутков для оптимизации совпадения остатков между двумя последовательностями. В этих случаях, несмотря на наличие пробелов, нумерация остатка в данной аминокислотной или полинуклеотидной последовательности производится по отношению к контрольной последовательности, с которой он был выровнен.The phrase "corresponding" when used in the context of numbering any given amino acid or polynucleotide sequence refers to the numbering of the residues of the specified reference sequence when the given amino acid or polynucleotide sequence is compared with the reference sequence (in this case the reference sequence is a polynucleotide (gDNA sequence, mRNA sequence, cDNA sequence) or polypeptide (wild type/full length B4GALT1 ) In other words, the residue number or residue position of a given polymer is indicated relative to a reference sequence, rather than the actual numerical position of the residue in a given amino acid or polynucleotide sequence. For example, a given amino acid sequence may be aligned with reference sequence by introducing gaps/gaps to optimize residue matches between two sequences.In these cases, despite the presence of gaps, the numbering of the residue in a given amino acid or polynucleotide sequence is relative to the reference sequence to which it was aligned.

Как используется в данном документе, формы единственного числа включают множественное, если контекст явно не предписывает иное.As used herein, singular forms include the plural unless the context clearly requires otherwise.

Как используется в данном документе, и если иное не очевидно из контекста, «около» охватывает значения в пределах стандартного предела погрешности измерения (например, СОС (SEM - standart error of the mean)) заявленного значения.As used herein, and unless otherwise obvious from the context, "about" covers values within the standard error of measurement (eg, SEM - standard error of the mean) of the stated value.

Используемый в данном документе термин «и/или» относится и охватывает любые возможные комбинации одного или более связанных перечисленных пунктов, а также отсутствие комбинаций при интерпретации в альтернативе («или»).As used herein, the term “and/or” refers to and covers any possible combination of one or more related enumerated items, as well as the absence of combinations when interpreted in the alternative (“or”).

Используемый в данном документе термин «содержащий» или «включающий» означает, что один или более из перечисленных элементов могут включать в себя другие элементы, конкретно не указанные. Например, композиция, которая «содержит» или «включает» белок, может содержать белок отдельно или в комбинации с другими ингредиентами. Переходная фраза «состоящий по существу из» означает, что объем формулы изобретения следует интерпретировать как охватывающий указанные элементы, перечисленные в формуле изобретения, и элементы, которые не оказывают существенного влияния на основные и новые характеристики заявленного объекта изобретения. Таким образом, термин «состоящий по существу из» при использовании в формуле изобретения данного раскрытия не предназначен для того, чтобы быть интерпретированным как эквивалент «содержащий».As used herein, the term “comprising” or “including” means that one or more of the listed elements may include other elements not specifically listed. For example, a composition that “contains” or “comprises” a protein may contain the protein alone or in combination with other ingredients. The transitional phrase "consisting essentially of" means that the scope of the claims should be interpreted as covering the specified elements listed in the claims and elements that do not significantly affect the essential and novel characteristics of the claimed subject matter. Thus, the term “consisting essentially of” when used in the claims of this disclosure is not intended to be interpreted as equivalent to “comprising.”

Используемый в данном документе термин «необязательный» или «необязательно» означает, что описанные впоследствии событие или обстоятельство могут или не могут произойти, и что описание включает в себя случаи, в которых происходит событие или обстоятельство, и случаи, в которых это не происходит.As used herein, the term “optional” or “optional” means that the subsequently described event or circumstance may or may not occur, and that the description includes cases in which the event or circumstance occurs and cases in which it does not occur.

Как используется в данном документе, «или» относится к любому одному члену конкретного списка, а также включает в себя любую комбинацию членов этого списка.As used herein, "or" refers to any one member of a particular list, and also includes any combination of members of that list.

Обозначение диапазона значений включает в себя все целые числа в пределах или определяющие диапазон (включая два значения конечной точки) и все поддиапазоны, определенные целыми числами в пределах диапазона.The value range designation includes all integers within or defining the range (including the two endpoint values) and all subranges defined by integers within the range.

Следует понимать, что конкретные признаки раскрытия, которые для ясности описаны в контексте отдельных вариантов осуществления, также могут быть предоставлены в комбинации в одном варианте осуществления. И наоборот, различные признаки раскрытия, которые для краткости описаны в контексте одного варианта осуществления, также могут быть предоставлены отдельно или в любой подходящей субкомбинации.It should be understood that specific features of the disclosure that are described in the context of individual embodiments for clarity may also be provided in combination in a single embodiment. Conversely, various features of the disclosure, which for brevity are described in the context of a single embodiment, may also be provided separately or in any suitable subcombination.

Данное раскрытие предоставляет выделенные геномные, мРНК и кДНК варианты B4GALT1 или любой их комплемент и выделенные варианты полипептида B4GALT1. Считается, что эти варианты связаны с уменьшенным риском развития различных сердечно-сосудистых заболеваний, включая, но не ограничиваясь этим, повышенные уровни липидов в сыворотке и повышенные уровни фибриногена, кальцификацию коронарных артерий, ишемическую болезнь сердца (CAD - coronary artery disease) и повышенные уровни аспартатаминотрансферазы (АСТ/AST), но не аланинтрансаминазы (АЛТ/ALT). Не желая быть связанными какой-либо теорией, полагают, что эти варианты B4GALT1 ассоциируются с экспрессией в мышечной ткани, а не с печенью или эритроцитами, о чем свидетельствуют экспериментально наблюдаемые повышенные уровни AST, но не ALT. Композиции, содержащие геномные и мРНК варианты B4GALT1, кДНК варианты B4GALT1 и выделенные полипептидные варианты B4GALT1, также представлены в данном документе. В данном документе также представлены молекулы нуклеиновой кислоты, которые гибридизуются с вариантами геномной и мРНК B4GALT1 и вариантами кДНК B4GALT1. Данное раскрытие также относится к векторам и клеткам, содержащим геномные варианты и варианты мРНК B4GALT1, кДНК варианты B4GALT1 и полипептидные варианты B4GALT1.This disclosure provides isolated genomic, mRNA and cDNA variants of B4GALT1 or any complement thereof and isolated variants of the B4GALT1 polypeptide. These variants are believed to be associated with a reduced risk of developing various cardiovascular diseases, including, but not limited to, increased serum lipid levels and increased fibrinogen levels, coronary artery calcification, coronary artery disease (CAD), and increased levels of aspartate aminotransferase (AST), but not alanine transaminase (ALT). Without wishing to be bound by theory, it is believed that these B4GALT1 variants are associated with expression in muscle tissue rather than liver or red blood cells, as evidenced by the experimentally observed elevated levels of AST, but not ALT. Compositions containing genomic and mRNA variants of B4GALT1, cDNA variants of B4GALT1 and isolated polypeptide variants of B4GALT1 are also provided herein. Also provided herein are nucleic acid molecules that hybridize to B4GALT1 genomic and mRNA variants and B4GALT1 cDNA variants. This disclosure also relates to vectors and cells containing B4GALT1 genomic and mRNA variants, B4GALT1 cDNA variants and B4GALT1 polypeptide variants.

Данное раскрытие также обеспечивает способы обнаружения присутствия и/или уровней геномных и/или мРНК вариантов, кДНК вариантов B4GALT1 или их комплемента и/или полипептидных вариантов B4GALT1 в биологическом образце. Также предоставлены способы определения восприимчивости субъекта к развитию сердечно-сосудистого заболевания и способы диагностики субъекта с сердечно-сосудистым заболеванием или с риском сердечно-сосудистого заболевания. Также предоставлены способы модификации клетки путем использования любой комбинации нуклеазных агентов, экзогенных донорных последовательностей, активаторов транскрипции, репрессоров транскрипции и экспрессионных векторов для экспрессии рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Также предоставлены терапевтические и профилактические способы лечения субъекта, имеющего или подверженного риску развития сердечно-сосудистого заболевания.This disclosure also provides methods for detecting the presence and/or levels of genomic and/or mRNA variants, B4GALT1 cDNA variants or complement thereof, and/or B4GALT1 polypeptide variants in a biological sample. Also provided are methods for determining a subject's susceptibility to developing cardiovascular disease and methods for diagnosing a subject with cardiovascular disease or at risk for cardiovascular disease. Also provided are methods for modifying a cell by using any combination of nuclease agents, exogenous donor sequences, transcriptional activators, transcriptional repressors, and expression vectors for expressing a recombinant B4GALT1 gene or a nucleic acid encoding a B4GALT1 polypeptide. Therapeutic and prophylactic methods for treating a subject having or at risk of developing cardiovascular disease are also provided.

Человеческая геномная нуклеиновая кислота B4GALT1 дикого типа имеет длину около 56,7 т.п.н., включает 6 экзонов и расположена в хромосоме 9 в геноме человека. Типичной последовательности генома человека дикого типа B4GALT1 присвоен номер доступа NCBI NG_008919.1 (SEQ ID NO:1). Геномный вариант человека B4GALT1 продемонстрирован в SEQ ID NO:2 и включает однонуклеотидный полиморфизм (ОНП) (от А до G в положении 53576; упоминается в данном документе как вариант B4GALT1). Вариант ОНП приводит к получению серина в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 кодируемого варианта полипептида B4GALT1, а не в аспарагине, кодируемом полипептидом дикого типа B4GALT1. Вариант человеческой геномной нуклеиновой кислоты B4GALT1 содержит, например, три основания (например, «agt»), кодирующих серин в положениях, соответствующих положениям с 53575 по 53577 генома человека дикого типа B4GALT1, в отличие от трех оснований «aat» в положениях с 53575 по 53577 генома человека дикого типа B4GALT1 (сравнение SEQ ID NO:2 с SEQ ID NO:1 соответственно). В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты состоит из SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты представляет собой комплемент любой геномной молекулы нуклеиновой кислоты B4GALT1, описанной в данном документе.The wild-type human genomic nucleic acid B4GALT1 is approximately 56.7 kb in length, contains 6 exons, and is located on chromosome 9 in the human genome. The representative wild-type human genome sequence B4GALT1 is assigned NCBI accession number NG_008919.1 (SEQ ID NO:1). The human genomic variant B4GALT1 is demonstrated in SEQ ID NO:2 and includes a single nucleotide polymorphism (SNP) (A to G at position 53576; referred to herein as the B4GALT1 variant). The variant SNP results in a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide of the encoded variant B4GALT1 polypeptide, rather than in the asparagine encoded by the wild-type B4GALT1 polypeptide. The human genomic nucleic acid variant B4GALT1 contains, for example, three bases (eg, "agt") encoding serine at positions corresponding to positions 53575 to 53577 of the wild-type human genome B4GALT1 , as opposed to three "aat" bases at positions 53575 to 53577 wild type human genome B4GALT1 (compare SEQ ID NO:2 with SEQ ID NO:1, respectively). In some embodiments, the isolated nucleic acid molecule contains SEQ ID NO:2. In some embodiments, the isolated nucleic acid molecule consists of SEQ ID NO:2. In some embodiments, the isolated nucleic acid molecule is the complement of any genomic B4GALT1 nucleic acid molecule described herein.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2. В некоторых вариантах осуществления такая последовательность нуклеиновой кислоты также содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100%, идентичны с SEQ ID NO:2, которая содержит экзоны 1-6 B4GALT1 гена. В некоторых вариантах осуществления такая последовательность нуклеиновой кислоты также содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2, содержащей экзон 5. В некоторых вариантах осуществления такая последовательность нуклеиновой кислоты также содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную последовательности SEQ ID NO:2, при условии, что последовательность нуклеиновой кислоты содержит нуклеотиды, соответствующие положениям с 53575 по 53577 последовательности SEQ ID NO:2.In some embodiments, the isolated nucleic acid molecules contain or consist of a nucleic acid sequence that is at least about 70%, at least about 75%, at least about 80%, at least about 85% at least about 90%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99% or 100 % identity with SEQ ID NO:2. In some embodiments, such nucleic acid sequence also contains nucleotides corresponding to positions 53575 to 53577 of SEQ ID NO:2. In some embodiments, the isolated nucleic acid molecules contain or consist of a nucleic acid sequence that is at least about 70%, at least about 75%, at least about 80%, at least about 85% at least about 90%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99% or 100 % are identical to SEQ ID NO:2, which contains exons 1-6 of the B4GALT1 gene. In some embodiments, such nucleic acid sequence also contains nucleotides corresponding to positions 53575 to 53577 of SEQ ID NO:2. In some embodiments, the isolated nucleic acid molecules contain or consist of a nucleic acid sequence that is at least about 70%, at least about 75%, at least about 80%, at least about 85% at least about 90%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99% or 100 % identity with SEQ ID NO:2 containing exon 5. In some embodiments, such nucleic acid sequence also contains nucleotides corresponding to positions 53575 to 53577 of SEQ ID NO:2. In some embodiments, the isolated nucleic acid molecule contains a nucleic acid sequence that is at least about 90% identical to the sequence of SEQ ID NO:2, provided that the nucleic acid sequence contains nucleotides corresponding to positions 53575 to 53577 of SEQ ID NO: 2.

Процентная комплементарность между отдельными участками последовательностей нуклеиновых кислот в нуклеиновых кислотах может быть определена обычным образом с использованием программ BLAST (базовые инструменты поиска локального выравнивания) и программ PowerBLAST (Altschul et al., J. Mol. Biol., 1990, 215, 403-410; Чжан и Мэдден, Genome Res., 1997, 7, 649-656) или с помощью программы Gap (пакет анализа последовательности Висконсин (Wisconsin Sequence Analysis Package) версия 8 для Unix, Genetics Computer Group, Университетский исследовательский парк, Мэдисон, Висконсин), используя настройки по умолчанию, который использует алгоритм Смита и Уотермана (Adv. Appl. Math., 1981, 2, 482-489).Percent complementarity between individual nucleic acid sequence regions in nucleic acids can be determined in the usual manner using the BLAST (Basic Local Alignment Search Tools) and PowerBLAST programs (Altschul et al., J. Mol. Biol., 1990, 215, 403-410 ; Zhang and Madden, Genome Res., 1997, 7, 649-656) or using the Gap program (Wisconsin Sequence Analysis Package version 8 for Unix, Genetics Computer Group, University Research Park, Madison, WI) , using the default settings, which uses the Smith and Waterman algorithm (Adv. Appl. Math., 1981, 2, 482-489).

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат не всю геномную последовательность. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000, по меньшей мере, около 4000, по меньшей мере, около 5000, по меньшей мере, около 6000, по меньшей мере, около 7000, по меньшей мере, около 8000, по меньшей мере, около 9000, по меньшей мере, около 10000, по меньшей мере, около 11000, по меньшей мере, около 12000, по меньшей мере, около 13000, по меньшей мере, около 14000, по меньшей мере, около 15000, по меньшей мере, около 16000, по меньшей мере, около 17000, по меньшей мере, около 18000, по меньшей мере, около 19000 или, по меньшей мере, около 20000 смежных (contiguous) нуклеотидов из SEQ ID NO:2. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов SEQ ID NO:2. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов экзона 5 SEQ ID NO:2. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. In some embodiments, the isolated nucleic acid molecules do not contain the entire genomic sequence. In some embodiments, the isolated nucleic acid molecules contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least , about 100, at least about 200, at least about 300, at least about 400, at least about 500, at least about 600, at least about 700, at least about 800, at least about 900, at least about 1000, at least about 2000, at least about 3000, at least about 4000, at least about 5000, at least about 6000, at least about 7000, at least about 8000, at least about 9000, at least about 10000, at least about 11000, at least about 12000, at least about 13000 at least about 14,000, at least about 15,000, at least about 16,000, at least about 17,000, at least about 18,000, at least about 19,000 or at least about 20,000 contiguous nucleotides from SEQ ID NO:2. In some embodiments, such isolated nucleic acid molecules also contain nucleotides corresponding to positions 53575 to 53577 of SEQ ID NO:2. In some embodiments, the isolated nucleic acid molecules contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least , about 100, at least about 200, at least about 300, at least about 400, at least about 500, at least about 600, at least about 700, at least about 800, at least about 900, or at least about 1000 contiguous nucleotides of SEQ ID NO:2. In some embodiments, such isolated nucleic acid molecules also contain nucleotides corresponding to positions 53575 to 53577 of SEQ ID NO:2. In some embodiments, the isolated nucleic acid molecules contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least , about 100, at least about 200, at least about 300, at least about 400, at least about 500, at least about 600, at least about 700, at least about 800, at least about 900, or at least about 1000 contiguous nucleotides of exon 5 of SEQ ID NO:2. In some embodiments, such isolated nucleic acid molecules also contain nucleotides corresponding to positions 53575 to 53577 of SEQ ID NO:2.

Например, в некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 15 смежных нуклеотидов с последовательностью SEQ ID NO:2, причем смежные нуклеотиды включают нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит от 15 до 50 смежных нуклеотидов с последовательностью SEQ ID NO:2, причем смежные нуклеотиды включают нуклеотиды с 53575 по 53577 последовательности с последовательностью SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:2. For example, in some embodiments, the isolated nucleic acid molecule contains at least 15 contiguous nucleotides of SEQ ID NO:2, where the contiguous nucleotides include nucleotides 53575 to 53577 of SEQ ID NO:2. In some such embodiments, the isolated nucleic acid molecule contains at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:2. In some embodiments, the isolated nucleic acid molecule contains from 15 to 50 contiguous nucleotides of SEQ ID NO:2, wherein the contiguous nucleotides include nucleotides 53575 to 53577 of SEQ ID NO:2. In some such embodiments, the isolated nucleic acid molecule contains at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:2.

В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину, по меньшей мере, 15 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину от 15 до 50 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. In some embodiments, the present invention provides an isolated nucleic acid that contains a nucleic acid sequence that is at least 90% identical to a portion of SEQ ID NO:2, wherein the portion of SEQ ID NO:2 contains nucleotides 53575 to 53577 of the sequence SEQ ID NO:2 and wherein the portion of SEQ ID NO:2 is at least 15 nucleotides in length. In some such embodiments, the portion of SEQ ID NO:2 is at least 20, at least 25, or at least 30 nucleotides in length. In some embodiments, the present invention provides an isolated nucleic acid that contains a nucleic acid sequence that is at least 90% identical to a portion of SEQ ID NO:2, wherein the portion of SEQ ID NO:2 contains nucleotides 53575 to 53577 of the sequence SEQ ID NO:2 and wherein the portion of SEQ ID NO:2 has a length of from 15 to 50 nucleotides. In some such embodiments, the portion of SEQ ID NO:2 is at least 20, at least 25, or at least 30 nucleotides in length.

В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину, по меньшей мере, 15 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину от 15 до 50 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.In some embodiments, the present invention provides an isolated nucleic acid that contains a nucleic acid sequence that is at least 95% identical to a portion of SEQ ID NO:2, wherein the portion of SEQ ID NO:2 contains nucleotides 53575 to 53577 of the sequence SEQ ID NO:2 and wherein the portion of SEQ ID NO:2 is at least 15 nucleotides in length. In some such embodiments, the portion of SEQ ID NO:2 is at least 20, at least 25, or at least 30 nucleotides in length. In some embodiments, the present invention provides an isolated nucleic acid that contains a nucleic acid sequence that is at least 95% identical to a portion of SEQ ID NO:2, wherein the portion of SEQ ID NO:2 contains nucleotides 53575 to 53577 of the sequence SEQ ID NO:2 and wherein the portion of SEQ ID NO:2 has a length of from 15 to 50 nucleotides. In some such embodiments, the portion of SEQ ID NO:2 is at least 20, at least 25, or at least 30 nucleotides in length.

Такие выделенные молекулы нуклеиновой кислоты можно использовать, например, для экспрессии мРНК и белков варианта B4GALT1 или в качестве экзогенных донорных последовательностей. Понятно, что последовательности генов в популяции могут варьироваться из-за полиморфизмов, таких как ОНП. Приведенные в данном документе примеры являются только примерными последовательностями, и другие последовательности также возможны.Such isolated nucleic acid molecules can be used, for example, to express B4GALT1 variant mRNA and proteins or as exogenous donor sequences. It is clear that gene sequences within a population can vary due to polymorphisms such as SNPs. The examples given herein are exemplary sequences only, and other sequences are also possible.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат миниген варианта B4GALT1, в котором один или более несущественных сегментов SEQ ID NO:2 были удалены по сравнению с соответствующим геном дикого типа B4GALT1. В некоторых вариантах осуществления удаленные несущественные сегменты содержат одну или более интронных последовательностей. В некоторых вариантах осуществления минигены B4GALT1 могут содержать, например, экзоны, соответствующие любому одному или более из экзонов 1-6, или любую комбинацию таких экзонов из варианта B4GALT1 (SEQ ID NO:2). В некоторых вариантах осуществления миниген содержит или состоит из экзона 5 SEQ ID NO:2. В некоторых вариантах осуществления изобретения миниген B4GALT1 имеетт, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2, содержащей любой один или более экзонов 1-6 или любую комбинацию таких экзонов, В некоторых вариантах осуществления изобретения миниген B4GALT1 имеет, по меньшей мере, 70%, по меньшей мере, 75%, по меньшей мере, 80%, по меньшей мере, 85%, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности с SEQ ID NO:2, содержащей один или более экзонов 1-6 или любую комбинацию таких экзонов, и содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления миниген B4GALT1 имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2, содержащей экзон 5.In some embodiments, the isolated nucleic acid molecules comprise a B4GALT1 variant minigene in which one or more non-essential segments of SEQ ID NO:2 have been deleted relative to the corresponding wild-type B4GALT1 gene. In some embodiments, the deleted non-essential segments contain one or more intronic sequences. In some embodiments, the B4GALT1 minigenes may contain, for example, exons corresponding to any one or more of exons 1-6, or any combination of such exons from the B4GALT1 variant (SEQ ID NO:2). In some embodiments, the minigene contains or consists of exon 5 of SEQ ID NO:2. In some embodiments, the B4GALT1 minigene has at least about 70%, at least about 75%, at least about 80%, at least about 85%, at least about 90%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99% or 100% identity with SEQ ID NO:2 containing any one or more exons 1-6 or any combination of such exons. In some embodiments, the B4GALT1 minigene has at least 70%, at least 75%, at least 80%, at least 85% at least 90%, at least 95%, at least 96%, at least 97%, at least 98%, at least 99% or 100% identity with SEQ ID NO :2, containing one or more exons 1-6 or any combination of such exons, and contains nucleotides corresponding to positions 53575 to 53577 of SEQ ID NO:2. In some embodiments, the B4GALT1 minigene has at least about 70%, at least about 75%, at least about 80%, at least about 85%, at least about 90%, at least at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99% or 100% identity with SEQ ID NO:2 containing the exon 5.

Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, которые гибридизуются с вариантной геномной последовательностью B4GALT1 или с модифицированным минигеном B4GALT1. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000, по меньшей мере, около 4000, по меньшей мере, около 5000, по меньшей мере, около 6000, по меньшей мере, около 7000, по меньшей мере, около 8000, по меньшей мере, около 9000, по меньшей мере, около 10000, по меньшей мере, около 11000, по меньшей мере, около 12000, по меньшей мере, около 13000, по меньшей мере, около 14000, по меньшей мере, около 15000, по меньшей мере, около 16000, по меньшей мере, около 17000, по меньшей мере, около 18000, по меньшей мере, около 19000 или, по меньшей мере, около 20000 нуклеотидов. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с частью варианта генома или минигена B4GALT1 в сегменте, который включает или находится в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях с 53575 по 53577 из SEQ ID NO: 2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с, по меньшей мере, около 15 смежными нуклеотидами молекулы нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности варианту B4GALT1 геномной ДНК или минигена. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из около от 15 до около 100 нуклеотидов или от около 15 до около 35 нуклеотидов. This disclosure also relates to isolated nucleic acid molecules that hybridize to a variant B4GALT1 genomic sequence or to a modified B4GALT1 minigene. In some embodiments, such isolated nucleic acid molecules contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least at least about 100, at least about 200, at least about 300, at least about 400, at least about 500, at least about 600, at least about 700, at least , about 800, at least about 900, at least about 1000, at least about 2000, at least about 3000, at least about 4000, at least about 5000, at least about 6000, at least about 7000, at least about 8000, at least about 9000, at least about 10000, at least about 11000, at least about 12000, at least about 13,000, at least about 14,000, at least about 15,000, at least about 16,000, at least about 17,000, at least about 18,000, at least about 19,000 or at least about 20,000 nucleotides. In some embodiments, such isolated nucleic acid molecules also hybridize at positions 53575 to 53577 of SEQ ID NO:2. In some embodiments, the isolated nucleic acid molecules hybridize to a portion of the B4GALT1 genome variant or minigene in a segment that includes or is within about 1000, within about 500, within about 400, within about 300, within about 200, within about 100, about 50, about 45, about 40, about 35, about 30, about 25, about 20, about 15, about 10 or about about 5 nucleotides at positions 53575 to 53577 of SEQ ID NO: 2. In some embodiments, the isolated nucleic acid molecule hybridizes to at least about 15 contiguous nucleotides of the nucleic acid molecule that is at least about 70%, at least about 75%, at least about 80%, at least about 85%, at least about 90%, at least about 95%, at least about 96%, at least at least about 97%, at least about 98%, at least about 99%, or 100% identity to the B4GALT1 genomic DNA or minigene variant. In some embodiments, such isolated nucleic acid molecules also hybridize at positions 53575 to 53577 of SEQ ID NO:2. In some embodiments, the isolated nucleic acid molecules contain or consist of about 15 to about 100 nucleotides, or about 15 to about 35 nucleotides.

Например, в некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит, по меньшей мере, 15 нуклеотидов, при этом выделенная молекула нуклеиновой кислоты гибридизуется с нуклеиновой кислотой, содержащей последовательность SEQ ID NO:2, при этом выделенная молекула нуклеиновой кислоты гибридизуется с частью SEQ ID NO:2, и при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит от 15 до 50 нуклеотидов, при этом выделенная молекула нуклеиновой кислоты гибридизуется с нуклеиновой кислотой, содержащей последовательность SEQ ID NO:2, при этом выделенная молекула нуклеиновой кислоты гибридизуется с частью SEQ ID NO:2, и при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.For example, in some embodiments, the present invention provides an isolated nucleic acid molecule that contains at least 15 nucleotides, wherein the isolated nucleic acid molecule hybridizes to a nucleic acid containing the sequence of SEQ ID NO:2, wherein the isolated nucleic acid molecule hybridizes to a portion of SEQ ID NO:2, and wherein the portion of SEQ ID NO:2 contains nucleotides 53575 to 53577 of the sequence SEQ ID NO:2. In some such embodiments, the isolated nucleic acid molecule contains at least 20, at least 25, or at least 30 nucleotides. In some embodiments, the present invention provides an isolated nucleic acid molecule that contains from 15 to 50 nucleotides, wherein the isolated nucleic acid molecule hybridizes to a nucleic acid containing the sequence of SEQ ID NO:2, wherein the isolated nucleic acid molecule hybridizes to a portion of SEQ ID NO:2, and wherein the portion of SEQ ID NO:2 contains nucleotides 53575 to 53577 of SEQ ID NO:2. In some such embodiments, the isolated nucleic acid molecule contains at least 20, at least 25, or at least 30 nucleotides.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются, по меньшей мере, с 15 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 90% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются, по меньшей мере, с 15 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 95% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются, по меньшей мере, с 15 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 100% идентичности с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.In some embodiments, the isolated nucleic acid molecules hybridize to at least 15 contiguous nucleic acid nucleotides, wherein the contiguous nucleotides are at least 90% identical to SEQ ID NO:2, wherein the contiguous nucleotides comprise nucleotides 53575 to 53577 of SEQ ID NO:2 in provisions that correspond to provisions 53757 to 53577 of SEQ ID NO:2. In some such embodiments, contiguous nucleotides are at least 20, at least 25, or at least 30 nucleotides in length. In some embodiments, the isolated nucleic acid molecules hybridize to at least 15 contiguous nucleic acid nucleotides, wherein the contiguous nucleotides are at least 95% identical to SEQ ID NO:2, wherein the contiguous nucleotides comprise nucleotides 53575 to 53577 of SEQ ID NO:2 in provisions that correspond to provisions 53757 to 53577 of SEQ ID NO:2. In some such embodiments, contiguous nucleotides are at least 20, at least 25, or at least 30 nucleotides in length. In some embodiments, the isolated nucleic acid molecules hybridize to at least 15 contiguous nucleic acid nucleotides, wherein the contiguous nucleotides are at least 100% identical to SEQ ID NO:2, wherein the contiguous nucleotides comprise nucleotides 53575 to 53577 of SEQ ID NO:2 in provisions that correspond to provisions 53757 to 53577 of SEQ ID NO:2. In some such embodiments, contiguous nucleotides are at least 20, at least 25, or at least 30 nucleotides in length.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с 15-50 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 90% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с 15-50 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 95% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с 15-50 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 100% идентичности с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.In some embodiments, the isolated nucleic acid molecules hybridize to 15-50 contiguous nucleic acid nucleotides, wherein the contiguous nucleotides are at least 90% identical to SEQ ID NO:2, wherein the contiguous nucleotides comprise nucleotides 53575 to 53577 of SEQ ID NO:2 in provisions that correspond to provisions 53757 to 53577 of SEQ ID NO:2. In some such embodiments, contiguous nucleotides are at least 20, at least 25, or at least 30 nucleotides in length. In some embodiments, the isolated nucleic acid molecules hybridize to 15-50 contiguous nucleic acid nucleotides, wherein the contiguous nucleotides are at least 95% identical to SEQ ID NO:2, wherein the contiguous nucleotides comprise nucleotides 53575 to 53577 of SEQ ID NO:2 in provisions that correspond to provisions 53757 to 53577 of SEQ ID NO:2. In some such embodiments, contiguous nucleotides are at least 20, at least 25, or at least 30 nucleotides in length. In some embodiments, the isolated nucleic acid molecules hybridize to 15-50 contiguous nucleic acid nucleotides, wherein the contiguous nucleotides are at least 100% identical to SEQ ID NO:2, wherein the contiguous nucleotides comprise nucleotides 53575 to 53577 of SEQ ID NO:2 in provisions that correspond to provisions 53757 to 53577 of SEQ ID NO:2. In some such embodiments, contiguous nucleotides are at least 20, at least 25, or at least 30 nucleotides in length.

Такие изолированные молекулы нуклеиновой кислоты могут быть использованы, например, в качестве направляющих РНК, праймеров, зондов или экзогенных донорных последовательностей.Such isolated nucleic acid molecules can be used, for example, as guide RNAs, primers, probes or exogenous donor sequences.

Репрезентативная геномная последовательность B4GALT1 дикого типа приведена в SEQ ID NO:1. Типичный вариант геномной последовательности B4GALT1 указан в SEQ ID NO:2.A representative genomic sequence of wild type B4GALT1 is shown in SEQ ID NO:1. An exemplary genomic sequence variant of B4GALT1 is shown in SEQ ID NO:2.

Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, содержащим вариант мРНК B4GALT1. Типичная мРНК человека B4GALT1 дикого типа имеет регистрационный номер NCBI NM_001497 (SEQ ID NO:3) и состоит из 4214 нуклеотидных оснований. Вариант мРНК B4GALT1 человека продемонстрирован в SEQ ID NO:4 и содержит ОНП (от A до G в положении 1244; упоминается в данном документе как вариант B4GALT1), что приводит к серину в положении, соответствующем положение 352 кодируемого B4GALT1 варианта полипептида. Вариант мРНК B4GALT1 человека включает, например, три основания «agu», кодирующие серин, в положениях, соответствующих положениям 1243-1245 мРНК человеческого дикого типа B4GALT1, в отличие от трех оснований «aau» в положения от 1243 до 1245 мРНК человеческого B4GALT1 дикого типа (сравнивая SEQ ID NO:4 с SEQ ID NO:3 соответственно). В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит SEQ ID NO:4. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты состоит из SEQ ID NO:4.This disclosure also relates to isolated nucleic acid molecules containing the B4GALT1 mRNA variant. Representative wild-type human B4GALT1 mRNA has NCBI accession number NM_001497 (SEQ ID NO:3) and consists of 4214 nucleotide bases. The human B4GALT1 mRNA variant is demonstrated in SEQ ID NO:4 and contains an SNP (A to G at position 1244; referred to herein as the B4GALT1 variant) resulting in a serine at a position corresponding to position 352 of the B4GALT1- encoded variant polypeptide. The human B4GALT1 mRNA variant includes, for example, three serine-encoding "agu" bases at positions corresponding to positions 1243 to 1245 of the human wild-type B4GALT1 mRNA, as opposed to three "aau" bases at positions 1243 to 1245 of the wild-type human B4GALT1 mRNA (comparing SEQ ID NO:4 with SEQ ID NO:3 respectively). In some embodiments, the isolated nucleic acid molecule comprises SEQ ID NO:4. In some embodiments, the isolated nucleic acid molecule consists of SEQ ID NO:4.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:4. В некоторых вариантах осуществления такие последовательности нуклеиновых кислот также содержат нуклеотиды, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из нуклеотидной последовательности, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:4, содержащей экзоны 1-6. В некоторых вариантах осуществления такие последовательности нуклеиновых кислот также содержат нуклеотиды, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты представляет собой комплемент любой молекулы мРНК B4GALT1, раскрытой в данном документе.In some embodiments, the isolated nucleic acid molecules contain or consist of a nucleic acid sequence that is at least about 70%, at least about 75%, at least about 80%, at least about 85% at least about 90%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99% or 100 % identity with SEQ ID NO:4. In some embodiments, such nucleic acid sequences also contain nucleotides corresponding to positions 1243 to 1245 of SEQ ID NO:4. In some embodiments, the isolated nucleic acid molecules contain or consist of a nucleotide sequence that is at least about 70%, at least about 75%, at least about 80%, at least about 85%, at least about 90%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99% or 100% identity with SEQ ID NO:4, containing exons 1-6. In some embodiments, such nucleic acid sequences also contain nucleotides corresponding to positions 1243 to 1245 of SEQ ID NO:4. In some embodiments, the isolated nucleic acid molecule is the complement of any B4GALT1 mRNA molecule disclosed herein.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат меньше, чем вся последовательность мРНК. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000 или, по меньшей мере, около 4000 смежных нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям 1243-1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям 1243-1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов экзонов 1-6 SEQ ID NO:4. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям 1243-1245 из SEQ ID NO:4. In some embodiments, the isolated nucleic acid molecules contain less than the entire mRNA sequence. In some embodiments, the isolated nucleic acid molecules contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least , about 100, at least about 200, at least about 300, at least about 400, at least about 500, at least about 600, at least about 700, at least about 800, at least about 900, at least about 1000, at least about 2000, at least about 3000, or at least about 4000 contiguous nucleotides of SEQ ID NO:4. In some embodiments, such isolated nucleic acid molecules also contain nucleotides corresponding to positions 1243-1245 of SEQ ID NO:4. In some embodiments, the isolated nucleic acid molecules contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least , about 100, at least about 200, at least about 300, at least about 400, at least about 500, at least about 600, at least about 700, at least about 800, at least about 900, or at least about 1000 contiguous nucleotides of SEQ ID NO:4. In some embodiments, such isolated nucleic acid molecules also contain nucleotides corresponding to positions 1243-1245 of SEQ ID NO:4. In some embodiments, the isolated nucleic acid molecules contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least , about 100, at least about 200, at least about 300, at least about 400, at least about 500, at least about 600, at least about 700, at least about 800, at least about 900, or at least about 1000 contiguous nucleotides of exons 1-6 of SEQ ID NO:4. In some embodiments, such isolated nucleic acid molecules also contain nucleotides corresponding to positions 1243-1245 of SEQ ID NO:4.

В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит, по меньшей мере, 15 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит, по меньшей мере, 15 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая на 100% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID. NO:4 и при этом часть SEQ ID NO:4 содержит, по меньшей мере, 15 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит от 15 до 50 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит от 15 до 50 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая на 100% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID. NO:4 и при этом часть SEQ ID NO:4 содержит от 15 до 50 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4.In some embodiments, the present invention provides an isolated nucleic acid molecule that contains a nucleic acid sequence that is at least 90% identical to a portion of SEQ ID NO:4, wherein the portion of SEQ ID NO:4 contains nucleotides 1243 to 1245 of SEQ ID NO:4 and wherein the portion of SEQ ID NO:4 contains at least 15 nucleotides of SEQ ID NO:4. In some such embodiments, a portion of SEQ ID NO:4 has at least 20, at least 25, or at least 30 nucleotides of SEQ ID NO:4. In some embodiments, the present invention provides an isolated nucleic acid molecule that contains a nucleic acid sequence that is at least 95% identical to a portion of SEQ ID NO:4, wherein the portion of SEQ ID NO:4 contains nucleotides 1243 to 1245 of SEQ ID NO:4 and wherein the portion of SEQ ID NO:4 contains at least 15 nucleotides of SEQ ID NO:4. In some such embodiments, a portion of SEQ ID NO:4 has at least 20, at least 25, or at least 30 nucleotides of SEQ ID NO:4. In some embodiments, the present invention provides an isolated nucleic acid molecule that contains a nucleic acid sequence that is 100% identical to a portion of SEQ ID NO:4, wherein the portion of SEQ ID NO:4 contains nucleotides 1243 to 1245 of SEQ ID. NO:4 and wherein the portion of SEQ ID NO:4 contains at least 15 nucleotides of SEQ ID NO:4. In some such embodiments, a portion of SEQ ID NO:4 has at least 20, at least 25, or at least 30 nucleotides of SEQ ID NO:4. In some embodiments, the present invention provides an isolated nucleic acid molecule that contains a nucleic acid sequence that is at least 90% identical to a portion of SEQ ID NO:4, wherein the portion of SEQ ID NO:4 contains nucleotides 1243 to 1245 of SEQ ID NO:4 and wherein the portion of SEQ ID NO:4 contains from 15 to 50 nucleotides of SEQ ID NO:4. In some such embodiments, a portion of SEQ ID NO:4 has at least 20, at least 25, or at least 30 nucleotides of SEQ ID NO:4. In some embodiments, the present invention provides an isolated nucleic acid molecule that contains a nucleic acid sequence that is at least 95% identical to a portion of SEQ ID NO:4, wherein the portion of SEQ ID NO:4 contains nucleotides 1243 to 1245 of SEQ ID NO:4 and wherein the portion of SEQ ID NO:4 contains from 15 to 50 nucleotides of SEQ ID NO:4. In some such embodiments, a portion of SEQ ID NO:4 has at least 20, at least 25, or at least 30 nucleotides of SEQ ID NO:4. In some embodiments, the present invention provides an isolated nucleic acid molecule that contains a nucleic acid sequence that is 100% identical to a portion of SEQ ID NO:4, wherein the portion of SEQ ID NO:4 contains nucleotides 1243 to 1245 of SEQ ID. NO:4 and wherein the portion of SEQ ID NO:4 contains from 15 to 50 nucleotides of SEQ ID NO:4. In some such embodiments, a portion of SEQ ID NO:4 has at least 20, at least 25, or at least 30 nucleotides of SEQ ID NO:4.

Такие выделенные молекулы нуклеиновой кислоты можно использовать, например, для экспрессии вариантов полипептидов B4GALT1 или в качестве экзогенных донорных последовательностей. Понятно, что последовательности генов в популяции могут варьироваться из-за полиморфизмов, таких как ОНП. Приведенные в данном документе примеры являются только примерными последовательностями, и другие последовательности также возможны.Such isolated nucleic acid molecules can be used, for example, to express variants of B4GALT1 polypeptides or as exogenous donor sequences. It is clear that gene sequences within a population can vary due to polymorphisms such as SNPs. The examples given herein are exemplary sequences only, and other sequences are also possible.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 91%, по меньшей мере, около 92%, по меньшей мере, около 93%, по меньшей мере, около 94%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичен вариантуу полипептида Asn352Ser B4GALT1 (SEQ ID NO:8) при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 90%, идентичной SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 95%, идентичной SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352. In some embodiments, the isolated nucleic acid molecules contain or consist of at least about 75%, at least about 80%, at least about 85%, at least about 90% of a nucleic acid sequence encoding a polypeptide at least about 91%, at least about 92%, at least about 93%, at least about 94%, at least about 95%, at least about 96%, according to at least about 97%, at least about 98%, at least about 99%, or 100% identical to the Asn352Ser variant of the B4GALT1 polypeptide (SEQ ID NO:8) provided that the polypeptide contains a serine at a position corresponding to position 352 In some embodiments, the isolated nucleic acid molecules contain or consist of a nucleic acid sequence encoding the polypeptide that is at least about 90% identical to SEQ ID NO:8, provided that the polypeptide contains a serine at a position corresponding to position 352. In some embodiments, the isolated nucleic acid molecules contain or consist of a nucleic acid sequence encoding the polypeptide that is at least about 95% identical to SEQ ID NO:8, provided that the polypeptide contains a serine at a position corresponding to position 352.

Например, в некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, имеющий аминокислотную последовательность длиной по меньшей мере, 10 аминокислот, при этом аминокислотная последовательность на 90% идентична части аминокислотной последовательности SEQ ID NO:8, при этом указанная часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, который имеет аминокислотную последовательность длиной по меньшей мере, 10 аминокислот, при этом указанная аминокислотная последовательность на 95% идентична части аминокислотной последовательности SEQ ID NO:8, при этом указанная часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, который имеет аминокислотную последовательность длиной от 10 до 50 аминокислот, при этом аминокислотная последовательность на 90% идентична части аминокислотной последовательности SEQ ID NO:8, при этом часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, имеющий аминокислотную последовательность длиной от 10 до 50 аминокислот, при этом указанная аминокислотная последовательность на 95% идентична части аминокислотной последовательности SEQ ID NO:8, при этом часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, идентичный SEQ ID NO:8.For example, in some embodiments, the isolated nucleic acid molecule comprises a nucleic acid sequence encoding a polypeptide having an amino acid sequence of at least 10 amino acids in length, wherein the amino acid sequence is 90% identical to a portion of the amino acid sequence of SEQ ID NO:8, wherein said portion contains serine at the position corresponding to position 352 of SEQ ID NO:8. In some such embodiments, the nucleic acid sequence encodes a polypeptide that has an amino acid sequence that has at least 15, at least 20, or at least 25 amino acids. In some embodiments, the isolated nucleic acid molecule comprises a nucleic acid sequence encoding a polypeptide that has an amino acid sequence of at least 10 amino acids in length, wherein said amino acid sequence is 95% identical to a portion of the amino acid sequence of SEQ ID NO:8, wherein said portion contains serine at the position corresponding to position 352 of SEQ ID NO:8. In some such embodiments, the nucleic acid sequence encodes a polypeptide that has an amino acid sequence that has at least 15, at least 20, or at least 25 amino acids. In some embodiments, the isolated nucleic acid molecule comprises a nucleic acid sequence encoding a polypeptide that has an amino acid sequence ranging from 10 to 50 amino acids in length, wherein the amino acid sequence is 90% identical to a portion of the amino acid sequence of SEQ ID NO:8, wherein the portion contains a serine at position corresponding to provision 352 SEQ ID NO:8. In some such embodiments, the nucleic acid sequence encodes a polypeptide that has an amino acid sequence that has at least 15, at least 20, or at least 25 amino acids. In some embodiments, the isolated nucleic acid molecule comprises a nucleic acid sequence encoding a polypeptide having an amino acid sequence ranging from 10 to 50 amino acids in length, wherein said amino acid sequence is 95% identical to a portion of the amino acid sequence of SEQ ID NO:8, wherein the portion contains a serine at position corresponding to provision 352 SEQ ID NO:8. In some such embodiments, the nucleic acid sequence encodes a polypeptide that has an amino acid sequence that has at least 15, at least 20, or at least 25 amino acids. In some embodiments, the isolated nucleic acid molecules contain or consist of a nucleic acid sequence encoding a polypeptide identical to SEQ ID NO:8.

Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, которые гибридизуются с вариантом последовательности мРНК B4GALT1. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000 или, по меньшей мере, около 4000 нуклеотидов. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с частью варианта мРНК B4GALT1 в сегменте, который включает или находится в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100 в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. This disclosure also relates to isolated nucleic acid molecules that hybridize to a B4GALT1 mRNA sequence variant. In some embodiments, such isolated nucleic acid molecules contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least at least about 100, at least about 200, at least about 300, at least about 400, at least about 500, at least about 600, at least about 700, at least , about 800, at least about 900, at least about 1000, at least about 2000, at least about 3000 or at least about 4000 nucleotides. In some embodiments, such isolated nucleic acid molecules also hybridize at positions 1243 to 1245 of SEQ ID NO:4. In some embodiments, the isolated nucleic acid molecules hybridize to a portion of the B4GALT1 mRNA variant in a segment that includes or is within about 1000, within about 500, within about 400, within about 300, within about 200, within about 100 within about 50, within about 45, within about 40, within about 35, within about 30, within about 25, within about 20, within about 15, within about 10 or within about 5 nucleotides at positions 1243 to 1245 of SEQ ID NO:4.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 (например, SEQ ID NO:4) в сегменте, который включает или находится в пределах 5 нуклеотидов позиции с 1243 по 1245 из SEQ ID NO:4. В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью мРНК варианта B4GALT1 (например, SEQ ID NO:4) в сегменте, который включает или находится в пределах 5 нуклеотидов положения 1243-1245 из SEQ ID NO:4 и гибридизуются с положениями 1243-1245 из SEQ ID NO:4. В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат от 15 до 50 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 (например, SEQ ID NO:4) в сегменте, который включает в себя положения с 1243 по 1245 из SEQ ID NO:4, и гибридизуйте в положениях с 1243 по 1245 из SEQ ID NO:4. В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides and hybridize to a portion of the B4GALT1 variant mRNA (e.g., SEQ ID NO:4) in a segment that includes or is within 5 nucleotides of position 1243 to 1245 from SEQ ID NO:4. In some such embodiments, the isolated nucleic acid molecules contain at least 20, at least 25, or at least 30 nucleotides. In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides that hybridize to a portion of the B4GALT1 variant mRNA (e.g., SEQ ID NO:4) in a segment that includes or is within 5 nucleotides of positions 1243-1245 from SEQ ID NO:4 and hybridize to positions 1243-1245 from SEQ ID NO:4. In some such embodiments, the isolated nucleic acid molecules contain at least 20, at least 25, or at least 30 nucleotides. In some embodiments, the isolated nucleic acid molecules contain from 15 to 50 nucleotides and hybridize to a portion of the B4GALT1 variant mRNA (e.g., SEQ ID NO:4) in a segment that includes positions 1243 to 1245 of SEQ ID NO:4, and hybridize at positions 1243 to 1245 of SEQ ID NO:4. In some such embodiments, the isolated nucleic acid molecules contain at least 20, at least 25, or at least 30 nucleotides.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с, по меньшей мере, около 15 смежными нуклеотидами молекулы нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентично варианту B4GALT1 мРНК (например, для Например, SEQ ID NO:4). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты также гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из около от 15 до около 100 нуклеотидов или от около 15 до около 35 нуклеотидов. In some embodiments, the isolated nucleic acid molecule hybridizes to at least about 15 contiguous nucleotides of the nucleic acid molecule that is at least about 70%, at least about 75%, at least about 80%, at least about 85%, at least about 90%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least at least about 99% or 100% identical to the B4GALT1 mRNA variant (eg, for example, SEQ ID NO:4). In some embodiments, the isolated nucleic acid molecules also hybridize at positions 1243 to 1245 of SEQ ID NO:4. In some embodiments, the isolated nucleic acid molecules contain or consist of about 15 to about 100 nucleotides, or about 15 to about 35 nucleotides.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. при этом вариант мРНК B4GALT1, по меньшей мере, на 90% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. при этом вариант мРНК B4GALT1, по меньшей мере, на 95% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. и гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4, при этом вариант мРНК B4GALT1, по меньшей мере, на 90% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. и гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4, при этом вариант мРНК B4GALT1, по меньшей мере, на 95% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из 15-100 нуклеотидов или от 15 до 35 нуклеотидов.In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides and hybridize to a portion of the B4GALT1 variant mRNA in a segment that includes or is within 5 nucleotides at positions 1243 to 1245 of SEQ ID NO:4. wherein the B4GALT1 mRNA variant is at least 90% identical to the B4GALT1 variant mRNA (such as, for example, SEQ ID NO:4). In some such embodiments, the isolated nucleic acid molecules contain at least 20, at least 25, or at least 30 nucleotides. In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides and hybridize to a portion of the B4GALT1 variant mRNA in a segment that includes or is within 5 nucleotides at positions 1243 to 1245 of SEQ ID NO:4. wherein the B4GALT1 mRNA variant is at least 95% identical to the B4GALT1 variant mRNA (such as, for example, SEQ ID NO:4). In some such embodiments, the isolated nucleic acid molecules contain at least 20, at least 25, or at least 30 nucleotides. In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides that hybridize to a portion of the B4GALT1 variant mRNA in a segment that includes or is within 5 nucleotides at positions 1243 to 1245 of SEQ ID NO:4. and hybridize at positions 1243 to 1245 of SEQ ID NO:4, wherein the B4GALT1 mRNA variant is at least 90% identical to the B4GALT1 variant mRNA (such as, for example, SEQ ID NO:4). In some such embodiments, the isolated nucleic acid molecules contain at least 20, at least 25, or at least 30 nucleotides. In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides that hybridize to a portion of the B4GALT1 variant mRNA in a segment that includes or is within 5 nucleotides at positions 1243 to 1245 of SEQ ID NO:4. and hybridize at positions 1243 to 1245 of SEQ ID NO:4, wherein the B4GALT1 mRNA variant is at least 95% identical to the B4GALT1 variant mRNA (such as, for example, SEQ ID NO:4). In some such embodiments, the isolated nucleic acid molecules contain at least 20, at least 25, or at least 30 nucleotides. In some embodiments, the isolated nucleic acid molecules contain or consist of 15 to 100 nucleotides, or 15 to 35 nucleotides.

Такие изолированные молекулы нуклеиновой кислоты могут быть использованы, например, в качестве направляющих РНК, праймеров, зондов или экзогенных донорных последовательностей. Such isolated nucleic acid molecules can be used, for example, as guide RNAs, primers, probes or exogenous donor sequences.

Репрезентативная последовательность мРНК дикого типа B4GALT1 приведена в SEQ ID NO:3. Репрезентативная последовательность мРНК варианта B4GALT1 указана в SEQ ID NO:4. A representative wild-type B4GALT1 mRNA sequence is shown in SEQ ID NO:3. A representative mRNA sequence of the B4GALT1 variant is shown in SEQ ID NO:4.

Данное раскрытие также относится к молекулам нуклеиновой кислоты, включающим кДНК варианта B4GALT1, кодирующий весь или часть полипептид варианта B4GALT1. Типичная человеческая кДНК B4GALT1 дикого типа (например, кодирующая область мРНК, записанная как ДНК) состоит из 1197 нуклеотидных оснований (SEQ ID NO:5). КДНК варианта B4GALT1 человека продемонстрирована в SEQ ID NO:6 и содержит ОНП (от A до G в положении 1055; упоминается в данном документе как вариант B4GALT1), что приводит к серину в положении, соответствующем положение 352 кодируемого B4GALT1 варианта полипептида. КДНК вариантна B4GALT1 человеческа содержит, например, «agt», кодирующий серин в положениях, соответствующих положениям с 1054 по 1056 полной зрелой человеческой дикого типа B4GALT1 кДНК, в отличие от трех оснований «aat» кДНК человеческого B4GALT1 дикого типа в положениях с 1054 по 1056 (сравнение SEQ ID NO:6 с SEQ ID NO:5 соответственно). В некоторых вариантах осуществления молекула нуклеиновой кислоты содержит SEQ ID NO:6. В некоторых вариантах осуществления молекула нуклеиновой кислоты состоит из SEQ ID NO:6. В некоторых вариантах осуществления молекулы кДНК являются изолированными.This disclosure also relates to nucleic acid molecules comprising a B4GALT1 variant cDNA encoding all or part of a B4GALT1 variant polypeptide. A typical wild-type human B4GALT1 cDNA (eg, the coding region of the mRNA written as DNA) consists of 1197 nucleotide bases (SEQ ID NO:5). The human B4GALT1 variant cDNA is demonstrated in SEQ ID NO:6 and contains an SNP (A to G at position 1055; referred to herein as the B4GALT1 variant) resulting in a serine at position corresponding to position 352 of the B4GALT1 variant polypeptide encoded. The human B4GALT1 variant cDNA contains, for example, an “agt” encoding serine at positions 1054 to 1056 of the full mature human wild-type B4GALT1 cDNA, as opposed to the three “aat” bases of the wild-type human B4GALT1 cDNA at positions 1054 to 1056 (compare SEQ ID NO:6 with SEQ ID NO:5 respectively). In some embodiments, the nucleic acid molecule comprises SEQ ID NO:6. In some embodiments, the nucleic acid molecule consists of SEQ ID NO:6. In some embodiments, the cDNA molecules are isolated.

В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:6. В некоторых вариантах осуществления молекулы кДНК также содержат нуклеотиды, соответствующие положениям от 1054 до 1056 SEQ ID NO:6. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты представляет собой комплемент любой молекулы кДНК B4GALT1, описанной в данном документе.In some embodiments, the cDNA molecules contain or consist of a nucleic acid sequence that has at least about 70%, at least about 75%, at least about 80%, at least about 85%, at least about 90%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99% or 100% identical with SEQ ID NO:6. In some embodiments, the cDNA molecules also contain nucleotides corresponding to positions 1054 to 1056 of SEQ ID NO:6. In some embodiments, the isolated nucleic acid molecule is the complement of any B4GALT1 cDNA molecule described herein.

В некоторых вариантах осуществления молекулы кДНК содержат меньше, чем вся последовательность кДНК. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000 или, по меньшей мере, около 1100 смежных нуклеотидов из SEQ ID NO:6. В некоторых вариантах осуществления такие молекулы кДНК также содержат нуклеотиды, соответствующие положениям с 1054 по 1056 SEQ ID NO:6. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400 или, по меньшей мере, около 500 смежных нуклеотидов SEQ ID NO: 6 В некоторых вариантах осуществления такие молекулы кДНК также содержат нуклеотиды, соответствующие положениям с 1054 по 1056 SEQ ID NO:6. In some embodiments, the cDNA molecules contain less than the entire cDNA sequence. In some embodiments, the cDNA molecules contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least about 100, at least about 200, at least about 300, at least about 400, at least about 500, at least about 600, at least about 700, at least about 800 at least about 900, at least about 1000, or at least about 1100 contiguous nucleotides of SEQ ID NO:6. In some embodiments, such cDNA molecules also contain nucleotides corresponding to positions 1054 to 1056 of SEQ ID NO:6. In some embodiments, the cDNA molecules contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least about 100, at least about 200, at least about 300, at least about 400, or at least about 500 contiguous nucleotides SEQ ID NO: 6 In some embodiments, such cDNA molecules also contain nucleotides corresponding to the positions 1054 to 1056 SEQ ID NO:6.

Например, в некоторых вариантах осуществления молекула кДНК содержит, по меньшей мере, 15 смежных нуклеотидов с последовательностью SEQ ID NO:6, причем смежные нуклеотиды включают нуклеотиды с 1054 по 1056 последовательности с последовательностью SEQ ID NO:6. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления молекула кДНК содержит от 15 до 50 смежных нуклеотидов SEQ ID NO:6, при этом смежные нуклеотиды включают нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая является, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична с SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6, и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов. SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6.For example, in some embodiments, the cDNA molecule contains at least 15 contiguous nucleotides of SEQ ID NO:6, wherein the contiguous nucleotides include nucleotides 1054 to 1056 of SEQ ID NO:6. In some such embodiments, the isolated nucleic acid molecule contains at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:6. In some embodiments, the cDNA molecule contains from 15 to 50 contiguous nucleotides of SEQ ID NO:6, wherein the contiguous nucleotides include nucleotides 1054 to 1056 of SEQ ID NO:6. In some such embodiments, the isolated nucleic acid molecule contains at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:6. In some embodiments, the present invention provides a cDNA molecule that contains a nucleic acid sequence that is at least 90% identical to a portion of SEQ ID NO:6, wherein the portion of SEQ ID NO:6 contains nucleotides 1054 to 1056 of SEQ ID. NO:6 and wherein the portion of SEQ ID NO:6 contains at least 15 contiguous nucleotides to the nucleotides of SEQ ID NO:6. In some such embodiments, a portion of SEQ ID NO:6 has at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:6. In some embodiments, the present invention provides a cDNA molecule that contains a nucleic acid sequence that is at least 95% identical to a portion of SEQ ID NO:6, wherein the portion of SEQ ID NO:6 contains nucleotides 1054 to 1056 of SEQ ID. NO:6 and wherein the portion of SEQ ID NO:6 contains at least 15 contiguous nucleotides to the nucleotides of SEQ ID NO:6. In some such embodiments, a portion of SEQ ID NO:6 has at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:6. In some embodiments, the present invention provides a cDNA molecule that contains a nucleic acid sequence that is at least 90% identical to a portion of SEQ ID NO:6, wherein the portion of SEQ ID NO:6 contains nucleotides 1054 to 1056 of SEQ ID. NO:6 and wherein the portion of SEQ ID NO:6 contains from 15 to 50 nucleotides contiguous to the nucleotides of SEQ ID NO:6. In some such embodiments, a portion of SEQ ID NO:6 has at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:6. In some embodiments, the present invention provides a cDNA molecule that contains a nucleic acid sequence that is at least 95% identical to a portion of SEQ ID NO:6, wherein the portion of SEQ ID NO:6 contains nucleotides 1054 to 1056 of SEQ ID. NO:6 and wherein the portion of SEQ ID NO:6 contains from 15 to 50 nucleotides contiguous to the nucleotides of SEQ ID NO:6. In some such embodiments, a portion of SEQ ID NO:6 has at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:6. In some embodiments, the present invention provides a cDNA molecule that contains nucleotides 1054-1056 of SEQ ID NO:6 at positions corresponding to nucleotides 1054-1056 of SEQ ID NO:6, wherein the cDNA molecule contains a nucleic acid sequence that at least , is 90% identical to a portion of SEQ ID NO:6, wherein the portion of SEQ ID NO:6 contains nucleotides 1054 to 1056 of the sequence of SEQ ID NO:6 and wherein the portion of SEQ ID NO:6 contains at least 15 contiguous nucleotides with nucleotides SEQ ID NO:6. In some such embodiments, a portion of SEQ ID NO:6 has at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:6. In some embodiments, the present invention provides a cDNA molecule that contains nucleotides 1054-1056 of SEQ ID NO:6 at positions corresponding to nucleotides 1054-1056 of SEQ ID NO:6, wherein the cDNA molecule contains a nucleic acid sequence that is at least is at least 95% identical to a portion of SEQ ID NO:6, wherein the portion of SEQ ID NO:6 contains nucleotides 1054 to 1056 of the sequence of SEQ ID NO:6 and wherein the portion of SEQ ID NO:6 contains at least 15 contiguous nucleotides SEQ ID NO:6. In some such embodiments, a portion of SEQ ID NO:6 has at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:6. In some embodiments, the present invention provides a cDNA molecule that contains nucleotides 1054-1056 of SEQ ID NO:6 at positions corresponding to nucleotides 1054-1056 of SEQ ID NO:6, wherein the cDNA molecule contains a nucleic acid sequence that at least , is 90% identical to SEQ ID NO:6, wherein the portion of SEQ ID NO:6 contains nucleotides 1054 to 1056 of SEQ ID NO:6, and wherein the portion of SEQ ID NO:6 contains from 15 to 50 contiguous nucleotides of SEQ ID NO:6. In some such embodiments, a portion of SEQ ID NO:6 has at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:6. In some embodiments, the present invention provides a cDNA molecule that contains nucleotides 1054-1056 of SEQ ID NO:6 at positions corresponding to nucleotides 1054-1056 of SEQ ID NO:6, wherein the cDNA molecule contains a nucleic acid sequence that at least , is 95% identical to a portion of SEQ ID NO:6, wherein the portion of SEQ ID NO:6 contains nucleotides 1054 to 1056 of SEQ ID NO:6 and wherein the portion of SEQ ID NO:6 contains from 15 to 50 contiguous nucleotides. SEQ ID NO:6. In some such embodiments, a portion of SEQ ID NO:6 has at least 20, at least 25, or at least 30 contiguous nucleotides of SEQ ID NO:6.

Такие молекулы кДНК могут быть использованы, например, для экспрессии белков вариантов B4GALT1 или в качестве экзогенных донорных последовательностей. Понятно, что последовательности генов в популяции могут варьироваться из-за полиморфизмов, таких как ОНП. Приведенные в данном документе примеры являются только примерными последовательностями, и другие последовательности также возможны.Such cDNA molecules can be used, for example, to express B4GALT1 variant proteins or as exogenous donor sequences. It is clear that gene sequences within a population can vary due to polymorphisms such as SNPs. The examples given herein are exemplary sequences only, and other sequences are also possible.

В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 75%, по меньшей мере, около 80%, по меньшей мере, на около 85%, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, около 99% или 100% идентичностий варианту полипептида Asn352Ser B4GALT1 (SEQ ID NO:8) при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 90%, идентичный SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 95%, идентичный SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления молекула кДНК содержит или состоит из последовательности нуклеиновой кислоты, кодирующей полипептид, идентичный SEQ ID NO:8.In some embodiments, the cDNA molecules contain or consist of at least about 75%, at least about 80%, at least about 85%, at least about 90% polypeptide-encoding nucleic acid sequence %, at least about 91%, at least about 92%, at least about 93%, at least about 94%, at least about 95%, at least , about 96%, at least about 97%, at least about 98%, at least about 99%, or 100% identical to the Asn352Ser B4GALT1 polypeptide variant (SEQ ID NO:8), provided that the polypeptide contains a serine at a position corresponding to position 352. In some embodiments, the cDNA molecules contain or consist of a nucleic acid sequence encoding a polypeptide at least about 90% identical to SEQ ID NO:8, provided that the polypeptide contains a serine at the position corresponding to position 352. In some embodiments, the cDNA molecules contain or consist of a nucleic acid sequence encoding a polypeptide at least about 95% identical to SEQ ID NO:8, provided that the polypeptide contains a serine at the position corresponding to position 352. In some embodiments, the cDNA molecule contains or consists of a nucleic acid sequence encoding a polypeptide identical to SEQ ID NO:8.

Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, которые гибридизуются с вариантом последовательности кДНК B4GALT1. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000 или, по меньшей мере, около 1100 нуклеотидов. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 1054 по 1056 SEQ ID NO:6. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах около 600, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100 в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях с 1054 по 1056 SEQ ID NO:6. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с, по меньшей мере, около 15 смежными нуклеотидами молекулы кДНК, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты также гибридизуются с положениями 1054-1056 SEQ ID NO:6. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из около от 15 до около 100 нуклеотидов или от около 15 до около 35 нуклеотидов. This disclosure also relates to isolated nucleic acid molecules that hybridize to a B4GALT1 cDNA sequence variant. In some embodiments, such isolated nucleic acid molecules contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least at least about 100, at least about 200, at least about 300, at least about 400, at least about 500, at least about 600, at least about 700, at least , about 800, at least about 900, at least about 1000, or at least about 1100 nucleotides. In some embodiments, such isolated nucleic acid molecules also hybridize at positions 1054 to 1056 of SEQ ID NO:6. In some embodiments, such isolated nucleic acid molecules hybridize to a portion of the B4GALT1 variant cDNA in a segment that includes or is within about 600, within about 500, within about 400, within about 300, within about 200, within about 100 within about 50, within about 45, within about 40, within about 35, within about 30, within about 25, within about 20, within about 15, within about 10 or within about 5 nucleotides at positions 1054 to 1056 of SEQ ID NO:6. In some embodiments, the isolated nucleic acid molecules hybridize to at least about 15 contiguous nucleotides of a cDNA molecule that has at least about 70%, at least about 75%, at least about 80%, at least about 85%, at least about 90%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least , about 99% or 100% identity to the B4GALT1 variant cDNA (such as, for example, SEQ ID NO:6). In some embodiments, the isolated nucleic acid molecules also hybridize to positions 1054-1056 of SEQ ID NO:6. In some embodiments, the isolated nucleic acid molecules contain or consist of about 15 to about 100 nucleotides, or about 15 to about 35 nucleotides.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1054 по 1056 SEQ ID NO:6. при этом кДНК варианта B4GALT1, по меньшей мере, на 90% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1054 по 1056 SEQ ID NO:6. при этом кДНК варианта B4GALT1, по меньшей мере, на 95% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, при этом указанный кДНК варианта B4GALT1 на 100% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, и гибридизуют в положениях 1054-1056 SEQ ID NO:6, при этом указанный кДНК варианта B4GALT1, по меньшей мере, на 90% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, и гибридизуются в положениях 1054-1056 SEQ ID NO:6, при этом указанный кДНК варианта B4GALT1, по меньшей мере, на 95% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, и гибридизуются в положениях 1054-1056 SEQ ID NO:6, при этом кДНК варианта B4GALT1 на 100% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из 15-100 нуклеотидов или из 15-35 нуклеотидов.In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides and hybridize to a portion of the B4GALT1 variant cDNA in a segment that includes or is within 5 nucleotides at positions 1054 to 1056 of SEQ ID NO:6. wherein the B4GALT1 variant cDNA is at least 90% identical to the B4GALT1 variant cDNA (such as, for example, SEQ ID NO:6). In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides and hybridize to a portion of the B4GALT1 variant cDNA in a segment that includes or is within 5 nucleotides at positions 1054 to 1056 of SEQ ID NO:6. wherein the B4GALT1 variant cDNA is at least 95% identical to the B4GALT1 variant cDNA (such as, for example, SEQ ID NO:6). In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides and hybridize to a portion of the B4GALT1 variant cDNA in a segment that includes or is within 5 nucleotides at positions 1054 to 1056 of SEQ ID NO:6, when this said B4GALT1 variant cDNA is 100% identical to the B4GALT1 variant cDNA (such as, for example, SEQ ID NO:6). In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides and hybridize to a portion of the B4GALT1 variant cDNA in a segment that includes or is within 5 nucleotides at positions 1054 to 1056 of SEQ ID NO:6, and hybridized at positions 1054-1056 of SEQ ID NO:6, wherein said B4GALT1 variant cDNA is at least 90% identical to the B4GALT1 variant cDNA (such as, for example, SEQ ID NO:6). In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides, hybridize to a portion of the B4GALT1 variant cDNA in a segment that includes or is within 5 nucleotides at positions 1054 to 1056 of SEQ ID NO:6, and hybridize at positions 1054-1056 of SEQ ID NO:6, wherein said B4GALT1 variant cDNA is at least 95% identical to the B4GALT1 variant cDNA (such as, for example, SEQ ID NO:6). In some embodiments, the isolated nucleic acid molecules contain or consist of at least 15 nucleotides, hybridize to a portion of the B4GALT1 variant cDNA in a segment that includes or is within 5 nucleotides at positions 1054 to 1056 of SEQ ID NO:6, and hybridize at positions 1054-1056 of SEQ ID NO:6, wherein the B4GALT1 variant cDNA is 100% identical to the B4GALT1 variant cDNA (such as, for example, SEQ ID NO:6). In some embodiments, the isolated nucleic acid molecules contain or consist of 15-100 nucleotides or 15-35 nucleotides.

Такие изолированные молекулы нуклеиновой кислоты можно использовать, например, в качестве направляющих РНК, праймеров, зондов, последовательностей экзогенных доноров, антисмысловых РНК, миРНК или кшРНК.Such isolated nucleic acid molecules can be used, for example, as guide RNAs, primers, probes, exogenous donor sequences, antisense RNAs, siRNAs or shRNAs.

Репрезентативная последовательность кДНК B4GALT1 дикого типа приведена в SEQ ID NO:5. Типичная последовательность кДНК B4GALT1 приведена в SEQ ID NO:6. A representative wild-type B4GALT1 cDNA sequence is shown in SEQ ID NO:5. An exemplary B4GALT1 cDNA sequence is shown in SEQ ID NO:6.

Молекулы нуклеиновой кислоты, раскрытые в данном документе, могут содержать последовательность нуклеиновой кислоты встречающегося в природе гена B4GALT1 или транскрипт мРНК или могут содержать неприродную последовательность. В некоторых вариантах осуществления встречающаяся в природе последовательность может отличаться от не встречающейся в природе последовательности вследствие синонимических мутаций или мутаций, которые не влияют на кодированный полипептид B4GALT1. Например, последовательность может быть идентичной, за исключением синонимических мутаций или мутаций, которые не влияют на кодированный полипептид B4GALT1. Синонимической мутацией или заменой является замена одного нуклеотида другим в экзоне гена, кодирующего белок, так что полученная аминокислотная последовательность не модифицируется. Это возможно из-за вырожденности генетического кода, поскольку некоторые аминокислоты кодируются более чем одним трехосновным парным кодоном. Синонимические замены используются, например, в процессе оптимизации кодонов. Молекулы нуклеиновой кислоты, раскрытые в данном описании, могут быть оптимизированы по кодонам.The nucleic acid molecules disclosed herein may contain a nucleic acid sequence of the naturally occurring B4GALT1 gene or an mRNA transcript, or may contain a non-naturally occurring sequence. In some embodiments, a naturally occurring sequence may differ from a non-naturally occurring sequence due to synonymous mutations or mutations that do not affect the encoded B4GALT1 polypeptide. For example, the sequence may be identical except for synonymous mutations or mutations that do not affect the encoded B4GALT1 polypeptide. A synonymous mutation or substitution is the replacement of one nucleotide by another in an exon of a gene encoding a protein, so that the resulting amino acid sequence is not modified. This is possible due to the degeneracy of the genetic code, since some amino acids are encoded by more than one tribasic paired codon. Synonymous substitutions are used, for example, in the codon optimization process. The nucleic acid molecules disclosed herein may be codon optimized.

В данном документе также представлены функциональные полинуклеотиды, которые могут взаимодействовать с раскрытыми молекулами нуклеиновых кислот. Функциональные полинуклеотиды представляют собой молекулы нуклеиновых кислот, которые выполняют специфическую функцию, такую как связывание молекулы-мишени или катализирование конкретной реакции. Примеры функциональных полинуклеотидов включают, но не ограничиваются ими, антисмысловые молекулы, аптамеры, рибозимы, молекулы, образующие триплекс, и внешние направляющие последовательности. Функциональные полинуклеотиды могут действовать как эффекторы, ингибиторы, модуляторы и стимуляторы специфической активности, которой обладает молекула-мишень, или функциональные полинуклеотиды могут обладать активностью de novo, независимой от любых других молекул.Also provided herein are functional polynucleotides that can interact with the disclosed nucleic acid molecules. Functional polynucleotides are nucleic acid molecules that perform a specific function, such as binding a target molecule or catalyzing a specific reaction. Examples of functional polynucleotides include, but are not limited to, antisense molecules, aptamers, ribozymes, triplex-forming molecules, and external guide sequences. Functional polynucleotides can act as effectors, inhibitors, modulators and stimulators of specific activities possessed by the target molecule, or functional polynucleotides can have de novo activity independent of any other molecules.

Антисмысловые молекулы предназначены для взаимодействия с целевой молекулой нуклеиновой кислоты посредством либо канонического, либо неканонического спаривания оснований. Взаимодействие антисмысловой молекулы и молекулы-мишени предназначено для стимулирования разрушения молекулы-мишени посредством, например, опосредованной РНКазой-Н деградации гибридной РНК-ДНК. Альтернативно, антисмысловая молекула предназначена для прерывания функции процессинга, которая обычно происходит на молекуле-мишени, такой как транскрипция или репликация. Антисмысловые молекулы могут быть сконструированы на основе последовательности молекулы-мишени. Существуют многочисленные способы оптимизации антисмысловой эффективности путем определения наиболее доступных областей молекулы-мишени. Типичные способы включают, но не ограничиваются ими, эксперименты отбора in vitro и исследования модификации ДНК с использованием DMS и DEPC. Антисмысловые молекулы обычно связывают молекулу-мишень с константой диссоциации (kd), меньшей или равной около 10-6, меньшей или равной около 10-8, меньшей или равной около 10-10, или меньше или равно около 10-12. Репрезентативную выборку методов и приемов, которые помогают в разработке и использовании антисмысловых молекул, можно найти в следующем неограничивающем списке патентов США: 5135917; 5294533; 5627158; 5641754; 5691317; 5780607; 5786138; 5849903; 5856103; 5919772; 5955590; 5990088; 5994320; 5998602; 6005095; 6007995; 6013522; 6017898; 6018042; 6025198; 6033910; 6040296; 6046004; 6046319; и 6057437. Примеры антисмысловых молекул включают, но не ограничиваются ими, антисмысловые РНК, малые интерферирующие РНК (миРНК) и короткие шпилевидные РНК (кшРНК).Antisense molecules are designed to interact with a target nucleic acid molecule through either canonical or non-canonical base pairing. The interaction of the antisense molecule and the target molecule is intended to promote destruction of the target molecule through, for example, RNase H-mediated degradation of the RNA-DNA hybrid. Alternatively, the antisense molecule is designed to interrupt a processing function that normally occurs on the target molecule, such as transcription or replication. Antisense molecules can be designed based on the sequence of the target molecule. There are numerous ways to optimize antisense potency by identifying the most accessible regions of the target molecule. Typical methods include, but are not limited to, in vitro selection experiments and DNA modification studies using DMS and DEPC. Antisense molecules typically bind a target molecule with a dissociation constant (k d ) less than or equal to about 10 -6 , less than or equal to about 10 -8 , less than or equal to about 10 -10 , or less than or equal to about 10 -12 . A representative selection of methods and techniques that assist in the development and use of antisense molecules can be found in the following non-limiting list of US patents: 5135917; 5294533; 5627158; 5641754; 5691317; 5780607; 5786138; 5849903; 5856103; 5919772; 5955590; 5990088; 5994320; 5998602; 6005095; 6007995; 6013522; 6017898; 6018042; 6025198; 6033910; 6040296; 6046004; 6046319; and 6,057,437. Examples of antisense molecules include, but are not limited to, antisense RNAs, small interfering RNAs (siRNAs), and short hairpin RNAs (shRNAs).

Выделенные молекулы нуклеиновой кислоты, раскрытые в данном описании, могут содержать РНК, ДНК или как РНК, так и ДНК. Выделенные молекулы нуклеиновой кислоты также могут быть связаны или слиты с гетерологичной последовательностью нуклеиновой кислоты, такой как вектор, или гетерологичной меткой. Например, выделенные молекулы нуклеиновой кислоты, раскрытые в данном документе, могут находиться в векторной или экзогенной донорной последовательности, содержащей выделенную молекулу нуклеиновой кислоты и гетерологичную последовательность нуклеиновой кислоты. Выделенные молекулы нуклеиновой кислоты также могут быть связаны или слиты с гетерологичной меткой, такой как флуоресцентная метка. Другие примеры меток раскрыты в другом месте в данном документе.The isolated nucleic acid molecules disclosed herein may contain RNA, DNA, or both RNA and DNA. The isolated nucleic acid molecules can also be linked or fused to a heterologous nucleic acid sequence, such as a vector, or a heterologous tag. For example, the isolated nucleic acid molecules disclosed herein may be in a vector or exogenous donor sequence containing the isolated nucleic acid molecule and a heterologous nucleic acid sequence. The isolated nucleic acid molecules can also be associated or fused with a heterologous tag, such as a fluorescent tag. Other examples of labels are disclosed elsewhere herein.

Метка может быть детектируемой непосредственно (например, флуорофор) или опосредованно обнаруживаемой (например, гаптен, фермент или гаситель флуорофора). Такие метки могут быть обнаружены с помощью спектроскопических, фотохимических, биохимических, иммунохимических или химических средств. Такие метки включают, например, радиоактивные метки, которые можно измерять с помощью приборов для счета радиации; пигменты, красители или другие хромогены, которые можно визуально наблюдать или измерять с помощью спектрофотометра; спиновые метки, которые можно измерить с помощью анализатора спиновых меток; и флуоресцентные метки (например, флуорофоры), при этом выходной сигнал генерируется возбуждением подходящего молекулярного аддукта и может быть визуализирован путем возбуждения светом, который поглощается красителем, или может быть измерен с помощью стандартных флуорометров или систем визуализации. Метка также может быть, например, хемилюминесцентным веществом, при этом выходной сигнал генерируется путем химической модификации сигнального соединения; металлосодержащее вещество; или фермент, где происходит фермент-зависимая вторичная генерация сигнала, такая как образование окрашенного продукта из бесцветного субстрата. Термин «метка» может также относиться к «метке» или гаптену, который может селективно связываться с конъюгированной молекулой, так что конъюгированная молекула, когда она добавляется впоследствии вместе с субстратом, используется для генерации детектируемого сигнала. Например, можно использовать биотин в качестве метки, а затем использовать конъюгат авидина или стрептавидина с пероксидазой хрена (HRP - horseradish peroxidase) для связывания с меткой, а затем использовать калориметрический субстрат (например, тетраметилбензидин (TMB)) или флуорогенный субстрат для обнаружения наличие HRP. Типичные метки, которые можно использовать в качестве меток для облегчения очистки, включают, но не ограничиваются ими, myc, HA, FLAG или 3XFLAG, 6XHis или полигистидин, глутатион-S-трансферазу (GST), мальтозосвязывающий белок, эпитопную метку или Fc часть иммуноглобулина. Известны многочисленные метки, которые включают, например, частицы, флуорофоры, гаптены, ферменты и их калориметрические, флуорогенные и хемилюминесцентные субстраты и другие метки.The label may be directly detectable (eg, a fluorophore) or indirectly detectable (eg, a hapten, enzyme, or fluorophore quencher). Such labels can be detected by spectroscopic, photochemical, biochemical, immunochemical or chemical means. Such tags include, for example, radioactive tags that can be measured using radiation counting instruments; pigments, dyes or other chromogens that can be visually observed or measured using a spectrophotometer; spin labels, which can be measured using a spin label analyzer; and fluorescent tags (eg, fluorophores), wherein the output signal is generated by excitation of a suitable molecular adduct and can be visualized by excitation with light that is absorbed by the dye, or can be measured using standard fluorometers or imaging systems. The label may also be, for example, a chemiluminescent substance, wherein the output signal is generated by chemical modification of the signal compound; metal-containing substance; or an enzyme, where enzyme-dependent secondary signal generation occurs, such as the formation of a colored product from a colorless substrate. The term "label" may also refer to a "tag" or hapten that can selectively bind to a conjugated molecule such that the conjugated molecule, when added subsequently along with a substrate, is used to generate a detectable signal. For example, you can use biotin as a label, and then use an avidin or streptavidin conjugate with horseradish peroxidase (HRP) to bind to the label, and then use a calorimetric substrate (for example, tetramethylbenzidine (TMB)) or a fluorogenic substrate to detect the presence of HRP . Typical tags that can be used as tags to facilitate purification include, but are not limited to, myc, HA, FLAG or 3XFLAG, 6XHis or polyhistidine, glutathione S-transferase (GST), maltose binding protein, epitope tag, or the Fc portion of an immunoglobulin . Numerous labels are known, which include, for example, particles, fluorophores, haptens, enzymes and their calorimetric, fluorogenic and chemiluminescent substrates and other labels.

Раскрытые молекулы нуклеиновой кислоты могут состоять, например, из нуклеотидов или неприродных или модифицированных нуклеотидов, таких как нуклеотидные аналоги или нуклеотидные заменители. Такие нуклеотиды включают нуклеотид, который содержит модифицированную основную, сахарную или фосфатную группу или который включает в себя неприродный фрагмент в своей структуре. Примеры неприродных нуклеотидов включают, но не ограничиваются ими, дидезоксинуклеотиды, биотинилированные, аминированные, дезаминированные, алкилированные, бензилированные и меченные флуорофором нуклеотиды.The disclosed nucleic acid molecules may consist, for example, of nucleotides or non-natural or modified nucleotides, such as nucleotide analogues or nucleotide substitutes. Such nucleotides include a nucleotide that contains a modified basic, sugar or phosphate group or that includes a non-natural moiety in its structure. Examples of non-natural nucleotides include, but are not limited to, dideoxynucleotides, biotinylated, aminated, deaminated, alkylated, benzylated, and fluorophore-labeled nucleotides.

Молекулы нуклеиновой кислоты, раскрытые в данном описании, также могут содержать один или более нуклеотидных аналогов или замен. Нуклеотидный аналог представляет собой нуклеотид, который содержит модификацию основания, сахара или фосфата. Модификации основного фрагмента включают, но не ограничиваются ими, природные и синтетические модификации A, C, G и T/U, а также различные пуриновые или пиримидиновые основания, такие как, например, псевдоуридин, урацил-5-ил, гипоксантин-9-ил (I) и 2-аминоаденин-9-ил. Модифицированные основания включают, но не ограничиваются этим, 5-метилцитозин (5-me-C), 5-гидроксиметилцитозин, ксантин, гипоксантин, 2-аминоаденин, 6-метил и другие алкильные производные аденина и гуанина, 2-пропил и другие алкильные производные аденина и гуанина, 2-тиоурацил, 2 -тиотимин и 2-тиоцитозин, 5-галоурацил и цитозин, 5-пропинилурацил и цитозин, 6-азоурацил, цитозин и тимин, 5-урацил (псевдоурацил), 4-тиоурацил, 8-галоген, 8-амино, 8-тиол, 8-тиоалкил, 8-гидроксил и другие 8-замещенные аденины и гуанины, 5-галоген, особенно 5-бром, 5-трифторметил и другие 5-замещенные урацилы и цитозины, 7-метилгуанин и 7-метиладенин, 8-азагуанин и 8-азааденин, 7-деазагуанин и 7-деазааденин и 3-деазагуанин и 3-деазааденин. Некоторые нуклеотидные аналоги, такие как, например, 5-замещенные пиримидины, 6-азапиримидины и N-2, N-6 и O-6-замещенные пурины, включая, но не ограничиваясь этим, 2-аминопропиладенин, 5-пропинилурацил, 5-пропинилцитозин и 5-метилцитозин могут повысить стабильность образования дуплекса. Часто основные модификации могут быть объединены, например, с модификацией сахара, такой как 2'-O-метоксиэтил, для достижения уникальных свойств, таких как повышенная стабильность дуплекса. The nucleic acid molecules disclosed herein may also contain one or more nucleotide analogues or substitutions. A nucleotide analog is a nucleotide that contains a base, sugar, or phosphate modification. Basic fragment modifications include, but are not limited to, natural and synthetic A, C, G and T/U modifications, as well as various purine or pyrimidine bases, such as, for example, pseudouridine, uracil-5-yl, hypoxanthine-9-yl (I) and 2-aminoadenin-9-yl. Modified bases include, but are not limited to, 5-methylcytosine (5-me-C), 5-hydroxymethylcytosine, xanthine, hypoxanthine, 2-aminoadenine, 6-methyl and other alkyl derivatives of adenine and guanine, 2-propyl and other alkyl derivatives adenine and guanine, 2-thiouracil, 2-thiothymine and 2-thiocytosine, 5-halouracil and cytosine, 5-propynyluracil and cytosine, 6-azouracil, cytosine and thymine, 5-uracil (pseudouracil), 4-thiouracil, 8-halogen , 8-amino, 8-thiol, 8-thioalkyl, 8-hydroxyl and other 8-substituted adenines and guanines, 5-halogen, especially 5-bromo, 5-trifluoromethyl and other 5-substituted uracils and cytosines, 7-methylguanine and 7-methyladenine, 8-azaguanine and 8-azaadenine, 7-deazaguanine and 7-deazaadenine and 3-deazaguanine and 3-deazaadenine. Certain nucleotide analogues, such as, for example, 5-substituted pyrimidines, 6-azapyrimidines and N-2, N-6 and O-6-substituted purines, including, but not limited to, 2-aminopropyladenine, 5-propynyluracil, 5- Propynylcytosine and 5-methylcytosine can increase the stability of duplex formation. Often basic modifications can be combined, for example with a sugar modification such as 2'-O-methoxyethyl, to achieve unique properties such as increased duplex stability.

Аналоги нуклеотидов также могут включать модификации сахарного фрагмента. Модификации сахарного фрагмента включают, но не ограничиваются ими, природные модификации рибозы и дезоксирибозы, а также синтетические модификации. Модификации сахара включают, но не ограничиваются, следующие модификации в положении 2 ': ОЙ; F; O-, S- или N-алкил; O-, S- или N-алкенил; O-, S- или N-алкинил; или O-алкил-O-алкил, где алкил, алкенил и алкинил могут быть замещенным или незамещенным C1-10 алкилом или C2-10 алкенилом и C2-10 алкинилом. Примерные 2' модификации сахара также включают, но не ограничиваются ими, -O [(CH2)nO]mCH3, -O (CH2)nOCH3, -O (CH2)nNH2, -O (CH2)nCH3, -O (CH2)n-ONH2и -O (CH2)nON [(CH2)nCH3)]2, где n и m составляют от 1 до около 10.Nucleotide analogues may also include modifications to the sugar moiety. Modifications of the sugar moiety include, but are not limited to, natural modifications of ribose and deoxyribose, as well as synthetic modifications. Sugar modifications include, but are not limited to, the following modifications at position 2': OH; F; O-, S- or N-alkyl; O-, S- or N-alkenyl; O-, S- or N-alkynyl; or O-alkyl-O-alkyl, where alkyl, alkenyl and alkynyl may be substituted or unsubstituted C 1-10 alkyl or C 2-10 alkenyl and C 2-10 alkynyl. Exemplary 2' sugar modifications also include, but are not limited to, -O [(CH 2 ) n O] m CH 3 , -O (CH 2 ) n OCH 3 , -O (CH 2 ) n NH 2 , -O ( CH 2 ) n CH 3 , -O (CH 2 ) n -ONH 2 and -O (CH 2 ) n ON [(CH 2 ) n CH 3 )] 2 , where n and m are from 1 to about 10.

Другие модификации в положении 2' включают, но не ограничиваются ими, С1-10 алкил, замещенный низший алкил, алкарил, аралкил, О-алкарил или О-аралкил, SH, SCH3, OCN, Cl, Br, CN, CF3, OCF3, SOCH3, SO2CH3, ONO2, NO2, N3, NH2, гетероциклоалкил, гетероциклоалкиларил, аминоалкиламино, полиалкиламино, замещенный силил, группа расщепления РНК, репортерная группа, интеркалятор, группа для улучшения фармакокинетических свойств олигонуклеотида или группа для улучшения фармакодинамических свойств олигонуклеотида и других заместителей, имеющих сходные свойства, Аналогичные модификации могут быть также сделаны в других положениях сахара, в частности в положении 3' сахара на 3' концевом нуклеотиде или в 2'-5' связанных олигонуклеотидах и положении 5' 5' концевого нуклеотида. Модифицированные сахара также могут включать те, которые содержат модификации в кислороде мостикового кольца, такие как СН2 и S. Аналоги нуклеотидного сахара также могут иметь миметики сахара, такие как циклобутильные фрагменты, вместо пентофуранозильного сахара.Other modifications at the 2' position include, but are not limited to, C 1-10 alkyl, substituted lower alkyl, alkaryl, aralkyl, O-alkaryl or O-aralkyl, SH, SCH 3 , OCN, Cl, Br, CN, CF 3 , OCF 3 , SOCH 3 , SO 2 CH 3 , ONO 2 , NO 2 , N 3 , NH 2 , heterocycloalkyl, heterocycloalkylaryl, aminoalkylamino, polyalkylamino, substituted silyl, RNA cleavage group, reporter group, intercalator, group to improve the pharmacokinetic properties of the oligonucleotide or a group to improve the pharmacodynamic properties of the oligonucleotide and other substituents having similar properties. Similar modifications can also be made to other sugar positions, in particular to the 3' position of the sugar on the 3' terminal nucleotide or to the 2'-5' linked oligonucleotides and position 5 '5' terminal nucleotide. Modified sugars may also include those that contain modifications at the oxygen of the bridging ring, such as CH 2 and S. Nucleotide sugar analogues may also have sugar mimetics, such as cyclobutyl moieties, in place of the pentofuranosyl sugar.

Нуклеотидные аналоги также могут быть модифицированы в фосфатном фрагменте. Модифицированные фосфатные фрагменты включают, но не ограничиваются ими, те, которые могут быть модифицированы таким образом, что связь между двумя нуклеотидами содержит фосфоротиоат, хиральный фосфоротиоат, фосфородитиоат, фосфотриэфир, аминоалкилфосфотриэфир, метил и другие алкилфосфонаты, включая 3'-алкиленфосфонаты и хиральные фосфонаты, фосфинаты, фосфорамидаты, в том числе 3'-аминофосфорамидат и аминоалкилфосфорамидаты, тионофосфорамидаты, тионоалкилфосфонаты, тионоалкилфосфотриэфиры и боранофосфаты. Эти фосфатные или модифицированные фосфатные связи между двумя нуклеотидами могут быть через 3'-5' связь или 2'-5' связь, и эта связь может содержать обратную полярность, такую как 3'-5' к 5'-3' или 2'-5' к 5'-2'. Различные соли, смешанные соли и формы свободных кислот также включены. Nucleotide analogues can also be modified in the phosphate moiety. Modified phosphate moieties include, but are not limited to, those that can be modified such that the linkage between two nucleotides contains phosphorothioate, chiral phosphorothioate, phosphorodithioate, phosphotriester, aminoalkylphosphotriester, methyl and other alkylphosphonates, including 3'-alkylenephosphonates and chiral phosphonates, phosphinates, phosphoramidates, including 3'-aminophosphoramidate and aminoalkylphosphoramidates, thionophosphoramidates, thionoalkylphosphonates, thionoalkylphosphorotriesters and boranophosphates. These phosphate or modified phosphate bonds between two nucleotides may be through a 3'-5' bond or a 2'-5' bond, and this bond may contain reverse polarity such as 3'-5' to 5'-3' or 2' -5' to 5'-2'. Various salts, mixed salts and free acid forms are also included.

Нуклеотидные заменители включают молекулы, имеющие функциональные свойства, сходные с нуклеотидами, но которые не содержат фосфатный фрагмент, такой как пептидная нуклеиновая кислота (ПНК - PNA - peptide nucleic acid). Нуклеотидные заменители включают молекулы, которые распознают нуклеиновые кислоты способом Уотсона-Крика или Хугстина, но которые связаны друг с другом посредством фрагмента, отличного от фосфатного фрагмента. Нуклеотидные заменители способны соответствовать структуре типа двойной спирали при взаимодействии с соответствующей нуклеиновой кислотой-мишенью.Nucleotide substitutes include molecules that have functional properties similar to nucleotides, but which do not contain a phosphate moiety such as a peptide nucleic acid (PNA). Nucleotide surrogates include molecules that recognize nucleic acids in the Watson-Crick or Hoogsteen manner, but which are linked to each other by a moiety other than the phosphate moiety. Nucleotide substitutes are capable of conforming to a double helix structure when interacting with the corresponding target nucleic acid.

Нуклеотидные заменители также включают нуклеотиды или нуклеотидные аналоги, у которых были заменены фосфатный фрагмент или сахарный фрагмент. В некоторых вариантах осуществления нуклеотидные заменители могут не содержать стандартный атом фосфора. Заместителями для фосфата могут быть, например, алкильные или циклоалкильные межнуклеозидные связи с короткой цепью, смешанные гетероатомные и алкильные или циклоалкильные межнуклеозидные связи или одна или более гетероатомных или гетероциклических межнуклеозидных связей с короткой цепью. К ним относятся те, которые имеют морфолино-связи (образованные частично из сахарной части нуклеозида); силоксановые магистрали; сульфидные, сульфоксидные и сульфоновые основные цепи; формацетильный и тиоформацетильный остовы; метиленформацетильный и тиоформацетильный каркасы; алкенсодержащие основные цепи; сульфаматные магистрали; метиленимино и метиленгидразино; сульфонатные и сульфонамидные магистрали; амидные магистрали; и другие, имеющие смешанные N, O, S и CH2 составных частей.Nucleotide replacements also include nucleotides or nucleotide analogues in which the phosphate moiety or sugar moiety has been replaced. In some embodiments, the nucleotide replacements may not contain a standard phosphorus atom. Substituents for the phosphate may be, for example, short chain alkyl or cycloalkyl internucleoside linkages, mixed heteroatom and alkyl or cycloalkyl internucleoside linkages, or one or more short chain heteroatom or heterocyclic internucleoside linkages. These include those that have morpholino bonds (formed in part from the sugar moiety of the nucleoside); siloxane lines; sulfide, sulfoxide and sulfone backbones; formacetyl and thioformacetyl backbones; methyleneformacetyl and thioformacetyl frameworks; alkene-containing backbones; sulfamate lines; methyleneimino and methylenehydrazino; sulfonate and sulfonamide lines; amide lines; and others having mixed N, O, S and CH 2 components.

Понятно также, что при замене нуклеотида и сахарная, и фосфатная части нуклеотида могут быть заменены, например, связью амидного типа (аминоэтилглицин) (ПНК). It is also clear that when replacing a nucleotide, both the sugar and phosphate parts of the nucleotide can be replaced, for example, by an amide-type bond (aminoethylglycine) (PNA).

Также возможно связывать другие типы молекул (конъюгатов) с нуклеотидами или аналогами нуклеотидов для усиления, например, клеточного поглощения. Конъюгаты могут быть химически связаны с нуклеотидными или нуклеотидными аналогами. Такие конъюгаты включают, например, липидные фрагменты, такие как холестериновый фрагмент, желчную кислоту, тиоэфир, такой как гексил-S-тритилтиол, тиохолестерин, алифатическую цепь, такую как додекандиол или ундецильные остатки, фосфолипид, такой как дигексадецил-rac-глицерин или триэтиламмоний-1,2-ди-O-гексадецил-рац-глицеро-3-H-фосфонат, полиаминовая или полиэтиленгликолевая цепь, адамантановая уксусная кислота, пальмитиловый фрагмент или октадециламинный или гексиламино-карбонил-оксихолестериновый фрагмент. It is also possible to link other types of molecules (conjugates) to nucleotides or nucleotide analogues to enhance, for example, cellular uptake. Conjugates can be chemically linked to nucleotide or nucleotide analogues. Such conjugates include, for example, lipid moieties such as a cholesterol moiety, a bile acid, a thioester such as hexyl-S-tritylthiol, thiocholesterol, an aliphatic chain such as dodecanediol or undecyl units, a phospholipid such as dihexadecyl-rac-glycerol or triethylammonium -1,2-di-O-hexadecyl-rac-glycero-3-H-phosphonate, polyamine or polyethylene glycol chain, adamantane acetic acid, palmityl moiety or octadecylamine or hexylaminocarbonyl oxycholesterol moiety.

Данное раскрытие также предоставляет векторы, содержащие любую одну или большее количество молекул нуклеиновой кислоты раскрытых в данном документе. В некоторых вариантах осуществления векторы содержат любую одну или более молекул нуклеиновой кислоты, раскрытой в данном документе, и гетерологичную нуклеиновую кислоту. Векторы могут быть вирусными или невирусными векторами, способными транспортировать молекулу нуклеиновой кислоты. В некоторых вариантах осуществления вектор представляет собой плазмиду или космиду (например, кольцевую двухцепочечную ДНК, в которую могут быть лигированы дополнительные сегменты ДНК). В некоторых вариантах осуществления вектор представляет собой вирусный вектор, в котором дополнительные сегменты ДНК могут быть лигированы в вирусный геном. В некоторых вариантах осуществления вектор может автономно реплицироваться в клетке-хозяине, в которую он введен (например, бактериальные векторы, имеющие бактериальный источник репликации, и эписомальные векторы млекопитающих). В некоторых вариантах осуществления вектор (например, неэпизомальные векторы млекопитающих) может быть интегрирован в геном клетки-хозяина при введении в клетку-хозяина и, таким образом, реплицируется вместе с геномом-хозяином. Более того, конкретные векторы могут направлять экспрессию генов, с которыми они функционально связаны. Такие векторы упоминаются в данном документе как «рекомбинантные векторы экспрессии» или «векторы экспрессии». Такие векторы также могут быть нацеливающими векторами (то есть экзогенными донорскими последовательностями).This disclosure also provides vectors containing any one or more of the nucleic acid molecules disclosed herein. In some embodiments, the vectors contain any one or more nucleic acid molecules disclosed herein and a heterologous nucleic acid. Vectors may be viral or non-viral vectors capable of transporting a nucleic acid molecule. In some embodiments, the vector is a plasmid or cosmid (eg, circular double-stranded DNA into which additional DNA segments can be ligated). In some embodiments, the vector is a viral vector in which additional DNA segments can be ligated into the viral genome. In some embodiments, the vector can autonomously replicate in the host cell into which it is introduced (eg, bacterial vectors having a bacterial origin of replication and mammalian episomal vectors). In some embodiments, a vector (eg, non-epizomal mammalian vectors) can be integrated into the genome of a host cell upon introduction into the host cell and thereby replicate along with the host genome. Moreover, specific vectors can direct the expression of genes to which they are functionally linked. Such vectors are referred to herein as “recombinant expression vectors” or “expression vectors”. Such vectors may also be targeting vectors (ie exogenous donor sequences).

В некоторых вариантах осуществления белки, кодируемые различными генетическими вариантами, раскрытыми в данном документе, экспрессируются путем вставки молекул нуклеиновой кислоты, кодирующих раскрытые генетические варианты, в векторы экспрессии, так что гены оперативно связаны с последовательностями контроля экспрессии, такими как последовательности транскрипции и контроля трансляции. Векторы экспрессии включают, но не ограничиваются ими, плазмиды, космиды, ретровирусы, аденовирусы, аденоассоциированные вирусы (AAV), вирусы растений, такие как вирус мозаики цветной капусты и вирус табачной мозаики, дрожжевые искусственные хромосомы (YAC), эписомы, полученные из вируса Эпштейна-Барр (EBV) и тому подобное. В некоторых вариантах осуществления молекулы нуклеиновой кислоты, содержащие раскрытые генетические варианты, могут быть лигированы в вектор таким образом, что транскрипционные и трансляционные контрольные последовательности внутри вектора выполняют предназначенную для них функцию регуляции транскрипции и трансляции генетического варианта. Вектор экспрессии и последовательности контроля экспрессии выбирают так, чтобы они были совместимы с используемой клеткой-хозяином экспрессии. Последовательности нуклеиновых кислот, содержащие раскрытые генетические варианты, могут быть вставлены в отдельные векторы или в тот же вектор экспрессии, что и вариантная генетическая информация. Последовательность нуклеиновой кислоты, содержащую раскрытые генетические варианты, может быть вставлена в вектор экспрессии стандартными способами (например, лигирование комплементарных сайтов рестрикции на нуклеиновую кислоту, содержащую раскрытые генетические варианты и вектор, или лигирование тупого конца, если сайты рестрикции отсутствуют),In some embodiments, proteins encoded by the various genetic variants disclosed herein are expressed by inserting nucleic acid molecules encoding the disclosed genetic variants into expression vectors such that the genes are operably linked to expression control sequences, such as transcription and translation control sequences. Expression vectors include, but are not limited to, plasmids, cosmids, retroviruses, adenoviruses, adeno-associated viruses (AAV), plant viruses such as cauliflower mosaic virus and tobacco mosaic virus, yeast artificial chromosomes (YAC), Epstein virus-derived episomes -Barr (EBV) and the like. In some embodiments, nucleic acid molecules containing the disclosed genetic variants may be ligated into a vector such that transcriptional and translational control sequences within the vector perform their intended function of regulating transcription and translation of the genetic variant. The expression vector and expression control sequences are selected to be compatible with the expression host cell used. Nucleic acid sequences containing the disclosed genetic variants can be inserted into separate vectors or into the same expression vector as the variant genetic information. The nucleic acid sequence containing the disclosed genetic variants can be inserted into an expression vector by standard methods (for example, ligation of complementary restriction sites on the nucleic acid containing the disclosed genetic variants and the vector, or blunt end ligation if restriction sites are not present),

В дополнение к последовательности нуклеиновой кислоты, содержащей раскрытые генетические варианты, рекомбинантные векторы экспрессии могут нести регуляторные последовательности, которые контролируют экспрессию генетического варианта в клетке-хозяине. Конструкция вектора экспрессии, включая выбор регуляторных последовательностей, может зависеть от таких факторов, как выбор клетки-хозяина, подлежащей трансформации, желаемый уровень экспрессии белка и так далее. Требуемые регуляторные последовательности для экспрессии клеток-хозяев млекопитающих могут включать, например, вирусные элементы, которые направляют высокие уровни экспрессии белка в клетках млекопитающих, такие как промоторы и/или энхансеры, полученные из ретровирусных LTR, цитомегаловируса (CMV) (такой как промотор CMV/энхансер), Simian Virus 40 (SV40) (такой как промотор/энхансер SV40), аденовируса (например, главный поздний промотор аденовируса (AdMLP)), полиомы и сильных промоторов млекопитающих, таких как нативные промоторы иммуноглобулина и актина. Способы экспрессии полипептидов в бактериальных клетках или клетках грибов (например, дрожжевых клетках) также хорошо известны.In addition to the nucleic acid sequence containing the disclosed genetic variants, recombinant expression vectors may carry regulatory sequences that control expression of the genetic variant in a host cell. The design of the expression vector, including the choice of regulatory sequences, may depend on factors such as the choice of host cell to be transformed, the desired level of protein expression, and so on. Required regulatory sequences for mammalian host cell expression may include, for example, viral elements that direct high levels of protein expression in mammalian cells, such as promoters and/or enhancers derived from cytomegalovirus (CMV) retroviral LTRs (such as the CMV promoter/ enhancer), Simian Virus 40 (SV40) (such as the SV40 promoter/enhancer), adenovirus (such as the adenovirus major late promoter (AdMLP)), polyoma, and strong mammalian promoters such as native immunoglobulin and actin promoters. Methods for expressing polypeptides in bacterial or fungal cells (eg, yeast cells) are also well known.

Промотор может быть, например, конститутивно активным промотором, условным промотором, индуцибельным промотором, ограниченным во времени промотором (например, промотором, регулируемым развитием) или пространственно ограниченным промотором (например, клеточно-специфичным или тканеспецифичным промотером). Примеры промоторов можно найти, например, в WO 2013/176772.The promoter may be, for example, a constitutively active promoter, a conditional promoter, an inducible promoter, a temporally restricted promoter (eg, a developmentally regulated promoter), or a spatially restricted promoter (eg, a cell-specific or tissue-specific promoter). Examples of promoters can be found, for example, in WO 2013/176772.

Примеры индуцибельных промоторов включают, например, химически регулируемые промоторы и физически регулируемые промоторы. Химически регулируемые промоторы включают, например, регулируемые спиртом промоторы (например, промотор гена алкогольдегидрогеназы (alcA)), регулируемые тетрациклином промоторы (например, чувствительный к тетрациклину промотор, последовательность оператора тетрациклина (tetO), tet-On промотор или tet-Off промотор), регулируемые стероидами промоторы (например, промотор глюкокортикоидного рецептора крысы, промотор рецептора эстрогена или промотор рецептора экдизона) или регулируемые металлом промоторы (например, промотор металлопротеина). Физически регулируемые промоторы включают в себя, например, регулируемые температурой промоторы (например, промотор теплового шока) и регулируемые светом промоторы (например, светоиндуцируемый промотор или светопрессуемый промотор).Examples of inducible promoters include, for example, chemically regulated promoters and physically regulated promoters. Chemically regulated promoters include, for example, alcohol-regulated promoters (e.g., alcohol dehydrogenase (alcA) gene promoter), tetracycline-regulated promoters (e.g., tetracycline-sensitive promoter, tetracycline operator sequence (tetO), tet-On promoter, or tet-Off promoter), steroid-regulated promoters (eg, rat glucocorticoid receptor promoter, estrogen receptor promoter, or ecdysone receptor promoter) or metal-regulated promoters (eg, metalloprotein promoter). Physically regulated promoters include, for example, temperature-regulated promoters (eg, heat shock promoter) and light-regulated promoters (eg, light-inducible promoter or light-pressure promoter).

Тканеспецифичными промоторами могут быть, например, нейрон-специфические промоторы, глия-специфические промоторы, специфичные для мышечных клеток промоторы, специфичные для клеток сердца промоторы, специфичные для клеток почек промоторы, специфичные для костных клеток промоторы, специфичные для эндотелиальных клеток промоторы, или специфичные для иммунных клеток промоторы (например, промотор В-клеток или промотор Т-клеток).Tissue-specific promoters may be, for example, neuron-specific promoters, glia-specific promoters, muscle cell-specific promoters, cardiac cell-specific promoters, kidney cell-specific promoters, bone cell-specific promoters, endothelial cell-specific promoters, or immune cell promoters (eg, B cell promoter or T cell promoter).

Регуляторы, регулируемые развитием, включают, например, промоторы, активные только во время эмбриональной стадии развития или только во взрослой клетке.Developmental regulators include, for example, promoters that are active only during the embryonic stage of development or only in the adult cell.

В дополнение к последовательности нуклеиновой кислоты, содержащей раскрытые генетические варианты и регуляторные последовательности, рекомбинантные векторы экспрессии могут нести дополнительные последовательности, такие как последовательности, которые регулируют репликацию вектора в клетках-хозяевах (например, происхождение репликации) и селектируемые маркерные гены. Селектируемый маркерный ген может облегчить отбор клеток-хозяев, в которые был введен вектор (см., например, Патенты США 4399216; 4634665 и 5179017). Например, селектируемый маркерный ген может придавать устойчивость к лекарствам, таким как G418, гигромицин или метотрексат, в клетке-хозяине, в которую был введен вектор. Типичные селектируемые маркерные гены включают, но не ограничиваются ими, ген дигидрофолатредуктазы (DHFR - dihydrofolate reductase) (для использования в клетках-хозяевах dhfr с селекцией/амплификацией метотрексата), ген neo (для селекции G418) и ген глутамат-синтетазы (GS).In addition to the nucleic acid sequence containing disclosed genetic variants and regulatory sequences, recombinant expression vectors may carry additional sequences, such as sequences that regulate replication of the vector in host cells (eg, origin of replication) and selectable marker genes. A selectable marker gene can facilitate the selection of host cells into which the vector has been introduced ( see, for example, US Patents 4,399,216; 4,634,665 and 5,179,017). For example, a selectable marker gene may confer resistance to drugs, such as G418, hygromycin, or methotrexate, in the host cell into which the vector has been introduced. Typical selectable marker genes include, but are not limited to, the dihydrofolate reductase (DHFR) gene (for use in dhfr host cells with methotrexate selection/amplification), the neo gene (for G418 selection), and the glutamate synthetase (GS) gene.

Данное раскрытие также относится к выделенным полипептидам, содержащим полипептид варианта B4GALT1 (Asn352Ser). Иллюстративному полипептиду B4GALT1 человека дикого типа присвоен регистрационный номер UniProt P15291 (SEQ ID NO:7), и он состоит из 398 аминокислот. Человеческий вариантный полипептид B4GALT1 содержит серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1 (SEQ ID NO:8), в отличие от аспарагина в том же положении у человека дикого типа B4GALT1 (сравнение SEQ ID NO:8 с SEQ ID NO:7 соответственно). В некоторых вариантах осуществления выделенный полипептид содержит SEQ ID NO:8. В некоторых вариантах осуществления выделенный полипептид состоит из SEQ ID NO:8.This disclosure also relates to isolated polypeptides containing a B4GALT1 variant polypeptide (Asn352Ser). An exemplary wild-type human B4GALT1 polypeptide is assigned UniProt accession number P15291 (SEQ ID NO:7) and consists of 398 amino acids. The human variant B4GALT1 polypeptide contains a serine at a position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide (SEQ ID NO:8), as opposed to an asparagine at the same position in human wild-type B4GALT1 (compare SEQ ID NO:8 with SEQ ID NO: 7 respectively). In some embodiments, the isolated polypeptide comprises SEQ ID NO:8. In some embodiments, the isolated polypeptide consists of SEQ ID NO:8.

В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая имеет, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 90% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 90% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 последовательности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 90% идентична SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that has at least about 70%, at least about 75%, at least about 80%, at least about 85%, at least about 90%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99% or 100% identical SEQ ID NO:8. In some embodiments, the isolated polypeptides contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 90%, at least about 95%, at least about 96%, at least about 97%, at least at least about 98%, at least about 99%, or 100% identical to SEQ ID NO:8. In some embodiments, the isolated polypeptides contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 90% identical to the sequence of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 90% identical to the sequence of SEQ ID NO:8, and contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 90% identical to SEQ ID NO:8, provided that the isolated polypeptides contain a serine at a position corresponding to position 352 of SEQ ID NO:8.

В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 95% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 95% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 95% идентична последовательности SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 98% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 98% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 последовательности SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 98% идентична последовательности SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 99% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 99% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 99% идентична последовательности SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.In some embodiments, the isolated polypeptides contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 95% identical to the sequence of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 95% identical to the sequence of SEQ ID NO:8, and contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 95% identical to the sequence of SEQ ID NO:8, provided that the isolated polypeptides contain a serine at a position corresponding to SEQ ID NO: 352: 8. In some embodiments, the isolated polypeptides contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 98% identical to the sequence of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 98% identical to the sequence of SEQ ID NO:8, and contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 98% identical to the sequence of SEQ ID NO:8, provided that the isolated polypeptides contain a serine at a position corresponding to SEQ ID NO: 352: 8. In some embodiments, the isolated polypeptides contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 99% identical to the sequence of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 99% identical to the sequence of SEQ ID NO:8, and contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least about 99% identical to the sequence of SEQ ID NO:8, provided that the isolated polypeptides contain a serine at a position corresponding to SEQ ID NO: 352: 8.

В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 150, по меньшей мере, около 200, по меньшей мере, около 250, по меньшей мере, около 300 или, по меньшей мере, около 350 смежных аминокислот из SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 70%, по меньшей мере, на около 75%, по меньшей мере, на около 80%, по меньшей мере, на около 85%, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99%, или на 100% идентичной, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 150, по меньшей мере, около 200, по меньшей мере, около 250, по меньшей мере, около 300 или, по меньшей мере, около 350 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99% или на 100% идентичной, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 150, по меньшей мере, около 200, по меньшей мере, около 250, по меньшей мере, около 300 или, по меньшей мере, около 350 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.In some embodiments, the isolated polypeptides contain or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least about 100, at least about 150, at least about 200, at least about 250, at least about 300, or at least about 350 contiguous amino acids from SEQ ID NO:8. In some embodiments, the isolated polypeptides also contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of at least about 70%, at least about 75%, at least about 80%, at least about 85% amino acid sequence, at least about 90%, at least about 91%, at least about 92%, at least about 93%, at least about 94%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99%, or 100% identical, at least about 8, at least about 10, at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least about 40 at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90, at least about 100, at least about 150, at least about 200, at least about 250, at least about 300, or at least about 350 contiguous amino acids of SEQ ID NO:8. In some embodiments, the isolated polypeptides also contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of at least about 90%, at least about 91%, at least about 92%, at least about 93% amino acid sequence, at least about 94%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99% or 100% identical, at least about 8, at least about 10, at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, according to at least about 90, at least about 100, at least about 150, at least about 200, at least about 250, at least about 300 or at least about 350 contiguous amino acids SEQ ID NO:8. In some embodiments, the isolated polypeptides also contain a serine at a position corresponding to position 352 of SEQ ID NO:8.

В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 90% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 90%, идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 95% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 95% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 98% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 98% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 99% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 99% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8.In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least 90% identical to at least 300 contiguous amino acids of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least 90% identical to at least 300 contiguous amino acids of SEQ ID NO:8, and the isolated polypeptides also contain a serine at a position corresponding to position 352 of SEQ ID NO: 8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least 95% identical to at least 300 contiguous amino acids of SEQ ID NO: 8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least 95% identical to at least 300 contiguous amino acids of SEQ ID NO:8, and the isolated polypeptides also contain a serine at a position corresponding to position 352 of SEQ ID NO:8 : 8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least 98% identical to at least 300 contiguous amino acids of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least 98% identical to at least 300 contiguous amino acids of SEQ ID NO:8, and the isolated polypeptides also contain a serine at a position corresponding to position 352 of SEQ ID NO:8 : 8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least 99% identical to at least 300 contiguous amino acids of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of an amino acid sequence that is at least 99% identical to at least 300 contiguous amino acids of SEQ ID NO:8, and the isolated polypeptides also contain a serine at a position corresponding to position 352 of SEQ ID NO:8 : 8.

В некоторых вариантах осуществления выделенные полипептиды включают или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90 или, по меньшей мере, около 100 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 70%, по меньшей мере, на около 75%, по меньшей мере, на около 80%, по меньшей мере, на около 85%, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99%, или на 100% идентичной, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90 или, по меньшей мере, около 100 смежных аминокислот из SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99% или 100% идентично, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, или, по меньшей мере, около 100 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.In some embodiments, the isolated polypeptides include or consist of at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90 or at least about 100 contiguous amino acids SEQ ID NO:8. In some embodiments, the isolated polypeptides also contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of at least about 70%, at least about 75%, at least about 80%, at least about 85% amino acid sequence, at least about 90%, at least about 91%, at least about 92%, at least about 93%, at least about 94%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99%, or 100% identical, at least about 8, at least about 10, at least about 15, at least about 20, at least about 25, at least about 30, at least about 35, at least about 40 at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least about 90 or at least about 100 contiguous amino acids from SEQ ID NO:8. In some embodiments, the isolated polypeptides also contain a serine at a position corresponding to position 352 of SEQ ID NO:8. In some embodiments, the isolated polypeptides contain or consist of at least about 90%, at least about 91%, at least about 92%, at least about 93% amino acid sequence, at least about 94%, at least about 95%, at least about 96%, at least about 97%, at least about 98%, at least about 99% or 100% identical, at least about 8, at least about 10, at least about 15, at least about 20, at least about 25, at least about 30, according to at least about 35, at least about 40, at least about 45, at least about 50, at least about 60, at least about 70, at least about 80, at least at least about 90, or at least about 100 contiguous amino acids of SEQ ID NO:8. In some embodiments, the isolated polypeptides also contain a serine at a position corresponding to position 352 of SEQ ID NO:8.

Репрезентативная полипептидная последовательность B4GALT1 дикого типа приведена в SEQ ID NO:7. Типичная полипептидная последовательность B4GALT1 приведена в SEQ ID NO:8. A representative wild-type B4GALT1 polypeptide sequence is shown in SEQ ID NO:7. An exemplary B4GALT1 polypeptide sequence is shown in SEQ ID NO:8.

Выделенные полипептиды, раскрытые в данном описании, могут содержать аминокислотную последовательность встречающегося в природе полипептида B4GALT1 или встречающейся в природе последовательности. В некоторых вариантах осуществления встречающаяся в природе последовательность может отличаться от не встречающейся в природе последовательности вследствие консервативных аминокислотных замен. Например, последовательность может быть идентичной, за исключением консервативных аминокислотных замен.The isolated polypeptides disclosed herein may contain the amino acid sequence of a naturally occurring B4GALT1 polypeptide or a naturally occurring sequence. In some embodiments, a naturally occurring sequence may differ from a non-naturally occurring sequence due to conservative amino acid substitutions. For example, the sequence may be identical except for conservative amino acid substitutions.

В некоторых вариантах осуществления выделенные полипептиды, раскрытые в данном документе, связаны или слиты с гетерологичными полипептидами или гетерологичными молекулами или метками, многочисленные примеры которых раскрыты в другом месте в данном документе. Например, белки могут быть слиты с гетерологичным полипептидом, обеспечивающим повышенную или пониженную стабильность. Слитый домен или гетерологичный полипептид может быть расположен на N-конце, С-конце или внутри полипептида. Партнер слияния может, например, способствовать получению Т-хелперных эпитопов (иммунологический партнер слияния) или может способствовать экспрессии белка (энхансера экспрессии) с более высокими выходами, чем нативный рекомбинантный полипептид. Некоторые партнеры по слиянию являются как иммунологическими партнерами, так и партнерами по повышению экспрессии. Другие партнеры по слиянию могут быть выбраны для увеличения растворимости полипептида или для облегчения нацеливания полипептида на желаемые внутриклеточные компартменты. Некоторые партнеры по слиянию включают аффинные метки, которые облегчают очистку полипептида.In some embodiments, isolated polypeptides disclosed herein are linked or fused to heterologous polypeptides or heterologous molecules or tags, numerous examples of which are disclosed elsewhere herein. For example, proteins can be fused to a heterologous polypeptide providing increased or decreased stability. The fusion domain or heterologous polypeptide may be located at the N-terminus, C-terminus, or within the polypeptide. The fusion partner may, for example, facilitate the production of T helper epitopes (the immunological fusion partner) or may promote the expression of the protein (expression enhancer) at higher yields than the native recombinant polypeptide. Some fusion partners are both immunological partners and gain-of-expression partners. Other fusion partners may be selected to increase the solubility of the polypeptide or to facilitate targeting of the polypeptide to desired intracellular compartments. Some fusion partners include affinity tags that facilitate purification of the polypeptide.

В некоторых вариантах осуществления слитый белок непосредственно слит с гетерологичной молекулой или связан с гетерологичной молекулой через линкер, такой как пептидный линкер. Подходящие пептидные линкерные последовательности могут быть выбраны, например, на основе следующих факторов: 1) способность принимать гибкую расширенную конформацию; 2) устойчивость к принятию вторичной структуры, которая могла бы взаимодействовать с функциональными эпитопами на первом и втором полипептидах; и 3) отсутствие гидрофобных или заряженных остатков, которые могли бы реагировать с полипептидными функциональными эпитопами. Например, пептидные линкерные последовательности могут содержать остатки Gly, Asn и Ser. Другие почти нейтральные аминокислоты, такие как Thr и Ala, также могут быть использованы в линкерной последовательности. Аминокислотные последовательности, которые могут быть с успехом использованы в качестве линкеров, включают последовательности, раскрытые, например, в Maratea et al., Gene, 1985, 40, 39-46; Murphy et al., Proc. Natl. Acad. Sci. США, 1986, 83, 8258-8262; и патенты США 4935233 и 4751180. Линкерная последовательность обычно может иметь длину, например, от 1 до 50 аминокислот. Линкерные последовательности обычно не требуются, когда первый и второй полипептиды имеют несущественные N-концевые аминокислотные области, которые можно использовать для разделения функциональных доменов и предотвращения стерического вмешательства.In some embodiments, the fusion protein is directly fused to a heterologous molecule or linked to a heterologous molecule through a linker, such as a peptide linker. Suitable peptide linker sequences can be selected, for example, based on the following factors: 1) ability to adopt a flexible extended conformation; 2) resistance to the adoption of a secondary structure that could interact with functional epitopes on the first and second polypeptides; and 3) the absence of hydrophobic or charged residues that could react with polypeptide functional epitopes. For example, peptide linker sequences may contain Gly, Asn and Ser residues. Other nearly neutral amino acids, such as Thr and Ala, can also be used in the linker sequence. Amino acid sequences that can be advantageously used as linkers include those disclosed, for example, in Maratea et al., Gene , 1985, 40, 39-46; Murphy et al., Proc. Natl. Acad. Sci. USA, 1986, 83, 8258-8262; and US Pat. Nos. 4,935,233 and 4,751,180. The linker sequence can typically be, for example, 1 to 50 amino acids in length. Linker sequences are generally not required when the first and second polypeptides have non-essential N-terminal amino acid regions that can be used to separate functional domains and prevent steric interference.

В некоторых вариантах осуществления полипептиды функционально связаны с проникающим в клетку доменом. Например, проникающий в клетку домен может быть получен из белка ТАТ ВИЧ-1, проникающего в клетки TLM мотива вируса гепатита В человека, MPG, Pep-1, VP22, и проникающего в клетку пептида из вируса простого герпеса или пептидной последовательности полиаргинина. См., например, WO 2014/089290. Проникающий в клетку домен может быть локализован на N-конце, C-конце или в любом месте белка.In some embodiments, the polypeptides are operably linked to a cell penetrating domain. For example, the cell-penetrating domain can be derived from the HIV-1 TAT protein, the cell-penetrating human hepatitis B virus TLM motif, MPG, Pep-1, VP22, and the cell-penetrating peptide from herpes simplex virus or the polyarginine peptide sequence. See for example WO 2014/089290. The cell penetrating domain can be located at the N-terminus, C-terminus, or anywhere in the protein.

В некоторых вариантах осуществления полипептиды функционально связаны с гетерологичным полипептидом для простоты отслеживания или очистки, таким как флуоресцентный белок, метка очистки или метка эпитопа. Примеры флуоресцентных белков включают, но не ограничиваются ими, зеленые флуоресцентные белки (например, GFP, GFP-2, tagGFP, turboGFP, eGFP, Emerald, Azami Green, мономерный Azami Green, CopGFP, AceGFP, ZsGreenl), желтые флуоресцентные белки (например, YFP, eYFP, цитрин, венера, YPet, PhiYFP, ZsYellowl), голубые флуоресцентные белки (например, eBFP, eBFP2, азурит, mKalamal, GFPuv, сапфир, T-сапфир), синие флуоресцентные белки (например, eCFP, Cerulean, CyPet, AmCyanl, Midoriishi-Cyan), красные флуоресцентные белки (mKate, mKate2, mPlum, мономер DsRed, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-мономер, HcRed-тандем, HcRedl, AsRed2, eqFP611, mRaspberry, mStrawberry, Jred) оранжевые флуоресцентные белки (mOrange, mKO, Kusabira-Orange, мономерный Kusabira-Orange, mTangerine, tdTomato) и любой другой подходящий флуоресцентный белок. Примеры тэгов включают, но не ограничиваются ими, глутатион-S-трансферазу (GST), хитин-связывающий белок (CBP), мальтозосвязывающий белок, тиоредоксин (TRX), поли (NANP), тэг тандемной аффинной очистки (TAP), myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, гемагглютинин (HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV- G, гистидин (His), биотин-карбоксильный белок-носитель (BCCP) и кальмодулин. В некоторых вариантах осуществления гетерологичная молекула представляет собой Fc-домен иммуноглобулина, пептидную метку, домен трансдукции, поли (этиленгликоль), полисиаловую кислоту или гликолевую кислоту.In some embodiments, the polypeptides are operably linked to a heterologous polypeptide for ease of tracking or purification, such as a fluorescent protein, purification tag, or epitope tag. Examples of fluorescent proteins include, but are not limited to, green fluorescent proteins (e.g., GFP, GFP-2, tagGFP, turboGFP, eGFP, Emerald, Azami Green, monomeric Azami Green, CopGFP, AceGFP, ZsGreenl), yellow fluorescent proteins (e.g. YFP, eYFP, Citrine, Venus, YPet, PhiYFP, ZsYellowl), blue fluorescent proteins (e.g. eBFP, eBFP2, azurite, mKalamal, GFPuv, sapphire, T-sapphire), blue fluorescent proteins (e.g. eCFP, Cerulean, CyPet, AmCyanl, Midoriishi-Cyan), red fluorescent proteins (mKate, mKate2, mPlum, DsRed monomer, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed monomer, HcRed tandem, HcRedl, AsRed2, eqFP611, mRaspberry, mStrawberry, Jred) orange fluorescent proteins (mOrange, mKO, Kusabira-Orange, monomeric Kusabira-Orange, mTangerine, tdTomato) and any other suitable fluorescent protein. Examples of tags include, but are not limited to, glutathione S-transferase (GST), chitin binding protein (CBP), maltose binding protein, thioredoxin (TRX), poly (NANP), tandem affinity purification (TAP) tag, myc, AcV5 , AU1, AU5, E, ECS, E2, FLAG, hemagglutinin (HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV-G, histidine (His), biotin carboxyl carrier protein (BCCP) and calmodulin. In some embodiments, the heterologous molecule is an immunoglobulin Fc domain, a peptide tag, a transduction domain, poly(ethylene glycol), polysialic acid, or glycolic acid.

В некоторых вариантах осуществления выделенные полипептиды включают неприродные или модифицированные аминокислоты или пептидные аналоги. Например, существует множество D-аминокислот или аминокислот, которые имеют функциональный заместитель, отличный от встречающихся в природе аминокислот. Раскрываются противоположные стереоизомеры встречающихся в природе пептидов, а также стереоизомеры пептидных аналогов. Эти аминокислоты могут быть легко включены в полипептидные цепи путем зарядки молекул тРНК выбранной аминокислотой и конструирования генетических конструкций, которые используют, например, янтарные кодоны, для вставки аналога аминокислоты в пептидную цепь сайт-специфическим способом. In some embodiments, the isolated polypeptides include unnatural or modified amino acids or peptide analogs. For example, there are many D-amino acids or amino acids that have a functional substituent that is different from naturally occurring amino acids. Opposite stereoisomers of naturally occurring peptides, as well as stereoisomers of peptide analogues, are disclosed. These amino acids can be easily incorporated into polypeptide chains by charging tRNA molecules with the amino acid of choice and designing genetic constructs that use, for example, amber codons to insert an amino acid analogue into the peptide chain in a site-specific manner.

В некоторых вариантах осуществления выделенные полипептиды представляют собой пептидные миметики, которые могут быть получены, чтобы напоминать пептиды, но которые не связаны через природную пептидную связь. Например, связи для аминокислот или аналогов аминокислот включают, но не ограничиваются ими, -CH2NH-, -CH2S-, -CH2-, -CH=CH- (цис и транс), -COCH2-, -CH (OH) CH2- и -CHH2SO-. Аналоги пептидов могут иметь более одного атома между атомами связи, такие как ß-аланин, гаминомасляная кислота и тому подобное. Аминокислотные аналоги и пептидные аналоги часто имеют улучшенные или желательные свойства, такие как более экономичное производство, более высокая химическая стабильность, улучшенные фармакологические свойства (период полураспада, абсорбция, активность, эффективность и т. д.). Измененная специфичность (например, широкий спектр биологической активности), сниженная антигенность и другие желательные свойства.In some embodiments, the isolated polypeptides are peptide mimetics that can be prepared to resemble peptides but that are not linked through a natural peptide bond. For example, bonds for amino acids or amino acid analogues include, but are not limited to, -CH 2 NH-, -CH 2 S-, -CH 2 -, -CH=CH- (cis and trans), -COCH 2 -, -CH (OH)CH 2 - and -CHH 2 SO-. Peptide analogues may have more than one atom between bond atoms, such as ß-alanine, aminobutyric acid and the like. Amino acid analogs and peptide analogs often have improved or desirable properties, such as more economical production, higher chemical stability, improved pharmacological properties (half-life, absorption, activity, potency, etc.). Altered specificity (eg, broad spectrum of biological activity), reduced antigenicity, and other desirable properties.

В некоторых вариантах осуществления выделенные полипептиды содержат D-аминокислоты, которые можно использовать для получения более стабильных пептидов, поскольку D-аминокислоты не распознаются пептидазами. Систематическое замещение одной или более аминокислот консенсусной последовательности на D-аминокислоту того же типа (например, D-лизин вместо L-лизина) можно использовать для получения более стабильных пептидов. Остатки цистеина могут быть использованы для циклизации или присоединения двух или более пептидов вместе. Это может быть полезным для ограничения пептидов в определенных конформациях (см., например, Rizo and Gierasch, Ann. Rev. Biochem., 1992, 61, 387).In some embodiments, the isolated polypeptides contain D-amino acids, which can be used to produce more stable peptides since D-amino acids are not recognized by peptidases. Systematic replacement of one or more amino acids of the consensus sequence with a D-amino acid of the same type (eg, D-lysine instead of L-lysine) can be used to produce more stable peptides. Cysteine residues can be used to cyclize or join two or more peptides together. This can be useful for restricting peptides to certain conformations (see , eg, Rizo and Gierasch, Ann. Rev. Biochem ., 1992, 61, 387).

Данное раскрытие также относится к молекулам нуклеиновой кислоты, кодирующим любой из полипептидов, раскрытых в данном документе. Это включает все вырожденные последовательности, относящиеся к конкретной полипептидной последовательности (то есть все нуклеиновые кислоты, имеющие последовательность, кодирующую одну конкретную полипептидную последовательность, а также все нуклеиновые кислоты, включая вырожденные нуклеиновые кислоты, кодирующие раскрытые варианты и производные белковых последовательностей). Таким образом, хотя каждая конкретная последовательность нуклеиновой кислоты не может быть записана в данном документе, все и каждая последовательность фактически раскрывается и описывается в данном документе посредством раскрытых полипептидных последовательностей.This disclosure also relates to nucleic acid molecules encoding any of the polypeptides disclosed herein. This includes all degenerate sequences related to a particular polypeptide sequence (that is, all nucleic acids having a sequence encoding one particular polypeptide sequence, as well as all nucleic acids, including degenerate nucleic acids encoding disclosed variants and derivatives of protein sequences). Thus, although each specific nucleic acid sequence may not be recorded herein, each and every sequence is in fact disclosed and described herein by means of the disclosed polypeptide sequences.

Данное раскрытие также относится к композициям, содержащим любую одну или более молекул нуклеиновой кислоты и/или любой один или более полипептидов, раскрытых в данном документе. В некоторых вариантах осуществления композиции содержат носитель. В некоторых вариантах осуществления носитель повышает стабильность молекулы нуклеиновой кислоты и/или полипептида (например, продлевая период хранения при данных условиях (например, -20°C, 4°C или температуре окружающей среды), для которых остаются продукты разложения ниже порогового значения, такого как ниже 0,5 мас.% исходной нуклеиновой кислоты или белка, или повышение стабильности in vivo). Примеры носителей включают, но не ограничиваются ими, микросферы из поли (молочной кислоты) (PLA), микросферы из поли (D, L-молочной-гликолевой кислоты) (PLGA), липосомы, мицеллы, обратные мицеллы, липидные кохлеаты, и липидные микротрубочки.This disclosure also relates to compositions containing any one or more nucleic acid molecules and/or any one or more polypeptides disclosed herein. In some embodiments, the compositions contain a carrier. In some embodiments, the carrier increases the stability of the nucleic acid molecule and/or polypeptide (e.g., by extending the storage period under given conditions (e.g., -20°C, 4°C, or ambient temperature) for which degradation products remain below a threshold such as as below 0.5 wt.% of the original nucleic acid or protein, or increased stability in vivo ). Examples of carriers include, but are not limited to, poly(lactic acid) (PLA) microspheres, poly(D,L-lactic-glycolic acid) (PLGA) microspheres, liposomes, micelles, reverse micelles, lipid cochleates, and lipid microtubules .

Данное раскрытие также предоставляет способы получения любого из полипептидов B4GALT1 или их фрагментов, раскрытых в данном документе. Такие полипептиды B4GALT1 или их фрагменты могут быть получены любым подходящим способом. Например, полипептиды B4GALT1 или их фрагменты могут быть получены из клеток-хозяев, содержащих молекулы нуклеиновой кислоты (например, рекомбинантные векторы экспрессии), кодирующие такие полипептиды B4GALT1 или их фрагменты. Такие способы могут включать культивирование клетки-хозяина, содержащей молекулу нуклеиновой кислоты (например, рекомбинантный вектор экспрессии), кодирующую полипептид B4GALT1 или его фрагмент, в условиях, достаточных для получения полипептида B4GALT1 или его фрагмента, в результате чего получается полипептид B4GALT1 или его фрагмент. Нуклеиновая кислота может быть функционально связана с активным промотором в клетке-хозяине, и культивирование можно проводить в условиях, в которых экспрессируется нуклеиновая кислота. Такие способы могут дополнительно включать извлечение экспрессированного полипептида B4GALT1 или его фрагмента. Извлечение может дополнительно включать очистку полипептида B4GALT1 или его фрагмента.This disclosure also provides methods for producing any of the B4GALT1 polypeptides or fragments thereof disclosed herein. Such B4GALT1 polypeptides or fragments thereof may be prepared by any suitable method. For example, B4GALT1 polypeptides or fragments thereof can be obtained from host cells containing nucleic acid molecules (eg, recombinant expression vectors) encoding such B4GALT1 polypeptides or fragments thereof. Such methods may include culturing a host cell containing a nucleic acid molecule (e.g., a recombinant expression vector) encoding a B4GALT1 polypeptide or fragment thereof under conditions sufficient to produce the B4GALT1 polypeptide or fragment thereof, thereby resulting in a B4GALT1 polypeptide or fragment thereof. The nucleic acid can be operably linked to an active promoter in a host cell, and culture can be carried out under conditions in which the nucleic acid is expressed. Such methods may further include retrieving the expressed B4GALT1 polypeptide or fragment thereof. The recovery may further include purification of the B4GALT1 polypeptide or a fragment thereof.

Примеры подходящих систем для экспрессии белка включают клетки-хозяева, такие как, например: системы экспрессии бактериальных клеток (например, Escherichia coli, Lactococcus lactis), системы экспрессии дрожжевых клеток (например, Saccharomyces cerevisiae, Pichia pastoris), системы экспрессии клеток насекомых (например, бакуловирус-опосредованная экспрессия белка) и системы экспрессии клеток млекопитающих.Examples of suitable protein expression systems include host cells, such as, for example: bacterial cell expression systems (eg, Escherichia coli , Lactococcus lactis ), yeast cell expression systems (eg, Saccharomyces cerevisiae , Pichia pastoris ), insect cell expression systems (eg , baculovirus-mediated protein expression) and mammalian cell expression systems.

Примеры молекул нуклеиновых кислот, кодирующих полипептиды B4GALT1 или их фрагменты, раскрыты более подробно в другом месте данного документа. В некоторых вариантах осуществления молекулы нуклеиновой кислоты оптимизированы по кодонам для экспрессии в клетке-хозяине. В некоторых вариантах осуществления молекулы нуклеиновой кислоты функционально связаны с активным промотором в клетке-хозяине. Промотор может быть гетерологичным промотором (т.е. промотором, который не является природным промотором B4GALT1). Примеры промоторов, подходящих для Escherichia coli, включают, но не ограничиваются ими, арабинозу, lac, tac и T7 промоторы. Примеры промоторов, подходящих для Lactococcus lactis, включают, но не ограничиваются ими, промоторы P170 и низина. Примеры промоторов, подходящих для Saccharomyces cerevisiae, включают, но не ограничиваются ими, конститутивные промоторы, такие как промоторы алкогольдегидрогеназы (ADHI) или энолазы (ENO) или индуцибельные промоторы, такие как PHO, CUP1, GAL1 и G10. Примеры промоторов, подходящих для Pichia pastoris, включают, но не ограничиваются ими, промотор алкогольоксидазы I (AOX I), промотор глицеральдегид-3-фосфат-дегидрогеназы (GAP) и промотор глутатион-зависимой формальдегид-дегидрогеназы (FLDI). Примером промотора, подходящего для бакуловирус-опосредованной системы, является поздний вирусный сильный полиэдриновый промотор.Examples of nucleic acid molecules encoding polypeptidesB4GALT1 or portions thereof, are disclosed in more detail elsewhere in this document. In some embodiments, the nucleic acid molecules are codon optimized for expression in a host cell. In some embodiments, the nucleic acid molecules are operably linked to an active promoter in a host cell. The promoter may be a heterologous promoter (i.e., a promoter that is not a natural promoterB4GALT1). Examples of promoters suitable forEscherichia coliinclude, but are not limited to, arabinose,lac,tacand T7 promoters. Examples of promoters suitable for Lactococcus lactis include, but are not limited to, P170 and nisin promoters. Examples of promoters suitable forSaccharomyces cerevisiae, include, but are not limited to, constitutive promoters such as alcohol dehydrogenase (ADHI) or enolase (ENO) promoters or inducible promoters such as PHO, CUP1, GAL1 and G10. Examples of promoters suitable forPichia pastoris, include, but are not limited to, the alcohol oxidase I (AOX I) promoter, the glyceraldehyde-3-phosphate dehydrogenase (GAP) promoter, and the glutathione-dependent formaldehyde dehydrogenase (FLDI) promoter. An example of a promoter suitable for a baculovirus-mediated system is the late viral strong polyhedrin promoter.

В некоторых вариантах осуществления молекулы нуклеиновой кислоты кодируют метку в рамке с полипептидом B4GALT1 или его фрагментом для облегчения очистки белка. Примеры тегов раскрыты в другом месте в данном документе. Такие метки могут, например, связываться с лигандом-партнером (например, иммобилизованным на смоле), так что меченый белок может быть выделен из всех других белков (например, белков клетки-хозяина). Аффинная хроматография, высокоэффективная жидкостная хроматография (ВЭЖХ) и эксклюзионная хроматография (SEC - size exclusion chromatography) являются примерами методов, которые можно использовать для улучшения чистоты экспрессируемого белка.In some embodiments, the nucleic acid molecules encode a tag in frame with a B4GALT1 polypeptide or fragment thereof to facilitate protein purification. Examples of tags are disclosed elsewhere in this document. Such tags can, for example, bind to a partner ligand (eg, immobilized on a resin) such that the tagged protein can be isolated from all other proteins (eg, host cell proteins). Affinity chromatography, high performance liquid chromatography (HPLC), and size exclusion chromatography (SEC) are examples of techniques that can be used to improve the purity of the expressed protein.

Другие способы также могут быть использованы для получения полипептидов B4GALT1 или их фрагментов. Например, два или более пептидов или полипептидов могут быть связаны друг с другом методами химии белка. Например, пептиды или полипептиды могут быть химически синтезированы с использованием химии Fmoc (9-флуоренилметилоксикарбонил) или Boc (tert-бутилоксикарбоноил). Такие пептиды или полипептиды могут быть синтезированы стандартными химическими реакциями. Например, пептид или полипептид может быть синтезирован и не отщеплен от его синтетической смолы, тогда как другой фрагмент пептида или белка может быть синтезирован и впоследствии отщеплен от смолы, тем самым подвергая концевую группу, которая функционально блокирована на другом фрагменте. В результате реакций конденсации пептидов эти два фрагмента могут быть ковалентно связаны через пептидную связь на их карбоксильном и аминоконце, соответственно. Альтернативно, пептид или полипептид может быть независимо синтезирован in vivo, как описано в данном документе. После выделения эти независимые пептиды или полипептиды могут быть связаны с образованием пептида или его фрагмента посредством аналогичных реакций конденсации пептидов.Other methods may also be used to produce B4GALT1 polypeptides or fragments thereof. For example, two or more peptides or polypeptides can be linked to each other by protein chemistry methods. For example, peptides or polypeptides can be chemically synthesized using Fmoc (9-fluorenylmethyloxycarbonyl) or Boc (tert-butyloxycarbonyl) chemistry. Such peptides or polypeptides can be synthesized by standard chemical reactions. For example, a peptide or polypeptide may be synthesized and not cleaved from its synthetic resin, while another fragment of the peptide or protein may be synthesized and subsequently cleaved from the resin, thereby exposing an end group that is operably blocked on the other fragment. Through peptide condensation reactions, the two moieties can be covalently linked through a peptide bond at their carboxyl and amino termini, respectively. Alternatively, the peptide or polypeptide can be independently synthesized in vivo, as described herein. Once isolated, these independent peptides or polypeptides can be coupled to form a peptide or fragment thereof through analogous peptide condensation reactions.

В некоторых вариантах осуществления ферментативное лигирование клонированных или синтетических пептидных сегментов позволяет соединять относительно короткие пептидные фрагменты для получения более крупных пептидных фрагментов, полипептидов или целых белковых доменов (Abrahmsen et al., Biochemistry, 1991, 30, 4151). Альтернативно, нативное химическое лигирование синтетических пептидов может быть использовано для синтетического конструирования больших пептидов или полипептидов из более коротких пептидных фрагментов. Этот метод может состоять из двухэтапной химической реакции (см. Dawson et al., Science, 1994, 266, 776-779). Первым этапом может быть хемоселективная реакция незащищенного синтетического пептидтиоэфира с другим незащищенным пептидным сегментом, содержащим аминоконцевой остаток Cys, с получением промежуточного соединения, связанного с тиоэфиром, в качестве исходного ковалентного продукта. Без изменения условий реакции это промежуточное соединение может подвергаться спонтанной, быстрой внутримолекулярной реакции с образованием нативной пептидной связи в месте лигирования.In some embodiments, enzymatic ligation of cloned or synthetic peptide segments allows relatively short peptide fragments to be joined to produce larger peptide fragments, polypeptides, or entire protein domains (Abrahmsen et al., Biochemistry , 1991, 30, 4151). Alternatively, native chemical ligation of synthetic peptides can be used to synthetically construct large peptides or polypeptides from shorter peptide fragments. This method may consist of a two-step chemical reaction (see Dawson et al., Science , 1994, 266, 776-779). The first step may be the chemoselective reaction of an unprotected synthetic peptide thioester with another unprotected peptide segment containing an amino-terminal Cys residue to produce a thioester-linked intermediate as the starting covalent product. Without changing the reaction conditions, this intermediate can undergo a spontaneous, rapid intramolecular reaction to form a native peptide bond at the ligation site.

В некоторых вариантах осуществления незащищенные пептидные сегменты могут быть химически связаны, когда связь, образованная между пептидными сегментами в результате химического лигирования, представляет собой неестественную (непептидную) связь (см. Schnolzer et al., Science, 1992, 256)., 221). In some embodiments, exposed peptide segments may be chemically linked when the bond formed between the peptide segments as a result of chemical ligation is a non-natural (non-peptide) bond (see Schnolzer et al., Science , 1992, 256, 221).

Данное раскрытие также относится к клеткам (например, рекомбинантным клеткам-хозяевам), содержащим любую одну или более молекул нуклеиновой кислоты и/или любой один или более полипептидов, раскрытых в данном документе. Клетки могут быть in vitro, ex vivo или in vivo. Молекулы нуклеиновой кислоты могут быть связаны с промотором и другими регуляторными последовательностями, поэтому они экспрессируются с образованием кодируемого белка. This disclosure also applies to cells (eg, recombinant host cells) containing any one or more nucleic acid molecules and/or any one or more polypeptides disclosed herein. Cells can be in vitro , ex vivo or in vivo . Nucleic acid molecules can be linked to a promoter and other regulatory sequences so that they are expressed to form the encoded protein.

В некоторых вариантах осуществления клетка представляет собой тотипотентную клетку или плюрипотентную клетку (например, эмбрионую стволовую (ES) клетку, такую как ES клетка грызунов, ES клетка мыши или ES клетка крысы). Тотипотентные клетки включают недифференцированные клетки, которые могут давать клетки любого типа, а плюрипотентные клетки включают недифференцированные клетки, которые обладают способностью развиваться в более чем один тип дифференцированных клеток. Такими плюрипотентными и/или тотипотентными клетками могут быть, например, ES клетки или ES-подобные клетки, такие как индуцированные плюрипотентные стволовые (iPS) клетки. ES клетки включают в себя эмбриональные тотипотентные или плюрипотентные клетки, которые способны вносить вклад в любую ткань развивающегося эмбриона при введении в эмбрион. ES клетки могут быть получены из внутренней клеточной массы бластоцисты и способны дифференцироваться в клетки любого из трех слоев зародышей позвоночных (энтодерма, эктодерма и мезодерма).In some embodiments, the cell is a totipotent cell or a pluripotent cell (eg, an embryonic stem (ES) cell such as a rodent ES cell, a mouse ES cell, or a rat ES cell). Totipotent cells include undifferentiated cells that can give rise to any cell type, and pluripotent cells include undifferentiated cells that have the ability to develop into more than one type of differentiated cell. Such pluripotent and/or totipotent cells may be, for example, ES cells or ES-like cells, such as induced pluripotent stem (iPS) cells. ES cells include embryonic totipotent or pluripotent cells that are capable of contributing to any tissue of the developing embryo when introduced into the embryo. ES cells can be derived from the inner cell mass of the blastocyst and are capable of differentiating into cells of any of the three layers of the vertebrate embryo (endoderm, ectoderm, and mesoderm).

В некоторых вариантах осуществления клетка представляет собой первичную (primary) соматическую клетку или клетку, которая не является первичной соматической клеткой. Соматические клетки могут включать любую клетку, которая не является гаметой, зародышевой клеткой, гаметоцитом или недифференцированной стволовой клеткой. В некоторых вариантах осуществления клетка также может быть первичной клеткой. Первичные клетки включают клетки или культуры клеток, которые были выделены непосредственно из организма, органа или ткани. Первичные клетки включают клетки, которые не являются ни трансформированными, ни иммортализированными. Первичные клетки включают любую клетку, полученную из организма, органа или ткани, которая ранее не была введена в культуру ткани или ранее была введена в культуру ткани, но не способна бесконечно вводится в культуру ткани. Такие клетки могут быть выделены общепринятыми методами и включают, например, соматические клетки, кроветворные клетки, эндотелиальные клетки, эпителиальные клетки, фибробласты, мезенхимные клетки, кератиноциты, меланоциты, моноциты, мононуклеарные клетки, адипоциты, преадипоциты, нейроны, глиальные клетки, гепатоциты, скелетные миобласты и гладкомышечные клетки. Например, первичные клетки могут быть получены из соединительных тканей, мышечных тканей, тканей нервной системы или эпителиальных тканей.In some embodiments, the cell is a primary somatic cell or a cell that is not a primary somatic cell. Somatic cells can include any cell that is not a gamete, germ cell, gametocyte, or undifferentiated stem cell. In some embodiments, the cell may also be a primary cell. Primary cells include cells or cell cultures that have been isolated directly from an organism, organ, or tissue. Primary cells include cells that are neither transformed nor immortalized. Primary cells include any cell obtained from an organism, organ, or tissue that has not previously been introduced into tissue culture or has been previously introduced into tissue culture but is not capable of being introduced into tissue culture indefinitely. Such cells can be isolated by conventional methods and include, for example, somatic cells, hematopoietic cells, endothelial cells, epithelial cells, fibroblasts, mesenchymal cells, keratinocytes, melanocytes, monocytes, mononuclear cells, adipocytes, preadipocytes, neurons, glial cells, hepatocytes, skeletal myoblasts and smooth muscle cells. For example, primary cells can be obtained from connective tissues, muscle tissues, nervous system tissues, or epithelial tissues.

В некоторых вариантах осуществления клетки могут обычно не размножаться бесконечно, но из-за мутации или изменения избегают нормального клеточного старения и вместо этого могут продолжать подвергаться делению. Такие мутации или изменения могут происходить естественным путем или быть преднамеренно вызванными. Примеры иммортализованных клеток включают, но не ограничиваются ими, клетки яичника китайского хомячка (СНО), клетки эмбриональной почки человека (например, клетки HEK 293) и клетки эмбриональной фибробласта мыши (например, клетки 3T3). Многочисленные типы иммортализованных клеток хорошо известны. Иммортализированные или первичные клетки включают клетки, которые обычно используются для культивирования или для экспрессии рекомбинантных генов или белков. В некоторых вариантах осуществления клетка представляет собой дифференцированную клетку, такую как клетка печени (например, клетка печени человека).In some embodiments, cells may not normally proliferate indefinitely, but due to a mutation or change, evade normal cellular aging and may instead continue to undergo division. Such mutations or changes may occur naturally or be deliberately induced. Examples of immortalized cells include, but are not limited to, Chinese hamster ovary (CHO) cells, human embryonic kidney cells (eg, HEK 293 cells), and mouse embryonic fibroblast cells (eg, 3T3 cells). Numerous types of immortalized cells are well known. Immortalized or primary cells include cells that are typically used for culture or for the expression of recombinant genes or proteins. In some embodiments, the cell is a differentiated cell, such as a liver cell (eg, a human liver cell).

Клетка может быть из любого источника. Например, клетка может быть эукариотической клеткой, животной клеткой, растительной клеткой или грибковой (например, дрожжевой) клеткой. Такими клетками могут быть клетки рыб или клетки птиц, или такие клетки могут быть клетками млекопитающих, такими как клетки человека, клетки млекопитающих, отличных от человека, клетки грызунов, клетки мыши или клетки крысы. Млекопитающие включают, но не ограничиваются ими, людей, приматов, не являющихся людьми, обезьян, макак, кошек, собак, лошадей, быков, оленей, бизонов, овец, грызунов (например, мышей, крыс, хомяков, морских свинок), домашний скот (например, виды крупного рогатого скота, такие как коровы, быки и т.д.; виды овец, такие как овцы, козы и т.д.; и виды свиней, такие как свиньи и кабаны). Птицы включают, но не ограничиваются ими, кур, индеек, страусов, гусей, уток и т.д. Домашние животные и сельскохозяйственные животные также включаются/имеются ввиду. Термин «животное, отличное от человека» исключает людей.The cell can be from any source. For example, the cell may be a eukaryotic cell, an animal cell, a plant cell, or a fungal (eg, yeast) cell. Such cells may be fish cells or avian cells, or such cells may be mammalian cells, such as human cells, non-human mammalian cells, rodent cells, mouse cells, or rat cells. Mammals include, but are not limited to, humans, non-human primates, monkeys, macaques, cats, dogs, horses, bovines, deer, bison, sheep, rodents (e.g., mice, rats, hamsters, guinea pigs), livestock (eg bovine species such as cows, bulls, etc.; sheep species such as sheep, goats, etc.; and pig species such as pigs and boars). Birds include, but are not limited to, chickens, turkeys, ostriches, geese, ducks, etc. Pets and farm animals are/are also included. The term "non-human animal" excludes humans.

Данное раскрытие также обеспечивает способы обнаружения присутствия варианта гена, мРНК, кДНК и/или полипептида B4GALT1 в биологическом образце от субъекта-человека. Понятно, что последовательности генов в популяции и мРНК и белки, кодируемые такими генами, могут варьироваться из-за полиморфизмов, таких как однонуклеотидные полиморфизмы. Последовательности, представленные в данном документе для гена, мРНК, кДНК и полипептида B4GALT1, являются только иллюстративными последовательностями. Также возможны другие последовательности для гена, мРНК, кДНК и полипептида B4GALT1.This disclosure also provides methods for detecting the presence of a B4GALT1 gene variant, mRNA, cDNA, and/or polypeptide in a biological sample from a human subject. It is understood that the sequences of genes in a population and the mRNAs and proteins encoded by such genes can vary due to polymorphisms such as single nucleotide polymorphisms. The sequences presented herein for the B4GALT1 gene , mRNA, cDNA, and polypeptide are illustrative sequences only. Other sequences are also possible for the B4GALT1 gene , mRNA, cDNA and polypeptide.

Биологический образец может быть получен из любой клетки, ткани или биологической жидкости от субъекта. Образец может содержать любую клинически значимую ткань, такую как образец костного мозга, биопсия опухоли, тонкоигольный аспират или образец жидкости организма, такой как кровь, плазма, сыворотка, лимфа, асцитическая жидкость, кистозная жидкость или моча. В некоторых случаях образец содержит щечный тампон. Образец, используемый в способах, раскрытых в данном документе, будет варьироваться в зависимости от формата анализа, природы метода обнаружения и тканей, клеток или экстрактов, которые используются в качестве образца. Биологический образец может быть обработан по-разному в зависимости от используемого анализа. Например, при обнаружении варианта молекулы нуклеиновой кислоты B4GALT1 можно использовать предварительную обработку, предназначенную для выделения или обогащения образца для геномной ДНК. Для этой цели можно использовать множество известных методов. При определении уровня мРНК B4GALT1 можно использовать различные методы для обогащения биологического образца мРНК. Могут быть использованы различные методы для определения наличия или уровня мРНК или присутствия определенного варианта геномного локуса ДНК.A biological sample can be obtained from any cell, tissue, or biological fluid from a subject. The sample may contain any clinically relevant tissue, such as a bone marrow sample, a tumor biopsy, a fine needle aspirate, or a sample of a body fluid such as blood, plasma, serum, lymph, ascitic fluid, cystic fluid, or urine. In some cases, the sample contains a buccal swab. The sample used in the methods disclosed herein will vary depending on the assay format, the nature of the detection method, and the tissue, cells, or extracts that are used as the sample. A biological sample may be processed differently depending on the assay used. For example, when a B4GALT1 nucleic acid molecule variant is detected, preprocessing designed to isolate or enrich the sample for genomic DNA can be used. Many known methods can be used for this purpose. When determining B4GALT1 mRNA levels, various methods can be used to enrich a biological sample for mRNA. Various methods can be used to determine the presence or level of mRNA or the presence of a particular variant of a genomic DNA locus.

В некоторых вариантах осуществления данное изобретение относится к способам обнаружения наличия или отсутствия варианта молекулы нуклеиновой кислоты B4GALT1, включающему секвенирование, по меньшей мере, части нуклеиновой кислоты в биологическом образце, чтобы определить, содержит ли нуклеиновая кислота нуклеотиды с 53757 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2.In some embodiments, the present invention provides methods for detecting the presence or absence of a variant B4GALT1 nucleic acid molecule, comprising sequencing at least a portion of the nucleic acid in a biological sample to determine whether the nucleic acid contains nucleotides 53757 to 53577 of SEQ ID NO: 2 in provisions that correspond to provisions 53757 to 53577 of SEQ ID NO:2.

В некоторых вариантах осуществления данное изобретение относится к способам обнаружения наличия или отсутствия варианта молекулы нуклеиновой кислоты B4GALT1, включающему секвенирование, по меньшей мере, части нуклеиновой кислоты в биологическом образце для определения того, содержит ли нуклеиновая кислота нуклеотиды с 1243 по 1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям с 1243 по 1245 из SEQ ID NO:4.In some embodiments, the present invention provides methods for detecting the presence or absence of a variant B4GALT1 nucleic acid molecule, comprising sequencing at least a portion of the nucleic acid in a biological sample to determine whether the nucleic acid contains nucleotides 1243 to 1245 of SEQ ID NO: 4 in positions that correspond to provisions 1243 to 1245 of SEQ ID NO:4.

В некоторых вариантах осуществления данное изобретение относится к способам обнаружения присутствия или отсутствия варианта молекулы нуклеиновой кислоты B4GALT1 варианта, включающему секвенирование, по меньшей мере, части нуклеиновой кислоты в биологическом образце для определения того, содержит ли нуклеиновая кислота нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6.In some embodiments, the present invention provides methods for detecting the presence or absence of a B4GALT1 variant nucleic acid molecule, comprising sequencing at least a portion of the nucleic acid in a biological sample to determine whether the nucleic acid contains nucleotides 1054 to 1056 of SEQ ID NO. :6 in provisions that correspond to provisions 1054-1056 SEQ ID NO:6.

В некоторых вариантах осуществления способы обнаружения наличия или отсутствия варианта молекулы нуклеиновой кислоты (например, гена, мРНК или кДНК) B4GALT1 у человека включают в себя: выполнение анализа на биологическом образце от человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует серин в положении 352 SEQ ID NO:8. В некоторых вариантах осуществления биологический образец содержит клетку или клеточный лизат. Такие способы могут включать, например, получение биологического образца от субъекта, содержащего ген B4GALT1, мРНК или кДНК, и проведение анализа биологического образца, который определяет, что положение гена, мРНК или кДНК B4GALT1 соответствующие положениям с 53757 по 53577 из SEQ ID NO:2 (ген), положениям с 1243 по 1245 из SEQ ID NO:4 (мРНК) или положениям 1054-1056 SEQ ID NO:6 (кДНК) кодирует серин вместо аспарагина в положении, соответствующем положению 352 варианта полипептида B4GALT1. Такие анализы могут включать, например, определение идентичности этих положений конкретной молекулы нуклеиновой кислоты B4GALT1. In some embodiments, methods for detecting the presence or absence of a B4GALT1 nucleic acid molecule variant (e.g., gene, mRNA, or cDNA) in a human include: performing an assay on a biological sample from the human that determines whether the nucleic acid molecule in the biological sample contains a nucleic acid sequence acid, which encodes serine at position 352 of SEQ ID NO:8. In some embodiments, the biological sample comprises a cell or cell lysate. Such methods may include, for example, obtaining a biological sample from a subject containing a B4GALT1 gene, mRNA, or cDNA, and conducting an analysis of the biological sample that determines that the position of the B4GALT1 gene , mRNA, or cDNA corresponds to positions 53757 to 53577 of SEQ ID NO:2 (gene), positions 1243 to 1245 of SEQ ID NO:4 (mRNA) or positions 1054 to 1056 of SEQ ID NO:6 (cDNA) encodes a serine instead of an asparagine at a position corresponding to position 352 of the B4GALT1 polypeptide variant. Such analyzes may include, for example, determining the identity of these positions of a particular B4GALT1 nucleic acid molecule.

В некоторых вариантах осуществления анализ включает в себя: секвенирование части геномной последовательности молекулы нуклеиновой кислоты B4GALT1 в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2; секвенирование части последовательности молекулы нуклеиновой кислоты мРНК B4GALT1 в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4; или секвенирование части последовательности молекулы нуклеиновой кислоты кДНК B4GALT1 в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 последовательности SEQ ID NO:6.In some embodiments, the analysis includes: sequencing a portion of the genomic sequence of a B4GALT1 nucleic acid molecule in a biological sample from a human, wherein the sequenced portion includes positions corresponding to positions 53575 to 53577 of SEQ ID NO:2; sequencing a portion of the B4GALT1 mRNA nucleic acid molecule sequence in a biological sample from a human, wherein the sequenced portion includes positions corresponding to positions 1243 to 1245 of SEQ ID NO:4; or sequencing a portion of the sequence of a B4GALT1 cDNA nucleic acid molecule in a biological sample from a human, wherein the sequenced portion includes positions corresponding to positions 1054 to 1056 of SEQ ID NO:6.

В некоторых вариантах осуществления анализ включает в себя: a) приведение биологического образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая является ближайшей к положению геномной последовательности B4GALT1, соответствующей положениям с 53575 по 53577 из SEQ ID NO:2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 из SEQ ID NO:4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO:6; b) удлинение праймера, по меньшей мере, далее: i) положение геномной последовательности B4GALT1, соответствующее положениям с 53575 по 53577; ii) положение мРНК B4GALT1, соответствующее положениям с 1243 по 1245; или iii) положение кДНК B4GALT1, соответствующее положениям с 1054 по 1056; и c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i) соответствующих положениям 53575-53577 геномной последовательности B4GALT1 ; ii) соответствующих положениям с 1243 по 1245 мРНК B4GALT1 ; или iii) соответствующих положениям с 1054 по 1056 кДНК B4GALT1 ; которые кодируют серин в положении 352 из SEQ ID NO:8. В некоторых вариантах осуществления анализируется только геномная ДНК B4GALT1. В некоторых вариантах осуществления анализируется только мРНК B4GALT1. В некоторых вариантах осуществления анализируется только кДНК B4GALT1. In some embodiments, the assay includes: a) contacting the biological sample with a primer that hybridizes to: i) a portion of the B4GALT1 genomic sequence that is closest to the position of the B4GALT1 genomic sequence corresponding to positions 53575 to 53577 of SEQ ID NO:2 ; ii) a portion of the B4GALT1 mRNA sequence that is adjacent to the position of the B4GALT1 mRNA corresponding to positions 1243 to 1245 of SEQ ID NO:4; or iii) a portion of the B4GALT1 cDNA sequence that is adjacent to the position of the B4GALT1 cDNA corresponding to SEQ ID NO:6 positions 1054-1056; b) extending the primer at least further than: i) a position of the B4GALT1 genomic sequence corresponding to positions 53575 to 53577; ii) the position of B4GALT1 mRNA corresponding to positions 1243 to 1245; or iii) the B4GALT1 cDNA position corresponding to positions 1054 to 1056; and c) determining whether the primer extension product contains nucleotides at positions: i) corresponding to positions 53575-53577 of the B4GALT1 genomic sequence; ii) corresponding to positions 1243 to 1245 of B4GALT1 mRNA; or iii) corresponding to positions 1054 to 1056 of the B4GALT1 cDNA; which encode serine at position 352 of SEQ ID NO:8. In some embodiments, only B4GALT1 genomic DNA is analyzed. In some embodiments, only B4GALT1 mRNA is analyzed. In some embodiments, only the B4GALT1 cDNA is analyzed.

В некоторых вариантах осуществления анализ включает контакт биологического образца с праймером или зондом, который специфически гибридизуется с вариабельной геномной последовательностью B4GALT1, последовательностью мРНК или последовательностью кДНК, а не с соответствующей последовательностью B4GALT1 дикого типа в строгих условиях, и определение того, произошла ли гибридизация.In some embodiments, the assay includes contacting a biological sample with a primer or probe that specifically hybridizes to a B4GALT1 variable genomic sequence, mRNA sequence, or cDNA sequence rather than the corresponding wild-type B4GALT1 sequence under stringent conditions, and determining whether hybridization has occurred.

В некоторых вариантах осуществления описанные выше анализы включают РНК-секвенирование (RNA-Seq). В некоторых вариантах осуществления анализы также включают полимеразную цепную реакцию с обратной транскрипцией (ОТ-ПЦР). In some embodiments, the analyzes described above include RNA sequencing (RNA-Seq). In some embodiments, the assays also include reverse transcription polymerase chain reaction (RT-PCR).

В некоторых вариантах осуществления в этих способах используются зонды и праймеры с достаточной длиной нуклеотида, чтобы связываться с последовательностью нуклеиновой кислоты-мишени и специфически обнаруживать и/или идентифицировать полинуклеотид, содержащий вариантный ген, мРНК или кДНК B4GALT1. Условия гибридизации или условия реакции могут быть определены оператором для достижения этого результата. Эта длина может быть любой длины, достаточной для использования в выбранном способе обнаружения. Обычно, например, около 8, около 11, около 14, около 16, около 18, около 20, около 22, около 24, около 26, около 28, около 30, около 40, около 50, около 75, около 100, около 200, около 300, около 400, около 500, около 600 или около 700 нуклеотидов или более, или от около 11 до около 20, от около 20 до около 30, от около 30 до около 40, от около 40 до около 50, от около 50 до около 100, от около 100 до около 200, от около 200 до около 300, от около 300 до около 400, от около 400 до около 500, от около 500 до около 600, от около 600 до около 700 или от около 700 до около 800 или более нуклеотидов в длину. Такие зонды и праймеры могут специфически гибридизоваться с последовательностью-мишенью в условиях гибридизации с высокой строгостью. Зонды и праймеры могут иметь полную идентичность последовательности нуклеиновой кислоты смежных нуклеотидов с последовательностью-мишенью, хотя зонды, отличающиеся от последовательности нуклеиновой кислоты-мишени и сохраняющие способность специфически обнаруживать и/или идентифицировать последовательность нуклеиновой кислоты-мишени, могут быть сконструированы обычными способами. Соответственно, зонды и праймеры могут иметь около 80%, около 85%, около 90%, около 91%, около 92%, около 93%, около 94%, около 95%, около 96%, около 97%, около 98% около 99% или 100% идентичности или комплементарности последовательности к целевой молекуле нуклеиновой кислоты.In some embodiments, these methods use probes and primers of sufficient nucleotide length to bind to a target nucleic acid sequence and specifically detect and/or identify a polynucleotide containing a B4GALT1 variant gene, mRNA, or cDNA. Hybridization conditions or reaction conditions can be determined by the operator to achieve this result. This length can be any length sufficient for use in the selected detection method. Typically, for example, about 8, about 11, about 14, about 16, about 18, about 20, about 22, about 24, about 26, about 28, about 30, about 40, about 50, about 75, about 100, about 200, about 300, about 400, about 500, about 600 or about 700 nucleotides or more, or from about 11 to about 20, from about 20 to about 30, from about 30 to about 40, from about 40 to about 50, from from about 50 to about 100, from about 100 to about 200, from about 200 to about 300, from about 300 to about 400, from about 400 to about 500, from about 500 to about 600, from about 600 to about 700 or from about 700 to about 800 or more nucleotides in length. Such probes and primers can specifically hybridize to a target sequence under high stringency hybridization conditions. Probes and primers may have complete nucleic acid sequence identity of adjacent nucleotides to the target sequence, although probes that differ from the target nucleic acid sequence and retain the ability to specifically detect and/or identify the target nucleic acid sequence can be designed by conventional methods. Accordingly, probes and primers may have about 80%, about 85%, about 90%, about 91%, about 92%, about 93%, about 94%, about 95%, about 96%, about 97%, about 98% about 99% or 100% sequence identity or complementarity to the target nucleic acid molecule.

В некоторых вариантах осуществления специфические праймеры можно использовать для амплификации варианта мРНК или кДНК варианта B4GALT1 и/или B4GALT1, чтобы получить ампликон, который можно использовать в качестве специфического зонда или сам можно обнаружить для идентификации варианта B4GALT1 локус или для определения уровня специфической B4GALT1 мРНК или кДНК в биологическом образце. Вариантный локус B4GALT1 можно использовать для обозначения последовательности геномной нуклеиновой кислоты, включающей положение, соответствующее положениям с 53575 по 53577 в SEQ ID NO:2. Когда зонд гибридизуется с молекулой нуклеиновой кислоты в биологическом образце в условиях, которые позволяют связать зонд с молекулой нуклеиновой кислоты, это связывание может быть обнаружено и позволяет указывать на присутствие варианта локуса B4GALT1 или наличие или уровень мРНК или кДНК варианта B4GALT1 в биологическом образце. Такая идентификация связанного зонда была описана. Конкретный зонд может содержать последовательность, по меньшей мере, на около 80%, от на около 80% до на около 85%, от на около 85% до на около 90%, от на около 90% до на около 95% и от на около 95% до на около 100% идентичную (или комплементарную) определенной области варианта гена B4GALT1. Конкретный зонд может содержать последовательность, по меньшей мере, на около 80%, от на около 80% до на около 85%, от на около 85% до на около 90%, от на около 90% до на около 95% и от на около 95% до на около 100% идентичную (или комплементарную) определенной области мРНК варианта B4GALT1. Конкретный зонд может содержать последовательность, по меньшей мере, на около 80%, от на около 80% до на около 85%, от на около 85% до на около 90%, от на около 90% до на около 95% и от на около 95% до на около 100% идентиченую (или комплементарную) определенной области кДНК варианта B4GALT1.In some embodiments, specific primers can be used to amplify a B4GALT1 and/or B4GALT1 variant mRNA or cDNA variant to produce an amplicon that can be used as a specific probe or itself can be detected to identify a B4GALT1 variant locus or to determine the level of a specific B4GALT1 mRNA or cDNA in a biological sample. The B4GALT1 variant locus can be used to designate a genomic nucleic acid sequence comprising a position corresponding to positions 53575 to 53577 in SEQ ID NO:2. When a probe hybridizes to a nucleic acid molecule in a biological sample under conditions that allow binding of the probe to the nucleic acid molecule, this binding can be detected and provides an indication of the presence of a variant of the B4GALT1 locus or the presence or level of mRNA or cDNA of a B4GALT1 variant in the biological sample. Such identification of the associated probe has been described. A particular probe may contain at least about 80% of the sequence, from about 80% to about 85%, from about 85% to about 90%, from about 90% to about 95%, and from about 95% to about 100% identical (or complementary) to a specific region of the B4GALT1 gene variant. A particular probe may contain at least about 80% of the sequence, from about 80% to about 85%, from about 85% to about 90%, from about 90% to about 95%, and from about 95% to about 100% identical (or complementary) to a specific region of the B4GALT1 variant mRNA. A particular probe may contain at least about 80% of the sequence, from about 80% to about 85%, from about 85% to about 90%, from about 90% to about 95%, and from about 95% to about 100% identical (or complementary) to a specific region of the B4GALT1 variant cDNA.

В некоторых вариантах осуществления для определения того, содержит ли комплемент нуклеиновой кислоты биологического образца нуклеиновые последовательности, кодирующие серин, в положениях с 53575 по 53577 в локусе гена варианта B4GALT1 (SEQ ID NO:2), биологический образец может быть подвергнут воздействию нуклеиновой кислоты. Метод кислотной амплификации с использованием пары праймеров, который включает первый праймер, полученный из 5'-фланкирующей последовательности, смежной с положениями с 53575 по 53577, и второй праймер, полученный из 3' фланкирующей последовательности, смежной с положениями с 53575 по 53577, для получения ампликона, который является диагностическим для присутствия ОНП в положениях с 53575 по 53577 в локусе гена варианта B4GALT1 (SEQ ID NO:2). В некоторых вариантах осуществления длина ампликона может варьироваться от объединенной длины пар праймеров плюс одна пара нуклеотидных оснований до любой длины ампликона, продуцируемой по протоколу амплификации ДНК. Это расстояние может составлять от одной пары нуклеотидных оснований до пределов реакции амплификации или около двадцати тысяч нуклеотидных пар оснований. Необязательно, пара праймеров окружает область, включающую положения с 53575 по 53577 и, по меньшей мере, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более нуклеотидов на каждой стороне от положений 53575 до 53577. Подобные ампликоны могут быть получены из последовательностей мРНК и/или кДНК.In some embodiments, to determine whether the nucleic acid complement of a biological sample contains nucleic acid sequences encoding serine at positions 53575 to 53577 in the B4GALT1 variant gene locus (SEQ ID NO:2), the biological sample may be exposed to the nucleic acid. An acid amplification method using a primer pair that includes a first primer derived from the 5' flanking sequence adjacent to positions 53575 to 53577 and a second primer derived from the 3' flanking sequence adjacent to positions 53575 to 53577 to obtain amplicon that is diagnostic for the presence of SNPs at positions 53575 to 53577 in the B4GALT1 variant gene locus (SEQ ID NO:2). In some embodiments, the amplicon length may vary from the combined length of the primer pairs plus one nucleotide base pair to any amplicon length produced by the DNA amplification protocol. This distance can range from one nucleotide base pair to the limits of the amplification reaction, or about twenty thousand nucleotide base pairs. Optionally, the primer pair surrounds a region including positions 53575 to 53577 and at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 or more nucleotides on each side of positions 53575 to 53577. Such amplicons can be obtained from mRNA and/or cDNA sequences.

Типичные способы получения и использования зондов и праймеров описаны, например, в Molecular Cloning: A Laboratory Manual, 2nd Ed., Vol. 1-3, ed. Sambrook et al., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 1989 (далее, “Sambrook et al., 1989”); Current Protocols in Molecular Biology, ed. Ausubel et al., Greene Publishing and Wiley-Interscience, New York, 1992 (с периодическими обновлениями) (далее «Ausubel et al., 1992»); и Innis et al., PCR Protocols: A Guide to Methods and Applications, Academic Press: San Diego, 1990. Пары праймеров для ПЦР могут быть получены из известной последовательности, например, с использованием компьютерных программ, предназначенных для этой цели, таких как инструмент анализа праймеров для ПЦР в Vector NTI версии 10 (Informax Inc., Bethesda Md.); PrimerSelect (DNASTAR Inc., Мэдисон, Висконсин); и Primer3 (версия 0.4.0. COPYRGT., 1991, Институт биомедицинских исследований Уайтхеда, Кембридж, штат Массачусетс). Кроме того, последовательность можно визуально сканировать и вручную определять праймеры с использованием известных рекомендаций.Typical methods for preparing and using probes and primers are described, for example, in Molecular Cloning: A Laboratory Manual, 2nd Ed., Vol. 1-3, ed. Sambrook et al., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY 1989 (hereinafter referred to as “Sambrook et al., 1989”); Current Protocols in Molecular Biology , ed. Ausubel et al., Greene Publishing and Wiley-Interscience, New York, 1992 (with periodic updates) (“Ausubel et al., 1992”); and Innis et al., PCR Protocols: A Guide to Methods and Applications, Academic Press: San Diego, 1990. PCR primer pairs can be generated from a known sequence, for example, using computer programs designed for this purpose, such as the analysis of PCR primers in Vector NTI version 10 (Informax Inc., Bethesda Md.); PrimerSelect (DNASTAR Inc., Madison, WI); and Primer3 (version 0.4.0. COPYRGT., 1991, Whitehead Institute for Biomedical Research, Cambridge, Massachusetts). Additionally, the sequence can be visually scanned and primers manually determined using known guidelines.

Как более подробно описано ниже, любой традиционный метод гибридизации, амплификации или секвенирования нуклеиновых кислот можно использовать для специфического выявления присутствия варианта локуса гена варианта B4GALT1 и/или уровня мРНК или кДНК варианта B4GALT1. В некоторых вариантах осуществления молекулу нуклеиновой кислоты можно использовать либо в качестве праймера для амплификации области нуклеиновой кислоты B4GALT1, либо молекулу нуклеиновой кислоты можно использовать в качестве зонда, который гибридизуется в жестких условиях с молекулой нуклеиновой кислоты, содержащей локус гена варианта B4GALT1 или молекула нуклеиновой кислоты, содержащая мРНК или кДНК варианта B4GALT1.As described in more detail below, any conventional hybridization, amplification, or nucleic acid sequencing method can be used to specifically detect the presence of a B4GALT1 variant gene locus variant and/or the level of B4GALT1 variant mRNA or cDNA. In some embodiments, the nucleic acid molecule can be used either as a primer to amplify a B4GALT1 nucleic acid region, or the nucleic acid molecule can be used as a probe that hybridizes under stringent conditions to a nucleic acid molecule comprising a B4GALT1 variant gene locus or nucleic acid molecule, containing mRNA or cDNA of the B4GALT1 variant.

Известно множество способов связанных с нуклеиновыми кислотами, включая, например, секвенирование нуклеиновых кислот, гибридизацию нуклеиновых кислот и амплификацию нуклеиновых кислот. Иллюстративные примеры методов секвенирования нуклеиновых кислот включают, но не ограничиваются ими, секвенирование терминированием цепи (Sanger) и секвенирование терминированием красителем. Numerous techniques are known to deal with nucleic acids, including, for example, nucleic acid sequencing, nucleic acid hybridization, and nucleic acid amplification. Illustrative examples of nucleic acid sequencing methods include, but are not limited to, strand termination (Sanger) sequencing and dye termination sequencing.

Другие способы включают способы гибридизации нуклеиновых кислот, отличные от секвенирования, включая использование меченых праймеров или зондов, направленных против очищенной ДНК, амплифицированной ДНК и фиксированных клеточных препаратов (флуоресценция in situ гибридизация). В некоторых способах нуклеиновую кислоту-мишень можно амплифицировать до или одновременно с детекцией. Иллюстративные примеры методов амплификации нуклеиновых кислот включают, но не ограничиваются ими, полимеразную цепную реакцию (ПЦР), лигазную цепную реакцию (LCR - ligase chain reaction), амплификацию смещения цепи (SDA - strand displacement amplification) и амплификацию на основе последовательности нуклеиновой кислоты (NASBA - nucleic acid sequence based amplification). Другие способы включают, но не ограничиваются ими, лигазную цепную реакцию, амплификацию смещения цепи и термофильную SDA (tSDA - thermophilic SDA).Other methods include nucleic acid hybridization methods other than sequencing, including the use of labeled primers or probes directed against purified DNA, amplified DNA, and fixed cell preparations (fluorescence in situ hybridization). In some methods, the target nucleic acid can be amplified before or simultaneously with detection. Illustrative examples of nucleic acid amplification methods include, but are not limited to, polymerase chain reaction (PCR), ligase chain reaction (LCR), strand displacement amplification (SDA), and nucleic acid sequence-based amplification (NASBA). - nucleic acid sequence based amplification). Other methods include, but are not limited to, ligase chain reaction, strand displacement amplification, and thermophilic SDA (tSDA).

Любой метод может использоваться для обнаружения не амплифицированных или амплифицированных полинуклеотидов, включая, например, анализ защиты от гибридизации (HPA), количественную оценку процесса амплификации в режиме реального времени и определение количества последовательности-мишени, первоначально присутствующей в образце, но который не основан на усилении в реальном времени.Any method can be used to detect unamplified or amplified polynucleotides, including, for example, hybridization protection assay (HPA), real-time quantification of the amplification process, and determination of the amount of target sequence originally present in the sample but which is not based on amplification in real time.

Также предоставлены способы идентификации нуклеиновых кислот, которые не обязательно требуют амплификации последовательности и основаны, например, на известных способах гибридизации Саузерн (ДНК: ДНК) блоттинга, in situ гибридизации (ISH) и флуоресцентной in situ гибридизации (FISH) хромосомного материала с использованием соответствующих зондов. Саузерн-блоттинг может быть использован для обнаружения специфических последовательностей нуклеиновых кислот. В таких способах нуклеиновая кислота, которая извлекается из образца, фрагментируется, электрофоретически отделяется на матричном геле и переносится на мембранный фильтр. Связанная с фильтром нуклеиновая кислота подвергается гибридизации с меченым зондом, комплементарным представляющей интерес последовательности. Детектируется гибридизованый зонд, связанный с фильтром.Also provided are methods for identifying nucleic acids that do not necessarily require sequence amplification and are based, for example, on known Southern hybridization (DNA:DNA) blotting, in situ hybridization (ISH) and fluorescence in situ hybridization (FISH) methods of chromosomal material using appropriate probes . Southern blotting can be used to detect specific nucleic acid sequences. In such methods, the nucleic acid that is extracted from the sample is fragmented, separated electrophoretically on a matrix gel, and transferred to a membrane filter. The nucleic acid bound to the filter undergoes hybridization with a labeled probe complementary to the sequence of interest. The hybridized probe associated with the filter is detected.

В способах гибридизации могут применяться жесткие условия, так что зонд или праймер будут специфически гибридизоваться с его мишенью. В некоторых вариантах осуществления полинуклеотидный праймер или зонд в строгих условиях будет гибридизоваться с его последовательностью-мишенью (например, с локусом гена, мРНК или кДНК варианта B4GALT1) в значительно большей степени, чем с другими последовательностями, например, соответствующими последовательностям дикого типа B4GALT1 (локуса, мРНК или кДНК), так как минимум в 2 раза больше фона или в 10 раз выше фона. Строгие условия зависят от последовательности и будут разными в разных обстоятельствах. Контролируя строгость условий гибридизации и/или отмывки, можно идентифицировать последовательности-мишени, которые на 100% комплементарны зонду (гомологичное зондирование). Альтернативно, условия жесткости могут быть скорректированы, чтобы допускать некоторое несовпадение последовательностей, так что обнаруживаются более низкие степени идентичности (гетерологичное зондирование). Обычно длина зонда составляет менее 1000 нуклеотидов или менее 500 нуклеотидов.Hybridization methods may employ stringent conditions such that the probe or primer will specifically hybridize to its target. In some embodiments, a polynucleotide primer or probe will, under stringent conditions, hybridize to its target sequence (e.g., the B4GALT1 variant gene, mRNA, or cDNA locus) to a significantly greater extent than to other sequences, e.g., corresponding to wild-type B4GALT1 locus (locus , mRNA or cDNA) as at least 2 times the background or 10 times the background. The strict conditions depend on the sequence and will be different in different circumstances. By controlling the stringency of hybridization and/or washing conditions, target sequences that are 100% complementary to the probe can be identified (homologous probing). Alternatively, stringency conditions can be adjusted to allow some sequence mismatch so that lower degrees of identity are detected (heterologous probing). Typically the probe length is less than 1000 nucleotides or less than 500 nucleotides.

Подходящие условия жесткости, которые способствуют гибридизации ДНК, например, 6X хлорид натрия/цитрат натрия (SSC) при температуре около 45°C с последующей промывкой 2X SSC при 50°C, известны или могут быть найдены в Current Protocols in Molecular Biology, John Wiley & Sons, N.Y. (1989), 6.3.1-6.3.6. Как правило, строгие условия для гибридизации и детектирования будут такими, в которых концентрация соли составляет менее чем около 1,5 М иона Na, обычно около от 0,01 до 1,0 М иона Na (или других солей) при рН от 7,0 до 8,3 и температура имеет, по меньшей мере, около 30°С для коротких зондов (например, от 10 до 50 нуклеотидов) и, по меньшей мере, около 60°С для более длинных зондов (например, более 50 нуклеотидов). Жесткие условия также могут быть достигнуты с добавлением дестабилизирующих агентов, таких как формамид. Типичные условия низкой жесткости включают гибридизацию с буферным раствором от 30 до 35% формамида, 1М NaCl, 1% SDS (додецилсульфат натрия) при 37°C и промывку в 1X-2X SSC (20X SSC=3,0 М NaCl/0,3 М тринатрийцитрата) при температуре от 50 до 55°С. Типичные условия умеренной строгости включают гибридизацию в 40-45% формамиде, 1,0 М NaCl, 1% SDS при 37°С и промывку в 0,5X-1X SSC при 55-60°С. Типичные условия высокой жесткости включают гибридизацию в 50% формамиде, 1 М NaCl, 1% SDS при 37°C и промывку в 0,1X SSC при 60-65°C. Необязательно, промывочные буферы могут содержать от около 0,1% до около 1% SDS. Продолжительность гибридизации обычно составляет менее чем около 24 часов, обычно от около 4 до около 12 часов. Продолжительность времени отмывки будет, по меньшей мере, продолжительностью, достаточной для достижения равновесия.Suitable stringency conditions that promote DNA hybridization, such as 6X sodium chloride/sodium citrate (SSC) at about 45°C followed by a 2X SSC wash at 50°C, are known or can be found in Current Protocols in Molecular Biology , John Wiley & Sons, N.Y. (1989), 6.3.1-6.3.6. Typically, stringent conditions for hybridization and detection will be those in which the salt concentration is less than about 1.5 M Na ion, typically about 0.01 to 1.0 M Na ion (or other salts) at a pH of 7. 0 to 8.3 and the temperature is at least about 30°C for short probes (for example, from 10 to 50 nucleotides) and at least about 60°C for longer probes (for example, more than 50 nucleotides) . Harsh conditions can also be achieved with the addition of destabilizing agents such as formamide. Typical low stringency conditions include hybridization with a buffer solution of 30 to 35% formamide, 1M NaCl, 1% SDS (sodium dodecyl sulfate) at 37°C and wash in 1X-2X SSC (20X SSC=3.0M NaCl/0.3 M trisodium citrate) at a temperature of 50 to 55°C. Typical moderate stringency conditions include hybridization in 40-45% formamide, 1.0 M NaCl, 1% SDS at 37°C and wash in 0.5X-1X SSC at 55-60°C. Typical high stringency conditions include hybridization in 50% formamide, 1 M NaCl, 1% SDS at 37°C and wash in 0.1X SSC at 60-65°C. Optionally, wash buffers may contain from about 0.1% to about 1% SDS. The duration of hybridization is typically less than about 24 hours, typically from about 4 to about 12 hours. The length of wash time will be at least long enough to achieve equilibrium.

В реакциях гибридизации специфичность обычно является функцией промывок после гибридизации, критическими факторами являются ионная сила и температура конечного промывочного раствора. Для гибридов ДНК-ДНК Tm можно аппроксимировать по уравнению Майнкота и Вала (Meinkoth, Wahl) Anal. Biochem., 1984, 138, 267-284: Тм=81,5°С+16,6 (log M) + 0,41 (% ГХ) - 0,61 (% форм) - 500/л; где M - молярность одновалентных катионов,% GC - процентное содержание нуклеозидов гуанозина и цитозина в ДНК,% форм - процентное содержание формамида в растворе гибридизации, а L - длина гибрида в парах оснований. Tm - это температура (при определенной ионной силе и pH), при которой 50% комплементарной последовательности-мишени гибридизуется с идеально подобранным зондом. Tm уменьшается на около 1°C на каждый 1% несоответствия; таким образом, Tm, условия гибридизации и/или отмывки можно регулировать для гибридизации с последовательностями желаемой идентичности. Например, если ищутся последовательности с идентичностью ≥90%, Tm можно уменьшить на 10°C. Как правило, строгие условия выбираются так, чтобы они были на около 5°C ниже, чем температура плавления (Tm) для конкретной последовательности и ее комплемента при определенной ионной силе и pH. Однако в сильно строгих условиях можно использовать гибридизацию и/или отмывку при температуре на 1, 2, 3 или 4°С ниже, чем температура плавления (Тm); в умеренно строгих условиях можно использовать гибридизацию и/или отмывку при температуре 6, 7, 8, 9 или 10°С ниже, чем температура плавления (Тm); В условиях низкой строгости можно использовать гибридизацию и/или отмывку при температуре 11, 12, 13, 14, 15 или 20°С ниже, чем температура плавления (Тm). Используя уравнение, композиции для гибридизации и промывки и требуемый Тm, специалисты в данной области техники поймут, что вариации в строгости гибридизации и/или промывочных растворов по своей природе описаны. Если желаемая степень несоответствия приводит к тому, что Tm составляет менее 45°C (водный раствор) или 32°C (раствор формамида), оптимально увеличить концентрацию SSC, чтобы можно было использовать более высокую температуру. In hybridization reactions, specificity is usually a function of washes after hybridization, with ionic strength and temperature of the final wash solution being critical factors. For DNA-DNA hybrids, T m can be approximated by the Meinkoth and Wahl Anal equation. Biochem ., 1984, 138, 267-284: T m =81.5°C+16.6 (log M) + 0.41 (% GC) - 0.61 (% forms) - 500/l; where M is the molarity of monovalent cations, % GC is the percentage of guanosine and cytosine nucleosides in DNA, % forms is the percentage of formamide in the hybridization solution, and L is the length of the hybrid in base pairs. Tm is the temperature (at a specific ionic strength and pH) at which 50% of the complementary target sequence hybridizes to an ideally matched probe. T m decreases by about 1°C for every 1% discrepancy; thus, T m , hybridization and/or washing conditions can be adjusted to hybridize to sequences of the desired identity. For example, if sequences with ≥90% identity are sought, T m can be reduced by 10°C. Typically, stringent conditions are selected to be about 5°C lower than the melting temperature ( Tm ) for a particular sequence and its complement at a particular ionic strength and pH. However, under very stringent conditions, hybridization and/or washing at 1, 2, 3 or 4°C lower than the melting temperature ( Tm ) can be used; under moderately stringent conditions, hybridization and/or washing at 6, 7, 8, 9 or 10°C lower than the melting temperature ( Tm ) can be used; Under low stringency conditions, hybridization and/or washing at 11, 12, 13, 14, 15 or 20°C lower than the melting temperature ( Tm ) can be used. Using the equation, the hybridization and wash compositions, and the required T m , those skilled in the art will understand that variations in the stringency of hybridization and/or wash solutions are inherently described. If the desired degree of mismatch results in a T m of less than 45°C (aqueous solution) or 32°C (formamide solution), it is optimal to increase the SSC concentration so that a higher temperature can be used.

Также предоставлены способы обнаружения присутствия или уровней полипептида варианта B4GALT1 в биологическом образце, включая, например, секвенирование белка и иммуноанализ. В некоторых вариантах осуществления способ обнаружения присутствия Asn352Ser B4GALT1 у субъекта-человека включает выполнение анализа биологического образца от субъекта-человека, который определяет присутствие Asn352Ser B4GALT1 в биологическом образце. Also provided are methods for detecting the presence or levels of a B4GALT1 variant polypeptide in a biological sample, including, for example, protein sequencing and immunoassays. In some embodiments, a method of detecting the presence of Asn352Ser B4GALT1 in a human subject includes performing an assay on a biological sample from the human subject that detects the presence of Asn352Ser B4GALT1 in the biological sample.

Иллюстративные неограничивающие примеры методов секвенирования белка включают, но не ограничиваются ими, масс-спектрометрию и деградацию по Эдману. Иллюстративные примеры иммуноанализов включают, но не ограничиваются ими, иммунопреципитацию, вестерн-блот, иммуногистохимию, ИФА, иммуноцитохимию, проточную цитометрию и иммуно-ПЦР. Поликлональные или моноклональные антитела, которые можно детектировать с использованием различных известных методов (например, калориметрических, флуоресцентных, хемилюминесцентных или радиоактивных), подходят для использования в иммуноанализах. Illustrative non-limiting examples of protein sequencing methods include, but are not limited to, mass spectrometry and Edman degradation. Illustrative examples of immunoassays include, but are not limited to, immunoprecipitation, Western blot, immunohistochemistry, ELISA, immunocytochemistry, flow cytometry, and immuno-PCR. Polyclonal or monoclonal antibodies, which can be detected using various known methods (eg, calorimetric, fluorescent, chemiluminescent or radioactive), are suitable for use in immunoassays.

Данное раскрытие также предоставляет способы для определения восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания. Субъектом может быть любой организм, включая, например, человека, млекопитающее, не являющееся человеком, грызуна, мышь или крысу. В некоторых вариантах осуществления способы включают обнаружение присутствия варианта геномной ДНК, мРНК или кДНК варианта B4GALT1 в биологическом образце от субъекта. Понятно, что последовательности генов в популяции и мРНК, кодируемые такими генами, могут варьироваться из-за полиморфизмов, таких как ОНП. Представленные в данном документе последовательности для гена мРНК, кДНК и полипептида B4GALT1, являются только примерными последовательностями, и другие такие последовательности также возможны.This disclosure also provides methods for determining a subject's susceptibility to developing cardiovascular disease or risk of developing cardiovascular disease. The subject may be any organism, including, for example, a human, non-human mammal, rodent, mouse or rat. In some embodiments, the methods include detecting the presence of a B4GALT1 variant genomic DNA, mRNA, or cDNA variant in a biological sample from a subject. It is understood that the sequences of genes in a population and the mRNAs encoded by such genes can vary due to polymorphisms such as SNPs. The sequences presented herein for the B4GALT1 mRNA gene, cDNA, and polypeptide are exemplary sequences only, and other such sequences are also possible.

Неограничивающие примеры сердечно-сосудистых заболеваний включают повышенный уровень одного или более сывороточных липидов. Липиды сыворотки включают один или более из холестерина, ЛПНП, ЛПВП, триглицеридов, холестерина ЛПВП и холестерина не-ЛПВП или любой их субфракции (например, ЛПВП2, ЛПВП2a, ЛПВП2b, ЛПВП2c, ЛПВП3, ЛПВП3a, ЛПВП3b, ЛПВП3c, ЛПВП3d ЛПНП1, ЛПНП2, ЛПНП3, липопротеина A, Lpa1, Lpa1, Lpa3, Lpa4 или Lpa5). Сердечно-сосудистое заболевание может включать повышенные уровни кальцификации коронарной артерии. Сердечно-сосудистое заболевание может характеризаваться гликозилированием типа IId (CDG-IId). Сердечно-сосудистое заболевание может содержать повышенный уровень перикардиального жира. Сердечно-сосудистое заболевание может также включать в себя ишемическую болезнь сердца (ИБС), инфаркт миокарда (ИМ), заболевание периферических артерий (ПАД), инсульт, эмболию легочной артерии, тромбоз глубоких вен (ТГВ) и кровоточащие диатезы и коагулопатии. Сердечно-сосудистое заболевание может включать атеротромботическое заболевание. Атеротромботическое заболевание может включать повышенные уровни фибриногена. Атеротромботическое заболевание может включать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать повышенные уровни фибриногена. Сердечно-сосудистое заболевание может содержать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать сгусток крови, образованный в результате активности фибриногена. Фибриноген-опосредованный сгусток крови или сгусток крови, образованный при участии активности фибриногена, может находиться в любой вене или артерии в организме. Non-limiting examples of cardiovascular disease include elevated levels of one or more serum lipids. Serum lipids include one or more of cholesterol, LDL, HDL, triglycerides, HDL cholesterol and non-HDL cholesterol or any subfraction thereof (e.g. HDL2, HDL2a, HDL2b, HDL2c, HDL3, HDL3a, HDL3b, HDL3c, HDL3d LDL1, LP NP2, LDL3, lipoprotein A, Lpa1, Lpa1, Lpa3, Lpa4 or Lpa5). Cardiovascular disease may include increased levels of coronary artery calcification. Cardiovascular disease may be characterized by type IId glycosylation (CDG-IId). Cardiovascular disease may contain increased levels of pericardial fat. Cardiovascular disease may also include coronary artery disease (CAD), myocardial infarction (MI), peripheral artery disease (PAD), stroke, pulmonary embolism, deep vein thrombosis (DVT), and bleeding diathesis and coagulopathies. Cardiovascular disease may include atherothrombotic disease. Atherothrombotic disease may involve elevated levels of fibrinogen. Atherothrombotic disease may involve fibrinogen-mediated blood clot. Cardiovascular disease may involve elevated levels of fibrinogen. Cardiovascular disease may contain a fibrinogen-mediated blood clot. Cardiovascular disease may involve a blood clot formed as a result of fibrinogen activity. A fibrinogen-mediated blood clot, or a blood clot formed by the activity of fibrinogen, can be located in any vein or artery in the body.

В некоторых вариантах осуществления способы определения предрасположенности субъекта-человека к развитию сердечно-сосудистого заболевания, включают: a) проведение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 ; и b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, обнаружена в биологическом образце или классифицирует человека как имеющего повышенный риск развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, не обнаружена в биологическом образце. В некоторых воплощениях вариант полипептида Asn352Ser B4GALT1 содержит SEQ ID NO:8. В некоторых вариантах осуществления молекула нуклеиновой кислоты в биологическом образце представляет собой геномную ДНК, мРНК или кДНК.In some embodiments, methods for determining a human subject's susceptibility to developing cardiovascular disease include: a) performing an assay on a biological sample from the human subject that determines whether a nucleic acid molecule in the biological sample contains a nucleic acid sequence that encodes a B4GALT1 polypeptide variant. , having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide; and b) classifying a human subject as being at reduced risk of developing cardiovascular disease if a nucleic acid molecule comprising a nucleic acid sequence that encodes a variant B4GALT1 polypeptide having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide is found in biological specimen or classifies an individual as having an increased risk of developing cardiovascular disease if a nucleic acid molecule containing a nucleic acid sequence that encodes a variant B4GALT1 polypeptide having a serine at a position corresponding to position 352 in the full-length/mature B4GALT1 polypeptide is not found in the biological specimen sample. In some embodiments, the Asn352Ser B4GALT1 polypeptide variant contains SEQ ID NO:8. In some embodiments, the nucleic acid molecule in the biological sample is genomic DNA, mRNA, or cDNA.

В некоторых вариантах осуществления данное изобретение раскрывает способы определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, включающие: a) выполнение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце нуклеотиды 53757-53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2; и b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если обнаружена молекула нуклеиновой кислоты, содержащая нуклеотиды с 53757 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. в биологическом образце или классифицируют человека как находящегося в группе повышенного риска развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая нуклеотиды с 53757 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2 не обнаружена в биологическом образце.In some embodiments, the present invention discloses methods for determining the susceptibility of a human subject to developing cardiovascular disease, comprising: a) performing an assay on a biological sample from the human subject that determines whether a nucleic acid molecule in the biological sample contains nucleotides 53757-53577 of SEQ ID NO:2 in provisions that correspond to provisions 53757 to 53577 of SEQ ID NO:2; and b) classifying a human subject as being at reduced risk of developing cardiovascular disease if a nucleic acid molecule is detected containing nucleotides 53757 to 53577 of SEQ ID NO:2 at positions that correspond to positions 53757 to 53577 of SEQ ID NO: 2. in a biological specimen or classify a person as being at increased risk of developing cardiovascular disease if a nucleic acid molecule containing nucleotides 53757 to 53577 of SEQ ID NO:2 at positions that correspond to positions 53757 to 53577 of SEQ ID NO: 2 was not detected in the biological sample.

В некоторых вариантах осуществления данное изобретение раскрывает способы определения восприимчивости человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце нуклеотиды 1243- 1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям 1243-1245 из SEQ ID NO:4; и b) классификация субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если обнаружена молекула нуклеиновой кислоты, содержащая нуклеотиды 1243-1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям 1243-1245 из SEQ ID NO:4 в биологическом образце или классифицируют человека, как находящегося в группе повышенного риска развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая нуклеотиды с 1243 по 1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям с 1243 по 1245 из SEQ ID NO:4 не обнаружен в биологическом образце.In some embodiments, the present invention discloses methods for determining a person's susceptibility to developing cardiovascular disease, comprising: a) performing an assay on a biological sample from the person that determines whether a nucleic acid molecule in the biological sample contains nucleotides 1243-1245 of SEQ ID NO:4 in provisions that correspond to provisions 1243-1245 of SEQ ID NO:4; and b) classifying a human subject as having a reduced risk of developing cardiovascular disease if a nucleic acid molecule is found containing nucleotides 1243-1245 of SEQ ID NO:4 at positions that correspond to positions 1243-1245 of SEQ ID NO:4 in a biological specimen or classify a person as being at increased risk of developing cardiovascular disease if a nucleic acid molecule containing nucleotides 1243 to 1245 of SEQ ID NO:4 at positions that correspond to positions 1243 to 1245 of SEQ ID NO :4 was not detected in the biological sample.

В некоторых вариантах осуществления данное изобретение раскрывает способы определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце нуклеотиды 1054 до 1056 SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6; и b) классификация субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если обнаружена молекула нуклеиновой кислоты, содержащая нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6 в биологическом образце или классификации субъекта-человека как подверженного повышенному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6 не обнаружена в биологическом образце.In some embodiments, the present invention discloses methods for determining the susceptibility of a human subject to developing cardiovascular disease, comprising: a) performing an assay on a biological sample from the human subject that determines whether a nucleic acid molecule in the biological sample contains nucleotides 1054 to 1056 of SEQ ID NO:6 in provisions that correspond to provisions 1054-1056 of SEQ ID NO:6; and b) classifying a human subject as having a reduced risk of developing cardiovascular disease if a nucleic acid molecule is found containing nucleotides 1054-1056 of SEQ ID NO:6 at positions that correspond to positions 1054-1056 of SEQ ID NO:6 in the biological sample or classification of a human subject as being at increased risk of developing cardiovascular disease if a nucleic acid molecule containing nucleotides 1054-1056 of SEQ ID NO:6 at positions that correspond to provisions of 1054-1056 of SEQ ID NO:6 is not found in the biological sample .

В некоторых вариантах осуществления способы включают обнаружение присутствия геномной ДНК варианта B4GALT1 в биологическом образце. В некоторых вариантах осуществления такие способы включают определение восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания, включающие: а) получение биологического образца от субъекта, который содержит геномную ДНК; b) проведение анализа геномной ДНК, который определяет идентичность нуклеотидов в ДНК, занимающих положения, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1 (см., например, SEQ ID NO:2); и c) классификация субъекта как подверженного пониженному риску развития сердечно-сосудистого заболевания, если положения в геномной ДНК, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как имеющий повышенный риск развития сердечно-сосудистого заболевания, если положения в геномной ДНК, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1, не кодируют серин, а кодируют аспарагин.In some embodiments, the methods include detecting the presence of B4GALT1 variant genomic DNA in a biological sample. In some embodiments, such methods include determining a subject's susceptibility to developing cardiovascular disease or risk of developing cardiovascular disease, comprising: a) obtaining a biological sample from the subject that contains genomic DNA; b) performing a genomic DNA analysis that determines the identity of nucleotides in the DNA occupying positions corresponding to positions 53575 to 53577 of the B4GALT1 gene variant (see, for example, SEQ ID NO:2); and c) classifying a subject as being at reduced risk of developing cardiovascular disease if the genomic DNA positions corresponding to positions 53575 to 53577 of the B4GALT1 gene variant encode a serine rather than an asparagine. Alternatively, a subject may be classified as having an increased risk of developing cardiovascular disease if the positions in the genomic DNA corresponding to positions 53575 to 53577 of the B4GALT1 gene variant do not encode serine but encode asparagine.

В некоторых вариантах осуществления такие способы включают диагностирование субъекта с сердечно-сосудистым заболеванием, включающие: а) получение биологического образца от субъекта, который содержит геномную ДНК; b) проведение анализа геномной ДНК, который определяет идентичность нуклеотидов в ДНК, занимающих положения, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1 (см., например, SEQ ID NO:2); и с) классификация субъекта как имеющего сердечно-сосудистое заболевание, если положения в геномной ДНК, соответствующие положениям 53575-53577 варианта гена B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как не имеющий сердечно-сосудистых заболеваний, если положения в геномной ДНК, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1, не кодируют серин, а кодируют аспарагин.In some embodiments, such methods include diagnosing a subject with a cardiovascular disease, comprising: a) obtaining a biological sample from the subject that contains genomic DNA; b) performing a genomic DNA analysis that determines the identity of nucleotides in the DNA occupying positions corresponding to positions 53575 to 53577 of the B4GALT1 gene variant (see, for example, SEQ ID NO:2); and c) classifying the subject as having cardiovascular disease if the positions in the genomic DNA corresponding to positions 53575-53577 of the B4GALT1 gene variant encode serine rather than asparagine. Alternatively, a subject may be classified as free of cardiovascular disease if the positions in the genomic DNA corresponding to positions 53575 to 53577 of the B4GALT1 gene variant do not encode serine but encode asparagine.

В некоторых вариантах осуществления способы включают обнаружение присутствия варианта мРНК B4GALT1 в биологическом образце. В некоторых вариантах осуществления такие способы включают определение восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания, включающие: а) получение биологического образца у субъекта, который содержит мРНК; b) проведение анализа мРНК, который определяет идентичность нуклеотидов в мРНК, занимающей положения, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1 (см., например, SEQ ID NO:4); и c) классификация субъекта как подверженного пониженному риску развития сердечно-сосудистого заболевания, если положения в мРНК, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как подверженный повышенному риску развития сердечно-сосудистого заболевания, если положения в мРНК, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1, не кодируют серин, а кодируют аспарагин.In some embodiments, the methods include detecting the presence of a B4GALT1 mRNA variant in a biological sample. In some embodiments, such methods include determining a subject's susceptibility to developing cardiovascular disease or risk of developing cardiovascular disease, comprising: a) obtaining a biological sample from the subject that contains mRNA; b) performing an mRNA analysis that determines the nucleotide identity of the mRNA occupying positions corresponding to positions 1243 to 1245 of the B4GALT1 mRNA variant (see, for example, SEQ ID NO:4); and c) classifying a subject as being at reduced risk of developing cardiovascular disease if the positions in the mRNA corresponding to positions 1243 to 1245 of the B4GALT1 mRNA variant encode a serine rather than an asparagine. Alternatively, a subject may be classified as being at increased risk of developing cardiovascular disease if the positions in the mRNA corresponding to positions 1243 to 1245 of the B4GALT1 mRNA variant do not encode serine but encode asparagine.

В некоторых вариантах осуществления такие способы включают диагностирование субъекта с сердечно-сосудистым заболеванием, включающие: а) получение биологического образца от субъекта, который содержит мРНК; b) проведение анализа мРНК, который определяет идентичность нуклеотидов в мРНК, занимающих положения, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1 (см., например, SEQ ID NO:4); и с) классификация субъекта как имеющего сердечно-сосудистое заболевание, если положения в мРНК, соответствующие положениям с 1243 по 1245 мРНК варианта B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как не имеющий сердечно-сосудистых заболеваний, если положения в мРНК, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1, не кодируют серин, а кодируют аспарагин.In some embodiments, such methods include diagnosing a subject with a cardiovascular disease, comprising: a) obtaining a biological sample from the subject that contains mRNA; b) performing an mRNA analysis that determines the identity of nucleotides in the mRNA occupying positions corresponding to positions 1243 to 1245 of the B4GALT1 mRNA variant (see, for example, SEQ ID NO:4); and c) classifying the subject as having cardiovascular disease if the positions in the mRNA corresponding to positions 1243 to 1245 of the B4GALT1 variant mRNA encode a serine rather than an asparagine. Alternatively, a subject may be classified as not having cardiovascular disease if the positions in the mRNA corresponding to positions 1243 to 1245 of the B4GALT1 mRNA variant do not encode serine but encode asparagine.

В некоторых вариантах осуществления способы включают обнаружение присутствия кДНК варианта B4GALT1 в биологическом образце. В некоторых вариантах осуществления такие способы включают определение восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания, включающие: а) получение биологического образца от субъекта, который содержит кДНК; b) проведение анализа кДНК, который определяет идентичность нуклеотидов в кДНК, занимающих положения, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1 (см., например, SEQ ID NO:6); и c) классификация субъекта как подверженного пониженному риску развития сердечно-сосудистого заболевания, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, кодируют серин, а не аспарагин. С другой стороны, субъект может быть классифицирован как подверженный повышенному риску развития сердечно-сосудистого заболевания, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, не кодируют серин, а кодируют аспарагин.In some embodiments, the methods include detecting the presence of a B4GALT1 variant cDNA in a biological sample. In some embodiments, such methods include determining a subject's susceptibility to developing cardiovascular disease or risk of developing cardiovascular disease, comprising: a) obtaining a biological sample from the subject that contains cDNA; b) performing a cDNA analysis that determines the identity of nucleotides in the cDNA occupying positions corresponding to positions 1054 to 1056 of the B4GALT1 variant cDNA (see, for example, SEQ ID NO:6); and c) classifying a subject as being at reduced risk of developing cardiovascular disease if the positions in the cDNA corresponding to positions 1054 to 1056 of the B4GALT1 cDNA code for serine rather than asparagine. On the other hand, a subject may be classified as being at increased risk of developing cardiovascular disease if the positions in the cDNA corresponding to positions 1054 to 1056 of the B4GALT1 cDNA do not encode serine but encode asparagine.

В некоторых вариантах осуществления такие способы включают диагностирование субъекта с сердечно-сосудистым заболеванием, включающие: а) получение биологического образца от субъекта, который содержит кДНК; b) проведение анализа кДНК, который определяет идентичность нуклеотидов в кДНК, занимающих положения, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1 (см., например, SEQ ID NO:6); и с) классификацию субъекта как имеющего сердечно-сосудистое заболевание, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как не имеющий сердечно-сосудистых заболеваний, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, не кодируют серин, а кодируют аспарагин.In some embodiments, such methods include diagnosing a subject with a cardiovascular disease, comprising: a) obtaining a biological sample from the subject that contains cDNA; b) performing a cDNA analysis that determines the identity of nucleotides in the cDNA occupying positions corresponding to positions 1054 to 1056 of the B4GALT1 variant cDNA (see, for example, SEQ ID NO:6); and c) classifying the subject as having cardiovascular disease if the positions in the cDNA corresponding to positions 1054 to 1056 of the B4GALT1 cDNA code for serine rather than asparagine. Alternatively, a subject may be classified as free of cardiovascular disease if the cDNA positions corresponding to positions 1054 to 1056 of the B4GALT1 cDNA do not encode serine but encode asparagine.

В некоторых вариантах осуществления анализ включает в себя: секвенирование части геномной последовательности B4GALT1 молекулы нуклеиновой кислоты в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 53575 по 53577 из SEQ ID NO: 2; секвенирование части последовательности мРНК B4GALT1 молекулы нуклеиновой кислоты в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4; или секвенирование части последовательности кДНК B4GALT1 молекулы нуклеиновой кислоты в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 последовательности SEQ ID NO:6.In some embodiments, the analysis includes: sequencing a portion of the genomic sequence of a B4GALT1 nucleic acid molecule in a biological sample from a human, wherein the sequenced portion includes positions corresponding to positions 53575 to 53577 of SEQ ID NO: 2; sequencing a portion of the B4GALT1 mRNA sequence of a nucleic acid molecule in a biological sample from a human, wherein the sequenced portion includes positions corresponding to positions 1243 to 1245 of SEQ ID NO:4; or sequencing a portion of the B4GALT1 cDNA sequence of a nucleic acid molecule in a biological sample from a human, wherein the sequenced portion includes positions corresponding to positions 1054 to 1056 of SEQ ID NO:6.

В некоторых вариантах осуществления анализ включает в себя: a) приведение биологического образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая находится вблизи положения геномной последовательности B4GALT1, соответствующей положениям с 53575 по 53577 из SEQ ID NO:2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 из SEQ ID NO:4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO:6; b) удлинение праймера, по меньшей мере, далее: i) положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577; ii) положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245; или iii) положения кДНК B4GALT1, соответствующего положениям с 1054 по 1056; и c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i), соответствующих положениям 53575-53577 геномной последовательности B4GALT1 ; ii) соответствующих положениям с 1243 по 1245 мРНК B4GALT1 ; или iii) соответствующих положениям с 1054 по 1056 кДНК B4GALT1 ; которые кодируют серин в положении 352 SEQ ID NO:8.In some embodiments, the analysis includes: a) contacting the biological sample with a primer that hybridizes to: i) a portion of the B4GALT1 genomic sequence that is proximal to the position of the B4GALT1 genomic sequence corresponding to positions 53575 to 53577 of SEQ ID NO:2; ii) a portion of the B4GALT1 mRNA sequence that is adjacent to the position of the B4GALT1 mRNA corresponding to positions 1243 to 1245 of SEQ ID NO:4; or iii) a portion of the B4GALT1 cDNA sequence that is adjacent to the position of the B4GALT1 cDNA corresponding to SEQ ID NO:6 positions 1054-1056; b) extending the primer to at least further: i) a position of the B4GALT1 genomic sequence corresponding to positions 53575 to 53577; ii) the position of B4GALT1 mRNA corresponding to positions 1243 to 1245; or iii) the position of the B4GALT1 cDNA corresponding to positions 1054 to 1056; and c) determining whether the primer extension product contains nucleotides at positions: i) corresponding to positions 53575-53577 of the B4GALT1 genomic sequence; ii) corresponding to positions 1243 to 1245 of B4GALT1 mRNA; or iii) corresponding to positions 1054 to 1056 of the B4GALT1 cDNA; which encode serine at position 352 of SEQ ID NO:8.

В некоторых вариантах осуществления анализ включает контакт биологического образца с праймером или зондом, который специфически гибридизуется с геномной последовательностью B4GALT1 варианта, последовательностью мРНК или последовательностью кДНК, а не с соответствующей последовательностью B4GALT1 дикого типа в строгих условиях, и определение того, произошла ли гибридизация. В некоторых вариантах осуществления праймер или зонд специфически гибридизуется с положениями в геномной ДНК в биологическом образце, которые соответствуют положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления праймер или зонд специфически гибридизуется с положениями в мРНК в биологическом образце, которые соответствуют положениям с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления праймер или зонд специфически гибридизуется с положениями в кДНК в биологическом образце, которые соответствуют положениям с 1054 по 1056 SEQ ID NO:6.In some embodiments, the assay includes contacting a biological sample with a primer or probe that specifically hybridizes to a variant B4GALT1 genomic sequence, mRNA sequence, or cDNA sequence rather than the corresponding wild-type B4GALT1 sequence under stringent conditions, and determining whether hybridization has occurred. In some embodiments, the primer or probe specifically hybridizes to positions in genomic DNA in a biological sample that correspond to positions 53575 to 53577 of SEQ ID NO:2. In some embodiments, the primer or probe specifically hybridizes to positions in the mRNA in the biological sample that correspond to positions 1243 to 1245 of SEQ ID NO:4. In some embodiments, the primer or probe specifically hybridizes to positions in the cDNA in a biological sample that correspond to positions 1054 to 1056 of SEQ ID NO:6.

Другие анализы, которые можно использовать в способах, раскрытых в данном документе, включают, например, полимеразную цепную реакцию с обратной транскрипцией (ОТ-ПЦР) или количественную ОТ-ПЦР (кОТ-ПЦР). Еще другие анализы, которые можно использовать в способах, раскрытых в данном документе, включают, например, секвенирование РНК (RNA-Seq) с последующим определением наличия и количества вариантной мРНК или кДНК в биологическом образце.Other assays that may be used in the methods disclosed herein include, for example, reverse transcription polymerase chain reaction (RT-PCR) or quantitative RT-PCR (qRT-PCR). Still other assays that can be used in the methods disclosed herein include, for example, RNA sequencing (RNA-Seq) followed by determining the presence and amount of variant mRNA or cDNA in a biological sample.

Данное раскрытие также предоставляет способы определения восприимчивости человека к развитию сердечно-сосудистого заболевания или диагностирования субъекта, как имеющего сердечно-сосудистое заболевание, включающие: a) проведение анализа биологического образца от человека, который определяет, содержит ли полипептид B4GALT1 в биологическом образце серин в позиции, соответствующей позиции 352 SEQ ID NO:8; и b) классификацию субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если в биологическом образце обнаружен полипептид B4GALT1, содержащий серин в положении, соответствующем положению 352 SEQ ID NO:8, или классификация субъекта-человека, как имеющего повышенный риск развития сердечно-сосудистого заболевания, если в биологическом образце не обнаружен полипептид B4GALT1, содержащий серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления способы дополнительно включают получение биологического образца от субъекта.This disclosure also provides methods for determining a person's susceptibility to developing cardiovascular disease or diagnosing a subject as having cardiovascular disease, comprising: a) performing an assay on a biological sample from the person that determines whether the B4GALT1 polypeptide in the biological sample contains a serine at the position, corresponding to position 352 SEQ ID NO:8; and b) classifying a human subject as having a reduced risk of developing cardiovascular disease if a B4GALT1 polypeptide containing a serine at a position corresponding to position 352 of SEQ ID NO:8 is detected in a biological sample, or classifying the human subject as having an increased risk development of cardiovascular disease, if a B4GALT1 polypeptide containing a serine at a position corresponding to position 352 of SEQ ID NO:8 is not detected in the biological sample. In some embodiments, the methods further include obtaining a biological sample from a subject.

В некоторых вариантах осуществления, когда у субъекта диагностировано сердечно-сосудистое заболевание или имеется повышенный риск развития сердечно-сосудистого заболевания, субъекту вводят терапевтическое или профилактическое средство, которое лечит или предотвращает сердечно-сосудистое заболевание. Альтернативно, способ может дополнительно включать введение терапевтического агента, предназначенного для предотвращения или ослабления одного или более симптомов, связанных с прогрессированием до более клинически прогрессирующих стадий сердечно-сосудистого заболевания, особенно у пациентов с повышенными уровнями ЛПНП и/или тех пациентов, которые имели или находятся на стадии повышенного риска тромботических явлений.In some embodiments, when a subject has been diagnosed with cardiovascular disease or is at increased risk of developing cardiovascular disease, the subject is administered a therapeutic or prophylactic agent that treats or prevents cardiovascular disease. Alternatively, the method may further comprise administering a therapeutic agent intended to prevent or reduce one or more symptoms associated with progression to more clinically advanced stages of cardiovascular disease, especially in patients with elevated LDL levels and/or those patients who have had or are at the stage of increased risk of thrombotic events.

Данное раскрытие также предоставляет способы модификации клетки посредством использования любой комбинации нуклеазных агентов, экзогенных донорных последовательностей, активаторов транскрипции, транскрипционных репрессоров, антисмысловых молекул, таких как антисмысловая РНК, миРНК и кшРНК, полипептиды B4GALT1 или их фрагменты, и векторы экспрессии для экспрессии рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Способы могут применятся in vitro, ex vivo или in vivo. Нуклеазные агенты, экзогенные донорные последовательности, активаторы транскрипции, репрессоры транскрипции, антисмысловые молекулы, такие как антисмысловые РНК, миРНК и кшРНК, полипептиды B4GALT1 или их фрагменты и векторы экспрессии могут быть введены в клетку в любой форме и любыми способами. как описано в другом месте в данном документе, и все или некоторые могут быть введены одновременно или последовательно в любой комбинации. Некоторые методы включают только изменение эндогенного гена B4GALT1 в клетке. Некоторые методы включают только изменение экспрессии эндогенного гена B4GALT1 путем использования активаторов или репрессоров транскрипции или путем использования антисмысловых молекул, таких как антисмысловая РНК, миРНК и кшРНК. Некоторые способы включают только введение рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1 или его фрагмент, в клетку. Некоторые способы включают только введение полипептида B4GALT1 или его фрагмента в клетку (например, любой из или любую комбинацию полипептидов B4GALT1 или их фрагментов, раскрытых в данном документе). Другие способы включают как изменение эндогенного гена B4GALT1 в клетке, так и введение полипептида B4GALT1 или его фрагмента или его рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1 или его фрагмент, в клетку. Другие способы включают, как изменение экспрессии эндогенного гена B4GALT1 в клетке, так и введение полипептида B4GALT1 или его фрагмента или его рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид или его фрагмент B4GALT1.This disclosure also provides methods for modifying a cell through the use of any combination of nuclease agents, exogenous donor sequences, transcriptional activators, transcriptional repressors, antisense molecules such as antisense RNA, siRNA and shRNA, B4GALT1 polypeptides or fragments thereof, and expression vectors for expressing the recombinant B4GALT1 gene or a nucleic acid encoding a B4GALT1 polypeptide. The methods may be applied in vitro , ex vivo or in vivo . Nuclease agents, exogenous donor sequences, transcriptional activators, transcriptional repressors, antisense molecules such as antisense RNAs, siRNAs and shRNAs, B4GALT1 polypeptides or fragments thereof and expression vectors can be introduced into the cell in any form and by any means. as described elsewhere herein, and all or some may be administered simultaneously or sequentially in any combination. Some methods only involve changing the endogenous B4GALT1 gene in the cell. Some methods involve only altering the expression of the endogenous B4GALT1 gene by using transcriptional activators or repressors, or by using antisense molecules such as antisense RNA, siRNA, and shRNA. Some methods involve only introducing a recombinant B4GALT1 gene or a nucleic acid encoding a B4GALT1 polypeptide or fragment thereof into a cell. Some methods involve only introducing a B4GALT1 polypeptide or fragment thereof into a cell (eg, any one or any combination of B4GALT1 polypeptides or fragments thereof disclosed herein). Other methods include either altering the endogenous B4GALT1 gene in the cell or introducing a B4GALT1 polypeptide or fragment thereof, or a recombinant B4GALT1 gene thereof, or a nucleic acid encoding the B4GALT1 polypeptide or fragment thereof, into the cell. Other methods include either altering the expression of the endogenous B4GALT1 gene in the cell or introducing a B4GALT1 polypeptide or fragment thereof, or a recombinant B4GALT1 gene thereof, or a nucleic acid encoding a B4GALT1 polypeptide or fragment thereof.

В данном раскрытии представлены способы модификации эндогенного гена B4GALT1 в геноме клетки (например, плюрипотентной клетки или дифференцированной клетки) с использованием нуклеазных агентов и/или последовательностей экзогенного донора. Способы могут встречаться in vitro, ex vivo или in vivo. Нуклеазный агент может использоваться отдельно или в комбинации с экзогенной донорной последовательностью. Альтернативно, экзогенная донорная последовательность может использоваться отдельно или в комбинации с нуклеазным агентом.This disclosure provides methods for modifying the endogenous B4GALT1 gene in the genome of a cell (eg, a pluripotent cell or a differentiated cell) using nuclease agents and/or exogenous donor sequences. The methods may occur in vitro , ex vivo or in vivo . The nuclease agent can be used alone or in combination with an exogenous donor sequence. Alternatively, an exogenous donor sequence may be used alone or in combination with a nuclease agent.

Восстановление в ответ на двухцепочечные разрывы (DSB -double-strand breaks) происходит главным образом через два консервативных пути восстановления ДНК: негомологичное соединение концов (NHEJ -non-homologous end joining) и гомологичную рекомбинацию (HR - homologous recombination) (см., Kasparek & Humphrey, Seminars in Cell & Dev. Biol., 2011, 22, 886-897). Восстановление целевой нуклеиновой кислоты (например, эндогенного гена B4GALT1), опосредованное экзогенной донорной последовательностью, может включать любой процесс обмена генетической информацией между двумя полинуклеотидами. Например, NHEJ также может приводить к целенаправленной интеграции экзогенной донорной последовательности посредством прямого лигирования концов разрыва с концами экзогенной донорной последовательности (т.е. захват на основе NHEJ). Восстановление также может происходить посредством гомологичного направленного восстановления (HDR - homology directed repair) или гомологичной рекомбинации (HR). HDR или HR включает форму восстановления нуклеиновой кислоты, которая может требовать гомологии нуклеотидной последовательности, использует «донорную» молекулу в качестве матрицы для восстановления «целевой» молекулы (то есть той, которая испытала разрыв двухцепочечной цепи) и ведет к передаче генетической информации от донора к цели/мишени. Repair in response to double-strand breaks (DSBs) occurs primarily through two conserved DNA repair pathways: non-homologous end joining (NHEJ) and homologous recombination (HR) ( see Kasparek & Humphrey, Seminars in Cell & Dev. Biol. , 2011, 22, 886-897). Restoration of a target nucleic acid (eg, the endogenous B4GALT1 gene) mediated by an exogenous donor sequence may involve any process of exchange of genetic information between two polynucleotides. For example, NHEJ can also result in targeted integration of an exogenous donor sequence through direct ligation of the ends of the gap to the ends of the exogenous donor sequence (ie, NHEJ-based capture). Repair can also occur through homologous directed repair (HDR) or homologous recombination (HR). HDR or HR involves a form of nucleic acid repair that may require nucleotide sequence homology, uses a "donor" molecule as a template to repair a "target" molecule (i.e. one that has experienced a double-strand break), and leads to the transfer of genetic information from donor to goals/targets.

Целевые генетические модификации в эндогенном гене B4GALT1 в геноме могут быть получены путем контакта клетки с экзогенной донорной последовательностью, содержащей 5' плече гомологии, которое гибридизуется с 5'-последовательностью-мишенью в целевом геномном локусе внутри эндогенного гена B4GALT1 и 3' плече гомологии, которое гибридизуется с 3'-последовательностью-мишенью в целевом геномном локусе внутри эндогенного гена B4GALT1. Экзогенная донорная последовательность может рекомбинировать с целевым геномным локусом, чтобы генерировать целевую генетическую модификацию эндогенного гена B4GALT1. В качестве одного примера, 5' плечо гомологии может гибридизоваться с целевой последовательностью 5' положения, соответствующего положениям с 53575 по 53577 из SEQ ID NO:1, и 3' плечо гомологии может гибридизоваться с целевой последовательностью 3' положения соответствующего положениям с 53575 по 53577 из SEQ ID NO:1. Такие способы могут привести, например, к гену B4GALT1, который содержит нуклеотидную последовательность, кодирующую серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида, полученного из него. Примеры экзогенных донорных последовательностей раскрыты в другом месте данного документа.Targeted genetic modifications at the endogenous B4GALT1 gene in the genome can be obtained by contacting the cell with an exogenous donor sequence containing a 5' homology arm that hybridizes to a 5' target sequence at the target genomic locus within the endogenous B4GALT1 gene and a 3' homology arm that hybridizes to the 3' target sequence at the target genomic locus within the endogenous B4GALT1 gene. An exogenous donor sequence can recombine with a target genomic locus to generate a targeted genetic modification of the endogenous B4GALT1 gene. As one example, the 5' homology arm may hybridize to a 5' position target sequence corresponding to positions 53575 to 53577 of SEQ ID NO:1, and the 3' homology arm may hybridize to a 3' position target sequence corresponding to positions 53575 to 53577 from SEQ ID NO:1. Such methods may result, for example, in the B4GALT1 gene, which contains a nucleotide sequence encoding a serine at position corresponding to position 352 of the full-length/mature polypeptide derived from it. Examples of exogenous donor sequences are disclosed elsewhere herein.

Например, целевые генетические модификации эндогенного гена B4GALT1 в геноме могут быть получены путем контакта клетки или генома клетки с белком Cas и одной или большим количеством направляющими РНК, которые гибридизуются с одной или большим количеством последовательностями распознаваемыми направляющей РНК в целевом геномном локусе в эндогенном гене B4GALT1. Например, такие способы могут включать приведение клетки в контакт с белком Cas и направляющей РНК, которая гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, расположена в области, соответствующей экзону 5 SEQ ID NO:1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может включать или находиться вблизи положения, соответствующего положениям с 53575 по 53577 последовательности SEQ ID NO:1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов от положения, соответствующего положениям с 53575 по 53577 из SEQ ID NO:1. В качестве еще одного примера, последовательность, распознаваемая направляющей РНК, может включать или быть близкой к стартовому кодону эндогенного гена B4GALT1 или стоп-кодону эндогенного гена B4GALT1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500, или в пределах около 1000 нуклеотидов от старт-кодона или стоп-кодона. Белок Cas и направляющая РНК образуют комплекс, а белок Cas расщепляет последовательность распознаваемую направляющей РНК. Расщепление белком Cas может привести к двухцепочечным или одноцепочечным разрывам (например, если белок Cas является никазой). Такие методы могут привести, например, к эндогенному гену B4GALT1, в котором нарушена область, соответствующая экзону 5 SEQ ID NO:1, нарушен стартовый кодон, нарушен стоп-кодон или кодирующая последовательность удалена. Примеры и варианты белков Cas (например, Cas9) и направляющих РНК, которые можно использовать в способах, описаны в другом месте данного документа.For example, targeted genetic modifications of an endogenous B4GALT1 gene in the genome can be obtained by contacting a cell or a cell's genome with a Cas protein and one or more guide RNAs that hybridize to one or more guide RNA recognition sequences at a target genomic locus in the endogenous B4GALT1 gene. For example, such methods may involve contacting a cell with a Cas protein and a guide RNA that hybridizes to a sequence recognized by the guide RNA in the endogenous B4GALT1 gene. In some embodiments, the sequence recognized by the guide RNA is located in the region corresponding to exon 5 of SEQ ID NO:1. In some embodiments, the sequence recognized by the guide RNA may include or be located near a position corresponding to positions 53575 to 53577 of SEQ ID NO:1. For example, the sequence recognized by the guide RNA may be in the range of about 1000, in the range of about 500, in the range of about 400, in the range of about 300, in the range of about 200, in the range of about 100, in the range of about 50, in the range of about 45, within about 40, within about 35, within about 30, within about 25, within about 20, within about 15, within about 10, or within about 5 nucleotides from the position corresponding to positions 53575 to 53577 of SEQ ID NO:1. As another example, the sequence recognized by the guide RNA may include or be close to the start codon of the endogenous B4GALT1 gene or the stop codon of the endogenous B4GALT1 gene. For example, the sequence recognized by the guide RNA may be in the range of about 10, in the range of about 20, in the range of about 30, in the range of about 40, in the range of about 50, in the range of about 100, in the range of about 200, in the range of about 300, within about 400, within about 500, or within about 1000 nucleotides from the start codon or stop codon. The Cas protein and the guide RNA form a complex, and the Cas protein cleaves the sequence recognized by the guide RNA. Cleavage by the Cas protein can result in double-strand or single-strand breaks (for example, if the Cas protein is a nickase). Such methods may result, for example, in an endogenous B4GALT1 gene in which the region corresponding to exon 5 of SEQ ID NO:1 is disrupted, a start codon is disrupted, a stop codon is disrupted, or the coding sequence is deleted. Examples and variations of Cas proteins (eg, Cas9) and guide RNAs that can be used in the methods are described elsewhere herein.

В некоторых вариантах осуществления могут быть использованы два или более нуклеазных агента. Например, могут быть использованы два нуклеазных агента, каждый из которых направлен на последовательность распознаваемую нуклеазой в области, соответствующей экзону 5 SEQ ID NO:1, или включает положение или близко к положению, соответствующему положениям с 53575 по 53577 из SEQ ID NO:1 (например, в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях, соответствующих положениям с 53575 по 53577 из SEQ ID NO:1). В качестве другого примера можно использовать два или более нуклеазных агента, каждый из которых направлен на последовательность распознаваемую нуклеазой, включающую или расположенную близко к стартовому кодону. В качестве другого примера можно использовать два нуклеазных агента, один из которых направлен на последовательность распознаваемую нуклеазой, включающую или находящуюся близко к стартовому кодону, а другой направлен на последовательность распознаваемую нуклеазой, включающую или расположенную рядом со стоп-кодоном, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между двумя последовательностями распознаваемыми нуклеазой. В качестве еще одного примера можно использовать три или более нуклеазных агента, с одной или большим количеством (например, двумя) нацеливающими последовательностями распознаваемыми нуклеазой, включающими или расположенными близко к стартовому кодону, и одной или большим количеством (например, двумя) нацеливающими последовательностями распознаваемыми нуклеазой, включающими или находящимся вблизи стоп-кодона, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между последовательностью распознаваемой нуклеазой, включающей или находящейся вблизи к стартовому кодону, и последовательностью распознаваемой нуклеазой, включающей или расположенной рядом со стоп-кодоном.In some embodiments, two or more nuclease agents may be used. For example, two nuclease agents may be used, each directed to a nuclease recognition sequence in the region corresponding to exon 5 of SEQ ID NO:1, or including a position at or close to a position corresponding to positions 53575 to 53577 of SEQ ID NO:1 ( for example, within about 1000, within about 500, within about 400, within about 300, within about 200, within about 100, within about 50, within about 45, within about 40, within about 35, within about 30, within about 25, within about 20, within about 15, within about 10, or within about 5 nucleotides at positions corresponding to positions 53575 to 53577 of SEQ ID NO: 1). As another example, two or more nuclease agents may be used, each directed to a nuclease recognition sequence including or located close to the start codon. As another example, two nuclease agents may be used, one directed to a nuclease recognition sequence including or proximal to the start codon, and the other directed to a nuclease recognition sequence including or proximal to the stop codon, wherein cleavage by nuclease agents may result in a deletion of the coding region between two sequences recognized by the nuclease. As yet another example, three or more nuclease agents may be used, with one or more (e.g., two) nuclease-recognized targeting sequences including or located close to the start codon, and one or more (e.g., two) nuclease-recognized targeting sequences including or adjacent to a stop codon, wherein cleavage by nuclease agents may result in deletion of the coding region between the nuclease recognition sequence including or adjacent to the start codon and the nuclease recognition sequence including or adjacent to the stop codon.

В некоторых вариантах осуществления клетка может быть дополнительно приведена в контакт с одной или большим количеством дополнительными направляющими РНК, которые гибридизуются с дополнительными последовательностями распознаваемыми направляющими РНК в целевом геномном локусе в эндогенном гене B4GALT1. При контакте клетки с одной или большим количеством дополнительными направляющими РНК (например, со второй направляющей РНК, которая гибридизуется со второй последовательностью, распознаваемой направляющей РНК), расщепление белком Cas может создать два или более двухцепочечных разрывов или два или более одноцепочечных разрывов (например, если белок Cas является никазой).In some embodiments, the cell may be further brought into contact with one or more additional guide RNAs that hybridize to additional guide RNA recognition sequences at the target genomic locus in the endogenous B4GALT1 gene. When a cell comes into contact with one or more additional guide RNAs (for example, a second guide RNA that hybridizes to a second sequence recognized by the guide RNA), cleavage by the Cas protein can create two or more double-strand breaks or two or more single-strand breaks (for example, if Cas protein is a nickase).

В некоторых вариантах осуществления клетка может быть дополнительно приведена в контакт с одной или большим количеством экзогенных донорных последовательностей, которые рекомбинируют с целевым геномным локусом в эндогенном гене B4GALT1 для генерации целевой генетической модификации. Примеры и варианты последовательностей экзогенных доноров, которые можно использовать в указанных способах, раскрыты в другом месте данного документа.In some embodiments, the cell may be further brought into contact with one or more exogenous donor sequences that recombine with a target genomic locus in the endogenous B4GALT1 gene to generate the target genetic modification. Examples and variants of exogenous donor sequences that can be used in these methods are disclosed elsewhere herein.

Белок Cas, направляющая(ие) РНК и экзогенная(ые) донорная(ые) последовательность(и) могут быть введены в клетку в любой форме и любым способом, как описано в другом месте данного документа, и весь или некоторые из белка Cas, направляющей(их) РНК, и экзогенной(ых) донорная(ых) последовательность(ей) можгут быть введены одновременно или последовательно в любой комбинации.The Cas protein, guide RNA(s), and exogenous donor sequence(s) can be introduced into the cell in any form and in any manner as described elsewhere herein, and all or some of the Cas protein, guide The RNA and exogenous donor sequence(s) may be introduced simultaneously or sequentially in any combination.

В некоторых вариантах осуществления репарация целевой нуклеиновой кислоты (например, эндогенного гена B4GALT1) экзогенной донорной последовательностью происходит посредством гомологически направленной репарации (HDR). Гомологически направленная репарация может происходить, когда белок Cas расщепляет обе цепи ДНК в эндогенном гене B4GALT1 для создания двухцепочечного разрыва, когда белок Cas является никазой, которая расщепляет одну цепь ДНК в целевой нуклеиновой кислоте для создания одноцепочечного разрыва, или когда используются никазы Cas для создания двухцепочечного разрыва, образованного двумя смещенными никами. В таких способах экзогенная донорная последовательность содержит 5' и 3' гомологичные группы, соответствующие 5' и 3' последовательностям-мишеням. Последовательность(и) распознаваемой(ые) направляющей(ими) РНК или сайт(ы) расщепления могут быть смежными с 5'-последовательностью-мишенью, смежными с 3'-последовательностью-мишенью, смежными как с 5'-последовательностью-мишенью, так и с 3'-последовательностью-мишенью, или не находится рядом ни с 5'-последовательностью-мишенью, ни с 3'-последовательностью-мишенью. В некоторых вариантах осуществления экзогенная донорная последовательность может дополнительно включать вставку нуклеиновой кислоты, фланкированную 5' и 3' плечами гомологии, и вставку нуклеиновой кислоты вставленую между 5' и 3'-последовательностями-мишенями. Если вставка нуклеиновой кислоты отсутствует, экзогенная донорная последовательность может функционировать для удаления геномной последовательности между 5' и 3'-последовательностями-мишенями. Примеры экзогенных донорных последовательностей раскрыты в другом месте данного документа.In some embodiments, repair of a target nucleic acid (eg, the endogenous B4GALT1 gene) with an exogenous donor sequence occurs via homology directed repair (HDR). Homologously directed repair can occur when the Cas protein cleaves both strands of DNA in the endogenous B4GALT1 gene to create a double-strand break, when the Cas protein is a nickase that cleaves one strand of DNA in the target nucleic acid to create a single-strand break, or when Cas nickases are used to create a double-stranded break. a gap formed by two displaced nicknames. In such methods, the exogenous donor sequence contains 5' and 3' homologous groups corresponding to the 5' and 3' target sequences. The guide RNA recognition sequence(s) or cleavage site(s) may be adjacent to the 5' target sequence, adjacent to the 3' target sequence, adjacent to both the 5' target sequence and and with the 3' target sequence, or is not adjacent to either the 5' target sequence or the 3' target sequence. In some embodiments, the exogenous donor sequence may further include a nucleic acid insert flanked by 5' and 3' homology arms, and a nucleic acid insert inserted between the 5' and 3' target sequences. If there is no nucleic acid insert, an exogenous donor sequence can function to remove genomic sequence between the 5' and 3' target sequences. Examples of exogenous donor sequences are disclosed elsewhere herein.

С другой стороны, репарация эндогенного гена B4GALT1, опосредованного экзогенной донорной последовательностью, может происходить посредством лигирования, опосредованного негомологичным присоединением концов (NHEJ). В таких способах, по меньшей мере, один конец последовательности экзогенного донора содержит короткую одноцепочечную область, которая комплементарна, по меньшей мере, одному выступу (overhang), созданному посредством Cas-опосредованного расщепления в эндогенном гене B4GALT1. Комплементарный конец в последовательности экзогенного донора может фланкировать вставку нуклеиновой кислоты. Например, каждый конец экзогенной донорной последовательности может содержать короткую одноцепочечную область, которая комплементарна выступу (overhang), созданному Cas-опосредованным расщеплением в эндогенном гене B4GALT1, и эти комплементарные области в экзогенной последовательности донора могут фланкировать вставки нуклеиновой кислоты.On the other hand, repair of the endogenous B4GALT1 gene mediated by an exogenous donor sequence can occur through non-homologous end joining (NHEJ)-mediated ligation. In such methods, at least one end of the exogenous donor sequence contains a short single-stranded region that is complementary to at least one overhang created by Cas-mediated cleavage in the endogenous B4GALT1 gene. The complementary end in the exogenous donor sequence may flank the nucleic acid insertion. For example, each end of the exogenous donor sequence may contain a short single-stranded region that is complementary to the overhang created by Cas-mediated cleavage in the endogenous B4GALT1 gene, and these complementary regions in the exogenous donor sequence may flank the nucleic acid insertions.

Выступы (т.е. липкие концы) могут быть созданы путем резекции тупых концов двухцепочечного разрыва, созданного Cas-опосредованным расщеплением. Такая резекция может генерировать области микрогомологии, необходимые для соединения фрагментов, но это может создавать нежелательные или неконтролируемые изменения в гене B4GALT1. С другой стороны, такие выступы могут быть созданы с помощью парных ников Cas. Например, клетка может связываться с первой и второй никазами, которые расщепляют противоположные цепи ДНК, в результате чего геном модифицируется посредством двойного надреза. Это может быть достигнуто путем контакта клетки с первой никазой белка Cas, первой направляющей РНК, которая гибридизуется с первой последовательностью, распознаваемой направляющей РНК, в целевом геномном локусе в эндогенном гене B4GALT1, второй никазой белка Cas, и второй направляющая РНК, которая гибридизуется со второй последовательностью, распознаваемой направляющей РНК, в целевом геномном локусе в эндогенном гене B4GALT1. Первый белок Cas и первая направляющая РНК образуют первый комплекс, а второй белок Cas и вторая направляющая РНК образуют второй комплекс. Первая никаза с белком Cas расщепляет первую цепь геномной ДНК в первой последовательности, распознаваемой направляющей РНК, вторая никаза белка Cas расщепляет вторую цепь геномной ДНК во второй последовательности, распознаваемой направляющей РНК, и, необязательно, экзогенная донорная последовательность рекомбинирует с геномным локусом-мишенью в эндогенном гене B4GALT1 для генерации целевой генетической модификации.Overhangs (i.e., sticky ends) can be created by resecting the blunt ends of the double-strand break created by Cas-mediated cleavage. Such resection may generate regions of microhomology necessary to join the fragments, but this may create unwanted or uncontrolled changes in the B4GALT1 gene. On the other hand, such protrusions can be created using paired Cas nicks. For example, a cell can bind to the first and second nickases, which cleave opposite strands of DNA, causing the genome to be modified by a double cut. This can be achieved by contacting the cell with a first Cas protein nickase, a first guide RNA that hybridizes to a first guide RNA recognition sequence at a target genomic locus in the endogenous B4GALT1 gene, a second Cas protein nickase, and a second guide RNA that hybridizes to a second sequence recognized by the guide RNA at the target genomic locus in the endogenous B4GALT1 gene. The first Cas protein and the first guide RNA form the first complex, and the second Cas protein and the second guide RNA form the second complex. The first Cas protein nickase cleaves the first strand of genomic DNA at the first sequence recognized by the guide RNA, the second Cas protein nickase cleaves the second strand of genomic DNA at the second sequence recognized by the guide RNA, and, optionally, the exogenous donor sequence recombines with the target genomic locus at the endogenous B4GALT1 gene to generate targeted genetic modification.

Первая никаза может расщеплять первую цепь геномной ДНК (т.е. комплементарную цепь), а вторая никаза может расщеплять вторую цепь геномной ДНК (то есть некомплементарную цепь). Первую и вторую никазы можно создать, например, путем мутации каталитического остатка в домене RuvC (например, мутации D10A, описанной в другом месте в данном документе) Cas9 или мутации каталитического остатка в домене HNH (например, мутации H840A, описанной в другом месте в данном документе) из Cas9. В таких способах двойное надрезание может быть использовано для создания двухцепочечного разрыва, имеющего ступенчатые концы (т.е. выступы). Первую и вторую последовательности, распознаваемые направляющими РНК, можно расположить так, чтобы создать сайт расщепления таким образом, чтобы ники, созданные первыми и вторыми никазами на первой и второй цепях ДНК, создавали двухцепочечный разрыв. Выступы создаются, когда разрезы в первой и второй последовательностях распознаваемых РНК CRISPR смещены. Окно смещения может составлять, например, по меньшей мере, около 5 п.н., по меньшей мере, около 10 п.н., по меньшей мере, около 20 п.н., по меньшей мере, около 30 п.н., по меньшей мере, около 40 п.н., по меньшей мере, около 50 п.н., по меньшей мере, около 60 п.н., по меньшей мере, около 70 п.н., по меньшей мере, около 80 п.н., по меньшей мере, около 90 п.н., по меньшей мере, около 100 п.н. или более. См., например, Ran et al., Cell, 2013, 154, 1380-1389; Mali et al., Nat. Biotech., 213, 31, 833-838; и Shen et al., Nat. Methods, 2014, 11, 399-404.The first nickase can cleave the first strand of genomic DNA (ie, the complementary strand), and the second nickase can cleave the second strand of genomic DNA (ie, the non-complementary strand). The first and second nickases can be created, for example, by mutation of the catalytic residue in the RuvC domain (for example, the D10A mutation described elsewhere herein) of Cas9 or mutation of the catalytic residue in the HNH domain (for example, the H840A mutation described elsewhere herein). document) from Cas9. In such methods, double notching can be used to create a double-strand break having stepped ends (ie, protrusions). The first and second sequences recognized by the guide RNAs can be positioned to create a cleavage site such that the nicks created by the first and second nickases on the first and second strands of DNA create a double-strand break. Overhangs are created when cuts in the first and second CRISPR RNA recognition sequences are misaligned. The offset window may be, for example, at least about 5 bp, at least about 10 bp, at least about 20 bp, at least about 30 bp. at least about 40 bp, at least about 50 bp, at least about 60 bp, at least about 70 bp, at least about 80 bp, at least about 90 bp, at least about 100 bp. or more. See, for example, Ran et al., Cell , 2013, 154, 1380-1389; Mali et al., Nat. Biotech. , 213, 31, 833-838; and Shen et al., Nat. Methods , 2014, 11, 399-404.

Различные типы целевых генетических модификаций могут быть введены с использованием способов, описанных в данном документе. Такие целевые модификации могут включать, например, добавления одного или более нуклеотидов, делеции одного или более нуклеотидов, замены одного или более нуклеотидов, точечную мутацию или их комбинацию. Например, по меньшей мере, 1, по меньшей мере, 2, по меньшей мере, 3, по меньшей мере, 4, по меньшей мере, 5, по меньшей мере, 7, по меньшей мере, 8, по меньшей мере, 8, по меньшей мере, 9 или, по меньшей мере, 10 или более нуклеотидов могут быть изменены (например, удалены, вставленны или замещенны) для формирования целевой геномной модификации. Various types of targeted genetic modifications can be introduced using the methods described herein. Such targeted modifications may include, for example, additions of one or more nucleotides, deletions of one or more nucleotides, substitutions of one or more nucleotides, point mutation, or a combination thereof. For example, at least 1, at least 2, at least 3, at least 4, at least 5, at least 7, at least 8, at least 8, at least 9 or at least 10 or more nucleotides may be changed (eg, deleted, inserted or substituted) to form a target genomic modification.

Такие целевые генетические модификации могут привести к нарушению целевого геномного локуса. Нарушение может включать в себя изменение регуляторного элемента (например, промотора или энхансера), миссенс-мутацию, нонсенс-мутацию, мутацию сдвига рамки, мутацию усечения, нулевую мутацию или вставку или делеция небольшого количества нуклеотидов (например, вызывая мутацию сдвига рамки), и это может привести к инактивации (т.е. потере функции) или потере аллеля. Например, целевая модификация может включать разрушение стартового кодона эндогенного гена B4GALT1, так что стартовый кодон больше не функционирует.Such targeted genetic modifications may lead to disruption of the target genomic locus. The disorder may include a change in a regulatory element (eg, a promoter or enhancer), a missense mutation, a nonsense mutation, a frameshift mutation, a truncation mutation, a null mutation, or an insertion or deletion of a small number of nucleotides (eg, causing a frameshift mutation), and this may result in inactivation (i.e. loss of function) or loss of the allele. For example, the targeted modification may involve disruption of the start codon of the endogenous B4GALT1 gene such that the start codon is no longer functional.

В некоторых вариантах осуществления целевая модификация может включать делецию между первой и второй последовательностями распознаваемыми направляющей РНК или сайтами расщепления Cas. Если используется экзогенная донорная последовательность (например, репарационная матрица или направляющий вектор), модификация может включать делецию между первой и второй последовательностями распознаваемыми направляющими РНК или сайтами расщепления Cas, а также вставку нуклеиновой кислоты между 5' и 3' целевой последовательности. In some embodiments, the targeted modification may include a deletion between the first and second guide RNA recognition sequences or Cas cleavage sites. If an exogenous donor sequence (eg, a repair template or targeting vector) is used, the modification may include a deletion between the first and second recognition guide RNA sequences or Cas cleavage sites, as well as insertion of a nucleic acid between the 5' and 3' of the target sequence.

В некоторых вариантах осуществления, если используется экзогенная донорная последовательность, одна или в сочетании с нуклеазным агентом, модификация может включать делецию между 5' и 3' последовательностями-мишенями, а также вставку нуклеиновой кислоты между 5' и 3' последовательностями-мишенями в паре первой и второй гомологичных хромосом, что приводит к гомозиготному модифицированному геному. С другой стороны, если экзогенная донорная последовательность содержит 5' и 3' плечи гомологии без вставки нуклеиновой кислоты, модификация может включать делецию между 5' и 3' последовательностями-мишенями. In some embodiments, if an exogenous donor sequence is used, alone or in combination with a nuclease agent, the modification may include a deletion between the 5' and 3' target sequences, as well as the insertion of a nucleic acid between the 5' and 3' target sequences in the first pair and a second homologous chromosome, resulting in a homozygous modified genome. On the other hand, if the exogenous donor sequence contains 5' and 3' homology arms without insertion of nucleic acid, the modification may involve a deletion between the 5' and 3' target sequences.

Делеция между первой и второй последовательностями распознаваемыми направляющей РНК или делеция между 5' и 3' последовательностями-мишенями может быть точной делецией, в которой удаленная нуклеиновая кислота состоит только из последовательности нуклеиновой кислоты между первым и вторым сайтом расщепления нуклеазы или только последовательности нуклеиновой кислоты между 5' и 3' последовательностями-мишенями, так что в модифицированном геномном локусе-мишени нет дополнительных удалений или вставок. Делеция между первой и второй последовательностями распознаваемыми направляющей РНК может также быть неточным удалением, простирающимся за пределы первого и второго сайтов расщепления нуклеазой, что согласуется с неточным восстановлением с помощью негомологичного присоединения концов (NHEJ), что приводит к дополнительным делециям и/или вставкам в модифицированном геномном локусе. Например, делеция может составлять около 1 п.н., около 2 п.н., около 3 п.н., около 4 п.н., около 5 п.н., около 10 п.н., около 20 п.н., около 30 п.н., около 40 п.н., около 50 п.н., около 100 около 200 п.н., около 300 п.н., около 400 п.н., около 500 п.н. Аналогичным образом, модифицированный геномный локус может содержать дополнительные вставки, согласующиеся с неточным восстановлением NHEJ, такие как вставки около 1 п.н., около 2 п.н., около 3 п.н., около 4 п.н., около 5 п.н., около 10 п.н., около 20 п.н., около 30, около 40, около 50, около 100, около 200, около 300, около 400, около 500 или более. A deletion between the first and second guide RNA recognition sequences or a deletion between the 5' and 3' target sequences may be a precise deletion in which the deleted nucleic acid consists only of the nucleic acid sequence between the first and second nuclease cleavage sites or only the nucleic acid sequence between 5 ' and 3' target sequences such that there are no additional deletions or insertions at the modified genomic target locus. A deletion between the first and second guide RNA recognition sequences may also be an imprecise deletion extending beyond the first and second nuclease cleavage sites, consistent with imprecise repair by non-homologous end joining (NHEJ), resulting in additional deletions and/or insertions in the modified genomic locus. For example, the deletion may be about 1 bp, about 2 bp, about 3 bp, about 4 bp, about 5 bp, about 10 bp, about 20 bp .b., about 30 bp, about 40 bp, about 50 bp, about 100 about 200 bp, about 300 bp, about 400 bp, about 500 p.n. Likewise, the modified genomic locus may contain additional insertions consistent with inaccurate NHEJ repair, such as insertions of about 1 bp, about 2 bp, about 3 bp, about 4 bp, about 5 bp, about 10 bp, about 20 bp, about 30, about 40, about 50, about 100, about 200, about 300, about 400, about 500 or more.

Целевой генетической модификацией может быть, например, двуаллельная модификация или моноаллельная модификация. Двуаллельные модификации включают события, в которых одна и та же модификация вносится в один и тот же локус в соответствующих гомологичных хромосомах (например, в диплоидной клетке), или когда разные модификации вносятся в один и тот же локус в соответствующих гомологичных хромосомах. В некоторых вариантах осуществления целевая генетическая модификация представляет собой моноаллельную модификацию. Моноаллельная модификация включает события, в которых модификация сделана только для одного аллеля (то есть модификация эндогенного гена B4GALT1 только в одной из двух гомологичных хромосом). Гомологичные хромосомы включают в себя хромосомы, которые имеют одинаковые гены в тех же локусах, но, возможно, разные аллели (например, хромосомы, которые спарены во время мейоза). The target genetic modification may be, for example, a biallelic modification or a monoallelic modification. Biallelic modifications include events in which the same modification is made at the same locus on corresponding homologous chromosomes (for example, in a diploid cell), or when different modifications are made at the same locus on corresponding homologous chromosomes. In some embodiments, the targeted genetic modification is a monoallelic modification. Monoallelic modification includes events in which a modification is made to only one allele (that is, modification of the endogenous B4GALT1 gene on only one of the two homologous chromosomes). Homologous chromosomes include chromosomes that have the same genes at the same loci, but possibly different alleles (for example, chromosomes that are paired during meiosis).

Моноаллельная мутация может привести к гетерозиготной клетке по целевой модификации B4GALT1. Гетерозиготность включает ситуацию, в которой только один аллель гена B4GALT1 (то есть соответствующие аллели на обеих гомологичных хромосомах) имеют целевую модификацию.A monoallelic mutation can result in a cell heterozygous for the target modification B4GALT1. Heterozygosity involves the situation in which only one allele of the B4GALT1 gene (that is, the corresponding alleles on both homologous chromosomes) has the target modification.

Двуаллельная модификация может привести к гомозиготности по целевой модификации. Гомозиготность включает ситуации, в которых оба аллеля гена B4GALT1 (то есть соответствующие аллели на обеих гомологичных хромосомах) имеют направленную модификацию. Альтернативно, двуаллельная модификация может приводить к сложной гетерозиготности (например, гемизиготности) для целевой модификации. Сложная гетерозиготность включает ситуации, в которых оба аллеля локуса-мишени (т.е. аллели на обеих гомологичных хромосомах) были модифицированы, но они были модифицированы различными способами (например, целевая модификация в одном аллеле и инактивация или разрушение другого аллеля). A biallelic modification can result in homozygosity for the target modification. Homozygosity includes situations in which both alleles of the B4GALT1 gene (that is, the corresponding alleles on both homologous chromosomes) have a directional modification. Alternatively, a biallelic modification may result in compound heterozygosity (eg, hemizygosity) for the target modification. Compound heterozygosity involves situations in which both alleles of a target locus (i.e., alleles on both homologous chromosomes) have been modified, but they have been modified in different ways (e.g., targeted modification in one allele and inactivation or disruption of the other allele).

Раскрытые в данном документе способы могут дополнительно включать идентификацию клетки, имеющей модифицированный ген B4GALT1. Различные методы могут быть использованы для идентификации клеток, имеющих целевую генетическую модификацию, такую как делеция или вставка. Такие способы могут включать идентификацию одной клетки, имеющей целевую генетическую модификацию в гене B4GALT1. Скрининг может быть выполнен для идентификации таких клеток с модифицированными геномными локусами. Этап скрининга может включать количественный анализ для оценки модификации аллеля (MOA-modification of allele) (например, анализы потери аллеля (LOA - loss-of-allele) и/или усиления аллеля (GOA - gain-of-allele)) родительской хромосомы. The methods disclosed herein may further include identifying a cell having a modified B4GALT1 gene. Various methods can be used to identify cells that have a target genetic modification, such as a deletion or insertion. Such methods may involve identifying a single cell having a target genetic modification in the B4GALT1 gene. Screening can be performed to identify such cells with modified genomic loci. The screening step may include a quantitative assay to assess the modification of allele (MOA-modification of allele) (eg, loss-of-allele and/or gain-of-allele assays) of the parent chromosome.

Другие примеры подходящих количественных анализов включают флуоресцентно-опосредованную гибридизацию in situ (FISH- fluorescence in situ hybridization), сравнительную геномную гибридизацию, изотермическую амплификацию ДНК, количественную гибридизацию с иммобилизованным зондом(ами), зонды INVADER®, зонды TAQMAN® Molecular Beacon или Технологию зондов ECLIPSE™. Обычные анализы для скрининга на целевые модификации, такие как ПЦР протяженных участков, Саузерн-блоттинг или секвенирование Сэнгера, также могут быть использованы. Такие анализы обычно используются для получения доказательств связи между встроенным нацеливающим вектором и целевым геномным локусом. Например, для анализа ПЦР протяженных участков один праймер может распознавать последовательность внутри вставленной ДНК, в то время как другой распознает последовательность локуса генома-мишени за пределами концов плеч гомологии целевого вектора.Other examples of suitable quantitative assays include FISH-fluorescence in situ hybridization, comparative genomic hybridization, isothermal DNA amplification, quantitative hybridization with immobilized probe(s), INVADER® probes, TAQMAN® Molecular Beacon probes, or Probe Technology ECLIPSE™. Conventional assays to screen for target modifications, such as long-range PCR, Southern blotting, or Sanger sequencing, can also be used. Such assays are typically used to provide evidence of association between the inserted targeting vector and the target genomic locus. For example, for long-range PCR analysis, one primer may recognize the sequence within the inserted DNA, while the other recognizes the sequence of the target genomic locus outside the ends of the homology arms of the target vector.

Секвенирование следующего поколения (NGS - next generation sequencing) также можно использовать для скрининга. Секвенирование следующего поколения также может называться «NGS» или «массивно-параллельная последовательность» или «высокопроизводительная последовательность». В некоторых вариантах осуществления нет необходимости проводить скрининг на целевые клетки с использованием маркеров выбора. Например, на анализы MOA и NGS, описанные в данном документе, можно положиться, не используя кассеты селекции.Next generation sequencing (NGS - next generation sequencing) can also be used for screening. Next generation sequencing may also be called "NGS" or "massively parallel sequencing" or "high throughput sequencing". In some embodiments, it is not necessary to screen for target cells using selectable markers. For example, the MOA and NGS assays described herein can be relied upon without using selection cassettes.

Данное раскрытие также предоставляет способы изменения экспрессии нуклеиновых кислот, кодирующих полипептиды B4GALT1. В некоторых вариантах осуществления экспрессия изменяется посредством расщепления нуклеазным агентом, чтобы вызвать разрушение нуклеиновой кислоты, кодирующей эндогенный полипептид B4GALT1, как описано более подробно в другом месте данного документа. В некоторых вариантах осуществления экспрессия изменяется посредством использования ДНК-связывающего белка, слитого или связанного с доменом активации транскрипции или доменом репрессии транскрипции. В некоторых вариантах осуществления экспрессия изменяется посредством использования интерференционных композиций РНК, таких как антисмысловая РНК, кшРНК или siRNA.This disclosure also provides methods for altering the expression of nucleic acids encoding B4GALT1 polypeptides. In some embodiments, expression is altered by cleavage with a nuclease agent to cause destruction of the nucleic acid encoding the endogenous B4GALT1 polypeptide, as described in more detail elsewhere herein. In some embodiments, expression is altered through the use of a DNA binding protein fused to or linked to a transcriptional activation domain or a transcriptional repression domain. In some embodiments, expression is altered through the use of RNA interference compositions, such as antisense RNA, shRNA, or siRNA.

В некоторых вариантах осуществления экспрессию эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, можно модифицировать путем контакта клетки или генома в клетке с нуклеазным агентом, который индуцирует один или более ников или дважды разрывы цепи в распознаваемой последовательности в целевом геномном локусе внутри эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Такое расщепление может привести к нарушению экспрессии эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Например, последовательность распознаваемая нуклеазой может включать или быть ближайшей к стартовому кодону эндогенного гена B4GALT1. Например, распознаваемая последовательность может находиться в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от стартового кодона, и расщепление нуклеазным агентом может нарушить стартовый кодон. В некоторых вариантах осуществления могут быть использованы два или более нуклеазных агента, каждый из которых направлен на последовательность распознаваемую нуклеазой, включающую или расположенную близко к стартовому кодону. В некоторых вариантах осуществления могут быть использованы два нуклеазных агента, один из которых направлен на последовательность распознаваемую нуклеазой, включающую в себя или расположенную близко к стартовому кодону, а другой направлен на последовательность распознаваемую нуклеазой, включающую или соседствующую со стоп-кодоном, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между двумя последовательностями распознаваемыми нуклеазами. В некоторых вариантах осуществления могут быть использованы три или более нуклеазных агента с одной или большим количеством (например, двумя) нацеливающими последовательностями распознаваемыми нуклеазами, включающими или расположенными близко к стартовому кодону, и одной или большим количеством (например, двумя) целивыми последовательностями распознаваемыми нуклеазами, включающими или близкими к стоп-кодону, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между последовательностями распознаваемыми нуклеазами, включающими или близкими к стартовому кодону, и последовательностью распознаваемой нуклеазой, включающей или расположенной рядом со стоп-кодоном. Другие примеры модификации эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, раскрыты в данном документе в другом месте.In some embodiments, the expression of an endogenous B4GALT1 gene or a nucleic acid encoding a B4GALT1 polypeptide can be modified by contacting a cell or a genome within a cell with a nuclease agent that induces one or more nicks or double strand breaks in a recognition sequence at a target genomic locus within the endogenous B4GALT1 gene or a nucleic acid encoding a B4GALT1 polypeptide. Such cleavage may disrupt the expression of the endogenous B4GALT1 gene or the nucleic acid encoding the B4GALT1 polypeptide. For example, the nuclease recognition sequence may include or be proximal to the start codon of the endogenous B4GALT1 gene. For example, the recognition sequence may be within about 10, within about 20, within about 30, within about 40, within about 50, within about 100, within about 200, within about 300, within about 400 , within about 500 or within about 1000 nucleotides from the start codon, and cleavage by a nuclease agent may disrupt the start codon. In some embodiments, two or more nuclease agents may be used, each directed to a nuclease recognition sequence including or located close to the start codon. In some embodiments, two nuclease agents may be used, one directed to a nuclease recognition sequence including or adjacent to the start codon, and the other directed to a nuclease recognition sequence including or adjacent to the stop codon, wherein cleavage by the nuclease agents can lead to deletion of the coding region between two sequences recognized by nucleases. In some embodiments, three or more nuclease agents may be used with one or more (e.g., two) nuclease recognition targeting sequences including or located close to the start codon, and one or more (e.g., two) nuclease recognition targeting sequences, including or proximal to a stop codon, wherein cleavage by nuclease agents may result in deletion of the coding region between the nuclease recognition sequences including or proximal to the start codon and the nuclease recognition sequence including or proximal to the stop codon. Other examples of modification of the endogenous B4GALT1 gene or the nucleic acid encoding the B4GALT1 polypeptide are disclosed elsewhere herein.

В некоторых вариантах осуществления экспрессия эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, может быть модифицирована путем контакта клетки или генома в клетке с ДНК-связывающим белком, который связывается с целевым геномным локусом внутри эндогенного гена B4GALT1. ДНК-связывающий белок может представлять собой, например, нуклеазо-неактивный белок Cas, слитый с доменом активатора транскрипции или доменом репрессора транскрипции. Другие примеры ДНК-связывающих белков включают белки цинкового пальца, слитые с доменом активатора транскрипции или доменом репрессора транскрипции, или белки, подобные активатору транскрипции (TALE), слитые с доменом активатора транскрипции или доменом репрессора транскрипции. Примеры таких белков раскрыты в данном документе в другом месте.In some embodiments, the expression of an endogenous B4GALT1 gene or a nucleic acid encoding a B4GALT1 polypeptide can be modified by contacting a cell or a genome within a cell with a DNA binding protein that binds to a target genomic locus within the endogenous B4GALT1 gene. The DNA binding protein may be, for example, a nuclease-inactive Cas protein fused to a transcription activator domain or a transcription repressor domain. Other examples of DNA-binding proteins include zinc finger proteins fused to a transcriptional activator domain or a transcriptional repressor domain, or transcription activator-like proteins (TALEs) fused to a transcriptional activator domain or a transcriptional repressor domain. Examples of such proteins are disclosed elsewhere herein.

Распознаваемая ДНК-связывающим белком последовательность (например, последовательность, распознаваемая направляющей РНК) может находиться в любом месте эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, подходящий для изменения экспрессии. В некоторых вариантах осуществления распознаваемая последовательность может находиться в регуляторном элементе, таком как энхансер или промотор, или может находиться в непосредственной близости от регуляторного элемента. Например, распознаваемая последовательность может включать или быть близкой к стартовому кодону эндогенного гена B4GALT1. В некоторых вариантах осуществления распознаваемая последовательность может находиться в пределах около 10, около 20, около 30, около 40, около 50, около 100, около 200, около 300, около 400, около 500 или в пределах около 1000 нуклеотидов стартового кодона.The DNA binding protein recognition sequence (eg, the sequence recognized by the guide RNA) may be located anywhere in the endogenous B4GALT1 gene or a nucleic acid encoding a B4GALT1 polypeptide suitable for altering expression. In some embodiments, the recognition sequence may be located in a regulatory element, such as an enhancer or promoter, or may be in close proximity to a regulatory element. For example, the recognition sequence may include or be close to the start codon of the endogenous B4GALT1 gene. In some embodiments, the recognition sequence may be within about 10, about 20, about 30, about 40, about 50, about 100, about 200, about 300, about 400, about 500, or within about 1000 nucleotides of the start codon.

В некоторых вариантах осуществления антисмысловые молекулы могут быть использованы для изменения экспрессии эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Примеры антисмысловых молекул включают, но не ограничиваются ими, антисмысловые РНК, миРНК и кшРНК. Такие антисмысловые РНК, миРНК или кшРНК могут быть предназначены для нацеливания на любой участок мРНК. Например, антисмысловые РНК, миРНК или кшРНК могут быть сконструированы для нацеливания на область, уникальную для мРНК B4GALT1.In some embodiments, antisense molecules can be used to alter the expression of an endogenous B4GALT1 gene or a nucleic acid encoding a B4GALT1 polypeptide. Examples of antisense molecules include, but are not limited to, antisense RNAs, siRNAs and shRNAs. Such antisense RNAs, siRNAs or shRNAs can be designed to target any region of the mRNA. For example, antisense RNAs, siRNAs, or shRNAs can be designed to target a region unique to B4GALT1 mRNA.

Описанные в данном документе нуклеиновые кислоты и белки могут быть введены в клетку любым способом. В некоторых вариантах осуществления введение может осуществляться любым способом, и один или более компонентов (например, два компонента или все компоненты) могут быть введены в клетку одновременно или последовательно в любой комбинации. Например, экзогенная донорная последовательность может быть введена до введения нуклеазного агента, или она может быть введена после введения нуклеазного агента (например, экзогенная донорная последовательность может быть введена около 1, около 2, около 3, около 4 (около 8, около 12, около 24, около 36, около 48 или около 72 часов до или после введения нуклеазного агента). Приведение генома клетки в контакт с нуклеазным агентом или последовательностью экзогенного донора может включать введение одного или более нуклеазных агентов или нуклеиновых кислот, кодирующих нуклеазные агенты (например, один или более белков Cas или нуклеиновых кислот, кодирующих один или более белков Cas, и один или более направляющие РНК или нуклеиновые кислоты, кодирующие одну или более направляющих РНК (т.е. одну или более РНК CRISPR и одну или более тракрРНК)) и/или одну или более экзогенных донорных последовательностей в клетку. Контакт с геномом клетки (т.е. контакт с клеткой) может включать введение в клетку только одного из вышеуказанных компонентов, одного или более компонентов или всех компонентов. The nucleic acids and proteins described herein can be introduced into a cell by any method. In some embodiments, administration may be accomplished by any route, and one or more components (eg, two components or all components) may be introduced into the cell simultaneously or sequentially in any combination. For example, the exogenous donor sequence may be introduced before administration of the nuclease agent, or it may be introduced after administration of the nuclease agent (e.g., the exogenous donor sequence may be introduced at about 1, about 2, about 3, about 4 (about 8, about 12, about 24, about 36, about 48, or about 72 hours before or after administration of the nuclease agent.) Bringing the genome of a cell into contact with the nuclease agent or an exogenous donor sequence may involve administering one or more nuclease agents or nucleic acids encoding nuclease agents (e.g., one or more Cas proteins or nucleic acids encoding one or more Cas proteins, and one or more guide RNAs or nucleic acids encoding one or more guide RNAs (i.e., one or more CRISPR RNAs and one or more tracrRNAs)) and/ or one or more exogenous donor sequences into the cell.Contact with the genome of the cell (ie, contact with the cell) may involve introducing into the cell only one of the above components, one or more components, or all components.

Нуклеазный агент может быть введен в клетку в форме белка или в форме нуклеиновой кислоты, кодирующей нуклеазный агент, такой как РНК (например, мессенджер РНК (мРНК)) или ДНК. При введении в форме ДНК она может быть функционально связана с активным в клетке промотором. Такие ДНК могут находиться в одной или более конструкциях экспрессии.The nuclease agent can be introduced into a cell in the form of a protein or in the form of a nucleic acid encoding the nuclease agent, such as RNA (eg, messenger RNA (mRNA)) or DNA. When administered in the form of DNA, it can be operably linked to a promoter active in the cell. Such DNA may be present in one or more expression constructs.

В некоторых вариантах осуществления белок Cas может быть введен в клетку в форме белка, такого как белок Cas, образующий комплекс с нРНК, или в форме нуклеиновой кислоты, кодирующей белок Cas, такой как РНК (например, мессенджер РНК (мРНК)) или ДНК. Направляющая РНК может быть введена в клетку в форме РНК или в форме ДНК, кодирующей направляющую РНК. При введении в форме ДНК ДНК, кодирующая белок Cas и/или направляющую РНК, может быть функционально связана с активным в клетке промотором. Такие ДНК могут находиться в одной или более конструкциях экспрессии. Например, такие экспрессирующие конструкции могут быть компонентами одной молекулы нуклеиновой кислоты. Альтернативно, они могут быть разделены в любой комбинации между двумя или более молекулами нуклеиновой кислоты (то есть ДНК, кодирующие одну или более РНК CRISPR, ДНК, кодирующие одну или более тракрРНК, и ДНК, кодирующая белок Cas, могут быть компонентами отдельных молекул нуклеиновой кислоты).In some embodiments, the Cas protein may be introduced into a cell in the form of a protein, such as a Cas protein complexed with an nRNA, or in the form of a nucleic acid encoding a Cas protein, such as RNA (eg, messenger RNA (mRNA)) or DNA. Guide RNA can be introduced into a cell in the form of RNA or in the form of DNA encoding the guide RNA. When administered in DNA form, the DNA encoding the Cas protein and/or guide RNA can be operably linked to a promoter active in the cell. Such DNA may be present in one or more expression constructs. For example, such expression constructs may be components of a single nucleic acid molecule. Alternatively, they may be shared in any combination between two or more nucleic acid molecules (i.e., DNA encoding one or more CRISPR RNAs, DNA encoding one or more tracrRNAs, and DNA encoding a Cas protein may be components of individual nucleic acid molecules ).

В некоторых вариантах осуществления ДНК, кодирующая нуклеазный агент (например, белок Cas и направляющую РНК), и/или ДНК, кодирующая экзогенную донорную последовательность, может быть введена в клетку через мини-циркулярную ДНК. Мини-циркулярная ДНК представляет собой суперскрученные молекулы ДНК, которые можно использовать для невирусного переноса генов, которые не имеют ни источника репликации, ни маркера отбора антибиотиков. Таким образом, мини- циркулярная ДНК обычно меньше по размеру, чем плазмидный вектор. Эти ДНК лишены бактериальной ДНК и, следовательно, лишены неметилированных мотивов CpG, обнаруженных в бактериальной ДНК.In some embodiments, DNA encoding a nuclease agent (eg, Cas protein and guide RNA) and/or DNA encoding an exogenous donor sequence can be introduced into a cell via minicircular DNA. Minicircular DNA is a supercoiled DNA molecule that can be used for non-viral transfer of genes that have neither an origin of replication nor an antibiotic selection marker. Thus, minicircular DNA is usually smaller in size than a plasmid vector. These DNAs lack bacterial DNA and therefore lack the unmethylated CpG motifs found in bacterial DNA.

Способы, описанные в данном документе, не зависят от конкретного способа введения нуклеиновой кислоты или белка в клетку, при этом нуклеиновая кислота или белок получает доступ внутрь, по меньшей мере, одной клетки. Способы введения нуклеиновых кислот и белков в клетки различных типов известны и включают, но не ограничиваются ими, методы стабильной трансфекции, методы временной трансфекции и методы, опосредованные вирусом.The methods described herein are independent of the specific method of introducing the nucleic acid or protein into a cell, wherein the nucleic acid or protein gains access to the interior of at least one cell. Methods for introducing nucleic acids and proteins into various types of cells are known and include, but are not limited to, stable transfection methods, transient transfection methods, and virus-mediated methods.

Протоколы трансфекции, а также протоколы введения нуклеиновых кислот или белков в клетки могут различаться. Неограничивающие способы трансфекции включают химические способы трансфекции с использованием липосом, наночастиц, кальция, дендримеров и катионных полимеров, таких как DEAE-декстран или полиэтиленимин. Нехимические методы включают электропорацию, сонопорацию и оптическую трансфекцию. Трансфекция на основе частиц включает использование генной пушки или магнитную трансфекцию. Вирусные методы также могут быть использованы для трансфекции.Transfection protocols, as well as protocols for introducing nucleic acids or proteins into cells, may vary. Non-limiting transfection methods include chemical transfection methods using liposomes, nanoparticles, calcium, dendrimers and cationic polymers such as DEAE-dextran or polyethylenimine. Non-chemical methods include electroporation, sonoporation and optical transfection. Particle-based transfection involves the use of a gene gun or magnetic transfection. Viral methods can also be used for transfection.

Введение нуклеиновых кислот или белков в клетку также может быть опосредовано электропорацией, внутрицитоплазматической инъекцией, вирусной инфекцией, аденовирусом, аденоассоциированным вирусом, лентивирусом, ретровирусом, трансфекцией, липид-опосредованной трансфекцией или путем nucleofection. Нуклеофекция - это усовершенствованная технология электропорации, которая позволяет доставлять субстраты нуклеиновых кислот не только в цитоплазму, но и через ядерную мембрану и в ядро. Кроме того, использование нуклеофекции в раскрытых в данном документе способах обычно требует гораздо меньше клеток, чем обычная электропорация (например, только около 2 миллионов по сравнению с 7 миллионами при обычной электропорации). В некоторых вариантах осуществления нуклеофекция выполняется с использованием системы LONZA® NUCLEOFECTOR™.Introduction of nucleic acids or proteins into a cell may also be mediated by electroporation, intracytoplasmic injection, viral infection, adenovirus, adeno-associated virus, lentivirus, retrovirus, transfection, lipid-mediated transfection, or by nucleofection. Nucleofection is an improved electroporation technology that allows delivery of nucleic acid substrates not only into the cytoplasm, but also through the nuclear membrane and into the nucleus. In addition, the use of nucleofection in the methods disclosed herein typically requires far fewer cells than conventional electroporation (eg, only about 2 million compared to 7 million for conventional electroporation). In some embodiments, nucleofection is performed using the LONZA® NUCLEOFECTOR™ system.

Введение нуклеиновых кислот или белков в клетку также может быть осуществлено путем микроинъекции. Микроинъекция мРНК обычно происходит в цитоплазму (например, для доставки мРНК непосредственно в механизм трансляции), тогда как микроинъекция белка или ДНК, кодирующей ДНК, кодирующую белок Cas, обычно происходит в ядро. Альтернативно, микроинъекция может быть осуществлена путем инъекции как в ядро, так и в цитоплазму: сначала можно ввести иглу в ядро, и можно ввести первое количество, и, удаляя иглу из клетки, можно ввести второе количество в цитоплазму. Если белок нуклеазного агента вводится в цитоплазму, белок может содержать сигнал ядерной локализации для обеспечения доставки в ядро/пронуклеус.The introduction of nucleic acids or proteins into a cell can also be accomplished by microinjection. Microinjection of mRNA typically occurs in the cytoplasm (e.g., to deliver mRNA directly to the translation machinery), whereas microinjection of protein or DNA encoding DNA encoding the Cas protein typically occurs in the nucleus. Alternatively, microinjection can be accomplished by injecting into both the nucleus and the cytoplasm: a needle can be inserted into the nucleus first and a first amount can be injected, and by removing the needle from the cell a second amount can be injected into the cytoplasm. If the nuclease agent protein is introduced into the cytoplasm, the protein may contain a nuclear localization signal to ensure delivery to the nucleus/pronucleus.

Другие способы введения нуклеиновой кислоты или белков в клетку могут включать, например, векторную доставку, опосредованную частицами доставку, опосредованную экзосомами доставку, опосредованную липидными наночастицами доставку, опосредованную проникновением в клетку пептидную доставку или доставку опосредованную имплантируемым устройством. Способы введения нуклеиновых кислот или белков субъекту для модификации клеток in vivo раскрыты в другом месте данного документа. Введение нуклеиновых кислот и белков в клетки также может быть достигнуто путем гидродинамической доставки (HDD - hydrodynamic delivery). Other methods of introducing nucleic acid or proteins into a cell may include, for example, vector delivery, particle-mediated delivery, exosome-mediated delivery, lipid nanoparticle-mediated delivery, cell entry-mediated peptide delivery, or implantable device-mediated delivery. Methods for administering nucleic acids or proteins to a subject to modify cells in vivo are disclosed elsewhere herein. The introduction of nucleic acids and proteins into cells can also be achieved by hydrodynamic delivery (HDD).

Другие способы введения нуклеиновой кислоты или белков в клетку могут включать, например, векторную доставку, опосредованную частицами доставку, опосредованную экзосомами доставку, опосредованную липидными наночастицами доставку, опосредованную проникновением в клетку пептидную доставку или доставку опосредованную имплантируемым устройством. В некоторых вариантах осуществления нуклеиновую кислоту или белок можно вводить в клетку в носителе, таком как микросфера поли (молочной кислоты) (PLA), микросфера поли (D, L-молочная-когликолевой кислоты) (PLGA), липосома, мицелла, обратная мицелла, липидный кохлеат или липидная микротрубочка.Other methods of introducing nucleic acid or proteins into a cell may include, for example, vector delivery, particle-mediated delivery, exosome-mediated delivery, lipid nanoparticle-mediated delivery, cell entry-mediated peptide delivery, or implantable device-mediated delivery. In some embodiments, the nucleic acid or protein can be introduced into a cell in a carrier such as a poly(lactic acid) (PLA) microsphere, a poly(D,L-lactic-coglycolic acid) microsphere (PLGA), a liposome, a micelle, a reverse micelle, lipid cochleate or lipid microtubule.

Введение нуклеиновых кислот или белков в клетку может быть выполнено один раз или более раз за период времени. В некоторых вариантах осуществления введение может выполняться, по меньшей мере, два раза в течение периода времени, по меньшей мере, три раза в течение периода времени, по меньшей мере, четыре раза в течение периода времени, по меньшей мере, пять раз в течение периода времени, по меньшей мере, шесть раз в течение периода времени, по меньшей мере, семь раз в течение периода времени, по меньшей мере, восемь раз в течение периода времени, по меньшей мере, девять раз в течение периода времени, по меньшей мере, десять раз в течение периода времени, в, по меньшей мере, одиннадцать раз, по меньшей мере, двенадцать раз в период времени, по меньшей мере, тринадцать раз в период времени, по меньшей мере, четырнадцать раз в период времени, по меньшей мере, пятнадцать раз в период времени, по меньшей мере, шестнадцать раз в период период времени, по меньшей мере, семнадцать раз в период времени, по меньшей мере, восемнадцать раз в период времени, по меньшей мере, девятнадцать раз в период времени или, по меньшей мере, двадцать раз в период времени.Introduction of nucleic acids or proteins into a cell can be performed once or more times over a period of time. In some embodiments, administration may be performed at least twice over a period of time, at least three times over a period of time, at least four times over a period of time, at least five times over a period of time time, at least six times during a period of time, at least seven times during a period of time, at least eight times during a period of time, at least nine times during a period of time, at least ten times in a period of time, at least eleven times, at least twelve times in a period of time, at least thirteen times in a period of time, at least fourteen times in a period of time, at least fifteen times in a period of time, at least sixteen times in a period of time, at least seventeen times in a period of time, at least eighteen times in a period of time, at least nineteen times in a period of time or at least at least twenty times in a period of time.

В некоторых вариантах осуществления клетки, используемые в способах и композициях, имеют конструкцию ДНК, стабильно включенную в их геном. В таких случаях приведение в контакт может включать обеспечение клетки конструкцией, уже стабильно включенной в ее геном. В некоторых вариантах осуществления клетка, используемая в способах, раскрытых в данном документе, может иметь ранее существующий Cas-кодирующий ген, стабильно включенный в свой геном (то есть, Cas-готовую клетку). В некоторых вариантах осуществления полинуклеотид интегрируется в геном клетки и способен наследоваться его потомством. Любой протокол может быть использован для стабильного включения конструкций ДНК или различных компонентов целевой системы геномной интеграции.In some embodiments, the cells used in the methods and compositions have a DNA construct stably incorporated into their genome. In such cases, bringing into contact may involve providing the cell with a construct already stably incorporated into its genome. In some embodiments, a cell used in the methods disclosed herein may have a pre-existing Cas-encoding gene stably incorporated into its genome (ie, a Cas-ready cell). In some embodiments, the polynucleotide is integrated into the genome of a cell and is capable of being inherited by its progeny. Any protocol can be used to stably incorporate DNA constructs or various components of a target genomic integration system.

Любой нуклеазный агент, который вызывает разрыв-ник или двухцепочечный разрыв в желаемой распознаваемой последовательности, или любой ДНК-связывающий белок, который связывается с желаемой распознаваемой последовательностью, можно использовать в способах и композициях, раскрытых в данном документе. Природный или нативный нуклеазный агент можно использовать при условии, что нуклеазный агент вызывает разрыв или двухцепочечный разрыв в желаемой распознаваемой последовательности. Аналогично, природный или нативный ДНК-связывающий белок может быть использован при условии, что ДНК-связывающий белок связывается с желаемой распознаваемой последовательностью. Альтернативно, можно использовать модифицированный или сконструированный нуклеазный агент или ДНК-связывающий белок. Инженерный нуклеазный агент или ДНК-связывающий белок может быть получен из нативного, встречающегося в природе нуклеазного агента или ДНК-связывающего белка, или он может быть искусственно создан или синтезирован. Сконструированный нуклеазный агент или ДНК-связывающий белок может распознавать распознаваемую последовательность, например, при этом распознаваемая последовательность не является последовательностью, которая была бы распознана нативным (не сконструированным или немодифицированным) нуклеазным агентом или ДНК-связывающим белком. Модификация нуклеазного агента или ДНК-связывающего белка может включать всего одну аминокислоту в агенте расщепляющего белка или один нуклеотид в агенте расщепляющей нуклеиновой кислоты. Any nuclease agent that causes a nick or double-strand break in the desired recognition sequence, or any DNA binding protein that binds to the desired recognition sequence, can be used in the methods and compositions disclosed herein. A natural or native nuclease agent can be used provided that the nuclease agent causes a break or double-strand break in the desired recognition sequence. Likewise, a natural or native DNA binding protein can be used provided that the DNA binding protein binds to the desired recognition sequence. Alternatively, a modified or engineered nuclease agent or DNA binding protein may be used. The engineered nuclease agent or DNA binding protein may be derived from a native, naturally occurring nuclease agent or DNA binding protein, or it may be artificially engineered or synthesized. The engineered nuclease agent or DNA binding protein may recognize a recognition sequence, for example, wherein the recognition sequence is not a sequence that would be recognized by a native (undesigned or unmodified) nuclease agent or DNA binding protein. The modification of a nuclease agent or DNA binding protein may involve as little as one amino acid in a protein cleavage agent or a single nucleotide in a nucleic acid cleavage agent.

Распознаваемые последовательности для нуклеазного агента включают последовательность ДНК, при которой нуклеазный агент индуцирует разрыв ника или двухцепочечной цепи. Аналогично, распознаваемые последовательности для ДНК-связывающего белка включают последовательность ДНК, с которой будет связываться ДНК-связывающий белок. Распознаваемая последовательность может быть эндогенной (или нативной) для клетки, или распознаваемая последовательность может быть экзогенной для клетки. Распознаваемая последовательность также может быть экзогенной по отношению к интересующим полинуклеотидам, которые желательно позиционировать в локусе-мишени. В некоторых вариантах осуществления распознаваемая последовательность присутствует только один раз в геноме клетки-хозяина.Recognition sequences for a nuclease agent include the DNA sequence at which the nuclease agent induces a nick or double-strand break. Likewise, recognition sequences for a DNA binding protein include the DNA sequence to which the DNA binding protein will bind. The recognition sequence may be endogenous (or native) to the cell, or the recognition sequence may be exogenous to the cell. The recognition sequence may also be exogenous to the polynucleotides of interest that are desired to be positioned at the target locus. In some embodiments, the recognition sequence is present only once in the genome of the host cell.

Также представлены активные варианты и фрагменты приведенных в качестве примера распознаваемых последовательностей. Такие активные варианты могут составлять, по меньшей мере, 65%, по меньшей мере, 70%, по меньшей мере, 75%, по меньшей мере, 80%, по меньшей мере, 85%, по меньшей мере, 90%, по меньшей мере, 91%, по меньшей мере, 92%, по меньшей мере, 93%, по меньшей мере, 94%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98% или, по меньшей мере, 99% или 100% идентичности последовательности с данной распознаваемой последовательностью, при этом активные варианты сохраняют биологическую активность и пригодны для распознавания и расщепления нуклеазным агентом специфичным/зависимым от последовательности образом. Известны анализы для измерения двухцепочечного разрыва распознаваемой последовательности с помощью нуклеазного агента (например, анализ qPCR TAQMAN®, Frendewey et al., Methods in Enzymology, 2010, 476, 295-307).Active variants and fragments of exemplary recognition sequences are also presented. Such active variants may comprise at least 65%, at least 70%, at least 75%, at least 80%, at least 85%, at least 90%, at least at least 91%, at least 92%, at least 93%, at least 94%, at least 95%, at least 96%, at least 97%, at least , 98% or at least 99% or 100% sequence identity with a given recognition sequence, wherein the active variants retain biological activity and are suitable for recognition and cleavage by a nuclease agent in a specific/sequence-dependent manner. Assays for measuring the double-strand break of a recognition sequence using a nuclease agent are known (eg, TAQMAN® qPCR assay, Frendewey et al., Methods in Enzymology , 2010, 476, 295-307).

Длина распознаваемой последовательности может варьироваться и включает, например, распознаваемые последовательности, которые составляют от около 30 до около 36 п.н. для пары белка цинкового пальца или нуклеазы цинкового пальца (ZFN) (то есть от около 15 до около 18 п.н. каждый ZFN), около 36 п.н. для белка TALE или эффекторной нуклеазы, подобной активатору транскрипции (TALEN), или около 20 п.н. для РНК-направляющей CRISPR/Cas9.The length of the recognition sequence can vary and includes, for example, recognition sequences that are from about 30 to about 36 bp. for a pair of zinc finger protein or zinc finger nuclease (ZFN) (i.e., about 15 to about 18 bp each ZFN), about 36 bp. for the TALE protein or transcription activator-like effector nuclease (TALEN), or about 20 bp. for CRISPR/Cas9 guide RNA.

Распознаваемая последовательность ДНК-связывающего белка или нуклеазного агента может быть расположена где угодно в или около целевого геномного локуса. Распознаваемая последовательность может быть расположена внутри кодирующей области гена (например, гена B4GALT1) или в регуляторных областях, которые влияют на экспрессию гена. Распознаваемая последовательность ДНК-связывающего белка или нуклеазного агента может быть расположена в интроне, экзоне, промоторе, энхансере, регуляторной области или любой небелковой кодирующей области.The recognition sequence of the DNA binding protein or nuclease agent may be located anywhere at or near the target genomic locus. The recognition sequence may be located within the coding region of a gene (eg, the B4GALT1 gene) or in regulatory regions that influence gene expression. The recognition sequence of a DNA binding protein or nuclease agent may be located in an intron, exon, promoter, enhancer, regulatory region, or any non-protein coding region.

Одним типом ДНК-связывающего белка, который можно использовать в различных способах и композициях, раскрытых в данном документе, является TALE. TALE может быть слит или связан, например, с доменом эпигенетической модификации, доменом активации транскрипции или доменом репрессора транскрипции. Примеры таких доменов описаны ниже в отношении белков Cas и также могут быть найдены, например, в публикации РСТ WO 2011/145121. Соответственно, один тип нуклеазного агента, который можно использовать в различных способах и композициях, раскрытых в данном документе, представляет собой ТАЛЕН. Эффекторные нуклеазы, подобные активатору транскрипции (TAL), представляют собой класс специфических для последовательности нуклеаз, которые можно использовать для двухцепочечных разрывов в определенных последовательностях-мишенях в геноме прокариотического или эукариотического организма. Эффекторные нуклеазы TAL получают путем слияния нативного или сконструированного эффектора TAL или его функциональной части с каталитическим доменом эндонуклеазы, такой как FokI. Уникальный, модульный TAL-эффекторный ДНК-связывающий домен позволяет создавать белки с потенциально любой специфичностью распознавания ДНК. Таким образом, ДНК-связывающие домены эффекторных нуклеаз TAL могут быть сконструированы так, чтобы распознавать специфические сайты-мишени ДНК, и, таким образом, использоваться для создания двухцепочечных разрывов в желаемых последовательностях-мишенях. Примеры подходящих нуклеаз TAL и способы получения подходящих нуклеаз TAL раскрыты, например, в публикациях заявки на патент США 2011/0239315; 2011/0269234; 2011/0145940; 2003/0232410; 2005/0208489; 2005/0026157; 2005/0064474; 2006/0188987; и 2006/0063231. One type of DNA binding protein that can be used in the various methods and compositions disclosed herein is TALE. TALE may be fused to or linked to, for example, an epigenetic modification domain, a transcriptional activation domain, or a transcriptional repressor domain. Examples of such domains are described below in relation to Cas proteins and can also be found, for example, in PCT publication WO 2011/145121. Accordingly, one type of nuclease agent that can be used in the various methods and compositions disclosed herein is TALEN. Transcription activator-like (TAL) effector nucleases are a class of sequence-specific nucleases that can be used to make double-strand breaks at specific target sequences in the genome of a prokaryotic or eukaryotic organism. TAL effector nucleases are produced by fusing a native or engineered TAL effector or a functional portion thereof to the catalytic domain of an endonuclease such as FokI . The unique, modular TAL effector DNA-binding domain allows the design of proteins with potentially any DNA recognition specificity. Thus, the DNA binding domains of TAL effector nucleases can be designed to recognize specific DNA target sites and thus be used to create double-strand breaks in desired target sequences. Examples of suitable TAL nucleases and methods for preparing suitable TAL nucleases are disclosed, for example, in US patent application publications 2011/0239315; 2011/0269234; 2011/0145940; 2003/0232410; 2005/0208489; 2005/0026157; 2005/0064474; 2006/0188987; and 2006/0063231.

В некоторых TALEN каждый мономер TALEN содержит от около 33 до около 35 повторов TAL, которые распознают одну пару оснований через два гипервариабельных остатка. В некоторых TALEN нуклеиновым агентом является химерный белок, содержащий ДНК-связывающий домен на основе TAL-повтора, функционально связанный с независимой нуклеазой, такой как эндонуклеаза FokI. Например, нуклеазный агент может содержать первый ДНК-связывающий домен на основе повтора TAL и второй ДНК-связывающий домен на основе повтора TAL, где каждый из первого и второго ДНК-связывающих доменов на основе повтора TAL функционально связан с нуклеазу FokI, где первый и второй ДНК-связывающий домен на основе повтора TAL распознают две смежные последовательности ДНК-мишени в каждой цепи последовательности ДНК-мишени, разделенные спейсерной последовательностью различной длины (от около 12 до около 20 п.н.), и где субъединицы нуклеазы FokI димеризуются, чтобы создать активную нуклеазу, которая делает двойной разрыв цепи в последовательности-мишени.In some TALENs, each TALEN monomer contains from about 33 to about 35 TAL repeats that recognize one base pair across two hypervariable residues. In some TALENs, the nucleating agent is a chimeric protein containing a TAL repeat-based DNA-binding domain operably linked to an independent nuclease such as the FokI endonuclease. For example, the nuclease agent may comprise a first TAL repeat DNA binding domain and a second TAL repeat DNA binding domain, wherein each of the first and second TAL repeat DNA binding domains is operably linked to a FokI nuclease, wherein the first and second TAL repeat DNA binding domains are operably linked to a FokI nuclease. The TAL repeat-based DNA binding domain recognizes two adjacent target DNA sequences on each strand of the target DNA sequence, separated by a spacer sequence of varying lengths (from about 12 to about 20 bp), and where FokI nuclease subunits dimerize to create an active nuclease that makes a double strand break in the target sequence.

Другим примером ДНК-связывающего белка является белок цинкового пальца. Такие белки цинкового пальца могут быть связаны или слиты, например, с доменом эпигенетической модификации, доменом активации транскрипции или доменом репрессора транскрипции. Примеры таких доменов описаны ниже в отношении белков Cas и также могут быть найдены, например, в публикации РСТ WO 2011/145121. Соответственно, другим примером нуклеазного агента, который можно использовать в различных способах и композициях, раскрытых в данном документе, является ZFN. В некоторых ZFN каждый мономер ZFN содержит три или более ДНК-связывающих домена на основе цинкового пальца, причем каждый ДНК-связывающий домен на основе цинкового пальца связывается с дочерним сайтом в 3 п.н. В других ZFN ZFN представляет собой химерный белок, содержащий ДНК-связывающий домен на основе цинкового пальца, функционально связанный с независимой нуклеазой, такой как эндонуклеаза FokI. Например, нуклеазный агент может содержать первую ZFN и вторую ZFN, где каждая из первой ZFN и второй ZFN функционально связана с субъединицей нуклеазы FokI, при этом первая и вторая ZFN распознают две смежные последовательности ДНК-мишени в каждой нить последовательности ДНК-мишени разделена спейсером от около 5 до около 7 п.н., причем субъединицы нуклеазы FokI димеризуются с образованием активной нуклеазы, которая приводит к разрыву двойной цепи. Another example of a DNA binding protein is the zinc finger protein. Such zinc finger proteins may be linked or fused to, for example, an epigenetic modification domain, a transcription activation domain, or a transcriptional repressor domain. Examples of such domains are described below in relation to Cas proteins and can also be found, for example, in PCT publication WO 2011/145121. Accordingly, another example of a nuclease agent that can be used in the various methods and compositions disclosed herein is ZFN. In some ZFNs, each ZFN monomer contains three or more zinc finger DNA-binding domains, with each zinc finger DNA-binding domain binding to a 3-bp daughter site. In other ZFNs, the ZFN is a chimeric protein containing a zinc finger DNA-binding domain operably linked to an independent nuclease such as the FokI endonuclease. For example, the nuclease agent may comprise a first ZFN and a second ZFN, wherein each of the first ZFN and the second ZFN is operably linked to a FokI nuclease subunit, wherein the first and second ZFN recognize two adjacent target DNA sequences on each strand of the target DNA sequence separated by a spacer from about 5 to about 7 bp, and the FokI nuclease subunits dimerize to form an active nuclease, which leads to double strand breakage.

Другие подходящие ДНК-связывающие белки и нуклеазные агенты для использования в способах и композициях, описанных в данном документе, включают системы CRISPR-Cas, которые описаны в другом месте в данном документе.Other suitable DNA binding proteins and nuclease agents for use in the methods and compositions described herein include CRISPR-Cas systems, which are described elsewhere herein.

ДНК-связывающий белок или нуклеазный агент может быть введен в клетку любым известным способом. Полипептид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть непосредственно введен в клетку. Альтернативно, полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть введен в клетку. Когда полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, вводится в клетку, ДНК-связывающий белок или нуклеазный агент может временно, условно или конститутивно экспрессироваться в клетке. Например, полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может содержаться в кассете экспрессии и быть функционально связанным с условным промотором, индуцибельным промотором, конститутивным промотором или тканеспецифичным промотором. Такие промоторы обсуждаются более подробно в другом месте данного документа. В некоторых вариантах осуществления ДНК-связывающий белок или нуклеазный агент может быть введен в клетку в виде мРНК, кодирующей ДНК-связывающий белок или нуклеазный агент.The DNA binding protein or nuclease agent can be introduced into the cell by any known method. A polypeptide encoding a DNA binding protein or nuclease agent can be directly introduced into a cell. Alternatively, a polynucleotide encoding a DNA binding protein or nuclease agent may be introduced into a cell. When a polynucleotide encoding a DNA binding protein or nuclease agent is introduced into a cell, the DNA binding protein or nuclease agent may be transiently, conditionally, or constitutively expressed in the cell. For example, a polynucleotide encoding a DNA binding protein or nuclease agent may be contained in an expression cassette and operably linked to a conditional promoter, an inducible promoter, a constitutive promoter, or a tissue-specific promoter. Such promoters are discussed in more detail elsewhere in this document. In some embodiments, the DNA binding protein or nuclease agent can be introduced into a cell in the form of mRNA encoding the DNA binding protein or nuclease agent.

Полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть стабильно интегрирован в геном клетки и функционально связан с активным в клетке промотором. Альтернативно, полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может находиться в нацеливающем векторе или в векторе или плазмиде, которая отделена от нацеливающего вектора, содержащего вставочный полинуклеотид.A polynucleotide encoding a DNA-binding protein or nuclease agent can be stably integrated into the cell's genome and operably linked to a promoter active in the cell. Alternatively, the polynucleotide encoding a DNA binding protein or nuclease agent may be present in a targeting vector or in a vector or plasmid that is separate from the targeting vector containing the insertion polynucleotide.

Когда ДНК-связывающий белок или нуклеазный агент вводится в клетку путем введения полинуклеотида, кодирующего ДНК-связывающий белок или нуклеазный агент, такой полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть модифицирован для замены кодонов, имеющих более высокую частоту использования в интересующей клетке по сравнению с природной полинуклеотидной последовательностью, кодирующей ДНК-связывающий белок или нуклеазный агент. В некоторых вариантах осуществления полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть модифицирован для замены кодонов, имеющих более высокую частоту использования, в данной интересующей прокариотической или эукариотической клетке, включая бактериальную клетку, дрожжевую клетку, клетку человека, клетку не человека, клетку млекопитающего, клетку грызуна, клетку мыши, клетку крысы или любую другую интересующую клетку-хозяин по сравнению с природной полинуклеотидной последовательностью.When a DNA-binding protein or nuclease agent is introduced into a cell by introducing a polynucleotide encoding the DNA-binding protein or nuclease agent, such polynucleotide encoding the DNA-binding protein or nuclease agent can be modified to replace codons having a higher frequency of use in the area of interest. cell compared to a natural polynucleotide sequence encoding a DNA-binding protein or nuclease agent. In some embodiments, a polynucleotide encoding a DNA binding protein or nuclease agent can be modified to replace codons having higher frequency of use in a given prokaryotic or eukaryotic cell of interest, including a bacterial cell, a yeast cell, a human cell, a non-human cell, a mammalian cell, a rodent cell, a mouse cell, a rat cell, or any other host cell of interest as compared to a naturally occurring polynucleotide sequence.

В описанных в данном документе способах могут использоваться короткие палиндромные повторы, регулярно расположенные группами (CRISPR)/CRISPR (Cas) или компоненты таких систем для модификации генома в клетке. Системы CRISPR-Cas включают в себя транскрипты и другие элементы, участвующие в экспрессии или управлении активностью генов Cas. Система CRISPR-Cas может быть системой типа I, типа II или типа III. Альтернативно, системой CRISPR/Cas может быть, например, система типа V (например, подтип VA или подтип VB). Способы и композиции, раскрытые в данном документе, могут использовать системы CRISPR-Cas с использованием комплексов CRISPR (содержащих направляющую РНК (нРНК) в комплексе с белком Cas) для сайт-направленного расщепления нуклеиновых кислот. The methods described herein may use clustered regularly interspaced short palindromic repeats (CRISPR)/CRISPR (Cas) or components of such systems to modify the genome in a cell. CRISPR-Cas systems include transcripts and other elements involved in the expression or control of Cas gene activity. The CRISPR-Cas system can be a type I, type II or type III system. Alternatively, the CRISPR/Cas system may be, for example, a type V system (eg subtype VA or subtype VB). The methods and compositions disclosed herein can utilize CRISPR-Cas systems using CRISPR complexes (containing guide RNA (gRNA) complexed with a Cas protein) for site-directed cleavage of nucleic acids.

Системы CRISPR-Cas, используемые в описанных в данном документе способах, не встречаются в природе. Например, некоторые системы CRISPR-Cas используют не встречающиеся в природе комплексы CRISPR, содержащие нРНК и белок Cas, которые не встречаются в природе вместе. The CRISPR-Cas systems used in the methods described herein do not occur in nature. For example, some CRISPR-Cas systems use unnatural CRISPR complexes containing an gRNA and a Cas protein that do not occur together in nature.

Белки Cas обычно содержат, по меньшей мере, один домен распознавания или связывания РНК, который может взаимодействовать с направляющими РНК (нРНК, более подробно описанные ниже). Белки Cas также могут содержать нуклеазные домены (например, домены ДНКазы или РНКазы), ДНК-связывающие домены, геликазные домены, домены межбелкового взаимодействия, домены димеризации и другие домены. Нуклеазный домен обладает каталитической активностью в отношении расщепления нуклеиновой кислоты, которое включает разрыв ковалентных связей молекулы нуклеиновой кислоты. Расщепление может привести к тупым концам или в выступающим концам, и оно может быть одноцепочечным или двухцепочечным. Белок Cas9 дикого типа обычно создает тупой продукт расщепления. С другой стороны, белок Cpf1 дикого типа (например, FnCpf1) может приводить к продукту расщепления с 5'-нуклеотидным выступом, причем расщепление происходит после 18-й пары оснований из последовательности PAM на нецелевой цепи и после 23-й пары оснований в целевом участке. Белок Cas может обладать полной активностью расщепления для создания двухцепочечного разрыва в эндогенном гене B4GALT1 (например, двухцепочечного разрыва с тупыми концами), или это может быть никаза, которая создает ращепление одной цепи в эндогенном гене B4GALT1. Cas proteins typically contain at least one RNA recognition or binding domain that can interact with guide RNAs (nRNAs, described in more detail below). Cas proteins may also contain nuclease domains (eg, DNase or RNase domains), DNA-binding domains, helicase domains, protein-protein interaction domains, dimerization domains, and other domains. The nuclease domain has catalytic activity for nucleic acid cleavage, which involves breaking the covalent bonds of the nucleic acid molecule. Cleavage may result in blunt ends or protruding ends, and it can be single-stranded or double-stranded. The wild-type Cas9 protein typically creates a blunt cleavage product. On the other hand, a wild-type Cpf1 protein (e.g., FnCpf1) may result in a cleavage product with a 5' nucleotide overhang, with the cleavage occurring after the 18th base pair of the PAM sequence on the non-target strand and after the 23rd base pair in the target region . The Cas protein may have full cleavage activity to create a double-strand break in the endogenous B4GALT1 gene (eg, a blunt-ended double-strand break), or it may be a nickase that creates a single-strand cleavage in the endogenous B4GALT1 gene.

Примеры белков Cas включают, но не ограничиваются ими, Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5e (CasD), Cas6, Cas6e, Cas6f, Cas7, Cas8a1, Cas8a2, Cas8b, Cas8c, Cas9 (Csn1 или Csx12), Cas10, Casl0d, CasF, CasG, CasH, Csy1, Csy2, Csy3, Cse1 (CasA), Cse2 (CasB), Cse3 (CasE), Cse4 (CasC), Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, и Cu1966, и их гомологи или модифицированные версии. Examples of Cas proteins include, but are not limited to, Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5e (CasD), Cas6, Cas6e, Cas6f, Cas7, Cas8a1, Cas8a2, Cas8b, Cas8c, Cas9 (Csn1 or Csx12), Cas10, Casl0d, CasF, CasG, CasH, Csy1, Csy2, Csy3, Cse1 (CasA), Cse2 (CasB), Cse3 (CasE), Cse4 (CasC), Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, and Cu1966, and their homologues or modified versions.

В некоторых вариантах осуществления белок Cas представляет собой белок Cas9 или происходит из белка Cas9 из системы CRISPR-Cas типа II. Белки Cas9 происходят из системы CRISPR-Cas типа II и обычно имеют четыре ключевых мотива с консервативной архитектурой. Мотивы 1, 2 и 4 являются RuvC-подобными мотивами, и мотив 3 является HNH мотивом. Типичные белки Cas9 включают, но не ограничиваются ими, те из Streptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Staphylococcus aureus, Nocardiopsis dassonvillei, Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptomyces viridochromogenes, Streptosporangium roseum, Streptosporangium roseum, Alicyclobacillus acidocaldarius, Bacillus pseudomycoides, Bacillus selenitireducens, Exiguobacterium sibiricum, Lactobacillus delbrueckii, Lactobacillus salivarius, Microscilla marina, Burkholderiales bacterium, Polaromonas naphthalenivorans, Polaromonas sp., Crocosphaera watsonii, Cyanothece sp., Microcystis aeruginosa, Synechococcus sp., Acetohalobium arabaticum, Ammonifex degensii, Caldicelulosiruptor becscii, Candidatus Desulforudis, Clostridium botulinum, Clostridium difficile, Finegoldia magna, Natranaerobius thermophilus, Pelotomaculum thermopropionicum, Acidithiobacillus caldus, Acidithiobacillus ferrooxidans, Allochromatium vinosum, Marinobacter sp., Nitrosococcus halophilus, Nitrosococcus watsoni, Pseudoalteromonas haloplanktis, Ktedonobacter racemifer, Methanohalobium evestigatum, Anabaena variabilis, Nodularia spumigena, Nostoc sp., Arthrospira maxima, Arthrospira platensis, Arthrospira sp., Lyngbya sp., Microcoleus chthonoplastes, Oscillatoria sp., Petrotoga mobilis, Thermosipho africanus, or Acaryochloris marina. Дополнительные примеры членов семейства Cas9 описаны в публикации РСТ WO 2014/131833. Cas9 из S. pyogenes (присвоенный регистрационный номер SwissProt Q99ZW2) представляет собой иллюстративный фермент. Cas9 от S. aureus (присвоенный регистрационный номер UniProt J7RUA5) представляет собой еще один иллюстративный фермент.In some embodiments, the Cas protein is a Cas9 protein or is derived from a Cas9 protein from the type II CRISPR-Cas system. Cas9 proteins originate from the CRISPR-Cas type II system and typically have four key motifs with a conserved architecture. Motifs 1, 2 and 4 are RuvC-like motifs, and motif 3 is an HNH motif. Typical Cas9 proteins include, but are not limited to, those from Streptococcus pyogenes , Streptococcus thermophilus , Streptococcus sp ., Staphylococcus aureus , Nocardiopsis dassonvillei , Streptomyces pristinaespiralis , Streptomyces viridochromogenes , Streptomyces viridochromogenes , Streptosporangium roseum , Streptosporangium roseum , Alicyclobacillus acidocaldarius , Bacillus pseudomycoides , Bacillus selenitireducens , Exiguobacterium sibiricum , Lactobacillus delbrueckii , Lactobacillus salivarius , Microscilla marina , Burkholderiales bacterium , Polaromonas naphthalenivorans , Polaromonas sp ., Crocosphaera watsonii , Cyanothece sp., Microcystis aeruginosa , Synechococcus sp ., A cetohalobium arabaticum , Ammonifex degensii , Caldicelulosiruptor becscii , Candidatus Desulforudis , Clostridium botulinum , Clostridium difficile , Finegoldia magna , Natranaerobius thermophilus , Pelotomaculum thermopropionicum , Acidithiobacillus caldus , Acidithiobacillus ferrooxidans , Allochromatium vinosum , Marinobacter sp ., Nitrosococcus halophilus , Nitrosococcus watsoni , Pseudo alteromonas haloplanktis , Ktedonobacter racemifer , Methanohalobium evestigatum , Anabaena variabilis , Nodularia spumigena , Nostoc sp ., Arthrospira maxima , Arthrospira platensis , Arthrospira sp ., Lyngbya sp ., Microcoleus chthonoplastes , Oscillatoria sp ., Petrotoga mobilis , Thermosipho africanus , or Acaryochloris marina . Additional examples of Cas9 family members are described in PCT publication WO 2014/131833. Cas9 from S. pyogenes (assigned SwissProt accession number Q99ZW2) is an illustrative enzyme. Cas9 from S. aureus (assigned UniProt accession number J7RUA5) is another illustrative enzyme.

Другим примером белка Cas является белок Cpf1 (CRISPR от Prevotella и Francisella 1). Cpf1 представляет собой большой белок (около 1300 аминокислот), который содержит RuvC-подобный нуклеазный домен, гомологичный соответствующему домену Cas9, наряду с аналогом характерного богатого аргинином кластера Cas9. Однако в Cpf1 отсутствует нуклеазный домен HNH, который присутствует в белках Cas9, а RuvC-подобный домен является смежным в последовательности Cpf1, в отличие от Cas9, где он содержит длинные вставки, включая домен HNH. Типичные белки Cpf1 включают, но не ограничиваются ими, белки из Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens, and Porphyromonas macacae. Cpf1 from Francisella novicida U112 (FnCpf1; присвоенный номер доступа UniProt A0Q7Q2) является иллюстративным ферментом.Another example of a Cas protein is the Cpf1 protein (CRISPR from Prevotella and Francisella 1). Cpf1 is a large protein (∼1300 amino acids) that contains a RuvC-like nuclease domain homologous to the corresponding Cas9 domain, along with an analogue of the characteristic arginine-rich Cas9 cluster. However, Cpf1 lacks the HNH nuclease domain that is present in Cas9 proteins, and the RuvC-like domain is contiguous in the Cpf1 sequence, unlike Cas9, where it contains long inserts including the HNH domain. Representative Cpf1 proteins include, but are not limited to, proteins from Francisella tularensis 1 , Francisella tularensis subsp. novicida , Prevotella albensis , Lachnospiraceae bacterium MC2017 1 , Butyrivibrio proteoclasticus , Peregrinibacteria bacterium GW2011_GWA2_33_10 , Parcubacteria bacterium GW2011_GWC2_44_17 , Smithella sp. SCADC , Acidaminococcus sp. BV3L6 , Lachnospiraceae bacterium MA2020 , Candidatus Methanoplasma termitum , Eubacterium eligens , Moraxella bovoculi 237 , Leptospira inadai , Lachnospiraceae bacterium ND2006 , Porphyromonas crevioricanis 3 , Prevotella disiens , and Porphyromonas macacae . Cpf1 from Francisella novicida U112 (FnCpf1; assigned UniProt accession number A0Q7Q2) is an exemplary enzyme.

Белки Cas могут быть белками дикого типа (т.е. белками, встречающимися в природе), модифицированными белками Cas (то есть вариантами белков Cas) или фрагментами белков Cas или дикого типа. Белки Cas также могут быть активными вариантами или фрагментами белков Cas дикого типа или модифицированных. Активные варианты или фрагменты могут составлять, по меньшей мере, 80%, по меньшей мере, 85%, по меньшей мере, 90%, по меньшей мере, 91%, по меньшей мере, 92%, по меньшей мере, 93%, по меньшей мере, 94%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, или, по меньшей мере, 99% или 100% идентичности последовательности с диким типом или модифицированным белком Cas или его частью, при этом активные варианты сохраняют способность разрезать в желаемом сайте расщепления и, следовательно, сохраняют активность по индуцированию ников и двухцепочечных разрывов. Анализы на активность по индуцированию ников и двухцепочечных разрывов известны и обычно измеряют общую активность и специфичность белка Cas на ДНК-субстратах, содержащих сайт расщепления.Cas proteins may be wild-type proteins (ie, naturally occurring proteins), modified Cas proteins (ie, variants of Cas proteins), or fragments of Cas or wild-type proteins. Cas proteins may also be active variants or fragments of wild-type or modified Cas proteins. Active variants or fragments may comprise at least 80%, at least 85%, at least 90%, at least 91%, at least 92%, at least 93%, according to at least 94%, at least 95%, at least 96%, at least 97%, at least 98%, or at least 99% or 100% sequence identity with wild type or a modified Cas protein or part thereof, with active variants retaining the ability to cut at the desired cleavage site and therefore retaining nick and double-strand break inducing activity. Assays for nick and double strand break inducing activity are known and typically measure the overall activity and specificity of the Cas protein on DNA substrates containing the cleavage site.

Белки Cas могут содержать, по меньшей мере, один нуклеазный домен, такой как ДНКазный домен. Например, белок Cpf1 дикого типа обычно содержит RuvC-подобный домен, который расщепляет обе цепи ДНК-мишени, возможно, в димерной конфигурации. Белки Cas могут содержать, по меньшей мере, два нуклеазных домена, таких как ДНКазные домены. Например, белок Cas9 дикого типа обычно содержит RuvC-подобный нуклеазный домен и HNH-подобный нуклеазный домен. Каждый из доменов RuvC и HNH может разрезать разные нити двухцепочечной ДНК, чтобы сделать двухцепочечный разрыв в ДНК. Cas proteins may contain at least one nuclease domain, such as a DNase domain. For example, the wild-type Cpf1 protein typically contains a RuvC-like domain that cleaves both strands of target DNA, possibly in a dimeric configuration. Cas proteins may contain at least two nuclease domains, such as DNase domains. For example, wild-type Cas9 protein typically contains a RuvC-like nuclease domain and an HNH-like nuclease domain. Each of the RuvC and HNH domains can cut different strands of double-stranded DNA to create a double-strand break in the DNA.

Белки Cas (например, нуклеазоактивные белки Cas или нуклеазоактивные белки Cas) также могут быть функционально связаны с гетерологичными полипептидами в качестве белков слияния. Например, белок Cas может быть слит с доменом расщепления, доменом эпигенетической модификации, доменом активации транскрипции или доменом репрессора транскрипции. Примеры доменов активации транскрипции включают домен активации VP16 вируса простого герпеса, VP64 (который является тетрамерным производным VP16), домен активации NFκB p65, домены активации p53 1 и 2, домен активации CREB (белок, связывающий элемент ответа cAMP), домен активации E2A и домен активации NFAT (ядерный фактор активированных Т-клеток). Другие примеры включают, но не ограничиваются ими, домены активации из Oct1, Oct-2A, SP1, AP-2, CTF1, P300, CBP, PCAF, SRC1, PvALF, ERF-2, OsGAI, HALF-1, C1, AP1, ARF-5, ARF-6, ARF-7, ARF-8, CPRF1, CPRF4, MYC-RP/GP, TRAB1PC4, и HSF1 См., например, публикацию заявки на патент США 2016/0237456, европейский патент EP3045537 и публикацию PCT WO 2011/145121. Cas proteins (eg, nuclease-active Cas proteins or nuclease-active Cas proteins) can also be operably linked to heterologous polypeptides as fusion proteins. For example, a Cas protein may be fused to a cleavage domain, an epigenetic modification domain, a transcription activation domain, or a transcriptional repressor domain. Examples of transcriptional activation domains include the herpes simplex virus VP16 activation domain, VP64 (which is a tetrameric derivative of VP16), the p65 NFκB activation domain, p53 activation domains 1 and 2, the CREB (cAMP response element binding protein) activation domain, the E2A activation domain, and the activation of NFAT (nuclear factor of activated T cells). Other examples include, but are not limited to, activation domains from Oct1, Oct-2A, SP1, AP-2, CTF1, P300, CBP, PCAF, SRC1, PvALF, ERF-2, OsGAI, HALF-1, C1, AP1, ARF-5, ARF-6, ARF-7, ARF-8, CPRF1, CPRF4, MYC-RP/GP, TRAB1PC4, and HSF1 See, for example, US patent application publication 2016/0237456, European patent EP3045537 and PCT publication WO 2011/145121.

В некоторых вариантах осуществления может использоваться система активации транскрипции, содержащая слитый белок dCas9-VP64 в паре с MS2-p65-HSF1. Направляющие РНК в таких системах могут быть сконструированы с аптамерными последовательностями, присоединенными к тетра-петле енРНК и стволовой петле 2, предназначенным для связывания димеризованных белков оболочки бактериофага MS2. См., например, Konermann et al., Nature, 2015, 517, 583-588. Примеры доменов репрессоров транскрипции включают индуцибельные домены раннего репрессора цАМФ (ICER), домены репрессоров, связанные с Kruppel-box box A (KRAB-A), репрессоры доменов, богатых глицином YY1, Sp1-подобные репрессоры, E (spl) репрессоры, ΙκΒ репрессор и MeCP2, Другие примеры включают, но не ограничиваются ими, репрессорные транскрипционные домены из A/B, KOX, TGF-бета-индуцибельного раннего гена (TIEG - TGF-beta-inducible early gene), v-erbA, SID, SID4X, MBD2, MBD3, DNMT1, DNMG3A, DNMT3B, Rb, ROM2, см., например, европейский патент EP3045537 и публикацию PCT WO 2011/145121. Белки Cas также могут быть слиты с гетерологичным полипептидом, обеспечивающим повышенную или пониженную стабильность. Слитый домен или гетерологичный полипептид может быть расположен на N-конце, С-конце или внутри белка Cas.In some embodiments, a transcription activation system comprising a dCas9-VP64 fusion protein paired with MS2-p65-HSF1 may be used. Guide RNAs in such systems can be designed with aptamer sequences attached to the enRNA tetra-loop and stem-loop 2 designed to bind dimerized MS2 bacteriophage coat proteins. See, for example, Konermann et al.Nature, 2015, 517, 583-588. Examples of transcriptional repressor domains include inducible cAMP early repressor (ICER) domains, Kruppel-box box A-associated repressor domains (KRAB-A), YY1 glycine-rich domain repressors, Sp1-like repressors, E(spl) repressors, ΙκΒ repressor and MeCP2. Other examples include, but are not limited to, transcriptional repressor domains from A/B, KOX, TGF-beta-inducible early gene (TIEG), v-erbA, SID, SID4X, MBD2 , MBD3, DNMT1, DNMG3A, DNMT3B, Rb, ROM2, see, for example, European patent EP3045537 and PCT publication WO 2011/145121. Cas proteins can also be fused to a heterologous polypeptide, providing increased or decreased stability. The fusion domain or heterologous polypeptide may be located at the N-terminus, C-terminus, or within the Cas protein.

Примером слитого белка Cas является белок Cas, слитый с гетерологичным полипептидом, который обеспечивает субклеточную локализацию. Такие гетерологичные полипептиды могут включать, например, один или более сигналов ядерной локализации (NLS - nuclear localization signals), таких как NLS SV40 для нацеливания на ядро, сигнал локализации митохондрий для нацеливания на митохондрии, сигнал удержания ER и тому подобное. Такие субклеточные сигналы локализации могут быть локализованы на N-конце, C-конце или в любом месте внутри белка Cas. NLS может содержать отрезок основных аминокислот и может представлять собой последовательность из одного компонента или последовательность из двух частей.An example of a Cas fusion protein is a Cas protein fused to a heterologous polypeptide that provides subcellular localization. Such heterologous polypeptides may include, for example, one or more nuclear localization signals (NLS), such as the SV40 NLS for nuclear targeting, a mitochondrial localization signal for targeting mitochondria, an ER retention signal, and the like. Such subcellular localization signals may be located at the N-terminus, C-terminus, or anywhere within the Cas protein. The NLS may contain a stretch of basic amino acids and may be a single-part sequence or a two-part sequence.

Белки Cas также могут быть функционально связаны с проникающим в клетку доменом. Например, проникающий в клетку домен может быть получен из белка ТАТ ВИЧ-1, проникающего в клетки TLM мотива вируса гепатита В человека, MPG, Pep-1, VP22, пептида, проникающего в клетки вируса простого герпеса, или пептидная последовательность полиаргинина. Проникающий в клетку домен может быть локализован на N-конце, C-конце или в любом месте белка Cas.Cas proteins can also be functionally associated with a cell-penetrating domain. For example, the cell-penetrating domain can be derived from the HIV-1 TAT protein, the human hepatitis B virus cell-penetrating TLM motif, MPG, Pep-1, VP22, the herpes simplex virus cell-penetrating peptide, or a polyarginine peptide sequence. The cell-penetrating domain can be located at the N-terminus, C-terminus, or anywhere in the Cas protein.

Белки Cas также могут быть функционально связаны с гетерологичным полипептидом для простоты отслеживания или очистки, таким как флуоресцентный белок, метка очистки или метка эпитопа. Примеры флуоресцентных белков включают зеленые флуоресцентные белки (например, GFP, GFP-2, tagGFP, turboGFP, eGFP, Emerald, Azami Green, мономерный Azami Green, CopGFP, AceGFP, ZsGreenl), желтые флуоресцентные белки (например, YFP, eYFP, цитрин, Венера, YPet, PhiYFP, ZsYellowl), голубые флуоресцентные белки (например, eBFP, eBFP2, азурит, mKalamal, GFPuv, сапфир, T-сапфир), голубые флуоресцентные белки (например, eCFP, Cerulean, CyPet, AmCyanl, Midoriishi-Cyan) красные флуоресцентные белки (mKate, mKate2, mPlum, мономер DsRed, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-мономер, HcRed-тандем, HcRedl, AsRed2, eqFP611, mRaspberry, jresse, mredsberry) mKO, Kusabira-Orange, мономерный Kusabira-Orange, mTangerine, tdTomato) и любой другой подходящий флуоресцентный белок. Примеры меток включают глутатион-S-трансферазу (GST), хитин-связывающий белок (CBP), мальтозосвязывающий белок, тиоредоксин (TRX), поли (NANP), метку тандемной аффинной очистки (TAP), myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, гемагглютинин (HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV-G, гистидин (His), биотин-карбоксильный белок-носитель (BCCP) и кальмодулин.Cas proteins can also be operably linked to a heterologous polypeptide for ease of tracking or purification, such as a fluorescent protein, purification tag, or epitope tag. Examples of fluorescent proteins include green fluorescent proteins (e.g., GFP, GFP-2, tagGFP, turboGFP, eGFP, Emerald, Azami Green, monomeric Azami Green, CopGFP, AceGFP, ZsGreenl), yellow fluorescent proteins (e.g., YFP, eYFP, citrine, Venus, YPet, PhiYFP, ZsYellowl), blue fluorescent proteins (e.g. eBFP, eBFP2, azurite, mKalamal, GFPuv, sapphire, T-sapphire), blue fluorescent proteins (e.g. eCFP, Cerulean, CyPet, AmCyanl, Midoriishi-Cyan) red fluorescent proteins (mKate, mKate2, mPlum, DsRed monomer, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-monomer, HcRed-tandem, HcRedl, AsRed2, eqFP611, mRaspberry, jresse, mredsberry) mKO, Kusabira-Orange, monomeric Kusabira-Orange, mTangerine, tdTomato) and any other suitable fluorescent protein. Examples of tags include glutathione-S-transferase (GST), chitin binding protein (CBP), maltose binding protein, thioredoxin (TRX), poly (NANP), tandem affinity purification (TAP) tag, myc, AcV5, AU1, AU5, E , ECS, E2, FLAG, hemagglutinin (HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV-G, histidine (His), biotin -carboxyl carrier protein (BCCP) and calmodulin.

Белки Cas9 также могут быть связаны с экзогенными донорными последовательностями или мечеными нуклеиновыми кислотами. Такое закрепление (то есть физическое связывание) может быть достигнуто посредством ковалентных взаимодействий или нековалентных взаимодействий, и закрепление может быть прямым (например, посредством прямого слияния или химического конъюгирования, что может быть достигнуто путем модификации остатков цистеина или лизина в белке или интеине). модификации), или может быть достигнуто с помощью одного или более промежуточных линкеров или адаптерных молекул, таких как стрептавидин или аптамеры. Нековалентные стратегии синтеза конъюгатов белок-нуклеиновая кислота включают биотин-стрептавидин и никель-гистидиновые методы. Конъюгаты ковалентный белок-нуклеиновая кислота могут быть синтезированы путем соединения подходящим образом функционализированных нуклеиновых кислот и белков с использованием широкого спектра химикатов. Некоторые из этих химикатов включают прямое присоединение олигонуклеотида к аминокислотному остатку на поверхности белка (например, лизинамин или тиол цистеина), в то время как другие более сложные схемы требуют посттрансляционной модификации белка или участия каталитического или домен реактивного белка. Способы ковалентного присоединения белков к нуклеиновым кислотам могут включать, например, химическое сшивание олигонуклеотидов с остатками белка лизина или цистеина, экспрессию лигирования белка, хемоферментные методы и использование фотоаптамеров. Экзогенная донорная последовательность или меченая нуклеиновая кислота могут быть связаны с С-концом, N-концом или с внутренней областью внутри белка Cas9. В некоторых вариантах осуществления экзогенная донорная последовательность или меченая нуклеиновая кислота связаны с C-концом или N-концом белка Cas9. Аналогично, белок Cas9 может быть связан с 5'-концом, 3'-концом или с внутренней областью в пределах последовательности экзогенного донора или меченой нуклеиновой кислоты. В некоторых вариантах осуществления белок Cas9 связан с 5'-концом или 3'-концом экзогенной донорной последовательности или меченой нуклеиновой кислоты.Cas9 proteins can also be associated with exogenous donor sequences or tagged nucleic acids. Such anchoring (i.e., physical binding) can be achieved through covalent interactions or non-covalent interactions, and anchoring can be direct (eg, through direct fusion or chemical conjugation, which can be achieved by modifying cysteine or lysine residues in a protein or intein). modifications), or can be achieved using one or more intermediate linkers or adapter molecules such as streptavidin or aptamers. Noncovalent strategies for the synthesis of protein-nucleic acid conjugates include biotin-streptavidin and nickel-histidine methods. Covalent protein-nucleic acid conjugates can be synthesized by combining suitably functionalized nucleic acids and proteins using a wide range of chemicals. Some of these chemicals involve the direct attachment of an oligonucleotide to an amino acid residue on the surface of a protein (such as a lysinamine or cysteine thiol), while other more complex schemes require post-translational modification of the protein or the involvement of a catalytic or reactive protein domain. Methods for covalently attaching proteins to nucleic acids may include, for example, chemical cross-linking of oligonucleotides to protein lysine or cysteine residues, protein expression ligation, chemoenzymatic methods, and the use of photoaptamers. The exogenous donor sequence or tagged nucleic acid may be linked to the C-terminus, N-terminus, or an internal region within the Cas9 protein. In some embodiments, the exogenous donor sequence or labeled nucleic acid is linked to the C-terminus or N-terminus of the Cas9 protein. Likewise, the Cas9 protein can be bound to the 5' end, 3' end, or to an internal region within the sequence of an exogenous donor or tagged nucleic acid. In some embodiments, the Cas9 protein is linked to the 5' end or 3' end of an exogenous donor sequence or labeled nucleic acid.

Белки Cas могут быть предоставлены в любой форме. Например, белок Cas может быть предоставлен в форме белка, такого как белок Cas, образующий комплекс с нРНК. Альтернативно, белок Cas может быть предоставлен в форме нуклеиновой кислоты, кодирующей белок Cas, такой как РНК (например, мессенджер РНК (мРНК)) или ДНК. В некоторых вариантах осуществления нуклеиновая кислота, кодирующая белок Cas, может быть оптимизирована по кодонам для эффективной трансляции в белок в конкретной клетке или организме. Например, нуклеиновую кислоту, кодирующую белок Cas, можно модифицировать для замены кодонов, имеющих более высокую частоту использования, в бактериальной клетке, дрожжевой клетке, человеческой клетке, клетке, не человека, клетке млекопитающего, клетке грызуна, клетке мыши, клетке крысы или любой другой интересующей клетке-хозяине по сравнению с природной полинуклеотидной последовательностью. Когда нуклеиновую кислоту, кодирующую белок Cas, вводят в клетку, белок Cas может временно, условно или конститутивно экспрессироваться в клетке. Cas proteins can be provided in any form. For example, the Cas protein may be provided in the form of a protein, such as a Cas protein complexed with an nRNA. Alternatively, the Cas protein may be provided in the form of a nucleic acid encoding the Cas protein, such as RNA (eg, messenger RNA (mRNA)) or DNA. In some embodiments, the nucleic acid encoding the Cas protein may be codon optimized for efficient translation into the protein in a particular cell or organism. For example, a nucleic acid encoding a Cas protein can be modified to replace codons having a higher frequency of use in a bacterial cell, yeast cell, human cell, non-human cell, mammalian cell, rodent cell, mouse cell, rat cell, or any other host cell of interest compared to the natural polynucleotide sequence. When a nucleic acid encoding a Cas protein is introduced into a cell, the Cas protein may be transiently, conditionally, or constitutively expressed in the cell.

Нуклеиновые кислоты, кодирующие белки Cas, могут быть стабильно интегрированы в геном клетки и функционально связаны с активным в клетке промотором. Альтернативно, нуклеиновые кислоты, кодирующие белки Cas, могут быть функционально связаны с промотором в конструкции экспрессии. Экспрессирующие конструкции включают любые конструкции нуклеиновых кислот, способные направлять экспрессию гена или другой интересующей последовательности нуклеиновой кислоты (например, гена Cas) и которые могут переносить такую интересующую последовательность нуклеиновой кислоты в клетку-мишень. Например, нуклеиновая кислота, кодирующая белок Cas, может находиться в нацеливающем векторе, содержащем вставку нуклеиновой кислоты, и/или в векторе, содержащем ДНК, кодирующую нРНК. Альтернативно, он может находиться в векторе или плазмиде, которая отделена от вектора-мишени, содержащего вставку нуклеиновой кислоты, и/или отделена от вектора, содержащего ДНК, кодирующую эту рРНК. Промоторы, которые можно использовать в экспрессионной конструкции, включают промоторы, активные, например, в одной или более клетках эукариот, клетке человека, клетке, не человека, клетке млекопитающего, клетке млекопитающего, не человека, клетке грызунов, клетке мыши, клетке крысы, клетке хомяка, клетке кролика, плюрипотентной клетке, эмбриональной стволовой клетке (ES) или зиготе. Такими промоторами могут быть, например, условные промоторы, индуцибельные промоторы, конститутивные промоторы или тканеспецифичные промоторы. В некоторых вариантах осуществления промотор может представлять собой двунаправленный промотор, управляющий экспрессией как белка Cas в одном направлении, так и направляющей РНК в другом направлении. Такие двунаправленные промоторы могут состоять из: 1) полного традиционного однонаправленного промотора Pol III, который содержит 3 внешних элемента управления: элемент дистальной последовательности (DSE - distal sequence element), элемент проксимальной последовательности (PSE - proximal sequence element) и блок TATA; и 2) второй основной промотор Pol III, который включает PSE и блок TATA, слитый с 5'-концом DSE в обратной ориентации. Например, в промоторе H1 DSE соседствует с PSE и блоком TATA, и промотор можно сделать двунаправленным, создав гибридный промотор, в котором транскрипция в обратном направлении контролируется путем добавления блока PSE и TATA, полученного из промоутер U6. Использование двунаправленного промотора для экспрессии генов, кодирующих белок Cas, и направляющей РНК одновременно позволяет создавать компактные кассеты экспрессии для облегчения доставки. Nucleic acids encoding Cas proteins can be stably integrated into the cell genome and functionally linked to a promoter active in the cell. Alternatively, nucleic acids encoding Cas proteins can be operably linked to a promoter in an expression construct. Expression constructs include any nucleic acid constructs capable of directing expression of a gene or other nucleic acid sequence of interest (eg, the Cas gene) and which can transfer such nucleic acid sequence of interest into a target cell. For example, the nucleic acid encoding the Cas protein may be contained in a targeting vector containing the nucleic acid insert and/or in a vector containing DNA encoding the gRNA. Alternatively, it may be in a vector or plasmid that is separated from the target vector containing the nucleic acid insert and/or separated from the vector containing the DNA encoding the rRNA. Promoters that can be used in an expression construct include promoters active in, for example, one or more eukaryotic cells, a human cell, a non-human cell, a mammalian cell, a mammalian, non-human cell, a rodent cell, a mouse cell, a rat cell, a hamster cell, rabbit cell, pluripotent cell, embryonic stem (ES) cell or zygote. Such promoters may be, for example, conditional promoters, inducible promoters, constitutive promoters or tissue-specific promoters. In some embodiments, the promoter may be a bidirectional promoter that drives expression of both the Cas protein in one direction and the guide RNA in the other direction. Such bidirectional promoters can consist of: 1) a complete traditional unidirectional Pol III promoter, which contains 3 external control elements: a distal sequence element (DSE), a proximal sequence element (PSE) and a TATA block; and 2) a second core Pol III promoter that includes the PSE and a TATA box fused to the 5′ end of the DSE in reverse orientation. For example, in the H1 promoter, the DSE is adjacent to a PSE and a TATA box, and the promoter can be made bidirectional by creating a hybrid promoter in which transcription in the reverse direction is controlled by adding a PSE and TATA box derived from the U6 promoter. Using a bidirectional promoter to express genes encoding the Cas protein and a guide RNA simultaneously allows for the creation of compact expression cassettes for ease of delivery.

Данное раскрытие также предоставляет направляющую РНК (нРНК), которая связывается с белком Cas (например, белком Cas9) и нацеливает белок Cas на определенное место в целевой ДНК (например, ген B4GALT1). В некоторых вариантах осуществления направляющая РНК эффективна для направления фермента Cas для связывания или расщепления эндогенного гена B4GALT1, при этом направляющая РНК содержит направленный на ДНК сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене. B4GALT1 ген, который включает или находится, например, в положениях с 53575 по 53577 из SEQ ID NO:1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 5, около 10, около 15, около 20, около 25, около 30, около 35, около 40, около 45, около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от положений с 53575 по 53577 из SEQ ID NO:1. Другие типичные направляющие РНК содержат ДНК-нацеливающий сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, который находится в области, соответствующей экзону 5 SEQ ID NO:1. Другие иллюстративные направляющие РНК содержат ДНК-нацеливающий сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, которая включает в себя или находится вблизи стартового кодона эндогенного гена B4GALT1 или включает в себя или находится рядом с стоп-кодоном эндогенного гена B4GALT1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 5, около 10, около 15, около 20, около 25, около 30, около 35, около 40, около 45, около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от стартового кодона или в пределах около 5, в пределах около 10, в пределах около 15, в пределах около 20, в пределах около 25, в пределах около 30, в пределах около 35, в пределах около 40, в пределах около 45, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от стоп-кодона. Эндогенный ген B4GALT1 может быть геном B4GALT1 из любого организма. Например, ген B4GALT1 может быть геном B4GALT1 человека или ортологом из другого организма, такого как млекопитающее отличное от человека, грызун, мышь или крыса.This disclosure also provides a guide RNA (gRNA) that binds to a Cas protein (eg, the Cas9 protein) and targets the Cas protein to a specific location in the target DNA (eg, the B4GALT1 gene) . In some embodiments, the guide RNA is effective for directing a Cas enzyme to bind or cleave the endogenous B4GALT1 gene, wherein the guide RNA comprises a DNA targeting segment that hybridizes to a sequence recognized by the guide RNA in the endogenous gene. B4GALT1 gene, which includes or is located, for example, at positions 53575 to 53577 of SEQ ID NO:1. For example, the sequence recognized by the guide RNA may range from about 5, about 10, about 15, about 20, about 25, about 30, about 35, about 40, about 45, about 50, about 100, about 200, within about 300, within about 400, within about 500, or within about 1000 nucleotides from positions 53575 to 53577 of SEQ ID NO:1. Other typical guide RNAs contain a DNA targeting segment that hybridizes to a guide RNA recognition sequence in the endogenous B4GALT1 gene, which is located in the region corresponding to exon 5 of SEQ ID NO:1. Other exemplary guide RNAs comprise a DNA targeting segment that hybridizes to a guide RNA recognition sequence in the endogenous B4GALT1 gene that includes or is adjacent to a start codon of the endogenous B4GALT1 gene or includes or is adjacent to a stop codon of the endogenous B4GALT1 gene . For example, the sequence recognized by the guide RNA may range from about 5, about 10, about 15, about 20, about 25, about 30, about 35, about 40, about 45, about 50, about 100, about 200, within about 300, within about 400, within about 500 or within about 1000 nucleotides from the start codon or within about 5, within about 10, within about 15, within about 20, within about 25 , within about 30, within about 35, within about 40, within about 45, within about 50, within about 100, within about 200, within about 300, within about 400, within about 500 or within about 1000 nucleotides of the stop codon. The endogenous B4GALT1 gene can be the B4GALT1 gene from any organism. For example, the B4GALT1 gene may be a human B4GALT1 gene or an ortholog from another organism, such as a non-human mammal, rodent, mouse or rat.

В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК присутствуют на 5'-конце гена B4GALT1 человека. В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК соседствуют с сайтом начала транскрипции (TSS - transcription start site) гена B4GALT1 человека. В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК присутствуют на 3'-конце гена B4GALT1 человека. В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК находятся вблизи положений с 53575 по 53577 из SEQ ID NO:1. Иллюстративные последовательности распознаваемые направляющей РНК, расположенные вблизи позиций с 53575 по 53577 из SEQ ID NO:1, включают, но не ограничиваются ими, ATTAGTTTTTAGAGGCATGT (SEQ ID NO:9) и GGCTCTCAGGCCAAGTGTAT (SEQ ID NO:10) (обе от 5' до позиций 53575 до 53577 из SEQ ID NO:1) и TACTCCTTCCCCCTTTAGGA (SEQ ID NO:11) и GTCCGAGGCTCTGGGCCTAG (SEQID NO:12) (оба 3' в положениях с 53575 по 53577 из SEQ ID NO:1).In some embodiments, the guide RNA recognition sequences are present at the 5' end of the human B4GALT1 gene. In some embodiments, the sequences recognized by the guide RNA are adjacent to the transcription start site (TSS) of the human B4GALT1 gene. In some embodiments, the guide RNA recognition sequences are present at the 3' end of the human B4GALT1 gene. In some embodiments, the guide RNA recognition sequences are located in the vicinity of positions 53575 to 53577 of SEQ ID NO:1. Exemplary guide RNA recognition sequences located in the vicinity of positions 53575 to 53577 of SEQ ID NO:1 include, but are not limited to, ATTAGTTTTTAGAGGCATGT (SEQ ID NO:9) and GGCTCTCAGGCCAAGTGTAT (SEQ ID NO:10) (both 5' to positions 53575 to 53577 of SEQ ID NO:1) and TACTCCTTCCCCCTTTAGGA (SEQ ID NO:11) and GTCCGAGGCTCTGGGCCTAG (SEQID NO:12) (both 3' at positions 53575 to 53577 of SEQ ID NO:1).

Направляющие РНК могут содержать два сегмента: сегмент, нацеленный на ДНК, и сегмент, связывающий белок. Некоторые рРНК содержат две отдельные молекулы РНК: РНК-активатор (например, тракрРНК (tractrRNA)) и РНК-мишень (например, CRISPR РНК или crРНК). Другие рРНК представляют собой одну молекулу РНК (один полинуклеотид РНК; одну молекулу рРНК, однонаправленную РНК или енРНК). Например, для Cas9, одиночная направляющая РНК может содержать кРНК, слитую с тракрРНК (например, через линкер). Например, для Cpf1 требуется только кРНК для достижения расщепления. НРНК включают как двухмолекулярные (т.е. модульные) нРНК, так и одномолекулярные нРНК.Guide RNAs can contain two segments: a DNA-targeting segment and a protein-binding segment. Some rRNAs contain two separate RNA molecules: an activator RNA (such as tractrRNA) and a target RNA (such as CRISPR RNA or crRNA). Other rRNAs are a single RNA molecule (one RNA polynucleotide; one rRNA molecule, unidirectional RNA, or enRNA). For example, for Cas9, a single guide RNA may contain a cRNA fused to a tracrRNA (eg, via a linker). For example, Cpf1 requires only cRNA to achieve cleavage. NRNAs include both double-molecule (i.e., modular) nRNAs and single-molecule nRNAs.

Направленный на ДНК сегмент (крРНК - crRNA) данной нРНК содержит нуклеотидную последовательность, которая комплементарна последовательности (т.е. последовательности, распознаваемой направляющей РНК) в ДНК-мишени. Направленный на ДНК сегмент нРНК взаимодействует с ДНК-мишенью (например, геном B4GALT1) специфичным для последовательности образом посредством гибридизации (т.е. спаривания оснований). По существу, нуклеотидная последовательность сегмента, нацеленного на ДНК, может варьироваться и определять местоположение внутри ДНК-мишени, с которым будут взаимодействовать нРНК и ДНК-мишень. Направленный на ДНК сегмент рассматриваемой нРНК может быть модифицирован для гибридизации с любой желаемой последовательностью в целевой ДНК. Встречающиеся в природе крРНК различаются в зависимости от системы CRISPR-Cas и организма, но часто содержат направляющий сегмент длиной около от 21 до 72 нуклеотидов, фланкированный двумя прямыми повторами (DR - direct repeats) длиной от около 21 до около 46 нуклеотидов. В случае S. pyogenesDR имеют длину 36 нуклеотидов, а целевой участок составляет 30 нуклеотидов. 3'-расположенный DR является комплементарным и гибридизуется с соответствующей трактрРНК, которая, в свою очередь, связывается с белком Cas.The DNA-targeting segment (crRNA) of a given nRNA contains a nucleotide sequence that is complementary to a sequence (ie, a sequence recognized by the guide RNA) in the target DNA. A DNA-targeted segment of nRNA interacts with a DNA target (eg, the B4GALT1 gene) in a sequence-specific manner through hybridization (i.e., base pairing). As such, the nucleotide sequence of the DNA-targeting segment can vary and determine the location within the target DNA with which the gRNA and the target DNA will interact. The DNA-targeting segment of the nRNA in question can be modified to hybridize to any desired sequence in the target DNA. Naturally occurring crRNAs vary depending on the CRISPR-Cas system and organism, but often contain a guide segment of about 21 to 72 nucleotides in length, flanked by two direct repeats (DR - direct repeats) in length from about 21 to about 46 nucleotides. In the case of S. pyogenes, the DRs are 36 nucleotides long and the target region is 30 nucleotides. The 3'-located DR is complementary and hybridizes to the corresponding tractRNA, which in turn binds to the Cas protein.

Направленный на ДНК сегмент может иметь длину, по меньшей мере, около 12 нуклеотидов, по меньшей мере, около 15 нуклеотидов, по меньшей мере, около 17 нуклеотидов, по меньшей мере, около 18 нуклеотидов, по меньшей мере, около 19 нуклеотидов, по меньшей мере, около 20 нуклеотидов, по меньшей мере, около 25 нуклеотиды, по меньшей мере, около 30 нуклеотидов, по меньшей мере, около 35 нуклеотидов или, по меньшей мере, около 40 нуклеотидов. Такие ДНК-нацеленные сегменты могут иметь длину от около 12 нуклеотидов до около 100 нуклеотидов, от около 12 нуклеотидов до около 80 нуклеотидов, от около 12 нуклеотидов до около 50 нуклеотидов, от около 12 нуклеотидов до около 40 нуклеотидов, от около 12 нуклеотидов до около 30 нуклеотидов, от около 12 нуклеотидов до около 25 нуклеотидов или от около 12 нуклеотидов до около 20 нуклеотидов. Например, целевой сегмент ДНК может составлять от около 15 нуклеотидов до около 25 нуклеотидов (например, от около 17 нуклеотидов до около 20 нуклеотидов или около 17 нуклеотидов, около 18 нуклеотидов, около 19 нуклеотидов или около 20 нуклеотидов). См., например, публикацию заявки США 2016/0024523. Для Cas9 из S. pyogenes типичный ДНК-нацеливающий сегмент имеет длину от около 16 до около 20 нуклеотидов или от около 17 до около 20 нуклеотидов. Для Cas9 из S. aureus типичный ДНК-нацеливающий сегмент имеет длину от около 21 до около 23 нуклеотидов. Для Cpf1 типичный ДНК-нацеливающий сегмент имеет длину, по меньшей мере, около 16 нуклеотидов или, по меньшей мере, около 18 нуклеотидов.The DNA-targeting segment may be at least about 12 nucleotides in length, at least about 15 nucleotides, at least about 17 nucleotides, at least about 18 nucleotides, at least about 19 nucleotides, at least at least about 20 nucleotides, at least about 25 nucleotides, at least about 30 nucleotides, at least about 35 nucleotides, or at least about 40 nucleotides. Such DNA-targeting segments may have a length of from about 12 nucleotides to about 100 nucleotides, from about 12 nucleotides to about 80 nucleotides, from about 12 nucleotides to about 50 nucleotides, from about 12 nucleotides to about 40 nucleotides, from about 12 nucleotides to about 30 nucleotides, about 12 nucleotides to about 25 nucleotides, or about 12 nucleotides to about 20 nucleotides. For example, the target DNA segment may be from about 15 nucleotides to about 25 nucleotides (e.g., from about 17 nucleotides to about 20 nucleotides, or about 17 nucleotides, about 18 nucleotides, about 19 nucleotides, or about 20 nucleotides). See, for example, US Application Publication 2016/0024523. For Cas9 from S. pyogenes, a typical DNA targeting segment is about 16 to about 20 nucleotides in length, or about 17 to about 20 nucleotides. For Cas9 from S. aureus, the typical DNA targeting segment is about 21 to about 23 nucleotides in length. For Cpf1, a typical DNA targeting segment is at least about 16 nucleotides in length, or at least about 18 nucleotides in length.

Процент комплементарности между последовательностью, нацеленной на ДНК, и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени может составлять, по меньшей мере, около 60%, по меньшей мере, около 65%, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80% (по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100%). Процент комплементарности между последовательностью, нацеленной на ДНК, и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени может составлять, по меньшей мере, около 60% по сравнению с около 20 смежными нуклеотидами. В качестве примера, процентная комплементарность между ДНК-нацеливающей последовательностью и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени составляет около 100% по сравнению с около 14 смежными нуклеотидами на 5'-конце последовательности, распознаваемой направляющей РНК, в пределах комплементарной цепи мишени. ДНК и всего около 0% по сравнению с остатком. В таком случае можно предположить, что ДНК-нацеливающая последовательность имеет длину около 14 нуклеотидов. В качестве другого примера, процент комплементарности между последовательностью, нацеленной на ДНК, и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени составляет около 100% по сравнению с семью смежными нуклеотидами на 5'-конце последовательности, распознаваемой направляющей РНК, в пределах комплементарной цепи ДНК-мишени и всего около 0% по сравнению с остатком. В таком случае можно предположить, что ДНК-нацеливающая последовательность имеет длину около 7 нуклеотидов. В некоторых направляющих РНК, по меньшей мере, около 17 нуклеотидов в последовательности ДНК-мишени являются комплементарными ДНК-мишени. Например, ДНК-нацеливающая последовательность может иметь длину около 20 нуклеотидов и может содержать 1, 2 или 3 несовпадения с ДНК-мишенью (последовательностью, распознаваемой направляющей РНК). В некоторых вариантах осуществления несоответствия не являются смежными с последовательностью соседнего мотива прототипа (PAM) (например, несоответствия находятся на 5'-конце последовательности, нацеленной на ДНК, или несоответствия составляют, по меньшей мере, 2, по меньшей мере, 3, по меньшей мере, 4, по меньшей мере, 5, по меньшей мере, 6, по меньшей мере, 7, по меньшей мере, 8, по меньшей мере, 9, по меньшей мере, 9, по меньшей мере, 10, по меньшей мере, 11, по меньшей мере, 12, по меньшей мере, 13, по меньшей мере, 14, по меньшей мере, 15, по меньшей мере, 16, по меньшей мере, 17, по меньшей мере, 18 или, по меньшей мере, 19 пар оснований от последовательности PAM).The percentage of complementarity between the sequence targeted by the DNA and the sequence recognized by the guide RNA in the target DNA may be at least about 60%, at least about 65%, at least about 70%, at least , about 75%, at least about 80% (at least about 85%, at least about 90%, at least about 95%, at least about 97%, at least about 98%, at least about 99% or 100%). The percentage of complementarity between the sequence targeted by the DNA and the sequence recognized by the guide RNA in the target DNA may be at least about 60% compared to about 20 contiguous nucleotides. As an example, the percentage complementarity between the DNA targeting sequence and the guide RNA recognition sequence in the target DNA is about 100% compared to about 14 contiguous nucleotides at the 5' end of the guide RNA recognition sequence within the complementary strand of the target. DNA and only about 0% compared to the remainder. In this case, it can be assumed that the DNA targeting sequence is about 14 nucleotides in length. As another example, the percentage of complementarity between the DNA-targeting sequence and the guide RNA recognition sequence in the target DNA is about 100% compared to the seven contiguous nucleotides at the 5' end of the guide RNA recognition sequence within the complementary strand DNA targets and only about 0% compared to the remainder. In this case, it can be assumed that the DNA targeting sequence is about 7 nucleotides in length. In some guide RNAs, at least about 17 nucleotides of the target DNA sequence are complementary to the target DNA. For example, the DNA targeting sequence may be about 20 nucleotides in length and may contain 1, 2, or 3 mismatches with the target DNA (the sequence recognized by the guide RNA). In some embodiments, the mismatches are not contiguous to a prototype adjacent motif (PAM) sequence (e.g., the mismatches are at the 5' end of the DNA targeting sequence, or the mismatches are at least 2, at least 3, at least at least 4, at least 5, at least 6, at least 7, at least 8, at least 9, at least 9, at least 10, at least 11, at least 12, at least 13, at least 14, at least 15, at least 16, at least 17, at least 18 or at least 19 base pairs from the PAM sequence).

Направляющие РНК могут включать модификации или последовательности, которые обеспечивают дополнительные желательные признаки (например, измененную или регулируемую стабильность; субклеточное нацеливание; отслеживание с помощью флуоресцентной метки; сайт связывания для белка или белкового комплекса и тому подобное). Примеры таких модификаций включают, например, 5' кэп (например, 7-метилгуанилатный кэп (m7G)); 3' полиаденилированный хвост (то есть 3' поли (А) хвост); последовательность рибосвитча (например, для обеспечения регулируемой стабильности и/или регулируемой доступности белков и/или белковых комплексов); последовательность контроля стабильности; последовательность, которая образует дцРНК дуплекс (то есть шпильку); модификация или последовательность, которая направляет РНК в субклеточное местоположение (например, ядро, митохондрии, хлоропласты и тому подобное); модификацию или последовательность, которая обеспечивает отслеживание (например, прямое конъюгирование с флуоресцентной молекулой, конъюгирование с фрагментом, который облегчает детектирование флуоресценции, последовательность, которая позволяет детектирование флуоресценции и т. д.); модификация или последовательность, которая обеспечивает сайт связывания для белков (например, белков, которые действуют на ДНК, включая активаторы транскрипции, репрессоры транскрипции, ДНК-метилтрансферазы, ДНК-деметилазы, гистонацетилтрансферазы, гистондеацетилазы и тому подобное); и их комбинации.Guide RNAs may include modifications or sequences that provide additional desired features (eg, altered or regulated stability; subcellular targeting; tracking with a fluorescent tag; binding site for a protein or protein complex, and the like). Examples of such modifications include, for example, the 5' cap (eg, 7-methylguanylate cap (m7G)); 3' polyadenylated tail (ie, 3' poly(A) tail); riboswitch sequence (eg, to provide regulated stability and/or regulated availability of proteins and/or protein complexes); stability control sequence; a sequence that forms a dsRNA duplex (i.e., a hairpin); a modification or sequence that directs the RNA to a subcellular location (eg, nucleus, mitochondria, chloroplasts, and the like); a modification or sequence that provides tracking (eg, direct conjugation to a fluorescent molecule, conjugation to a moiety that facilitates fluorescence detection, a sequence that allows fluorescence detection, etc.); a modification or sequence that provides a binding site for proteins (eg, proteins that act on DNA, including transcription activators, transcription repressors, DNA methyltransferases, DNA demethylases, histone acetyltransferases, histone deacetylases, and the like); and their combinations.

Направляющие РНК могут быть предоставлены в любой форме. Например, нРНК может быть предоставлена в форме РНК, либо в виде двух молекул (отдельная крРНК и тракрРНК), либо в виде одной молекулы (енРНК) и, необязательно, в форме комплекса с белком Cas. Например, нРНК могут быть получены путем транскрипции in vitro с использованием, например, РНК-полимеразы T7. Направляющие РНК также могут быть получены химическим синтезом.Guide RNAs may be provided in any form. For example, the nRNA may be provided in the form of RNA, either as two molecules (single crRNA and tracrRNA) or as a single molecule (enRNA) and, optionally, in the form of a complex with a Cas protein. For example, nRNAs can be produced by in vitro transcription using, for example, T7 RNA polymerase. Guide RNAs can also be produced by chemical synthesis.

НРНК также может быть предоставлена в форме ДНК, кодирующей нРНК. ДНК, кодирующая нРНК, может кодировать одну молекулу РНК (енРНК) или отдельные молекулы РНК (например, отдельные крРНК и тракрРНК). В последнем случае ДНК, кодирующая рРНК, может быть представлена как одна молекула ДНК или как отдельных молекул ДНК, кодирующих кРНК и тракрРНК, соответственно. Когда нРНК предоставляется в форме ДНК, она может временно, условно или конститутивно экспрессироваться в клетке. ДНК, кодирующие нРНК, могут быть стабильно интегрированы в геном клетки и функционально связаны с активным в клетке промотором. Альтернативно, ДНК, кодирующие нРНК, могут быть функционально связаны с промотором в конструкции экспрессии. Например, ДНК, кодирующая нРНК, может находиться в векторе, содержащем гетерологичную нуклеиновую кислоту. Вектор может дополнительно содержать экзогенную донорную последовательность и/или вектор может дополнительно содержать нуклеиновую кислоту, кодирующую белок Cas. Альтернативно, ДНК, кодирующая эту нРНК, может находиться в векторе или плазмиде, которая отделена от вектора, содержащего экзогенную донорную последовательность, и/или вектора, содержащего нуклеиновую кислоту, кодирующую белок Cas. Промоторы, которые можно использовать в таких экспрессирующих конструкциях, включают промоторы, активные, например, в одной или более из эукариотических клеток, человеческих клеток, клеток, отличных от человека, млекопитающих, клеток, и не клетка млекопитающего человека, клетка, клетка мыши, клетка крысы, клетка хомяка, клетка кролика, плюрипотентная клетка, эмбриональная стволовая клетка или зигота. Такими промоторами могут быть, например, условные промоторы, индуцибельные промоторы, конститутивные промоторы или тканеспецифичные промоторы. Такими промоторами также могут быть, например, двунаправленные промоторы. Конкретные примеры подходящих промоторов включают промотор РНК-полимеразы III, такой как промотор U6 человека, промотор U6-полимеразы III крысы или промотор U6-полимеразы III мыши. The nRNA may also be provided in the form of DNA encoding the nRNA. DNA encoding nRNAs can encode a single RNA molecule (enRNA) or individual RNA molecules (e.g., individual crRNAs and tracrRNAs). In the latter case, the DNA encoding rRNA can be represented as a single DNA molecule or as separate DNA molecules encoding cRNA and tracrRNA, respectively. When nRNA is provided in the form of DNA, it can be transiently, conditionally, or constitutively expressed in the cell. DNA encoding nRNAs can be stably integrated into the cell genome and functionally associated with a promoter active in the cell. Alternatively, the DNAs encoding the nRNAs may be operably linked to a promoter in an expression construct. For example, the DNA encoding the nRNA may be contained in a vector containing a heterologous nucleic acid. The vector may further contain an exogenous donor sequence and/or the vector may further contain a nucleic acid encoding a Cas protein. Alternatively, the DNA encoding the nRNA may be in a vector or plasmid that is separate from a vector containing an exogenous donor sequence and/or a vector containing a nucleic acid encoding a Cas protein. Promoters that can be used in such expression constructs include promoters active in, for example, one or more of a eukaryotic cell, a human cell, a non-human cell, a mammalian cell, and a non-mammalian human cell, a mouse cell, a cell rat, hamster cell, rabbit cell, pluripotent cell, embryonic stem cell or zygote. Such promoters may be, for example, conditional promoters, inducible promoters, constitutive promoters or tissue-specific promoters. Such promoters can also be, for example, bidirectional promoters. Specific examples of suitable promoters include an RNA polymerase III promoter such as a human U6 promoter, a rat U6 polymerase III promoter, or a mouse U6 polymerase III promoter.

Данное раскрытие также предоставляет композиции, содержащие одну или более направляющих РНК (например, 1, 2, 3, 4 или более направляющих РНК), раскрытых в данном документе, и носитель, повышающий стабильность выделенной нуклеиновой кислоты или белка (например, продлевая период при заданные условия хранения (например, -20°C, 4°C или температура окружающей среды), для которых продукты разложения остаются ниже порогового значения, такого как ниже 0,5% по массе исходной нуклеиновой кислоты или белка, или повышение стабильности в Vivo). Примеры таких носителей включают в себя, но не ограничиваются ими, микросферы из поли (молочной кислоты) (PLA), микросферы из поли (D, L-молочной-гликолевой кислоты) (PLGA), липосомы, мицеллы, обратные мицеллы, липидные кохлеаты и липидные микротрубочки. Такие композиции могут дополнительно содержать белок Cas, такой как белок Cas9, или нуклеиновую кислоту, кодирующую белок Cas. Такие композиции могут дополнительно содержать одну или более (например, 1, 2, 3, 4 или более) экзогенных донорных последовательностей и/или одну или более (например, 1, 2, 3, 4 или более) нацеливающих векторов и/или один или более (например, 1, 2, 3, 4 или более) векторов экспрессии, как раскрыто в другом месте в данном документе.This disclosure also provides compositions comprising one or more guide RNAs (e.g., 1, 2, 3, 4 or more guide RNAs) disclosed herein and a carrier that increases the stability of the isolated nucleic acid or protein (e.g., by prolonging the period at a given storage conditions (e.g., -20°C, 4°C, or ambient temperature) for which degradation products remain below a threshold such as below 0.5% by weight of the original nucleic acid or protein, or increasing stability in Vivo ). Examples of such carriers include, but are not limited to, poly(lactic acid) (PLA) microspheres, poly(D,L-lactic-glycolic acid) (PLGA) microspheres, liposomes, micelles, reverse micelles, lipid cochleates, and lipid microtubules. Such compositions may further comprise a Cas protein, such as a Cas9 protein, or a nucleic acid encoding a Cas protein. Such compositions may further comprise one or more (e.g., 1, 2, 3, 4 or more) exogenous donor sequences and/or one or more (e.g., 1, 2, 3, 4 or more) targeting vectors and/or one or more (eg, 1, 2, 3, 4 or more) expression vectors, as disclosed elsewhere herein.

Последовательности распознаваемые направляющей РНК включают последовательности нуклеиновых кислот, присутствующие в ДНК-мишени (например, ген B4GALT1), с которой будет связываться ДНК-нацеливающий сегмент нРНК, при условии наличия достаточных условий для связывания. Например, последовательности, распознаваемые направляющими РНК, включают в себя последовательности, к которым разработана направляющая РНК, чтобы иметь комплементарность, при этом гибридизация между последовательностью, распознаваемой направляющей РНК, и последовательностью, нацеленной на ДНК, способствует образованию комплекса CRISPR. Полная комплементарность не обязательно требуется при условии, что существует достаточная комплементарность, чтобы вызвать гибридизацию и способствовать образованию комплекса CRISPR. последовательности, распознаваемые направляющими РНК, также включают сайты расщепления для белков Cas, более подробно описанные ниже. Последовательность, распознаваемая направляющей РНК, может содержать любой полинуклеотид, который может быть расположен, например, в ядре или цитоплазме клетки или в органелле клетки, такой как митохондрия или хлоропласт.Sequences recognized by the guide RNA include nucleic acid sequences present in the target DNA (eg, the B4GALT1 gene) to which the DNA-targeting nRNA segment will bind, provided sufficient conditions for binding are present. For example, sequences recognized by guide RNAs include sequences to which the guide RNA is designed to be complementary, wherein hybridization between the sequence recognized by the guide RNA and the DNA-targeting sequence promotes the formation of a CRISPR complex. Full complementarity is not necessarily required as long as there is sufficient complementarity to induce hybridization and promote CRISPR complex formation. sequences recognized by guide RNAs also include cleavage sites for Cas proteins, described in more detail below. The sequence recognized by the guide RNA may comprise any polynucleotide, which may be located, for example, in the nucleus or cytoplasm of a cell or in a cell organelle such as a mitochondrion or a chloroplast.

Последовательность, распознаваемая направляющей РНК, в ДНК-мишени может быть мишенью (то есть связываться, гибридизоваться или быть комплементарной) белка Cas или нРНК. Подходящие условия связывания ДНК/РНК включают физиологические условия, обычно присутствующие в клетке. Другие подходящие условия связывания ДНК/РНК известны. The sequence recognized by the guide RNA in the target DNA can be targeted (ie, bind, hybridize, or be complementary to) a Cas protein or an nRNA. Suitable conditions for DNA/RNA binding include physiological conditions typically present in the cell. Other suitable DNA/RNA binding conditions are known.

Белок Cas может расщеплять нуклеиновую кислоту в месте внутри или снаружи последовательности нуклеиновой кислоты, присутствующей в ДНК-мишени, с которой будет связываться направленный на ДНК сегмент нРНК. «Сайт расщепления» включает положение нуклеиновой кислоты, в которой белок Cas производит разрыв одной цепи или разрыв двойной цепи. Например, образование комплекса CRISPR (содержащего нРНК, гибридизованную с последовательностью, распознаваемой направляющей РНК, и образовавшей комплекс с белком Cas), может привести к расщеплению одной или обеих цепей в или около (например, в пределах 1, в пределах 2, в течение 3, в пределах 4, в пределах 5, в течение 6, в пределах 7, в пределах 8, в пределах 9, в пределах 10, в пределах 20 или в пределах 50 или более пар оснований от) последовательности нуклеиновой кислоты, присутствующей в ДНК-мишени, к которой направлен ДНК-нацеливающий сегмент нРНК будет связывать. Сайт расщепления может быть только на одной цепи или на обеих цепях нуклеиновой кислоты. Сайты расщепления могут находиться в одном и том же положении на обеих цепях нуклеиновой кислоты (образуя тупые концы) или могут быть в разных сайтах на каждой цепочке (продуцируя ступенчатые концы (то есть, выступы)). В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК никазы, на первой цепи отделена от последовательности, распознаваемой направляющей РНК никазы, на второй цепи, по меньшей мере, на 2, по меньшей мере, на 3, по меньшей мере, на 4, по меньшей мере, на 5, по меньшей мере, на 6, по меньшей мере, на 7, по меньшей мере, на 8, по меньшей мере, на 9, по меньшей мере, на 10, по меньшей мере, на 15, по меньшей мере, на 20, по меньшей мере, на 25, по меньшей мере, на 30, по меньшей мере, на 40, по меньшей мере, на 50, по меньшей мере, на 75, по меньшей мере, на 100, по меньшей мере, на 250, по меньшей мере, на 500 или, по меньшей мере, на 1000 пар оснований.The Cas protein can cleave a nucleic acid at a location within or outside the nucleic acid sequence present in the target DNA to which the DNA-targeted nRNA segment will bind. A "cleavage site" includes the nucleic acid position at which the Cas protein produces a single-strand break or double-strand break. For example, formation of a CRISPR complex (containing an gRNA hybridized to a sequence recognized by a guide RNA and complexed with a Cas protein) may result in cleavage of one or both strands at or near (e.g., within 1, within 2, within 3 , within 4, within 5, within 6, within 7, within 8, within 9, within 10, within 20, or within 50 or more base pairs of) the nucleic acid sequence present in the DNA the target to which the DNA-targeting segment of the nRNA is directed will bind. The cleavage site can be on only one strand or on both strands of the nucleic acid. The cleavage sites may be at the same position on both nucleic acid strands (producing blunt ends) or may be at different sites on each strand (producing stepped ends (i.e., knobs)). In some embodiments, the sequence recognized by the nickase guide RNA on the first strand is separated from the sequence recognized by the nickase guide RNA on the second strand by at least 2, at least 3, at least 4, at least at least 5, at least 6, at least 7, at least 8, at least 9, at least 10, at least 15, at least , by 20, by at least 25, by at least 30, by at least 40, by at least 50, by at least 75, by at least 100, by at least, by 250, by at least 500, or by at least 1000 base pairs.

Сайт-специфическое расщепление ДНК-мишени белками Cas может происходить в местах, определяемых как i) комплементарностью спаривания оснований между нРНК и ДНК-мишенью, так и ii) коротким мотивом, называемым протоспейсерным смежным мотивом (PAM - protospacer adjacent motif), в ДНК-мишени. PAM может фланкировать последовательность, распознаваемую направляющей РНК. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может быть фланкирована на 3'-конце PAM. Альтернативно, последовательность, распознаваемая направляющей РНК, может быть фланкирована на 5'-конце PAM. Например, сайт расщепления белков Cas может составлять от около 1 до около 10 или от около 2 до около 5 пар оснований (например, 3 пары оснований) выше или ниже последовательности PAM. В некоторых случаях (например, когда используется Cas9 из S. pyogenes или тесно связанный Cas9), последовательность PAM некомплементарной цепи может быть 5'-N1GG-3', где N1 представляет собой любой нуклеотид ДНК и находится непосредственно в 3' от последовательности, распознаваемой направляющей РНК, некомплементарной цепи ДНК-мишени. Таким образом, последовательность PAM комплементарной цепи будет иметь вид 5'-CCN2-3', где N2 является любым нуклеотидом ДНК и находится непосредственно в 5' от последовательности, распознаваемой направляющей РНК, комплементарной цепи мишени. ДНК. В некоторых таких случаях N1 и N2 могут быть взаимодополняющими, а N1-N2 может быть любой парой оснований (например, N1= C и N2= G; N1= G и N2= C; N1= A и N2= T; или N1= T и N2= A). В случае Cas9 из S. Aureus PAM может быть NNGRRT (SEQ ID NO:13) или NNGRR (SEQ ID NO:14), где N может A, G, C или T, и R может быть G или A. В некоторых случаях (например, для FnCpf1) последовательность PAM может находиться выше 5'-конца и иметь последовательность 5'-TTN-3'.Site-specific cleavage of target DNA by Cas proteins can occur at sites determined by both i) base pairing complementarity between the nRNA and the target DNA, and ii) a short motif called protospacer adjacent motif (PAM) in the DNA targets. The PAM may flank a sequence recognized by the guide RNA. In some embodiments, the sequence recognized by the guide RNA may be flanked at the 3' end of the PAM. Alternatively, the sequence recognized by the guide RNA may be flanked at the 5' end of the PAM. For example, the cleavage site of Cas proteins may be from about 1 to about 10 or about 2 to about 5 base pairs (eg, 3 base pairs) upstream or downstream of the PAM sequence. In some cases (for example, when Cas9 from S. pyogenes or closely related Cas9 is used), the PAM sequence of the non-complementary strand may be 5'-N 1 GG-3', where N 1 is any DNA nucleotide and is immediately 3' from a sequence recognized by a guide RNA that is non-complementary to the target DNA strand. Thus, the PAM sequence of the complementary strand will be 5'-CCN 2 -3', where N 2 is any DNA nucleotide and is immediately 5' from the sequence recognized by the guide RNA complementary to the target strand. DNA. In some such cases, N 1 and N 2 may be complementary, and N 1 -N 2 may be any base pair (for example, N 1 = C and N 2 = G; N 1 = G and N 2 = C; N 1 = A and N 2 = T; or N 1 = T and N 2 = A). In the case of Cas9 from S. aureus , the PAM may be NNGRRT (SEQ ID NO:13) or NNGRR (SEQ ID NO:14), where N may be A, G, C, or T, and R may be G or A. In some cases (eg for FnCpf1) the PAM sequence may be upstream of the 5' end and have the sequence 5'-TTN-3'.

Примеры последовательностей, распознаваемых направляющими РНК, включают последовательность ДНК, комплементарную ДНК-нацеливающему сегменту нРНК, или такую последовательность ДНК в дополнение к последовательности PAM. Например, мотив-мишень может представлять собой последовательность из 20 нуклеотидов ДНК, непосредственно предшествующую мотиву NGG, распознаваемому белком Cas9, например GN19NGG (SEQ ID NO:15) или N20NGG (SEQ ID NO:16) (см., например, публикация PCT WO 2014/165825). Гуанин на 5'-конце может облегчать транскрипцию РНК-полимеразой в клетках. Другие примеры последовательностей, распознаваемых направляющими РНК, могут включать два гуаниновых нуклеотида на 5'-конце (например, GGN20NGG; SEQ ID NO:17) для облегчения эффективной транскрипции с помощью T7 полимеразы in vitro. См., например, публикация PCT WO 2014/065596. Другие последовательности, распознаваемые направляющей РНК, могут иметь длину от около 4 до около 22 нуклеотидов, включая 5'G или GG и 3'GG или NGG. В некоторых вариантах осуществления последовательности, распознаваемые направляющей РНК, могут иметь длину от около 14 до около 20 нуклеотидов. Examples of sequences recognized by guide RNAs include a DNA sequence complementary to the DNA targeting segment of the nRNA, or a DNA sequence in addition to the PAM sequence. For example, the target motif may be a sequence of 20 nucleotides of DNA immediately preceding the NGG motif recognized by the Cas9 protein, such as GN 19 NGG (SEQ ID NO:15) or N 20 NGG (SEQ ID NO:16) ( see, e.g. , PCT publication WO 2014/165825). The guanine at the 5' end may facilitate transcription by RNA polymerase in cells. Other examples of sequences recognized by guide RNAs may include two guanine nucleotides at the 5' end (eg, GGN 20 NGG; SEQ ID NO:17) to facilitate efficient transcription by T7 polymerase in vitro . See, for example, PCT publication WO 2014/065596. Other sequences recognized by the guide RNA may be from about 4 to about 22 nucleotides in length, including 5'G or GG and 3'GG or NGG. In some embodiments, the sequences recognized by the guide RNA may be from about 14 to about 20 nucleotides in length.

Последовательность, распознаваемая направляющей РНК, может быть любой последовательностью нуклеиновой кислоты, эндогенной или экзогенной для клетки. Последовательность, распознаваемая направляющей РНК, может представлять собой последовательность, кодирующую продукт гена (например, белок) или некодирующую последовательность (например, регуляторную последовательность), или может включать и то и другое.The sequence recognized by the guide RNA can be any nucleic acid sequence, endogenous or exogenous to the cell. The sequence recognized by the guide RNA may be a sequence encoding a gene product (eg, a protein) or a non-coding sequence (eg, a regulatory sequence), or may include both.

В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может находиться в области, соответствующей экзону 5 SEQ ID NO:1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может включать или находиться вблизи положений с 53575 по 53577 из SEQ ID NO:1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положении, соответствующем положениям с 53575 по 53577 из SEQ ID NO:1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может включать или быть ближайшей к стартовому кодону эндогенного гена B4GALT1 или стоп-кодону эндогенного гена B4GALT1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500, или в пределах около 1000 нуклеотидов от старт-кодона или стоп-кодона.In some embodiments, the sequence recognized by the guide RNA may be in the region corresponding to exon 5 of SEQ ID NO:1. In some embodiments, the sequence recognized by the guide RNA may include or be adjacent to positions 53575 to 53577 of SEQ ID NO:1. For example, the sequence recognized by the guide RNA may be in the range of about 1000, in the range of about 500, in the range of about 400, in the range of about 300, in the range of about 200, in the range of about 100, in the range of about 50, in the range of about 45, within about 40, within about 35, within about 30, within about 25, within about 20, within about 15, within about 10, or within about 5 nucleotides at a position corresponding to positions 53575 to 53577 of SEQ ID NO:1. In some embodiments, the sequence recognized by the guide RNA may include or be proximal to the start codon of the endogenous B4GALT1 gene or the stop codon of the endogenous B4GALT1 gene. For example, the sequence recognized by the guide RNA may be in the range of about 10, in the range of about 20, in the range of about 30, in the range of about 40, in the range of about 50, in the range of about 100, in the range of about 200, in the range of about 300, within about 400, within about 500, or within about 1000 nucleotides from the start codon or stop codon.

Описанные в данном документе способы и композиции могут использовать экзогенные донорные последовательности (например, направляющие векторы или матрицы репарации) для модификации эндогенного гена B4GALT1, либо без расщепления эндогенного гена B4GALT1, либо после расщепления эндогенного гена B4GALT1 нуклеазный агент. Экзогенная донорная последовательность относится к любой нуклеиновой кислоте или вектору, которые включают элементы, которые необходимы для обеспечения сайт-специфической рекомбинации с последовательностью-мишенью. Использование экзогенных донорных последовательностей в сочетании с нуклеазными агентами может привести к более точным модификациям в эндогенном гене B4GALT1 путем стимулирования гомологически направленной репарации.The methods and compositions described herein may use exogenous donor sequences (eg, targeting vectors or repair templates) to modify the endogenous B4GALT1 gene, either without cleavage of the endogenous B4GALT1 gene, or after cleavage of the endogenous B4GALT1 gene by a nuclease agent. An exogenous donor sequence refers to any nucleic acid or vector that includes elements that are necessary to promote site-specific recombination with a target sequence. The use of exogenous donor sequences in combination with nuclease agents can lead to more precise modifications in the endogenous B4GALT1 gene by promoting homology-directed repair.

В таких способах нуклеазный агент расщепляет эндогенный ген B4GALT1 для создания одноцепочечного разрыва (nick) или двухцепочечного разрыва, и экзогенная донорная последовательность рекомбинирует с эндогенным геном B4GALT1 посредством лигироания, опосредованного негомологичноым присоединением концов (NHEJ), или через направляемую гомологией репарацию. Восстановление с использованием экзогенной донорной последовательности может удалить или нарушить сайт расщепления нуклеазой, так что на целевые аллели не может быть повторно направлен нуклеазный агент.In such methods, a nuclease agent cleaves the endogenous B4GALT1 gene to create a single-strand break (nick) or double-strand break, and the exogenous donor sequence is recombined with the endogenous B4GALT1 gene through non-homologous end joining (NHEJ)-mediated ligation or homology-directed repair. Reconstitution using an exogenous donor sequence may remove or disrupt the nuclease cleavage site so that the target alleles cannot be retargeted by the nuclease agent.

Экзогенные донорные последовательности могут включать дезоксирибонуклеиновую кислоту (ДНК) или рибонуклеиновую кислоту (РНК), они могут быть одноцепочечными или двухцепочечными, и они могут быть в линейной или циркулярной форме. Например, экзогенная донорная последовательность может представлять собой одноцепочечный олигодезоксинуклеотид (оцОДН - ssODN - single-stranded oligodeoxynucleotide). Типичная экзогенная донорная последовательность имеет длину от около 50 нуклеотидов до около 5 т.п.н., длину от около 50 нуклеотидов до около 3 т.п.н. или длину от около 50 до около 1000 нуклеотидов. Другие типичные экзогенные донорные последовательности имеют длину от около 40 до около 200 нуклеотидов. Например, последовательность экзогенного донора может составлять от около 50 до около 60, от около 60 до около 70, от около 70 до около 80, от около 80 до около 90, от около 90 до около 100, от около 100 до около 110 от около 110 до около 120, от около 120 до около 130, от около 130 до около 140, от около 140 до около 150, от около 150 до около 160, от около 160 до около 170, от около 170 до около 180, длиной от около 180 до около 190 или от около 190 до около 200 нуклеотидов. Альтернативно, последовательность экзогенного донора может составлять от около 50 до около 100, от около 100 до около 200, от около 200 до около 300, от около 300 до около 400, от около 400 до около 500, от около 500 до около 600, от около 600 до около 700, от около 700 до около 800, от около 800 до около 900 или от около 900 до около 1000 нуклеотидов в длину. Альтернативно, последовательность экзогенного донора может составлять от около 1 до около 1,5 т.п.н., от около 1,5 т.п.н. до около 2 т.п.н., от около 2 т.п.н. до около 2,5 т.п.н., от около 2,5 т.п.н. до около 3 т.п.н., от около 3 т.п.н. до около 3,5 т.п.н., от около 3,5 т.п.н. до около 4 т.п.н., от около 4 т.п.н. до около 4,5 т.п.н. или от около 4,5 т.п.н. до около 5 т.п.н. в длину. Альтернативно, последовательность экзогенного донора может составлять, например, не более около 5 т.п.н., не более около 4,5 т.п.н., не более около 4 т.п.н., не более около 3,5 т.п.н., не более около 3 т.п.н., не более около 2,5 т.п.н., не более около 2 т.п.н., не более около 1,5 т.п.н., не более около 1 т.п.н., не более около 900 нуклеотидов, не более около 800 нуклеотидов, не более около 700 нуклеотидов, не более около 600 нуклеотидов, не более 500 нуклеотидов, не более 400 нуклеотидов, не более 300 нуклеотидов, не более 200 нуклеотидов, не более 100 нуклеотидов и не более 50 нуклеотидов в длину.Exogenous donor sequences may include deoxyribonucleic acid (DNA) or ribonucleic acid (RNA), they may be single-stranded or double-stranded, and they may be in linear or circular form. For example, the exogenous donor sequence may be a single-stranded oligodeoxynucleotide (ssODN). A typical exogenous donor sequence is about 50 nucleotides to about 5 kb in length, about 50 nucleotides to about 3 kb in length. or a length of from about 50 to about 1000 nucleotides. Other typical exogenous donor sequences range from about 40 to about 200 nucleotides in length. For example, the exogenous donor sequence may be from about 50 to about 60, from about 60 to about 70, from about 70 to about 80, from about 80 to about 90, from about 90 to about 100, from about 100 to about 110 from about 110 to about 120, from about 120 to about 130, from about 130 to about 140, from about 140 to about 150, from about 150 to about 160, from about 160 to about 170, from about 170 to about 180, length from about 180 to about 190 or from about 190 to about 200 nucleotides. Alternatively, the exogenous donor sequence may be from about 50 to about 100, from about 100 to about 200, from about 200 to about 300, from about 300 to about 400, from about 400 to about 500, from about 500 to about 600, from about 600 to about 700, about 700 to about 800, about 800 to about 900, or about 900 to about 1000 nucleotides in length. Alternatively, the exogenous donor sequence may be from about 1 kb to about 1.5 kb, to about 1.5 kb. to about 2 kb, from about 2 kb to about 2.5 kb, from about 2.5 kb to about 3 kb, from about 3 kb to about 3.5 kb, from about 3.5 kb to about 4 kb, from about 4 kb to about 4.5 kb. or from about 4.5 kb. up to about 5 kb. in length. Alternatively, the exogenous donor sequence may be, for example, no more than about 5 kb, no more than about 4.5 kb, no more than about 4 kb, no more than about 3, 5 kb, not more than about 3 kb, not more than about 2.5 kb, not more than about 2 kb, not more than about 1.5 t .bp, no more than about 1 kb, no more than about 900 nucleotides, no more than about 800 nucleotides, no more than about 700 nucleotides, no more than about 600 nucleotides, no more than 500 nucleotides, no more than 400 nucleotides , no more than 300 nucleotides, no more than 200 nucleotides, no more than 100 nucleotides and no more than 50 nucleotides in length.

В некоторых вариантах осуществления экзогенная донорная последовательность представляет собой оцОДН, который имеет длину от около 80 нуклеотидов до около 200 нуклеотидов (например, около 120 нуклеотидов в длину). В другом примере экзогенные донорные последовательности представляют собой оцОДН длиной от около 80 нуклеотидов до около 3 т.п.н. Такой оцОДН может иметь, например, плечи гомологии, каждое из которых имеет длину от около 40 нуклеотидов до около 60 нуклеотидов. Такой оцОДН может также иметь плечи гомологии, например, длиной от около 30 нуклеотидов до 100 нуклеотидов. Группы гомологии могут быть симметричными (например, каждая около 40 нуклеотидов или каждая около 60 нуклеотидов в длину), или они могут быть асимметричными (например, одна группа гомологии, которая имеет длину около 36 нуклеотидов, и одна группа гомологии, которая имеет около 91 нуклеотидов в длину).In some embodiments, the exogenous donor sequence is a scODN that is between about 80 nucleotides and about 200 nucleotides in length (eg, about 120 nucleotides in length). In another example, the exogenous donor sequences are scODNs ranging in length from about 80 nucleotides to about 3 kb. Such a scODN may have, for example, homology arms, each of which has a length of from about 40 nucleotides to about 60 nucleotides. Such a scODN may also have homology arms of, for example, about 30 nucleotides to 100 nucleotides in length. The homology groups may be symmetrical (for example, each is about 40 nucleotides long, or each is about 60 nucleotides long), or they can be asymmetrical (for example, one homology group that is about 36 nucleotides long and one homology group that is about 91 nucleotides long) in length).

Последовательности экзогенных доноров могут включать модификации или последовательности, которые обеспечивают дополнительные желательные признаки (например, измененную или регулируемую стабильность; отслеживание или обнаружение с помощью флуоресцентной метки; сайт связывания для белка или белкового комплекса и т. д.). Последовательности экзогенных доноров могут включать одну или более флуоресцентных меток, меток для очистки, меток эпитопов или их комбинации. Например, последовательность экзогенного донора может содержать одну или более флуоресцентных меток (например, флуоресцентных белков или других флуорофоров или красителей), таких как, по меньшей мере, 1, по меньшей мере, 2, по меньшей мере, 3, по меньшей мере, 4 или, по меньшей мере, 5 флуоресцентных меток, Типичные флуоресцентные метки включают флуорофоры, такие как флуоресцеин (например, 6-карбоксифлуоресцеин (6-FAM)), техасский красный, HEX, Cy3, Cy5, Cy5.5, Pacific Blue, 5-(и-6)-карбокситетраметилродамин (TAMRA - tetramethylrhodamine) и Cy7. Широкий спектр флуоресцентных красителей коммерчески доступен для мечения олигонуклеотидов (например, от Integrated DNA Technologies). Такие флуоресцентные метки (например, внутренние флуоресцентные метки) можно использовать, например, для обнаружения последовательности экзогенного донора, которая непосредственно интегрирована в расщепленный эндогенный ген B4GALT1, имеющий выступающие концы, совместимые с концами экзогенного донора последовательность. Метка или тэг могут находиться на 5'-конце, 3'-конце или внутри последовательности экзогенного донора. Например, экзогенная донорная последовательность может быть конъюгирована на 5'-конце с флуорофором IR700 от Integrated DNA Technologies (5'IRDYE®700).Exogenous donor sequences may include modifications or sequences that provide additional desired features (eg, altered or controlled stability; tracking or detection by a fluorescent tag; binding site for a protein or protein complex, etc.). Exogenous donor sequences may include one or more fluorescent tags, purification tags, epitope tags, or combinations thereof. For example, the exogenous donor sequence may contain one or more fluorescent tags (e.g., fluorescent proteins or other fluorophores or dyes), such as at least 1, at least 2, at least 3, at least 4 or at least 5 fluorescent tags. Typical fluorescent tags include fluorophores such as fluorescein (eg, 6-carboxyfluorescein (6-FAM)), Texas Red, HEX, Cy3, Cy5, Cy5.5, Pacific Blue, 5- (u-6)-carboxytetramethylrhodamine (TAMRA - tetramethylrhodamine) and Cy7. A wide variety of fluorescent dyes are commercially available for labeling oligonucleotides (eg, from Integrated DNA Technologies). Such fluorescent tags (eg, internal fluorescent tags) can be used, for example, to detect an exogenous donor sequence that is directly integrated into a split endogenous B4GALT1 gene having overhangs compatible with those of the exogenous donor sequence. The label or tag may be at the 5' end, 3' end, or within the exogenous donor sequence. For example, an exogenous donor sequence can be conjugated at the 5' end to the IR700 fluorophore from Integrated DNA Technologies ( 5'IRDYE® 700).

Экзогенные донорные последовательности также могут содержать вставки нуклеиновых кислот, включающие сегменты ДНК, которые должны быть интегрированы в эндогенный ген B4GALT1. Интеграция вставки нуклеиновой кислоты в эндогенный ген B4GALT1 может привести к добавлению представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1, удалению представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 или замене представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 (т.е. делеция и вставка). Некоторые экзогенные донорные последовательности предназначены для вставки вставки нуклеиновой кислоты в эндогенный ген B4GALT1 без какой-либо соответствующей делеции в эндогенном гене B4GALT1. Другие последовательности экзогенных доноров предназначены для удаления представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 без какой-либо соответствующей вставки вставки нуклеиновой кислоты. Другие экзогенные донорные последовательности предназначены для удаления представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 и замены ее вставкой нуклеиновой кислоты.Exogenous donor sequences may also contain nucleic acid inserts comprising DNA segments that must be integrated into the endogenous B4GALT1 gene. Integration of a nucleic acid insertion into the endogenous B4GALT1 gene may result in the addition of a nucleic acid sequence of interest in the endogenous B4GALT1 gene, the deletion of a nucleic acid sequence of interest in the endogenous B4GALT1 gene, or the replacement of a nucleic acid sequence of interest in the endogenous B4GALT1 gene (i.e., deletion and insert). Some exogenous donor sequences are designed to insert a nucleic acid insert into the endogenous B4GALT1 gene without any corresponding deletion in the endogenous B4GALT1 gene. Other exogenous donor sequences are designed to remove a nucleic acid sequence of interest in the endogenous B4GALT1 gene without any corresponding insertion of the nucleic acid insert. Other exogenous donor sequences are designed to remove a nucleic acid sequence of interest in the endogenous B4GALT1 gene and replace it with a nucleic acid insert.

Вставка нуклеиновой кислоты и соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может иметь различную длину. Примерная вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, имеет длину от около 1 нуклеотида до около 5 т.п.н. или длину от около 1 нуклеотида до около 1000 нуклеотидов. Например, вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может составлять от около 1 до около 10, от около 10 до около 20, от около 20 до около 30, от около От 30 до около 40, от около 40 до около 50, от около 50 до около 60, от около 60 до около 70, от около 70 до около 80, от около 80 до около 90, от около 90 до около 100, от около 100 до около 110, от около 110 до около 120, от около 120 до около 130, от около 130 до около 140, от около 140 до около 150, от около 150 до около 160, от около 160 до около 170, от около 170 до длиной около 180, длиной от около 180 до около 190 или длиной от около 190 до около 200 нуклеотидов. Аналогично, вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может составлять от около 1 до около 100, от около 100 до около 200, от около 200 до около 300, от около 300 до около 400, от около 400 до около 500, от около 500 до около 600, от около 600 до около 700, от около 700 до около 800, от около 800 до около 900 или от около 900 до около 1000 нуклеотидов в длину. Аналогично, вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может составлять от около 1 до около 1,5 т.п.н., от около 1,5 до около 2 т.п.н., от около 2 до около 2 т.п.н. 2,5 т.п.н., от около 2,5 т.п.н. до около 3 т.п.н., от около 3 т.п.н. до около 3,5 т.п.н., от около 3,5 т.п.н. до около 4 т.п.н., от около 4 т.п.н. до около 4,5 т.п.н. или длины от около 4,5 т.п.н. до около 5 т.п.н.,The nucleic acid insert and the corresponding nucleic acid in the endogenous B4GALT1 gene that is deleted and/or replaced may vary in length. An exemplary nucleic acid insert or corresponding nucleic acid in the endogenous B4GALT1 gene that is deleted and/or replaced has a length of from about 1 nucleotide to about 5 kb. or a length from about 1 nucleotide to about 1000 nucleotides. For example, the nucleic acid insertion or corresponding nucleic acid in the endogenous B4GALT1 gene that is deleted and/or replaced may be from about 1 to about 10, from about 10 to about 20, from about 20 to about 30, from about 30 to about 40, from about 40 to about 50, from about 50 to about 60, from about 60 to about 70, from about 70 to about 80, from about 80 to about 90, from about 90 to about 100, from about 100 to about 110 , from about 110 to about 120, from about 120 to about 130, from about 130 to about 140, from about 140 to about 150, from about 150 to about 160, from about 160 to about 170, from about 170 to about 180 , from about 180 to about 190 in length, or from about 190 to about 200 nucleotides in length. Likewise, the nucleic acid insertion or corresponding nucleic acid in the endogenous B4GALT1 gene that is deleted and/or replaced may be from about 1 to about 100, from about 100 to about 200, from about 200 to about 300, from about 300 to about 400 , from about 400 to about 500, from about 500 to about 600, from about 600 to about 700, from about 700 to about 800, from about 800 to about 900, or from about 900 to about 1000 nucleotides in length. Likewise, the nucleic acid insert or corresponding nucleic acid in the endogenous B4GALT1 gene that is deleted and/or replaced may be from about 1 to about 1.5 kb, from about 1.5 to about 2 kb. b., from about 2 to about 2 kb. 2.5 kb, from about 2.5 kb to about 3 kb, from about 3 kb to about 3.5 kb, from about 3.5 kb to about 4 kb, from about 4 kb to about 4.5 kb. or a length of about 4.5 kb. up to about 5 kb,

Вставка нуклеиновой кислоты может содержать геномную ДНК или ДНК любого другого типа. Например, вставка нуклеиновой кислоты может содержать кДНК.The nucleic acid insert may comprise genomic DNA or any other type of DNA. For example, the nucleic acid insert may comprise cDNA.

Вставка нуклеиновой кислоты может содержать последовательность, которая гомологична всему или части эндогенного гена B4GALT1 (например, часть гена, кодирующая конкретный мотив или область полипептида B4GALT1). Например, вставка нуклеиновой кислоты может содержать последовательность, которая содержит одну или более точечных мутаций (например, 1, 2, 3, 4, 5 или более) или одну или более вставок или делеций нуклеотидов по сравнению с последовательностью, нацеленной на замену в эндогенный ген B4GALT1. The nucleic acid insert may contain a sequence that is homologous to all or part of the endogenous B4GALT1 gene (for example, a part of the gene encoding a particular motif or region of the B4GALT1 polypeptide). For example, a nucleic acid insertion may comprise a sequence that contains one or more point mutations (e.g., 1, 2, 3, 4, 5 or more) or one or more nucleotide insertions or deletions compared to the sequence targeted for replacement in an endogenous gene B4GALT1.

Вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может представлять собой кодирующую область, такую как экзон; некодирующую область, такую как интрон, нетранслируемую область или регуляторную область (например, промотор, энхансер или транскрипционный репрессор-связывающий элемент); или любую их комбинацию.The nucleic acid insert or corresponding nucleic acid in the endogenous B4GALT1 gene that is deleted and/or replaced may be a coding region such as an exon; a non-coding region such as an intron, an untranslated region or a regulatory region (eg, a promoter, enhancer or transcriptional repressor-binding element); or any combination thereof.

Вставки нуклеиновой кислоты также могут содержать полинуклеотид, кодирующий маркер селекции. Альтернативно, во вставках нуклеиновой кислоты может отсутствовать полинуклеотид, кодирующий маркер селекции. Маркер селекции может содержаться в кассете селекции. В некоторых вариантах осуществления кассета выбора может быть кассетой самоудаления. В качестве примера, самоудаляющаяся кассета может содержать ген Cre (содержит два экзона, кодирующих рекомбиназу Cre, которые разделены интроном), функционально связанный с промотором мыши Prm1 и геном устойчивости к неомицину, функционально связанным с промотором убиквитина человека. Иллюстративные маркеры селекции включают неомицин-фосфотрансферазу (neor), гигромицин B-фосфотрансферазу (hygr), пуромицин-N-ацетилтрансферазу (puror), бластицидин S-деаминазу (bsrr), ксантин/гуанин фосфорибозил трансферазу (gpt) или тимидинкиназу вируса простого герпеса (HSV-k) или их комбинацию. Полинуклеотид, кодирующий маркер селекции, может быть функционально связан с активным промотором в клетке-мишени. Примеры промоторов описаны в данном документе в другом месте.The nucleic acid inserts may also contain a polynucleotide encoding a selection marker. Alternatively, the nucleic acid inserts may lack a polynucleotide encoding a selection marker. The selection marker may be contained in the selection cassette. In some embodiments, the selection cassette may be a self-erasing cassette. As an example, the self-erasing cassette may contain a Cre gene (containing two exons encoding Cre recombinase that are separated by an intron) operably linked to the mouse Prm1 promoter and a neomycin resistance gene operably linked to the human ubiquitin promoter. Exemplary selection markers include neomycin phosphotransferase (neo r ), hygromycin B-phosphotransferase (hyg r ), puromycin N-acetyltransferase (puro r ), blasticidin S-deaminase (bsr r ), xanthine/guanine phosphoribosyl transferase (gpt) or thymidine kinase herpes simplex virus (HSV-k) or a combination thereof. A polynucleotide encoding a selection marker may be operably linked to an active promoter in a target cell. Examples of promoters are described elsewhere herein.

Вставка нуклеиновой кислоты также может содержать репортерный ген. Примеры репортерных генов включают гены, кодирующие люциферазу, β-галактозидазу, зеленый флуоресцентный белок (GFP), усиленный зеленый флуоресцентный белок (eGFP), голубой флуоресцентный белок (CFP), желтый флуоресцентный белок (YFP), усиленный желтый флуоресцентный белок (eYFP), синий флуоресцентный белок (BFP), усиленный синий флуоресцентный белок (eBFP), DsRed, ZsGreen, MmGFP, mPlum, mCherry, tdTomato, mStrawberry, J-Red, mOrange, mKO, mCitrine, Venus, YPet, Emerald, CyPet, Cerulean, T-Sapphire и щелочную фосфатазу. Такие репортерные гены могут быть функционально связаны с активным промотором в клетке-мишени. Примеры промоторов описаны в данном документе в другом месте.The nucleic acid insert may also contain a reporter gene. Examples of reporter genes include genes encoding luciferase, β-galactosidase, green fluorescent protein (GFP), enhanced green fluorescent protein (eGFP), cyan fluorescent protein (CFP), yellow fluorescent protein (YFP), enhanced yellow fluorescent protein (eYFP), blue fluorescent protein (BFP), enhanced blue fluorescent protein (eBFP), DsRed, ZsGreen, MmGFP, mPlum, mCherry, tdTomato, mStrawberry, J-Red, mOrange, mKO, mCitrine, Venus, YPet, Emerald, CyPet, Cerulean, T -Sapphire and alkaline phosphatase. Such reporter genes can be operably linked to an active promoter in the target cell. Examples of promoters are described elsewhere herein.

Вставка нуклеиновой кислоты также может содержать одну или более кассет экспрессии или делеционных кассет. Конкретная кассета может содержать одну или более представляющих интерес нуклеотидных последовательностей, полинуклеотид, кодирующий маркер селекции, и репортерный ген вместе с различными регуляторными компонентами, которые влияют на экспрессию. Примеры селектируемых маркеров и репортерных генов, которые могут быть включены, подробно обсуждаются в другом месте данного документа.The nucleic acid insert may also contain one or more expression cassettes or deletion cassettes. A particular cassette may contain one or more nucleotide sequences of interest, a polynucleotide encoding a selection marker, and a reporter gene, together with various regulatory components that influence expression. Examples of selectable markers and reporter genes that may be included are discussed in detail elsewhere in this document.

Вставка нуклеиновой кислоты может содержать нуклеиновую кислоту, фланкированную сайт-специфическими рекомбинационными последовательностями-мишенями. Альтернативно, вставка нуклеиновой кислоты может содержать одну или более сайт-специфических рекомбинационных последовательностей-мишеней. Хотя вся вставка нуклеиновой кислоты может быть фланкирована такими сайт-специфическими рекомбинационными последовательностями-мишенями, любой участок или отдельный интересующий полинуклеотид внутри вставки нуклеиновой кислоты также может быть фланкирован такими сайтами. Сайт-специфические рекомбинационные последовательности-мишени, которые могут фланкировать вставку нуклеиновой кислоты или любой представляющий интерес полинуклеотид во вставке нуклеиновой кислоты, могут включать, например, loxP, lox511, lox2272, lox66, lox71, loxM2, lox5171, FRT, FRT11, FRT71, attp, att, FRT, rox или их комбинацию. В некоторых вариантах сайты сайт-специфической рекомбинации фланкируют полинуклеотид, кодирующий маркер селекции и/или ген-репортер, содержащийся во вставке нуклеиновой кислоты. После интеграции вставки нуклеиновой кислоты в эндогенный ген B4GALT1 последовательности между сайтами сайт-специфической рекомбинации могут быть удалены. В некоторых вариантах осуществления могут быть использованы две экзогенные донорные последовательности, каждая со вставкой нуклеиновой кислоты, содержащей сайт-специфический сайт рекомбинации. Экзогенные донорные последовательности могут быть нацелены на 5' и 3' области, фланкирующие интересующую нуклеиновую кислоту. После интеграции двух вставок нуклеиновой кислоты в локус мишени генома, представляющая интерес нуклеиновая кислота между двумя вставленными сайт-специфическими сайтами рекомбинации может быть удалена.The nucleic acid insert may comprise a nucleic acid flanked by site-specific recombination target sequences. Alternatively, the nucleic acid insert may contain one or more site-specific recombination target sequences. Although the entire nucleic acid insert may be flanked by such site-specific recombination target sequences, any region or individual polynucleotide of interest within the nucleic acid insert may also be flanked by such sites. Site-specific recombination target sequences that may flank the nucleic acid insert or any polynucleotide of interest within the nucleic acid insert may include, for example, loxP, lox511, lox2272, lox66, lox71, loxM2, lox5171, FRT, FRT11, FRT71, attp , att, FRT, rox or a combination thereof. In some embodiments, site-specific recombination sites flank a polynucleotide encoding a selection marker and/or reporter gene contained in the nucleic acid insert. Once the nucleic acid insert is integrated into the endogenous B4GALT1 gene, sequences between sites of site-specific recombination can be removed. In some embodiments, two exogenous donor sequences may be used, each with a nucleic acid insert containing a site-specific recombination site. Exogenous donor sequences can be targeted to the 5' and 3' regions flanking the nucleic acid of interest. After integration of two nucleic acid insertions into a genomic target locus, the nucleic acid of interest between the two inserted site-specific recombination sites can be removed.

Вставки нуклеиновой кислоты также могут содержать один или более сайтов рестрикции для эндонуклеаз рестрикции (т.е. ферментов рестрикции), которые включают эндонуклеазы типа I, типа II, типа III и типа IV. Эндонуклеазы рестрикции типа I и типа III распознают специфические распознаваемые последовательности, но обычно расщепляют в вариабельной позиции от сайта связывания нуклеазы, который может находиться на расстоянии сотен пар оснований от сайта распознавния (распознаваемой последовательности). В системах типа II рестрикционная активность не зависит от какой-либо активности метилазы, и расщепление обычно происходит в определенных сайтах внутри или вблизи сайта связывания. Большинство ферментов типа II пересекают палиндромные последовательности, однако ферменты типа IIa распознают непалиндромные распознаваемые последовательности и расщепляются за пределами распознаваемой последовательности, ферменты типа IIb разрезают последовательности дважды с обоими сайтами вне распознаваемой последовательности, а ферменты типа II распознают асимметричную распознаваемую последовательность и расщепляют на одной стороне и на определенном расстоянии от около 1 до около 20 нуклеотидов от распознаваемой последовательности. Рестрикционные ферменты типа IV нацелены на метилированную ДНК. The nucleic acid inserts may also contain one or more restriction sites for restriction endonucleases (ie, restriction enzymes), which include type I, type II, type III and type IV endonucleases. Type I and type III restriction endonucleases recognize specific recognition sequences, but typically cleave at a variable position from the nuclease binding site, which may be hundreds of base pairs away from the recognition site (recognition sequence). In type II systems, restriction activity is independent of any methylase activity, and cleavage typically occurs at specific sites within or near the binding site. Most type II enzymes traverse palindromic sequences, however type IIa enzymes recognize non-palindromic recognition sequences and cleave outside the recognition sequence, type IIb enzymes cut sequences twice with both sites outside the recognition sequence, and type II enzymes recognize an asymmetric recognition sequence and cleave on one side and at a certain distance from about 1 to about 20 nucleotides from the recognition sequence. Type IV restriction enzymes target methylated DNA.

В некоторых вариантах осуществления экзогенные донорные последовательности имеют короткие одноцепочечные области на 5'-конце и/или 3'-конце, которые комплементарны одному или более выступам, созданным нуклеазо-опосредованным или Cas-протеин-опосредованным расщеплением в геноме-мишени. локус (например, в гене B4GALT1). Эти выступы могут также упоминаться как 5' и 3' плечи гомологии. Например, некоторые экзогенные донорные последовательности имеют короткие одноцепочечные области на 5' конце и/или 3' конце, которые комплементарны одному или более выступам, создаваемым опосредованным Cas-белком расщеплением на 5' и/или 3' цели последовательности в целевом геномном локусе. В некоторых вариантах осуществления такие экзогенные донорные последовательности имеют комплементарную область только на 5'-конце или только на 3'-конце. Например, некоторые такие экзогенные донорные последовательности имеют комплементарную область только на 5'-конце, комплементарном выступу, созданному на 5'-последовательности-мишени в целевом геномном локусе, или только на 3'-конце, комплементарном выступу, созданному на 3'-конце последовательность-мишень в целевом геномном локусе. Другие такие экзогенные донорные последовательности имеют комплементарные области как на 5', так и на 3' концах. Например, другие такие экзогенные донорные последовательности имеют комплементарные области как на 5', так и на 3' концах, например, комплементарные первому и второму выступам, соответственно, генерируемые Cas-опосредованным расщеплением в целевом геномном локусе. Например, если экзогенная донорная последовательность является двухцепочечной, одноцепочечные комплементарные области могут простираться от 5'-конца верхней цепи донорной последовательности до 5'-конца нижней цепи донорной последовательности, создавая выступы на каждом конце. Альтернативно, одноцепочечная комплементарная область может простираться от 3'-конца верхней цепи донорной последовательности и от 3'-конца нижней цепи матрицы, создавая 3'-выступы.In some embodiments, the exogenous donor sequences have short single-stranded regions at the 5' end and/or 3' end that are complementary to one or more overhangs created by nuclease-mediated or Cas-protein-mediated cleavage in the target genome. locus (for example, in the B4GALT1 gene) . These projections may also be referred to as the 5' and 3' homology arms. For example, some exogenous donor sequences have short single-stranded regions at the 5' end and/or 3' end that are complementary to one or more overhangs created by Cas protein-mediated cleavage at the 5' and/or 3' end of the target sequence at the target genomic locus. In some embodiments, such exogenous donor sequences have a complementary region only at the 5' end or only at the 3' end. For example, some such exogenous donor sequences have a complementary region only at the 5' end, complementary to the overhang created at the 5' target sequence at the target genomic locus, or only at the 3' end, complementary to the overhang created at the 3' end target sequence at the target genomic locus. Other such exogenous donor sequences have complementary regions at both the 5' and 3' ends. For example, other such exogenous donor sequences have complementary regions at both the 5' and 3' ends, eg, complementary to the first and second overhangs, respectively, generated by Cas-mediated cleavage at the target genomic locus. For example, if the exogenous donor sequence is double-stranded, single-stranded complementary regions may extend from the 5' end of the top strand of the donor sequence to the 5' end of the bottom strand of the donor sequence, creating overhangs at each end. Alternatively, the single-stranded complementary region may extend from the 3' end of the top strand of the donor sequence and from the 3' end of the bottom strand of the template, creating 3' overhangs.

Комплементарные области могут иметь любую длину, достаточную для стимулирования лигирования между экзогенной донорнрной последовательностью и эндогенным геном B4GALT1. Типичные комплементарные области имеют длину от около 1 до около 5 нуклеотидов, длину от около 1 до около 25 нуклеотидов или длину от около 5 до около 150 нуклеотидов. Например, дополнительная область может составлять, по меньшей мере, около 1, по меньшей мере, около 2, по меньшей мере, около 3, по меньшей мере, около 4, по меньшей мере, около 5, по меньшей мере, около 6, по меньшей мере, около 7, по меньшей мере, около 8, по меньшей мере, около 9, по меньшей мере, около 10, по меньшей мере, около 11, по меньшей мере, около 12, по меньшей мере, около 13, по меньшей мере, около 14, по меньшей мере, около 15, по меньшей мере, около 16, по меньшей мере, около 17, по меньшей мере, около 18, по меньшей мере, около 19, по меньшей мере, около 20, по меньшей мере, около 21, по меньшей мере, около 22, по меньшей мере, около 23, по меньшей мере, около 24 или, по меньшей мере, около 25 нуклеотидов в длину. Альтернативно, комплементарная область может составлять от около 5 до около 10, от около 10 до около 20, от около 20 до около 30, от около 30 до около 40, от около 40 до около 50, от около 50 до около 60, от около 60 до около 70, около От 70 до 80, от 80 до 90, от 90 до 100, от 100 до 110, от 110 до 120, от 120 до 130, от 130 до 140, от 140 до 150 нуклеотидов в длину, или больше.The complementary regions can be of any length sufficient to promote ligation between the exogenous donor sequence and the endogenous B4GALT1 gene. Typical complementary regions are about 1 to about 5 nucleotides long, about 1 to about 25 nucleotides long, or about 5 to about 150 nucleotides long. For example, the additional area may be at least about 1, at least about 2, at least about 3, at least about 4, at least about 5, at least about 6, at least about 7, at least about 8, at least about 9, at least about 10, at least about 11, at least about 12, at least about 13, at least at least about 14, at least about 15, at least about 16, at least about 17, at least about 18, at least about 19, at least about 20, at least , about 21, at least about 22, at least about 23, at least about 24, or at least about 25 nucleotides in length. Alternatively, the complementary region may be from about 5 to about 10, from about 10 to about 20, from about 20 to about 30, from about 30 to about 40, from about 40 to about 50, from about 50 to about 60, from about 60 to about 70, about 70 to 80, 80 to 90, 90 to 100, 100 to 110, 110 to 120, 120 to 130, 130 to 140, 140 to 150 nucleotides in length, or more.

Такие комплементарные области могут дополнять выступы, создаваемые двумя парами никаз. Два двухцепочечных разрыва с разнесенными концами могут быть созданы с помощью первой и второй никаз, которые расщепляют противоположные нити ДНК, чтобы создать первый двухцепочечный разрыв, и третьей и четвертой никаз, которые расщепляют противоположные нити ДНК, чтобы создать второй двухцепочечный разрыв. Например, белок Cas может быть использован для обозначения первой, второй, третьей и четвертой последовательностей, распознаваемых направляющими РНК, соответствующих первой, второй, третьей и четвертой направляющим РНК. Первую и вторую последовательности, распознаваемые направляющими РНК, можно расположить так, чтобы создать первый сайт расщепления таким образом, чтобы ники, созданные первой и второй никазами на первой и второй цепях ДНК, создавали двухцепочечный разрыв (то есть первый сайт расщепления содержит разрезы в первой и второй последовательностях, распознаваемых направляющими РНК). Аналогично, третья и четвертая последовательности, распознаваемые направляющими РНК, могут быть расположены таким образом для создания второго сайта расщепления, чтобы ники, созданные третьей и четвертой никазами на первой и второй цепях ДНК, создавали двухцепочечный разрыв (т.е. второй сайт расщепления содержит ники в третьей и четвертой последовательностях, распознаваемых направляющими РНК). В некоторых вариантах осуществления ники в первой и второй последовательностях, распознаваемых направляющими РНК, и/или в третьей и четвертой последовательностях, распознаваемых направляющими РНК, могут быть смещенными никами, которые создают выступы. Окно смещения может составлять, например, по меньшей мере, около 5 п.н., по меньшей мере, около 10 п.н., по меньшей мере, около 20 п.н., по меньшей мере, около 30 п.н., по меньшей мере, около 40 п.н., по меньшей мере, около 50 п.н., по меньшей мере, около 60 п.н., по меньшей мере, около 70 п.н., по меньшей мере, около 80 п.н., по меньшей мере, около 90 п.н. или, по меньшей мере, около 100 п.н. или более. В таких вариантах осуществления может быть сконструирована двухцепочечная экзогенная донорная последовательность с одноцепочечными комплементарными областями, которые комплементарны выступам, создаваемым никами в первой и второй последовательностях, распознаваемых направляющими РНК, и никами в третьей и четвертой последовательностях, распознаваемых направляющими РНК. Такая экзогенная донорная последовательность может быть затем вставлена путем лигирования, опосредованного присоединением негомологичных концов.Such complementary regions may complement the projections created by two pairs of nickases. Two double-strand breaks with spaced ends can be created by the first and second nickases, which cleave the opposite strands of DNA to create the first double-strand break, and the third and fourth nickases, which cleave the opposite strands of DNA to create the second double-strand break. For example, a Cas protein may be used to designate the first, second, third, and fourth guide RNA recognition sequences corresponding to the first, second, third, and fourth guide RNAs. The first and second sequences recognized by the guide RNAs can be positioned to create a first cleavage site such that the nicks created by the first and second nickases on the first and second strands of DNA create a double-strand break (that is, the first cleavage site contains cuts in the first and second strands of DNA). the second sequences recognized by guide RNAs). Likewise, the third and fourth sequences recognized by the guide RNAs can be positioned to create a second cleavage site such that the nicks created by the third and fourth nickases on the first and second DNA strands create a double-strand break (i.e., the second cleavage site contains the nicks in the third and fourth sequences recognized by guide RNAs). In some embodiments, the nicks in the first and second guide RNA recognized sequences and/or the third and fourth guide RNA recognized sequences may be offset nicks that create overhangs. The offset window may be, for example, at least about 5 bp, at least about 10 bp, at least about 20 bp, at least about 30 bp. at least about 40 bp, at least about 50 bp, at least about 60 bp, at least about 70 bp, at least about 80 bp, at least about 90 bp or at least about 100 bp. or more. In such embodiments, a double-stranded exogenous donor sequence can be designed with single-stranded complementary regions that are complementary to the overhangs created by the nicks in the first and second guide RNA recognized sequences and the nicks in the third and fourth guide RNA recognized sequences. Such an exogenous donor sequence can then be inserted by ligation mediated by joining of non-homologous ends.

В некоторых вариантах осуществления экзогенные донорные последовательности (т.е. направляющие векторы) содержат плечи гомологии. Если экзогенная донорная последовательность также содержит вставку нуклеиновой кислоты, плечи гомологии могут фланкировать вставку нуклеиновой кислоты. Для простоты ссылки плечи гомологии упоминаются в данном документе как 5' и 3' (то есть, выше и ниже по последовательности) плечи гомологии. Эта терминология относится к относительному положению плечей гомологии относительно вставки нуклеиновой кислоты в последовательности экзогенного донора.In some embodiments, exogenous donor sequences (ie, targeting vectors) contain homology arms. If the exogenous donor sequence also contains a nucleic acid insert, homology arms may flank the nucleic acid insert. For ease of reference, homology arms are referred to herein as the 5' and 3' (ie, upstream and downstream) homology arms. This terminology refers to the relative position of the homology arms relative to the nucleic acid insertion in the exogenous donor sequence.

Плече гомологии и последовательность-мишень соответствуют друг другу, когда две области имеют достаточный уровень идентичности последовательности друг с другом, чтобы действовать в качестве субстрата для реакции гомологичной рекомбинации. Идентичность последовательности между конкретной последовательностью-мишенью и соответствующим плечом гомологии, обнаруженным в экзогенной донорной последовательности, может быть любой степени идентичности последовательности, которая позволяет происходить гомологичной рекомбинации. Например, степень идентичности последовательности, общая для группы гомологии экзогенной донорной последовательности (или ее фрагмента) и целевой последовательности (или ее фрагмента), может составлять, по меньшей мере, 50%, по меньшей мере, 55%, по меньшей мере, 60%, по меньшей мере, 65%, по меньшей мере, 70%, по меньшей мере, 75%, по меньшей мере, 80%, по меньшей мере, 81%, по меньшей мере, 82%, по меньшей мере, 83%, по меньшей мере, 84%, по меньшей мере, 85%, по меньшей мере, 86%, по меньшей мере, 87%, по меньшей мере, 88%, по меньшей мере, 89%, по меньшей мере, 90%, по меньшей мере, 91%, по меньшей мере, 92%, по меньшей мере, 93%, по меньшей мере, 94%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности последовательности, так что последовательности подвергаются гомологичной рекомбинации. Более того, соответствующая область гомологии между плечом гомологии и соответствующей последовательностью-мишенью может иметь любую длину, достаточную для обеспечения гомологичной рекомбинации. Иллюстративные плечи гомологии имеют длину от около 25 нуклеотидов до около 2,5 т.п.н., длину от около 25 нуклеотидов до около 1,5 т.п.н. или длину от около 25 до около 500 нуклеотидов. Например, данный участок гомологии (или каждое из плеч гомологии) и/или соответствующая последовательность-мишень могут содержать соответствующие области гомологии, которые составляют от около 25 до около 30, от около 30 до около 40, от около 40 до около 50, от около 50 до около 60, от около 60 до около 70, от около 70 до около 80, от около 80 до около 90, от около 90 до около 100, от около 100 до около 150, от около 150 до около 200, от от около 200 до около 250, от около 250 до около 300, от около 300 до около 350, от около 350 до около 400, от около 400 до около 450 или от около 450 до около 500 нуклеотидов в длину, так что гомология достаточна для гомологичной рекомбинации с соответствующими последовательностями-мишенями в эндогенном гене B4GALT1. Альтернативно, конкретное плечо гомологии (или каждое плечо гомологии) и/или соответствующая последовательность-мишень могут содержать соответствующие области гомологии, которые составляют от около 0,5 т.п.н. до около 1 т.п.н., от около 1 т.п.н. до около 1,5 т.п.н., от около 1,5 т.п.н. до около 2 т.п.н. или длиной от 2 до 2,5 т.п.н.. Например, каждое из плечей гомологии может иметь длину около 750 нуклеотидов. Плечи гомологии могут быть симметричными (каждое приблизительно одинакового размера в длину), или они могут быть асимметричными (одно длиннее другого).A homology arm and a target sequence match when the two regions have a sufficient level of sequence identity to each other to act as a substrate for a homologous recombination reaction. The sequence identity between a particular target sequence and the corresponding homology arm found in the exogenous donor sequence can be any degree of sequence identity that allows homologous recombination to occur. For example, the degree of sequence identity shared between the homology group of the exogenous donor sequence (or fragment thereof) and the target sequence (or fragment thereof) may be at least 50%, at least 55%, at least 60% , at least 65%, at least 70%, at least 75%, at least 80%, at least 81%, at least 82%, at least 83%, at least 84%, at least 85%, at least 86%, at least 87%, at least 88%, at least 89%, at least 90%, according at least 91%, at least 92%, at least 93%, at least 94%, at least 95%, at least 96%, at least 97%, at least at least 98%, at least 99% or 100% sequence identity, such that the sequences undergo homologous recombination. Moreover, the corresponding region of homology between the homology arm and the corresponding target sequence can be of any length sufficient to permit homologous recombination. Exemplary homology arms have a length of from about 25 nucleotides to about 2.5 kb, a length of from about 25 nucleotides to about 1.5 kb. or a length of from about 25 to about 500 nucleotides. For example, a given region of homology (or each of the homology arms) and/or a corresponding target sequence may contain corresponding regions of homology that are from about 25 to about 30, from about 30 to about 40, from about 40 to about 50, from about 50 to about 60, from about 60 to about 70, from about 70 to about 80, from about 80 to about 90, from about 90 to about 100, from about 100 to about 150, from about 150 to about 200, from about 200 to about 250, about 250 to about 300, about 300 to about 350, about 350 to about 400, about 400 to about 450, or about 450 to about 500 nucleotides in length such that the homology is sufficient for homologous recombination with corresponding target sequences in the endogenous B4GALT1 gene. Alternatively, a particular homology arm (or each homology arm) and/or a corresponding target sequence may contain corresponding regions of homology that range from about 0.5 kb. to about 1 kb, from about 1 kb to about 1.5 kb, from about 1.5 kb up to about 2 kb. or 2 to 2.5 kb in length. For example, each of the homology arms may be about 750 nucleotides in length. The arms of homology can be symmetrical (each approximately the same size in length), or they can be asymmetrical (one is longer than the other).

Плечи гомологии могут соответствовать локусу, который является нативным для клетки (например, целевой локус). Альтернативно, они могут соответствовать области гетерологичного или экзогенного сегмента ДНК, которая была интегрирована в геном клетки, включая, например, трансгены, экспрессионные кассеты или гетерологичные или экзогенные области ДНК. В некоторых вариантах осуществления плечи гомологии направленного вектора могут соответствовать области дрожжевой искусственной хромосомы (YAC), бактериальной искусственной хромосомы (BAC), искусственной хромосомы человека или любой другой сконструированной области, содержащейся в подходящей клетке-хозяине. В некоторых вариантах осуществления плечи гомологии целевого вектора могут соответствовать или быть получены из области библиотеки BAC, космидной библиотеки или библиотеки фага P1 или могут быть получены из синтетической ДНК.Homology arms may correspond to a locus that is native to the cell (eg, a target locus). Alternatively, they may correspond to a region of a heterologous or exogenous DNA segment that has been integrated into the cell's genome, including, for example, transgenes, expression cassettes, or heterologous or exogenous DNA regions. In some embodiments, the homology arms of the targeting vector may correspond to a region of a yeast artificial chromosome (YAC), a bacterial artificial chromosome (BAC), a human artificial chromosome, or any other engineered region contained in a suitable host cell. In some embodiments, the homology arms of the target vector may correspond to or be derived from a region of a BAC library, cosmid library, or phage P1 library, or may be derived from synthetic DNA.

Когда нуклеазный агент используется в комбинации с экзогенной донорной последовательностью, 5'- и 3'-последовательности-мишени обычно располагаются в достаточной близости от сайта расщепления нуклеазой, чтобы способствовать возникновению события гомологичной рекомбинации между последовательностями-мишенями и гомологическое плечо при одноцепочечном разрыве (nick) или двухцепочечном разрыве в месте расщепления нуклеазой. Сайты расщепления нуклеазой включают в себя последовательность ДНК, в которой нуклеиновым агентом создается разрыв или двухцепочечный разрыв (например, белок Cas9, образующий комплекс с направляющей РНК). Последовательности-мишени внутри эндогенного гена B4GALT1, которые соответствуют 5' и 3' группам гомологии экзогенной донорной последовательности, «расположены в достаточной близости» от сайта расщепления нуклеазой, если расстояние такое, чтобы способствовать возникновению события гомологичной рекомбинации между 5' и 3' последовательностями-мишенями и плечами гомологии при одноцепочечном разрыве или двухцепочечном разрыве в сайте расщепления нуклеазой. Таким образом, последовательности-мишени, соответствующие 5' и/или 3' группам гомологии экзогенной донорной последовательности, могут быть, например, в пределах, по меньшей мере, 1 нуклеотида от данного сайта расщепления нуклеазой или в пределах, по меньшей мере, от 10 нуклеотидов до около 1000 нуклеотидов от конкретного сайта расщепления нуклеазой. В некоторых вариантах осуществления сайт расщепления нуклеазой может быть непосредственно смежен, по меньшей мере, с одной или обеими последовательностями-мишенями.When a nuclease agent is used in combination with an exogenous donor sequence, the 5' and 3' target sequences are usually located in sufficient proximity to the nuclease cleavage site to promote a homologous recombination event between the target sequences and a homologous nick arm. or a double-strand break at the site of nuclease cleavage. Nuclease cleavage sites include a DNA sequence in which a break or double-strand break is created by a nucleic agent (eg, the Cas9 protein complexed with a guide RNA). Target sequences within the endogenous B4GALT1 gene that correspond to the 5' and 3' homology groups of the exogenous donor sequence are "located in sufficient proximity" to the nuclease cleavage site if the distance is such as to facilitate the occurrence of a homologous recombination event between the 5' and 3' sequences - targets and homology arms for single-strand breaks or double-strand breaks at the nuclease cleavage site. Thus, target sequences corresponding to the 5' and/or 3' homology groups of the exogenous donor sequence may be, for example, within at least 1 nucleotide of a given nuclease cleavage site or within at least 10 nucleotides to about 1000 nucleotides from a particular nuclease cleavage site. In some embodiments, the nuclease cleavage site may be directly adjacent to at least one or both target sequences.

Пространственные отношения последовательностей-мишеней, которые соответствуют группам гомологии последовательности экзогенного донора и сайта расщепления нуклеазой, могут варьироваться. В некоторых вариантах осуществления последовательности-мишени могут быть расположены 5' от сайта расщепления нуклеазой, последовательности-мишени могут быть расположены 3' от сайта расщепления нуклеазой, или последовательности-мишени могут фланкировать сайт расщепления нуклеазой.The spatial relationships of the target sequences that correspond to the exogenous donor sequence homology groups and the nuclease cleavage site may vary. In some embodiments, the target sequences may be located 5' from the nuclease cleavage site, the target sequences may be located 3' from the nuclease cleavage site, or the target sequences may flank the nuclease cleavage site.

Данное раскрытие также предоставляет терапевтические способы и способы лечения или профилактики сердечно-сосудистых заболеваний у субъекта, страдающего или подверженного риску заболевания, с использованием способов, раскрытых в данном документе, для модификации или изменения экспрессии эндогенного гена B4GALT1. Данное раскрытие также предоставляет терапевтические способы и способы лечения или профилактики сердечно-сосудистых заболеваний у субъекта, страдающего или подверженного риску заболевания, с использованием способов уменьшения экспрессии эндогенной мРНК B4GALT1 или с использованием способов обеспечения рекомбинантных нуклеиновых кислот, кодирующих B4GALT1 полипептиды, обеспечивающие мРНК, кодирующие полипептиды B4GALT1, или предоставляющие полипептиды B4GALT1 субъекту. Способы могут включать введение одной или более молекул нуклеиновой кислоты или белков субъекту, в орган субъекта или в клетку субъекта (например, in vivo или ex vivo).This disclosure also provides therapeutic methods and methods for treating or preventing cardiovascular disease in a subject suffering from or at risk of the disease using the methods disclosed herein to modify or alter the expression of the endogenous B4GALT1 gene. This disclosure also provides therapeutic methods and methods for treating or preventing cardiovascular disease in a subject suffering from or at risk of the disease, using methods of reducing the expression of endogenous B4GALT1 mRNA or using methods of providing recombinant nucleic acids encoding B4GALT1 polypeptides, providing mRNAs encoding the polypeptides B4GALT1 , or providing B4GALT1 polypeptides to the subject. The methods may include administering one or more nucleic acid molecules or proteins to a subject, into an organ of a subject, or into a cell of a subject (eg, in vivo or ex vivo ).

В некоторых вариантах осуществления раскрытие относится к мРНК, кодирующим полипептиды B4GALT1 (например, полинуклеотиды, как обсуждается в данном документе, например, мРНК, которая содержит последовательность SEQ ID NO:4) для применения в терапии. В некоторых таких вариантах осуществления терапия представляет собой лечение или предотвращение сердечно-сосудистого заболевания.In some embodiments, the disclosure relates to mRNAs encoding B4GALT1 polypeptides (e.g., polynucleotides as discussed herein, e.g., mRNA that contains the sequence of SEQ ID NO:4) for use in therapy. In some such embodiments, the therapy is the treatment or prevention of cardiovascular disease.

В некоторых вариантах осуществления раскрытие предоставляет полипептиды B4GALT1 (например, полипептиды, как описано в данном документе, например полипептиды, которые содержат последовательность SEQ ID NO:8) для применения в терапии. В некоторых таких вариантах осуществления терапия представляет собой лечение или предотвращение сердечно-сосудистого заболевания.In some embodiments, the disclosure provides B4GALT1 polypeptides (eg, polypeptides as described herein, eg, polypeptides that contain the sequence of SEQ ID NO:8) for use in therapy. In some such embodiments, the therapy is the treatment or prevention of cardiovascular disease.

Субъекты включают людей и других млекопитающих (например, кошек, собак, грызунов, мышей или крыс) или не млекопитающих (например, птицы), которые получают профилактическое или терапевтическое лечение. Такими субъектами могут быть, например, субъект (например, человек), который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистой системы. условие.Subjects include humans and other mammals (eg, cats, dogs, rodents, mice or rats) or non-mammals (eg, birds) that receive prophylactic or therapeutic treatment. Such subjects may be, for example, a subject (eg, a human) who is not a carrier of the B4GALT1 variant (or is only a heterozygous carrier of the B4GALT1 variant) and has or is susceptible to developing cardiovascular disease. condition.

Неограничивающие примеры сердечно-сосудистых заболеваний включают повышенный уровень одного или более сывороточных липидов. Липиды сыворотки включают один или более из холестерина, ЛПНП, ЛПВП, триглицеридов, холестерина ЛПВП и холестерина не-ЛПВП или любого их субфракции (например, ЛПВП2, ЛПВП2a, ЛПВП2b, ЛПВП2c, ЛПВП3, ЛПВП3a, ЛПВП3b, ЛПВП3c, ЛПВП3d, ЛПНП1, ЛПНП2, ЛПНП3, липопротеин A, Lpa1, Lpa1, Lpa3, Lpa4 или Lpa5). Сердечно-сосудистое заболевание может включать повышенные уровни кальцификации коронарной артерии. Сердечно-сосудистое заболевание может включать гликозилирование типа IId (CDG-Iid - Type IId glycosylation). Сердечно-сосудистое заболевание может содержать повышенный уровень перикардиального жира. Сердечно-сосудистое заболевание может включать атеротромботическое заболевание. Атеротромботическое заболевание может включать повышенные уровни фибриногена. Атеротромботическое заболевание может включать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать повышенные уровни фибриногена. Сердечно-сосудистое заболевание может содержать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать сгусток крови, образованный в результате активности фибриногена. Фибриноген-опосредованный сгусток крови или сгусток крови, образованный при участии активности фибриногена, может находиться в любой вене или артерии в организме.Non-limiting examples of cardiovascular disease include elevated levels of one or more serum lipids. Serum lipids include one or more of cholesterol, LDL, HDL, triglycerides, HDL cholesterol and non-HDL cholesterol or any subfraction thereof (e.g. HDL2, HDL2a, HDL2b, HDL2c, HDL3, HDL3a, HDL3b, HDL3c, HDL3d, LDL1, L PNP2 , LDL3, lipoprotein A, Lpa1, Lpa1, Lpa3, Lpa4 or Lpa5). Cardiovascular disease may include increased levels of coronary artery calcification. Cardiovascular disease may involve type IId glycosylation (CDG-Iid - Type IId glycosylation). Cardiovascular disease may contain increased levels of pericardial fat. Cardiovascular disease may include atherothrombotic disease. Atherothrombotic disease may involve elevated levels of fibrinogen. Atherothrombotic disease may involve fibrinogen-mediated blood clot. Cardiovascular disease may involve elevated levels of fibrinogen. Cardiovascular disease may contain a fibrinogen-mediated blood clot. Cardiovascular disease may involve a blood clot formed as a result of fibrinogen activity. A fibrinogen-mediated blood clot, or a blood clot formed by the activity of fibrinogen, can be located in any vein or artery in the body.

Такие методы могут включать редактирование генома или генную терапию. Например, эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть модифицирован для включения варианта, связанного с вариантом B4GALT1 (то есть замена аспарагина на серин в положении, соответствующем положению 352 из полноразмерного/зрелого полипептида B4GALT1). В качестве другого примера, эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть нокаутирован или инактивирован. Аналогично, эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть нокаутирован или инактивирован, и ген B4GALT1, содержащий модификацию, связанную с вариантом B4GALT1 (например, полный миниген варианта B4GALT1, включающий модификацию), может быть введен и экспрессирован. Точно так же эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть нокаутирован или инактивирован, и может быть введена и экспрессирована рекомбинантная ДНК, кодирующая вариантный полипептид B4GALT1, и может быть введена и экспрессирована вариантная мРНК, кодирующая полипептид B4GALT1 (например, внутриклеточная белково-заместительная терапия), и/или может быть введен вариант полипептида B4GALT1 (например, белково-заместительная терапия). Such methods may include genome editing or gene therapy. For example, the endogenous B4GALT1 gene, which is not a B4GALT1 variant, can be modified to include a variant associated with the B4GALT1 variant (ie, replacing asparagine with serine at a position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide). As another example, the endogenous B4GALT1 gene, which is not a B4GALT1 variant, can be knocked out or inactivated. Likewise, an endogenous B4GALT1 gene that is not a B4GALT1 variant can be knocked out or inactivated, and a B4GALT1 gene containing a modification associated with the B4GALT1 variant (eg, a complete B4GALT1 variant minigene including the modification) can be introduced and expressed. Similarly, an endogenous B4GALT1 gene that is not a B4GALT1 variant can be knocked out or inactivated, and recombinant DNA encoding a variant B4GALT1 polypeptide can be introduced and expressed, and a variant mRNA encoding a B4GALT1 polypeptide can be introduced and expressed (e.g., intracellular protein -replacement therapy), and/or a variant of the B4GALT1 polypeptide may be administered (eg, protein replacement therapy).

В некоторых вариантах осуществления способы включают введение и экспрессию рекомбинантного гена B4GALT1, содержащего модификацию, связанную с вариантом B4GALT1 rs551564683 (например, полный вариант B4GALT1 или миниген, содержащий модификацию кислоты), введение и экспрессирование рекомбинантных нуклеиновых кислот (например, ДНК), кодирующий вариант полипептида B4GALT1 или его фрагменты, вводящий и экспрессирующий одну или более мРНК, кодирующих полипептид варианта B4GALT1 или его фрагменты (например, внутриклеточная заместительная терапия белка), или вводящий вариант полипептида B4GALT1 или их фрагменты (например, белково-заместительная терапия) без выбивания или инактивации эндогенного гена B4GALT1, который не является вариантом B4GALT1. В некоторых вариантах осуществления такие способы также могут быть выполнены в сочетании со способами, в которых эндогенная мРНК B4GALT1, которая не является вариантом B4GALT1, нацелена на сниженную экспрессию, например, путем использования антисмысловой РНК, миРНК или кшРНК. In some embodiments, the methods include introducing and expressing a recombinant B4GALT1 gene containing a modification associated with the B4GALT1 rs551564683 variant (e.g., a full B4GALT1 variant or a minigene containing an acid modification), introducing and expressing recombinant nucleic acids (e.g., DNA) encoding the polypeptide variant B4GALT1 or fragments thereof, introducing and expressing one or more mRNAs encoding a B4GALT1 variant polypeptide or fragments thereof (e.g., intracellular protein replacement therapy), or introducing a B4GALT1 variant polypeptide or fragments thereof (e.g., protein replacement therapy), without knocking out or inactivating the endogenous the B4GALT1 gene, which is not a variant of B4GALT1 . In some embodiments, such methods may also be performed in combination with methods in which endogenous B4GALT1 mRNA that is not a B4GALT1 variant is targeted for reduced expression, for example, by using antisense RNA, siRNA, or shRNA.

Ген или миниген B4GALT1 или ДНК, кодирующая вариант полипептида B4GALT1 или его фрагментов, может быть введен и экспрессирован в форме вектора экспрессии, который не модифицирует геном, он может быть введен в форме целевого вектора таким образом, что он геномно интегрируется в эндогенный локус B4GALT1, или он может быть введен так, что он геномно интегрируется в локус, отличный от эндогенного локуса B4GALT1, такой как локус безопасной гавани (safe harbor locus). Геномно интегрированный ген B4GALT1 может быть функционально связан с промотором B4GALT1 или с другим промотором, таким как эндогенный промотор в сайте интеграции. Локусы безопасной гавани - это хромосомные сайты, где трансгены могут стабильно и надежно экспрессироваться во всех представляющих интерес тканях без неблагоприятного воздействия на структуру или экспрессию генов. Локусы безопасной гавани могут иметь, например, одну или более или все следующие характеристики: 1) расстояние более чем около 50 т.п.н. от 5'-конца любого гена; расстояние более чем около 300 т.п.н. от любого связанного с раком гена; расстояние более 300 т.п.н. от любой микроРНК; вне генной транскрипционной единицы и вне ультраконсервативных областей. Примеры подходящих локусов безопасной гавани включают, но не ограничиваются ими, сайт 1 аденоассоциированного вируса (AAVS1), локус гена рецептора 5 хемокинов (CC мотив) (CCR5) и человеческий ортолог локуса ROSA26 мыши.The B4GALT1 gene or minigene, or DNA encoding a variant of the B4GALT1 polypeptide or fragments thereof, can be introduced and expressed in the form of an expression vector that does not modify the genome, it can be introduced in the form of a targeting vector such that it is genomically integrated into the endogenous B4GALT1 locus, or it may be introduced such that it is genomically integrated into a locus other than the endogenous B4GALT1 locus, such as a safe harbor locus. The genomically integrated B4GALT1 gene may be operably linked to the B4GALT1 promoter or to another promoter, such as an endogenous promoter at the integration site. Safe harbor loci are chromosomal sites where transgenes can be stably and reliably expressed in all tissues of interest without adversely affecting gene structure or expression. Safe harbor loci may have, for example, one or more or all of the following characteristics: 1) a distance of more than about 50 kb. from the 5' end of any gene; a distance of more than about 300 kb. from any cancer-related gene; distance more than 300 kb. from any microRNA; outside the gene transcription unit and outside ultraconserved regions. Examples of suitable safe harbor loci include, but are not limited to, adeno-associated virus site 1 (AAVS1), chemokine receptor 5 (CC motif) gene locus (CCR5), and the human ortholog of the mouse ROSA26 locus.

В некоторых вариантах осуществления способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта: а) нуклеазного агента (или кодирующего нуклеиновую кислоту), который связывается с последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая нуклеазой, включает или находится вблизи положений С 53575 по 53577 из SEQ ID NO:1; и b) экзогенной донорной последовательности, содержащей 5' гомологичный конец, который гибридизуется с 5' последовательностью-мишенью в положениях с 53575 по 53577 из SEQ ID NO:1, и вставку нуклеиновой кислоты, содержащей последовательность нуклеиновой кислоты, кодирующую серин, фланкированный 5' плечем гомологии и 3' плечем гомологии. Нуклеазный агент может расщеплять эндогенный ген B4GALT1 в клетке у субъекта, а последовательность экзогенного донора может рекомбинировать с эндогенным геном B4GALT1 в клетке, при этом при рекомбинации экзогенной донорной последовательности с эндогенным B4GALT1 геном, последовательность нуклеиновой кислоты, кодирующая серин, вставлена в нуклеотиды, соответствующие положениям с 53575 по 53577 последовательности SEQ ID NO:1. Примеры нуклеазных агентов (например, белка Cas9 и направляющей РНК), которые можно использовать в таких способах, раскрыты в другом месте данного документа. In some embodiments, the methods include a method of treating a subject who is not a carrier of the B4GALT1 variant (or is only a heterozygous carrier of the B4GALT1 variant) and has or is susceptible to developing cardiovascular disease, comprising administering to the subject or introducing into a cell of the subject: a) a nuclease agent (or encoding a nucleic acid) that binds to a nuclease recognition sequence in the endogenous B4GALT1 gene, wherein the nuclease recognition sequence includes or is located in the vicinity of positions 53575 to 53577 of SEQ ID NO:1; and b) an exogenous donor sequence containing a 5' homologous end that hybridizes to the 5' target sequence at positions 53575 to 53577 of SEQ ID NO:1, and a nucleic acid insert containing a nucleic acid sequence encoding a serine flanked 5' homology arm and 3' homology arm. The nuclease agent can cleave the endogenous B4GALT1 gene in a cell in a subject, and the exogenous donor sequence can recombine with the endogenous B4GALT1 gene in the cell, wherein when the exogenous donor sequence recombines with the endogenous B4GALT1 gene, a nucleic acid sequence encoding a serine is inserted at the nucleotides corresponding to the positions 53575 to 53577 of SEQ ID NO:1. Examples of nuclease agents (eg, Cas9 protein and guide RNA) that can be used in such methods are disclosed elsewhere herein.

В некоторых вариантах осуществления способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта экзогенной донорной последовательности, содержащей 5' плече гомологии, которая гибридизуется с целевой последовательностью 5' в положении, соответствующем положениям с 53575 по 53577 из SEQ ID NO:1, 3'-гомологии плечо, которое гибридизуется с целевой последовательностью 3' в положениях с 53575 по 53577 из SEQ ID NO:1, и вставка нуклеиновой кислоты, содержащая нуклеотидную последовательность, кодирующую серин, фланкированную 5' плечем гомологии и 3' плечем гомологии. Экзогенная донорная последовательность может рекомбинировать с эндогенным геном B4GALT1 в клетке, причем при рекомбинации экзогенной донорной последовательности с эндогенным геном B4GALT1 нуклеотидная последовательность, кодирующая серин, вставляется в нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:1. In some embodiments, the methods include a method of treating a subject who is not a carrier of the B4GALT1 variant (or is only a heterozygous carrier of the B4GALT1 variant) and has or is susceptible to developing cardiovascular disease, comprising administering to the subject, or introducing into a cell of the subject, an exogenous donor sequence containing a 5' a homology arm that hybridizes to the 5' target sequence at a position corresponding to positions 53575 to 53577 of SEQ ID NO: 1, a 3' homology arm that hybridizes to a 3' target sequence at positions 53575 to 53577 of SEQ ID NO: 1, and a nucleic acid insert containing a nucleotide sequence encoding a serine flanked by a 5' homology arm and a 3' homology arm. The exogenous donor sequence may recombine with the endogenous B4GALT1 gene in a cell, wherein when the exogenous donor sequence recombines with the endogenous B4GALT1 gene, a nucleotide sequence encoding a serine is inserted at nucleotides corresponding to positions 53575 to 53577 of SEQ ID NO:1.

Некоторые такие способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта: а) нуклеазного агента (или кодирующую его, нуклеиновую кислоту), который связывается с последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая нуклеазой, содержит стартовый кодон для эндогенного гена B4GALT1 или находится в пределах около 10, около 20, около 30, около 40, около 50, около 100, около 200, около 300, около 400, около 500 или около 1000 нуклеотидов от стартового кодона или выбрана из SEQ ID NO: 9-12. Нуклеазный агент может расщеплять и нарушать экспрессию эндогенного гена B4GALT1 в клетке субъекта. Some such methods include a method of treating a subject who is not a carrier of the variantB4GALT1(or is only a heterozygous carrier of the variantB4GALT1) and has or is susceptible to developing a cardiovascular disease, comprising administering to the subject or introducing into the cell of the subject: a) a nuclease agent (or a nucleic acid encoding it) that binds to a nuclease recognition sequence in an endogenous geneB4GALT1, in this case, the sequence recognized by the nuclease contains the start codon for the endogenous geneB4GALT1 or is within about 10, about 20, about 30, about 40, about 50, about 100, about 200, about 300, about 400, about 500, or about 1000 nucleotides from the start codon or selected from SEQ ID NO: 9-12 . Nuclease agent can cleave and disrupt endogenous gene expressionB4GALT1in the subject's cell.

В некоторых вариантах осуществления способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта: а) нуклеазного агента (или кодирующую его нуклеиновую кислоту), который связывается с последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая нуклеазой, содержит стартовый кодон для эндогенного гена B4GALT1 или находится в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов стартового кодона или выбрана из SEQ ID NO:9-12; и b) вектора экспрессии, содержащего рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577, кодирующую серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. Вектор экспрессии может быть таким, который не интегрируется в геном. Альтернативно, может быть введен направляющий вектор (то есть экзогенная донорная последовательность), содержащий рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577, кодирующую серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. Нуклеазный агент может расщеплять и нарушать экспрессию гена B4GALT1 в клетке субъекта, а вектор экспрессии может экспрессировать рекомбинантный ген B4GALT1 в клетке субъекта. Альтернативно, геномно интегрированный рекомбинантный ген B4GALT1 может экспрессироваться в клетке субъекта. Примеры нуклеазных агентов (например, нуклеазоактивного белка Cas9 и направляющей РНК), которые можно использовать в таких способах, раскрыты в другом месте данного документа. Примеры подходящих направляющих РНК и последовательностей, распознаваемых направляющими РНК, также раскрыты в другом месте данного документа. Стадия b) может альтернативно включать введение вектора экспрессии или нацеливающего вектора, содержащего нуклеиновую кислоту (например, ДНК), кодирующую полипептид B4GALT1, который имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента и/или содержащему последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогично, стадия b) может также включать введение мРНК, кодирующей полипептид Asn352Ser B4GALT1 , который составляет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99%, или на 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента и/или имеющего комплементарную ДНК (или ее часть), которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогично, стадия b) может также включать введение белка, содержащего аминокислотную последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента.In some embodiments, the methods include a method of treating a subject who is not a carrier of the B4GALT1 variant (or is only a heterozygous carrier of the B4GALT1 variant) and has or is susceptible to developing cardiovascular disease, comprising administering to the subject or introducing into a cell of the subject: a) a nuclease agent (or nucleic acid encoding it) that binds to a nuclease recognition sequence in the endogenous B4GALT1 gene, wherein the nuclease recognition sequence contains a start codon for the endogenous B4GALT1 gene or is within about 10, within about 20, within about 30, within about 40, within about 50, within about 100, within about 200, within about 300, within about 400, within about 500, or within about 1000 nucleotides of the start codon or selected from SEQ ID NO:9 -12; and b) an expression vector containing a recombinant B4GALT1 gene containing a nucleotide sequence at positions 53575 to 53577 encoding a serine at a position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide. The expression vector may be one that is not integrated into the genome. Alternatively, a targeting vector (ie, an exogenous donor sequence) containing a recombinant B4GALT1 gene containing the nucleotide sequence at positions 53575 to 53577 encoding a serine at a position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide may be introduced. The nuclease agent can cleave and disrupt expression of the B4GALT1 gene in a cell of the subject, and the expression vector can express the recombinant B4GALT1 gene in the cell of the subject. Alternatively, the genomically integrated recombinant B4GALT1 gene may be expressed in a cell of the subject. Examples of nuclease agents (eg, Cas9 nuclease active protein and guide RNA) that can be used in such methods are disclosed elsewhere herein. Examples of suitable guide RNAs and sequences recognized by guide RNAs are also disclosed elsewhere herein. Step b) may alternatively include introducing an expression vector or targeting vector containing a nucleic acid (e.g., DNA) encoding a B4GALT1 polypeptide that is at least 90%, at least 95%, at least 96%, at least 97%, at least 98%, at least 99% or 100% identical to a B4GALT1 Asn352Ser polypeptide variant or fragment thereof and/or containing a sequence that is at least 90% identical to at least , 95%, at least 96%, at least 97%, at least 98%, at least 99%, or 100% identity to the B4GALT1 mRNA variant or fragment thereof. Likewise, step b) may also include introducing an mRNA encoding an Asn352Ser B4GALT1 polypeptide that is at least 90%, at least 95%, at least 96%, at least 97%, at least , 98%, at least 99%, or 100% identical to the Asn352Ser B4GALT1 polypeptide variant or fragment thereof and/or having complementary DNA (or part thereof) that is at least 90%, at least 95 %, at least 96%, at least 97%, at least 98%, at least 99%, or 100% identity to the B4GALT1 mRNA variant or fragment thereof. Likewise, step b) may also include introducing a protein comprising an amino acid sequence that is at least 90%, at least 95%, at least 96%, at least 97%, at least 98%, at least 99% or 100% identity to the Asn352Ser B4GALT1 polypeptide variant or fragment thereof.

В некоторых вариантах осуществления второй нуклеазный агент также вводится в субъект или в клетку у субъекта, где второй нуклеазный агент связывается со второй последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом вторая последовательность, распознаваемая нуклеазой, содержит стоп-кодон для эндогенного гена B4GALT1 или находится в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40,в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов стоп-кодона или выбрана из SEQ ID NO:9-12, при этом нуклеазный агент расщепляет эндогенный ген B4GALT1 в клетке, как в первой последовательности, распознаваемой нуклеазой, так и во второй последовательности, распознаваемой нуклеазой, при этом клетка модифицирована для включения делеции между первой последовательностью, распознаваемой нуклеазой, и второй последовательностью, распознаваемой нуклеазой. В некоторых вариантах осуществления второй нуклеазный агент может представлять собой белок Cas9 и направляющую РНК. Подходящие направляющие РНК и последовательности, распознаваемые направляющими РНК, в непосредственной близости от стоп-кодона раскрыты в другом месте данного документа.In some embodiments, a second nuclease agent is also introduced into the subject or into a cell in the subject, wherein the second nuclease agent binds to a second nuclease recognition sequence in the endogenous B4GALT1 gene, wherein the second nuclease recognition sequence contains a stop codon for the endogenous B4GALT1 gene or is within about 10, within about 20, within about 30, within about 40, within about 50, within about 100, within about 200, within about 300, within about 400, within about 500 or within about 1000 nucleotides of a stop codon or selected from SEQ ID NO:9-12, wherein the nuclease agent cleaves the endogenous B4GALT1 gene in the cell at both the first nuclease recognition sequence and the second nuclease recognition sequence, at wherein the cell is modified to include a deletion between the first nuclease recognition sequence and the second nuclease recognition sequence. In some embodiments, the second nuclease agent may be a Cas9 protein and a guide RNA. Suitable guide RNAs and sequences recognized by guide RNAs in the vicinity of a stop codon are disclosed elsewhere herein.

В некоторых вариантах осуществления способы также могут включать способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания включающий введение субъекту или введение в клетку субъекта: антисмысловой РНК, миРНК или кшРНК, которая гибридизуется с последовательностью в области внутри эндогенной мРНК B4GALT1. Например, антисмысловая РНК, миРНК или кшРНК могут гибридизоваться с последовательностью в пределах области в экзоне 5 SEQ ID NO:3 (мРНК B4GALT1) и снижать экспрессию мРНК B4GALT1 в клетке субъекта. В некоторых вариантах осуществления такие способы могут дополнительно включать введение субъекту вектора экспрессии, содержащего рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую серин, вставленный в положениях с 53575 по 53577 последовательности SEQ ID NO:2. Вектор экспрессии может быть таким, который не интегрируется геномно. Альтернативно, может быть введен направляющий вектор (то есть экзогенная донорная последовательность), содержащий рекомбинантный ген B4GALT1, содержащий последовательность нуклеиновой кислоты, кодирующую серин, в положениях, соответствующих положениям с 53575 по 53577 из SEQ ID NO:2. В способах, в которых используется вектор экспрессии, вектор экспрессии может экспрессировать рекомбинантный ген B4GALT1 в клетке субъекта. Альтернативно, в способах, в которых рекомбинантный ген B4GALT1 геномно интегрирован, рекомбинантный ген B4GALT1 может экспрессироваться в клетке у субъекта.In some embodiments, the methods may also include a method of treating a subject who is not a carrier of the variantB4GALT1(or is only a heterozygous carrier of the variantB4GALT1) and has or is susceptible to developing cardiovascular disease involves administering to a subject, or introducing into a cell of a subject: an antisense RNA, siRNA, or shRNA that hybridizes to a sequence in a region within endogenous mRNAB4GALT1. For example, an antisense RNA, siRNA, or shRNA may hybridize to a sequence within a region in exon 5 of SEQ ID NO:3 (mRNAB4GALT1) and reduce mRNA expressionB4GALT1 in the subject's cell. In some embodiments, such methods may further include administering to the subject an expression vector containing the recombinant geneB4GALT1, containing a nucleotide sequence encoding a serine inserted at positions 53575 to 53577 of SEQ ID NO:2. The expression vector may be one that is not genomically integrated. Alternatively, a targeting vector (i.e., an exogenous donor sequence) containing the recombinant gene may be introducedB4GALT1, containing a nucleic acid sequence encoding serine at positions corresponding to positions 53575 to 53577 of SEQ ID NO:2. In methods that use an expression vector, the expression vector may express a recombinant geneB4GALT1in the subject's cell. Alternatively, in methods in which the recombinant geneB4GALT1genomically integrated, recombinant geneB4GALT1may be expressed in a cell in a subject.

В некоторых вариантах осуществления такие способы могут альтернативно включать введение вектора экспрессии или нацеленного вектора, содержащего нуклеиновую кислоту (например, ДНК), кодирующую полипептид B4GALT1, который имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента и/или содержащему последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности мРНК варианта B4GALT1 или ее фрагмента. Аналогично, такие способы могут альтернативно включать введение мРНК, кодирующей полипептид, который, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентичен варианту B4GALT1 полипептида Asn352Ser или его фрагмента и/или имеющий комплементарную ДНК (или ее часть), которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогичным образом, такие способы могут альтернативно включать введение полипептида, содержащего последовательность, которая, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентична варианту полипептида Asn352Ser B4GALT1 или его фрагмента.In some embodiments, such methods may alternatively include introducing an expression vector or targeting vector containing a nucleic acid (e.g., DNA) encoding a B4GALT1 polypeptide that has at least 90%, at least 95%, at least 96%, at least 97%, at least 98%, at least 99% or 100% identical to the Asn352Ser B4GALT1 polypeptide variant or fragment thereof and/or containing a sequence that has at least 90%, at least 95%, at least 96%, at least 97%, at least 98%, at least 99% or 100% identical to the mRNA of the B4GALT1 variant or fragment thereof. Likewise, such methods may alternatively include administering an mRNA encoding a polypeptide that is at least 90%, at least 95%, at least 96%, at least 97%, at least , is 98%, at least 99% or 100% identical to the B4GALT1 variant of the Asn352Ser polypeptide or fragment thereof and/or having complementary DNA (or a portion thereof) that is at least 90%, 95%, at least 96%, at least 97%, at least 98%, at least 99%, or 100% identical to the B4GALT1 mRNA variant or fragment thereof. Likewise, such methods may alternatively include administering a polypeptide comprising a sequence that is at least 90%, at least 95%, at least 96%, at least 97%, at least is at least 98%, at least 99%, or 100% identical to the Asn352Ser B4GALT1 polypeptide variant or a fragment thereof.

В некоторых вариантах осуществления такие способы могут включать способы лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта вектора экспрессии, при этом вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577, которые кодируют серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, при этом вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке субъекта. Вектор экспрессии может быть таким, который не интегрируется геномно. Альтернативно, может быть введен направляющий вектор (то есть экзогенная донорная последовательность), содержащий рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577 из SEQ ID NO:2, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. В способах, в которых используется вектор экспрессии, вектор экспрессии может экспрессировать рекомбинантный ген B4GALT1 в клетке субъекта. Альтернативно, в способах, в которых рекомбинантный ген B4GALT1 геномно интегрирован, рекомбинантный ген B4GALT1 может экспрессироваться в клетке у субъекта.In some embodiments, such methods may include methods of treating a subject who is not a carrier of the B4GALT1 variant (or is only a heterozygous carrier of the B4GALT1 variant) and has or is susceptible to developing cardiovascular disease, comprising administering to the subject or introducing into a cell of the subject an expression vector, wherein the expression vector contains a recombinant B4GALT1 gene containing the nucleotide sequence at positions 53575 to 53577, which encode a serine at position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide, wherein the expression vector expresses the recombinant B4GALT1 gene in a cell of the subject. The expression vector may be one that is not genomically integrated. Alternatively, a targeting vector (ie, an exogenous donor sequence) containing a recombinant B4GALT1 gene containing the nucleotide sequence at positions 53575 to 53577 of SEQ ID NO:2, which encodes a serine at a position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide, may be introduced. . In methods that use an expression vector, the expression vector may express the recombinant B4GALT1 gene in a cell of the subject. Alternatively, in methods in which the recombinant B4GALT1 gene is genomically integrated, the recombinant B4GALT1 gene can be expressed in a cell in a subject.

Такие способы могут альтернативно включать введение вектора экспрессии или направленного вектора, содержащего нуклеиновую кислоту (например, ДНК), кодирующую полипептид B4GALT1, который составляет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагменту и/или содержащему последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту B4GALT1 мРНК или его фрагменту. Аналогично, такие способы могут альтернативно включать введение мРНК, кодирующей полипептид, который, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентичен варианту полипептида B4GALT1 или его фрагмента и/или имеющий комплементарную ДНК (или ее часть), которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогичным образом, такие способы могут альтернативно включать введение белка, содержащего последовательность, которая, по меньшей мере, на 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентична варианту полипептида Asn352Ser B4GALT1 или его фрагменту.Such methods may alternatively include introducing an expression vector or targeting vector containing a nucleic acid (e.g., DNA) encoding a B4GALT1 polypeptide that is at least 90%, at least 95%, at least 96%, of at least 97%, at least 98%, at least 99% or 100% identical to the Asn352Ser B4GALT1 polypeptide variant or fragment thereof and/or containing a sequence that has at least 90%, at least 95%, at least 96%, at least 97%, at least 98%, at least 99%, or 100% identical to the B4GALT1 mRNA variant or fragment thereof. Likewise, such methods may alternatively include administering an mRNA encoding a polypeptide that is at least 90%, at least 95%, at least 96%, at least 97%, at least , is 98%, at least 99%, or 100% identical to a B4GALT1 polypeptide variant or fragment thereof and/or having complementary DNA (or a portion thereof) that is at least 90%, at least 95 %, at least 96%, at least 97%, at least 98%, at least 99%, or 100% identity to the B4GALT1 mRNA variant or fragment thereof. Likewise, such methods may alternatively involve administering a protein comprising a sequence that is at least 90%, at least 95%, at least 96%, at least 97%, at least 98 % is at least 99% or 100% identical to the Asn352Ser B4GALT1 polypeptide variant or fragment thereof.

Подходящие векторы экспрессии и рекомбинантные гены B4GALT1 для использования в любом из указанных выше способов раскрыты в другом месте данного документа. Например, рекомбинантный ген B4GALT1 может представлять собой полный вариантный гена B4GALT1 или может быть минигеном B4GALT1, в котором один или более несущественных сегментов гена удалены по отношению к соответствующему гену дикого типа B4GALT1. В качестве примера, удаленные сегменты могут содержать одну или более интронных последовательностей, а миниген может содержать экзоны с 1 по 6. Примером полного варианта варианта B4GALT1 является ген, который, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентичен SEQ ID NO: 2.Suitable expression vectors and recombinant B4GALT1 genes for use in any of the above methods are disclosed elsewhere herein. For example, a recombinant B4GALT1 gene may be a complete variant B4GALT1 gene or may be a B4GALT1 minigene in which one or more non-essential gene segments have been deleted relative to the corresponding wild-type B4GALT1 gene. As an example, the deleted segments may contain one or more intronic sequences, and the minigene may contain exons 1 to 6. An example of a full variant B4GALT1 variant is a gene that is at least 90%, at least 95%, at least 96%, at least 97%, at least 98%, at least 99%, or 100% identical to SEQ ID NO: 2.

В некоторых вариантах осуществления такие способы включают способ модификации клетки у субъекта, имеющего или подверженного развитию сердечно-сосудистого заболевания. В таких способах нуклеазные агенты и/или экзогенные донорные последовательности и/или рекомбинантные экспрессирующие векторы могут быть введены в клетку путем введения в эффективном режиме, означающем дозировку, путь введения и частоту введения, которые задерживают начало, уменьшают тяжесть ингибируют дальнейшее ухудшение и/или улучшают, по меньшей мере, один признак или симптом сердечно-сосудистого заболевания, подвергаемого лечению. Термин «симптом» относится к субъективным признакам заболевания, воспринимаемым субъектом, а «признак» относится к объективным признакам заболевания, наблюдаемым врачом. Если субъект уже страдает от заболевания, режим можно назвать терапевтически эффективным режимом. Если субъект подвергается повышенному риску заболевания по отношению к популяции в целом, но еще не испытывает симптомов, этот режим можно назвать профилактически эффективным режимом. В некоторых случаях терапевтическая или профилактическая эффективность может наблюдаться у отдельного пациента по сравнению с историческими контролями или прошлым опытом у того же субъекта. В других случаях терапевтическая или профилактическая эффективность может быть продемонстрирована в доклинических или клинических испытаниях в популяции обработанных субъектов относительно контрольной популяции необработанных субъектов.In some embodiments, such methods include a method of modifying a cell in a subject who has or is susceptible to developing cardiovascular disease. In such methods, nuclease agents and/or exogenous donor sequences and/or recombinant expression vectors can be introduced into a cell by administration in an effective regimen, meaning a dosage, route of administration, and frequency of administration that delay onset, reduce severity, inhibit further deterioration, and/or improve at least one sign or symptom of the cardiovascular disease being treated. The term "symptom" refers to the subjective signs of a disease as perceived by the subject, and "sign" refers to the objective signs of a disease as observed by a physician. If the subject is already suffering from a disease, the regimen may be said to be a therapeutically effective regimen. If a subject is at increased risk of disease relative to the general population but is not yet experiencing symptoms, the regimen may be called a prophylactically effective regimen. In some cases, therapeutic or prophylactic efficacy may be observed in an individual patient compared to historical controls or past experience in the same subject. In other cases, therapeutic or prophylactic efficacy may be demonstrated in preclinical or clinical trials in a population of treated subjects relative to a control population of untreated subjects.

Доставка может быть любым подходящим способом, как раскрыто в другом месте в данном документе. Например, нуклеазные агенты или экзогенные донорные последовательности или рекомбинантные векторы экспрессии могут быть доставлены, например, посредством доставки вектора, доставки вируса, доставки, опосредованной частицами, доставки, опосредованной наночастицами, доставки, опосредованной липосомами, доставки, опосредованной экзосомой, доставки, опосредованной липидами, доставки, опосредованной липидными наночастицами, доставки, опосредованной пермеабилизацией клеток, или доставки, опосредованной имплантируемым устройством. Конкретные примеры включают гидродинамическую доставку, вирус-опосредованную доставку и липид-наночастицами-опосредованную доставку.Delivery may be by any suitable method as disclosed elsewhere herein. For example, nuclease agents or exogenous donor sequences or recombinant expression vectors can be delivered, for example, via vector delivery, virus delivery, particle-mediated delivery, nanoparticle-mediated delivery, liposome-mediated delivery, exosome-mediated delivery, lipid-mediated delivery, lipid nanoparticle-mediated delivery, cell permeabilization-mediated delivery, or implantable device-mediated delivery. Specific examples include hydrodynamic delivery, virus-mediated delivery, and lipid nanoparticle-mediated delivery.

Введение может осуществляться любым подходящим путем, включая, но не ограничиваясь этим, парентеральный, внутривенный, оральный, подкожный, внутриартериальный, внутричерепной, интратекальный, внутрибрюшинный, местный, интраназальный или внутримышечный. Конкретным примером, который часто используется, например, для заместительной белковой терапии, является внутривенная инфузия. Частота введения и количество дозировок могут зависеть от периода полураспада нуклеазных агентов или последовательностей экзогенных доноров или рекомбинантных экспрессирующих векторов, состояния субъекта и пути введения среди других факторов. Фармацевтические композиции для введения желательно являются стерильными и по существу изотоническими и изготовлены в условиях GMP. Фармацевтические композиции могут быть предоставлены в единичной дозированной форме (то есть в дозировке для однократного введения). Фармацевтические композиции могут быть составлены с использованием одного или более физиологически и фармацевтически приемлемых носителей, разбавителей, наполнителей или вспомогательных веществ. Состав зависит от выбранного пути введения. Термин «фармацевтически приемлемый» означает, что носитель, разбавитель, эксципиент или вспомогательное вещество совместимы с другими ингредиентами препарата и по существу не вредны для их реципиента.Administration may be by any suitable route, including, but not limited to, parenteral, intravenous, oral, subcutaneous, intra-arterial, intracranial, intrathecal, intraperitoneal, topical, intranasal, or intramuscular. A specific example that is often used, for example, for protein replacement therapy, is intravenous infusion. The frequency of administration and the number of dosages may depend on the half-life of the nuclease agents or the sequences of exogenous donors or recombinant expression vectors, the condition of the subject and the route of administration, among other factors. Pharmaceutical compositions for administration are desirably sterile and substantially isotonic and manufactured under GMP conditions. The pharmaceutical compositions may be provided in unit dosage form (ie, a single administration dosage). Pharmaceutical compositions may be formulated using one or more physiologically and pharmaceutically acceptable carriers, diluents, excipients or excipients. The composition depends on the chosen route of administration. The term "pharmaceutically acceptable" means that the carrier, diluent, excipient or excipient is compatible with the other ingredients of the formulation and is not substantially harmful to the recipient thereof.

Другие такие способы включают способ, осуществляемый ex-vivo в клетке от субъекта, имеющего или подверженного развитию сердечно-сосудистого заболевания. Затем клетка с целевой генетической модификацией может быть трансплантирована обратно субъекту.Other such methods include those performed ex-vivo in a cell from a subject having or susceptible to developing cardiovascular disease. The cell with the targeted genetic modification can then be transplanted back into the subject.

Данное раскрытие обеспечивает способы снижения ЛПНП у субъекта, нуждающегося в этом, путем снижения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы снижения общего холестерина у субъекта, нуждающегося в этом, путем снижения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы уменьшения фибриногена у субъекта, нуждающегося в этом, путем уменьшения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы снижения рСКФ у субъекта, нуждающегося в этом, путем уменьшения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы увеличения AST, но не ALT, у субъекта, нуждающегося в этом, путем снижения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы увеличения креатинина у субъекта, нуждающегося в этом, путем уменьшения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. This disclosure provides methods for lowering LDL cholesterol in a subject in need thereof by reducing the expression of endogenous wild-type B4GALT1 or increasing the expression of Asn352Ser B4GALT1 by any of the methods described herein. This disclosure provides methods for reducing total cholesterol in a subject in need thereof by reducing the expression of endogenous wild-type B4GALT1 or increasing the expression of Asn352Ser B4GALT1 by any of the methods described herein. This disclosure provides methods for reducing fibrinogen in a subject in need thereof by reducing the expression of endogenous wild-type B4GALT1 or increasing the expression of Asn352Ser B4GALT1 by any of the methods described herein. This disclosure provides methods for reducing eGFR in a subject in need thereof by decreasing the expression of endogenous wild-type B4GALT1 or increasing the expression of Asn352Ser B4GALT1 by any of the methods described herein. This disclosure provides methods for increasing AST, but not ALT, in a subject in need thereof by decreasing the expression of endogenous wild-type B4GALT1 or increasing the expression of Asn352Ser B4GALT1 by any of the methods described herein. This disclosure provides methods for increasing creatinine in a subject in need thereof by decreasing the expression of endogenous wild-type B4GALT1 or increasing the expression of Asn352Ser B4GALT1 by any of the methods described herein.

Данное раскрытие также предоставляет способы диагностики риска развития сердечно-сосудистого заболевания или диагностики риска развития сердечно-сосудистого заболевания и его лечения у субъекта, нуждающегося в этом, включающие: проведение теста, предоставляющего результаты анализа образца от субъекта на наличие или отсутствие варианта гена, мРНК, кДНК или полипептида варианта B4GALT1, как описано в данном документе; и у тех субъектов, которые не имеют варианта гена, мРНК, кДНК или полипептида варианта B4GALT1, введение субъекту терапевтического средства, такого как описано в данном документе. Можно использовать любой из описанных в данном документе тестов, с помощью которых определяют наличие или отсутствие варианта гена, мРНК, кДНК или полипептида варианта B4GALT1. This disclosure also provides methods for diagnosing the risk of developing cardiovascular disease or diagnosing the risk of developing cardiovascular disease and treating it in a subject in need thereof, including: performing a test that provides the results of analyzing a sample from the subject for the presence or absence of a gene variant, mRNA, B4GALT1 variant cDNA or polypeptide as described herein; and in those subjects who do not have a B4GALT1 variant gene, mRNA, cDNA or polypeptide variant, administering to the subject a therapeutic agent such as those described herein. Any of the tests described herein that determine the presence or absence of a B4GALT1 variant gene, mRNA, cDNA, or polypeptide variant may be used.

Данное раскрытие также обеспечивает использование любого из вариантов B4GALT1 генов, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот, раскрытых в данном документе, при производстве лекарственного средства для снижения ЛПНП, снижения общего холестерина, снижения фибриногена, уменьшения eGFR, увеличения AST (но не ALT) и повышение уровня креатинина у субъекта, нуждающегося в этом. Данное раскрытие также обеспечивает применение любого из вариантов генов B4GALT1, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновой кислоты при изготовлении лекарственного средства для лечения ишемической болезни сердца, кальцификации коронарной артерии и связанных с ними нарушений.This disclosure also provides for the use of any of the B4GALT1 variant genes, mRNA, cDNA, polypeptides and hybridizing nucleic acid molecules disclosed herein in the manufacture of a medicament for lowering LDL, lowering total cholesterol, lowering fibrinogen, reducing eGFR, increasing AST (but not ALT) and an increase in creatinine levels in a subject in need thereof. This disclosure also provides the use of any of the B4GALT1 gene variants, mRNA, cDNA, polypeptides and hybridizing nucleic acid molecules in the manufacture of a medicament for the treatment of coronary artery disease, coronary artery calcification and related disorders.

Данное раскрытие также обеспечивает использование любого из вариантов B4GALT1 генов, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновой кислоты, раскрытых в данном документе, для снижения ЛПНП, снижения общего холестерина, снижения фибриногена, снижения рСКФ, увеличения AST (но не ALT) и повышение уровня креатинина у субъекта, нуждающегося в этом.This disclosure also provides the use of any of the B4GALT1 gene variants, mRNA, cDNA, polypeptides and hybridizing nucleic acid molecules disclosed herein to lower LDL, lower total cholesterol, lower fibrinogen, lower eGFR, increase AST (but not ALT) and increase creatinine level of the subject in need thereof.

Данное раскрытие также обеспечивает применение любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1 для лечения ишемической болезни сердца, кальцификации коронарных артерий, гликозилирования типа IId (CDG-IId) и связанных с ним нарушений.This disclosure also provides the use of any of the B4GALT1 variant gene, mRNA, cDNA, polypeptides and hybridizing nucleic acid molecules for the treatment of coronary artery disease, coronary artery calcification, glycosylation type IId (CDG-IId) and related disorders.

Данное раскрытие также обеспечивает использованиелюбого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, раскрытых в данном документе, для модификации гена B4GALT1 в клетке у субъекта, нуждающегося в этом.This disclosure also provides for the use of any of the B4GALT1 variant gene, mRNA, cDNA, polypeptides and hybridizing nucleic acid molecules disclosed herein to modify the B4GALT1 gene in a cell in a subject in need thereof.

Данное раскрытие также обеспечивает применение любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, раскрытых в данном документе, для изменения экспрессии гена B4GALT1 в клетке нуждающегося в этом субъекта.This disclosure also provides the use of any of the B4GALT1 variant gene, mRNA, cDNA, polypeptides and hybridizing nucleic acid molecules disclosed herein to alter the expression of the B4GALT1 gene in a cell of a subject in need thereof.

Данное раскрытие также обеспечивает применение любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, описанных в данном документе, для диагностики риска развития любых сердечно-сосудистых заболеваний, раскрытых в данном документе.This disclosure also provides the use of any of the B4GALT1 variant gene, mRNA, cDNA, polypeptides and hybridizing nucleic acid molecules described herein for diagnosing the risk of developing any of the cardiovascular diseases disclosed herein.

Данное раскрытие также обеспечивает использование любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, описанных в данном документе, для диагностики субъекта, имеющего любое из сердечно-сосудистых заболеваний, раскрытых в данном документе.This disclosure also provides for the use of any of the B4GALT1 variant gene, mRNA, cDNA, polypeptides and hybridizing nucleic acid molecules described herein for diagnosing a subject having any of the cardiovascular diseases disclosed herein.

Все патентные документы, веб-сайты, другие публикации, регистрационные номера и тому подобное, указанные выше или ниже, включены в качестве ссылки во всей их полноте для всех целей в той же степени, как если бы каждый отдельный элемент был специально и индивидуально указан для включения в качестве ссылки. Если разные версии последовательности связаны с номером доступа в разное время, подразумевается версия, связанная с номером доступа на дату подачи данной заявки. Дата вступления в силу означает более раннюю из фактической даты подачи или даты подачи приоритетной заявки со ссылкой на регистрационный номер, если применимо. Аналогичным образом, если разные версии публикации, веб-сайта и т.п. публикуются в разное время, подразумевается последняя версия, опубликованная на дату подачи заявки, если не указано иное. Любой признак, этап, элемент, вариант осуществления или аспект данного раскрытия может использоваться в сочетании с любым другим признаком, этапом, элементом, вариантом осуществления или аспектом, если специально не указано иное. Хотя данное раскрытие было описано более подробно с помощью иллюстрации и примера в целях ясности и понимания, будет очевидно, что определенные изменения и модификации могут быть осуществлены в рамках объема прилагаемой формулы изобретения.All patent documents, websites, other publications, registration numbers and the like cited above or below are incorporated by reference in their entirety for all purposes to the same extent as if each individual item had been specifically and individually cited for inclusion by reference. If different versions of a sequence are associated with an accession number at different times, the version associated with the accession number on the filing date of this application is implied. Effective date means the earlier of the actual filing date or the filing date of the priority application, with reference to the registration number, if applicable. Likewise, if different versions of a publication, website, etc. published at different times, the latest version published on the date of filing of the application is implied, unless otherwise stated. Any feature, step, element, embodiment, or aspect of this disclosure may be used in combination with any other feature, step, element, embodiment, or aspect unless specifically stated otherwise. Although this disclosure has been described in more detail by way of illustration and example for the purposes of clarity and understanding, it will be apparent that certain changes and modifications may be made within the scope of the appended claims.

Указанные в данном документе нуклеотидные и аминокислотные последовательности продемонстрированы с использованием стандартных буквенных сокращений для нуклеотидных оснований и однобуквенного кода для аминокислот. Нуклеотидные последовательности следуют стандартному соглашению, начиная с 5'-конца последовательности и продвигаясь вперед (то есть слева направо в каждой строке) до 3'-конца. Показана только одна цепь каждой нуклеотидной последовательности, но считается, что комплементарная цепь включена в любую ссылку на отображаемую цепь. Аминокислотные последовательности следуют стандартному соглашению, начиная с амино-конца последовательности и продвигаясь вперед (то есть слева направо в каждой строке) к карбокси-концу.The nucleotide and amino acid sequences reported herein are demonstrated using standard letter abbreviations for nucleotide bases and single letter codes for amino acids. Nucleotide sequences follow a standard convention, starting at the 5' end of the sequence and moving forward (i.e., from left to right on each line) to the 3' end. Only one strand of each nucleotide sequence is shown, but the complementary strand is assumed to be included in any reference to the strand shown. Amino acid sequences follow a standard convention, starting at the amino terminus of the sequence and moving forward (that is, from left to right on each line) to the carboxy terminus.

Заявка США № 62/659344, поданная 18 апреля 2018 года, заявка США № 62/550161, поданная 25 августа 2017 года, и заявка США № 62/515140, поданная 5 июня 2017 года, включены в данный документ посредством ссылки во всей их полноте.US Application No. 62/659,344, filed April 18, 2018, US Application No. 62/550,161, filed August 25, 2017, and US Application No. 62/515,140, filed June 5, 2017, are incorporated herein by reference in their entirety. .

Следующие примеры предоставлены для более подробного описания вариантов осуществления. Они предназначены для иллюстрации, а не для ограничения заявленных вариантов осуществления.The following examples are provided to describe the embodiments in more detail. They are intended to be illustrative and not limiting of the claimed embodiments.

ПРИМЕРЫEXAMPLES

Пример 1: Определение нового локуса на хромосоме 9p.21, ассоциированного с сывороточными липидными признаками, со статистической значимостьбю в рамках геномаExample 1: Identification of a new locus on chromosome 9p.21 associated with serum lipid traits with genomic statistical significance

Материалы и методы:Materials and methods:

Генотипирование на массиве и контроль качества: Геномная ДНК была извлечена из цельной крови у индивидуумов ООА (Old Order Amish) и количественно оценена с использованием пикогрин (picogreen). Генотипирование по всему геному было выполнено с помощью массивов Affymetrix 500K и 6.0 в центре биополимерных исследований Университета Мэриленда. Алгоритм BRLMM был использован для проявления генотипа. Образцы со степнью проявления <0,93, высоким уровнем Менделевской ошибки или гендерным несоответствием были исключены. ОНП с степенью проявления <0,95, HWEpval <1,0E-6 или MAF <0,01 были исключены. ОНП на хромосомах X и Y и митохондриальный геном также были исключены. Array Genotyping and Quality Control: Genomic DNA was extracted from whole blood from OOA (Old Order Amish) individuals and quantified using picogreen. Genome-wide genotyping was performed using Affymetrix 500K and 6.0 arrays at the University of Maryland Biopolymer Research Facility. The BRLMM algorithm was used for genotype expression. Samples with expression rates <0.93, high Mendelian error rates, or gender discrepancies were excluded. SNPs with severity <0.95, HWEpval <1.0E-6, or MAF <0.01 were excluded. SNPs on chromosomes X and Y and the mitochondrial genome were also excluded.

ПГС (полногеномное секвенирование - WGS - Whole Genome Sequencing) и КК(контроль качества - QC - Quality Control): Подготовка библиотеки и секвенирование всего генома проводились в Институте им. Брода в МТИ (Broad Institute of MIT) и Гарварде. Ядро ресурсов информатики NHLBI в Мичиганском университете выполнило выравнивание, проявление оснований и оценку качества последовательности всех образцов TOPMed и доставило файлы bcf для всех вариантов, которые прошли все фильтры качества с глубиной прочтения по меньшей мере, 10, которая использовалась для анализа. Далее КК применялся к этим файлам, включая делецию всех сайтов в LCR или Х-хромосоме. Варианты с > 5% степнью пропусков, H-значением р <1,0E-09 и MAF <0,1% также были удалены. Контроль качества образцов был выполнен для удаления образцов с > 5% степени пропусков, высоким уровнем Менделевской ошибки (в некоторых случаях) или одинаковыми (МЗ - монозиготными) близнецами (один из каждой пары). WGS (WGS - Whole Genome Sequencing) and QC (QC - Quality Control): Library preparation and whole genome sequencing were carried out at the Institute. Broad at MIT (Broad Institute of MIT) and Harvard. The NHLBI Informatics Resource Core at the University of Michigan performed the alignment, base expression, and sequence quality assessment of all TOPMed samples and delivered bcf files for all variants that passed all quality filters with a read depth of at least 10 that was used for analysis. QC was then applied to these files, including deletion of all sites on the LCR or X chromosome. Variants with >5% missingness rate, H-p-value <1.0E-09, and MAF <0.1% were also removed. Sample quality control was performed to remove samples with >5% missingness rates, high levels of Mendelian error (in some cases), or identical (MZ - monozygotic) twins (one from each pair).

ПЭС (полноэкзомное секвенирование - WES - Whole Exome Sequencing) и КК: Захват и секвенирование экзома проводили в Центре генетики Regeneron (RGC), как более подробно описано ниже. Вкратце, захваченные библиотеки были секвенированы на платформе Illumina HiSeq 2500 с химией v4 с использованием парных чтений со скоростью 75 п.н. Секвенирование парных концов захваченных оснований было выполнено так, чтобы > 85% оснований были покрыты 20 раз или более, что достаточно для проявления гетерозиготных вариантов по большинству целевых оснований. Выравнивание чтения и проявление варианта выполнялись с использованием BWA-MEM и GATK, как это реализовано в конвейере анализа RGC DNAseq. Образцы со степенью проявления <0,90, высоким уровнем Менделевских ошибок, одинаковыми (MZ) близнецами (по одной на каждую пару) или гендерным несоответствием были исключены. ОНП с степенью проявления <0,90 и мономорфными ОНП также были исключены. ОНП в хромосомах X и Y и митохондриальный геном также были исключены. Whole Exome Sequencing (WES) and QC: Exome capture and sequencing were performed at the Regeneron Genetics Center (RGC), as described in more detail below. Briefly, captured libraries were sequenced on the Illumina HiSeq 2500 platform with v4 chemistry using paired-end reads at 75 bp. Paired-end sequencing of the captured bases was performed such that >85% of the bases were covered 20 times or more, which is sufficient to show heterozygous variants at most of the target bases. Read alignment and variant expression were performed using BWA-MEM and GATK as implemented in the RGC DNAseq analysis pipeline. Samples with expression rates <0.90, high Mendelian error rates, identical (MZ) twins (one for each pair), or gender discrepancy were excluded. SNPs with severity <0.90 and monomorphic SNPs were also excluded. SNPs in chromosomes X and Y and the mitochondrial genome were also excluded.

Анализ ассоциации: Пробы крови натощак собирали и использовали для анализа липидов. ЛПНП рассчитывали по формуле Фридевальда, и в некоторых анализах с субъектами, принимающими препараты, снижающие уровень липидов, корректировали путем деления их уровней ЛПНП на 0,7. Анализ генетической ассоциации был выполнен с использованием линейных смешанных моделей для учета семейной корреляции с использованием основанной на родословной матрице родства и/или семейной коррекции, которая оценивает родство по ПЭС. Анализ также корректировался по возрасту, возрасту в квадрате, полу, когорте и генотипу APOB R3527Q. APOB R3527Q часто встречается у амишей и ранее было установлено, что он оказывает сильное влияние на уровни ЛПНП (58 мг/дл) (Shen et al., Arch Intern. Med., 2010, 170, 1850-1855), и, следовательно, эффект этого варианта в анализе ЛПНП был принят во внимание. В качестве порога значимости использовали скорректированное по геному p-значение 5,0E-08. Association analysis: Fasting blood samples were collected and used for lipid analysis. LDL was calculated using the Friedewald formula and, in some analyzes with subjects taking lipid-lowering drugs, adjusted by dividing their LDL levels by 0.7. Genetic association analyzes were performed using linear mixed models to account for familial correlation using a pedigree-based relatedness matrix and/or familial adjustment that estimates relatedness by PES. The analysis was also adjusted for age, age squared, sex, cohort, and APOB R3527Q genotype. APOB R3527Q is common in the Amish and has previously been found to have a strong effect on LDL levels (58 mg/dL) (Shen et al., Arch Intern. Med., 2010, 170, 1850-1855), and therefore the effect of this variant in the LDL analysis was taken into account. A genome-adjusted p-value of 5.0E-08 was used as the significance threshold.

Определение связи между областью хромосомы 9p и ЛПНП с использованием Полногеномного Поиска Ассоциаций (ПГПА - GWAS - Genome Wide Association):Determining the relationship between the region of chromosome 9p and LDL using Genome Wide Association Search (GWAS):

Для выявления причинных вариантов в новых генах, связанных с сердечно-сосудистыми факторами риска, был проведен анализ полногеномнойф ассоциаций с использованием 1852 субъектов-амишей Старого порядка, генотипированных Affymetrix 500K и 6.0 массивов. Основные характеристики этих участников приведены в Таблице 1. To identify causal variants in novel genes associated with cardiovascular risk factors, genome-wide association analyzes were performed using 1852 Old Order Amish subjects genotyped by Affymetrix 500K and 6.0 arrays. The basic characteristics of these participants are shown in Table 1.

Таблица 1: Основные характеристики исследуемых популяцийTable 1: Main characteristics of the study populations

ПГПА анализPGPA analysis ПГС (Полногеномное Секвениро
вание)
Точное картирование
WGS (Whole Genome Sequencing
tion)
Precise Mapping
ПЭС (Полноэкзомное Секвенирование) ПодтверждениеWES ( Whole Exome Sequencing ) Confirmation
NN 18521852 10831083 45654565 Мужчина (%) Man (%) 4848 5050 4343 Возраст (лет)Age (years) 51,1 ± 16,351.1 ± 16.3 50,4 ± 16,850.4 ± 16.8 41,7 ± 15,241.7 ± 15.2 ИМТ (BMI) (кг/м2)BMI (BMI) (kg/ m2 ) 27,4 ± 5,027.4 ± 5.0 26,9 ± 4,526.9 ± 4.5 26,6 ± 4,926.6 ± 4.9 САД (SBP) (мм рт. cт.)SBP (mmHg) 121,1 ± 16,0121.1 ± 16.0 120,9 ± 15,6120.9 ± 15.6 115,1 ± 16,1115.1 ± 16.1 ДАД (DBP) (мм рт. cт.)DBP (mmHg) 73,6 ± 9,473.6 ± 9.4 74,4 ± 9,674.4 ± 9.6 71,6 ± 9,671.6 ± 9.6 Холестерин (мг/дл)Cholesterol (mg/dl) 210,6 ± 46,3210.6 ± 46.3 211,8 ± 46,9211.8 ± 46.9 208,2 ± 49,2208.2 ± 49.2 ЛПВП (мг/дл)HDL (mg/dL) 56,1 ± 14,856.1 ± 14.8 55,9 ± 15,655.9 ± 15.6 60,9 ± 16,460.9 ± 16.4 ЛПНП (мг/дл)LDL (mg/dl) 138,2 ± 42,1138.2 ± 42.1 140,4 ± 43,2140.4 ± 43.2 132,7 ± 44,9132.7 ± 44.9 Триглицериды (мг/дл)Triglycerides (mg/dL) 80,4 ± 53,080.4 ± 53.0 77,7 ± 48,877.7 ± 48.8 72,1 ± 45,672.1 ± 45.6 Препараты снижающие холестерин (%)Cholesterol-lowering drugs (%) 2,42.4 3,23.2 1,91.9 Диабет (%)Diabetes (%) 2,62.6 2,42.4 2,22.2

Почти все образцы точного картирования ПГС (96%) были включены в образцы для ПГПА.Almost all fine-mapping samples of PGS (96%) were included in the samples for PGPA.

Только 30% образцов ПЭС были включены в образцы ПГПА или ПГС.Only 30% of PES samples were included in PGPA or PGS samples.

Как продемонстрировано на Фиг. 1, был обнаружен сильный новый сигнал ассоциации между ЛПНП и локусом на хромосоме 9p. Основным ассоциированным ОНП был rs855453 (p=2.2E-08) и имел частоту 15% у амишей и 25% у населения в целом. Незначительный аллель Т был связан с более низким уровнем ЛПНП на 10 мг/дл. Таким образом, этот ОНП по ПГПА распространен как у амишей, так и в других популяциях, и имеет большой размер эффекта, но никогда не был идентифицирован ни в одном из крупных метаанализов ПГПА. Эти характеристики соответствуют характеристикам предыдущих исследований (APOC3 и LIPE), и на основании этого был сделан вывод, что этот ОНП ПГПА не был причинно-функциональным вариантом в этом регионе, а скорее связан с неравновесным сцеплением (LD - linkage disequilibrium) с другим вариантом, который редко встречается среди населения в целом, но встречается среди населения амишей. Кроме того, многочисленные исследования, основанные на 5 независимых скрещиваниях нескольких штаммов, также обнаружили, что синтеническая область генома крысы, расположенная на хромосоме 5 крысы, содержит QTL для уровня холестерина и триглицеридов в сыворотке (база данных генома крысы (RGD - Rat Genome Database). Scl12.26. 35. 44, 54 и Stl 28).As shown in FIG. 1, a strong new association signal was found between LDL and a locus on chromosome 9p. The main associated SNP was rs855453 (p=2.2E-08) and had a frequency of 15% in the Amish and 25% in the general population. The minor T allele was associated with 10 mg/dL lower LDL levels. Thus, this SNP for PGPA is common in both Amish and other populations and has a large effect size, but has never been identified in any of the large meta-analyses of PGPA. These characteristics are consistent with those of previous studies ( APOC3 and LIPE ), and from this it was concluded that this PGPA SNP was not a causal-functional variant in this region, but rather was associated with linkage disequilibrium (LD) with another variant, which is rare in the general population, but is found in the Amish population. In addition, multiple studies based on 5 independent crosses of several strains have also found that a syntenic region of the rat genome, located on rat chromosome 5, contains QTL for serum cholesterol and triglyceride levels (RGD - Rat Genome Database) . Scl12.26. 35. 44, 54 and Stl 28).

Подтверждение с использованием Полноэкзомного Секвенирования (ПЭС -WES - Whole Exome Sequencing):Confirmation using Whole Exome Sequencing (WES - Whole Exome Sequencing):

ПЭС после КК для 4565 особей амишей, основные характеристики которых приведены в Таблице 1, впоследствии были использованы. Результаты смешанного модельного полноэкзомного анализа ЛПНП идентифицировали миссенс-вариант B4GALT1 rs551564683 как наиболее значимую связь с p-значением 3,3E-18 и размером эффекта на 14,7 мг/дл более низкого ЛПНП. Вариант rs551564683 имел MAF 6% у амишей, в то время как чрезвычайно редкий среди населения в целом. Вариант находится в бдОНП без информации о частоте или населении, не существует в базе данных ExAC (60 000 образцов), и только одна копия была найдена в ПГС из 15 387 не-амишей в наборе данных Trans-Omics для точной медицины NHLBI (TOPMed). Кроме того, в совокупности данных других популяционных когорт, доступных для исследователей - всего 125 401 особь, - было найдено только 79 гетерозигот и 5 гомозигот по этому варианту (демонстрируя более чем 1000-кратное обогащение в популяции амишей). Этот несоответствующий вариант находится на расстоянии 500 Кб от варианта ПГПА с оценкой r2 LD, равной 0,5. Там нет идеально коррелированных вариантов с rs551564683; Фактически, следующим наиболее значимым ОНП является rs149557496 с p-значением E-14. Таким образом, не только сила ассоциации rs551564683 подтверждает, что локус ПГПА хромосомы 9 является реальным, но и rs551564683 обладает всеми характеристиками, ожидаемыми для случайного варианта. PES after CC for 4565 Amish individuals, the main characteristics of which are shown in Table 1, were subsequently used. Results from a mixed model whole-exome LDL analysis identified the B4GALT1 missense variant rs551564683 as the most significant association with a p-value of 3.3E-18 and an effect size of 14.7 mg/dL lower LDL. The rs551564683 variant had a MAF of 6% in the Amish, while extremely rare in the general population. The variant is found in the bdSNP with no frequency or population information, does not exist in the ExAC database (60,000 samples), and only one copy was found in the ASG of 15,387 non-Amish in the NHLBI Trans-Omics for Precision Medicine (TOPMed) dataset. . Additionally, in the pool of data from other population cohorts available to researchers - a total of 125,401 individuals - only 79 heterozygotes and 5 homozygotes for this variant were found (showing a more than 1000-fold enrichment in the Amish population). This non-conforming variant is 500 Kb away from the PGPA variant with an r2 LD score of 0.5. There are no perfectly correlated variants with rs551564683; In fact, the next most significant SNP is rs149557496 with a p-value of E-14. Thus, not only does the strength of association of rs551564683 confirm that the chromosome 9 PHPA locus is real, but rs551564683 has all the characteristics expected of a random variant.

Точное картирование области 9p хромосомы с использованием Полногеномного Секвенирования (ПГС):Fine mapping of the 9p region of chromosome using Whole Genome Sequencing (WGS):

ПГС, доступное на меньшем образце, использовалось, чтобы заполнить пробелы в последовательности экзома, чтобы предоставить дополнительные доказательства того, что rs551564683 является причинно-следственным/функциональным. Данные ПГС для 1083 OOA были сгенерированы как часть программы TOPMed. Основные характеристики образцов ПГС приведены в Таблице 1. ПГС захватывает все ОНП и инделы (вставка/делеция) - как кодирующие, так и некодирующие - которые могут коррелировать с лучшими вариантами в интересующей области. Поскольку верхние варианты имеют частоту ~ 6%, очень маловероятно, что будет недостаточно чтения последовательности, чтобы вызывающий вариант пропустил вариант. Тем по меньшей мере,, могут быть варианты, исключенные во время процедуры контроля качества. Изучив варианты, которые не прошли КК, в анализ были добавлены 2 дополнительных варианта. Анализ ассоциации идентифицировал миссенс ОНП (N352S) rs551564683 в гене B4GALT1 как наиболее значимый вариант с ЛПНП в этом регионе с p-значением 2,9E-06 и размером эффекта -16,4 мг/дл (см. Таблицу 2). PGS, available on a smaller sample, was used to fill gaps in the exome sequence to provide further evidence that rs551564683 is causal/functional. PGS data for 1083 OOAs were generated as part of the TOPMed program. The main characteristics of the PGS samples are summarized in Table 1. The PGS captures all SNPs and indels (insertion/deletion) - both coding and non-coding - that may correlate with the best variants in the region of interest. Since the top variants have a frequency of ~6%, it is very unlikely that there will be enough sequence reads for the variant caller to miss the variant. At the very least, there may be options excluded during the quality control procedure. Having examined the options that did not pass QC, 2 additional options were added to the analysis. Association analysis identified missense SNP (N352S) rs551564683 in the B4GALT1 gene as the most significant LDL variant in this region with a p-value of 2.9E-06 and an effect size of -16.4 mg/dL (see Table 2).

Таблица 2: Средний (n) уровень ЛПНП (мг/дл) по генотипу, содержащему rs551564683, в ООАTable 2: Mean (n) LDL level (mg/dL) by genotype containing rs551564683 in TOA

когортаcohort TTTT TCTC CCCC Р-значениеP-value Подтверждение ПЭС (n=4,565)Confirmation of PES (n=4,565) 135 (n=4025)135 (n=4025) 118 (n=529)118 (n=529) 103 (n=12)103 (n=12) 3,3 × 10-18 3.3 × 10 -18 Точное картирование по ПГС (n=1,083)Accurate mapping by PGS (n=1,083) 144 (n=952)144 (n=952) 128 (n=130)128 (n=130) 87 (n=1)87 (n=1) 2,9 × 10-6 2.9 × 10 -6

Набор данных TOPMed ПГС предоставил 20 вариантов, связанных с ЛПНП, с p-значениями от 2.9E-06 до 2.5E-05 и сильно, но не идеально, коррелированными с лучшим попаданием rs551564683 (r2=0,83-0,94) (см. Красный на Фиг. 2). Условный анализ с поправкой на rs551564683 полностью отменил сигнал ассоциации 20 вариантов и не выявил никаких других сигналов в этой области, что сильно указывало на один причинный вариант.The TOPMed PGS dataset provided 20 LDL-associated variants with p-values ranging from 2.9E-06 to 2.5E-05 and strongly, but not perfectly, correlated with the best hit rs551564683 (r2=0.83-0.94) ( see Red in Fig. 2). Conditional analysis adjusted for rs551564683 completely abolished the association signal of 20 variants and did not reveal any other signal in this region, strongly suggesting a single causal variant.

Путем тщательного изучения этих 20 вариантов (см. красный на Фиг. 2) варианты были разделены на 2 группы: 7 красных вариантов внутри заштрихованного треугольника и 13 не заштрихованных красных вариантов. 7 красных вариантов в заштрихованном треугольнике были почти полностью коррелировали друг с другом и имели r2 0,83 с наибольшим хитом rs551564683. Эти 7 вариантов были безопасно исключены как причинно-следственные/функциональные по трем причинам: 1) они относительно распространены за пределами OOA (maf> 1%), 2) они не показали никакой связи с ЛПНП в 3877 образцах из Framingham Heart Study (FHS)) в TOPMed, и 3) один из этих 7 вариантов имел p-значение ассоциации ЛПНП 6,3E-14 против 3,3E-18 для наибольшего попадания rs551564683 в данных ПЭС по 4565 субъектам OOA.By carefully examining these 20 options (see red in Figure 2), the options were divided into 2 groups: 7 red options inside the shaded triangle and 13 unshaded red options. The 7 red variants in the shaded triangle were almost perfectly correlated with each other and had an r2 of 0.83, with the largest hit being rs551564683. These 7 variants were safely excluded as causal/functional for three reasons: 1) they are relatively common outside OOA (maf > 1%), 2) they showed no association with LDL in 3877 samples from the Framingham Heart Study (FHS) ) in TOPMed, and 3) one of these 7 variants had an LDL association p-value of 6.3E-14 versus 3.3E-18 for the top hit rs551564683 in the PES data of 4565 OOA subjects.

Другая группа вариантов в заштрихованном прямоугольнике на Фиг. 2 также имела ассоциацию со значением р только около 10E-6 и эти варианты полностью коррелировали друг с другом и имели r2 0,68 с наибольшим попаданием rs551564683. Эта группа была также исключена как причинно-следственная/функциональная, поскольку ее члены распространены за пределами OOA (maf ~ 4%) и не показали никакой связи с ЛПНП в 3877 образцах из FHS в рамках TOPMed.Another group of options in the shaded rectangle in FIG. 2 also had an association with a p value of only about 10E-6 and these variants were completely correlated with each other and had an r2 of 0.68 with the highest hit being rs551564683. This group was also excluded as causal/functional because its members are abundant outside OOA (maf ~4%) and showed no association with LDL in 3877 samples from FHS within TOPMed.

Остались лучшие хиты rs551564683 и 13 незатененных красных вариантов на Фиг. 2, которые простираются на 4 Мб на коротком плече хромосомы 9 с 31,5 Мб до 35,5 Мб. Как описано выше, эти 13 вариантов были почти полностью связаны друг с другом и имели r2 0,91-0,94 с наибольшим хитом rs551564683. Среди этих вариантов самый высокий код rs551564683 был единственным вариантом кодирования, и он был классифицирован как повреждающий или вредный с помощью 5 из 9 алгоритмов, которые предсказывают влияние варианта на функцию белка. Топ-рейтинг rs551564683, и у этих 13 вариантов в ООА было 6% маф (maf), хотя в общей популяции их почти не было.The top hits left are rs551564683 and 13 unshaded red variants in Fig. 2, which extend 4 Mb on the short arm of chromosome 9 from 31.5 Mb to 35.5 Mb. As described above, these 13 variants were almost completely related to each other and had r2 of 0.91-0.94 with the largest hit rs551564683. Among these variants, the highest coding variant, rs551564683, was the only coding variant, and it was classified as damaging or deleterious by 5 of 9 algorithms that predict the variant's impact on protein function. The top ranking was rs551564683, and these 13 variants had 6% maf in the OOA, although they were almost absent in the general population.

Анализ гаплотипов:Haplotype analysis:

Несовершенный r2 между различными локусами является результатом событий рекомбинации. Был проведен детальный анализ основных 14-ОНП гаплотипов. На Фиг. 3 продемонстрированы 3 основных гаплотипа в этой области 4 Мб. Есть 115 субъектов (1 гомозигота и 114 гетерозигот) с гаплотипом А, которые имели идентичные генотипы по 14 ОНП, не предоставили информации о том, какой ОНП может быть причиной. Шесть субъектов имели гаплотип B, который содержал гетерозиготные генотипы по rs551564683 плюс 4 расположенных выше ОНП, и 7 субъектов имели гаплотип C, который содержал гетерозиготные генотипы по rs551564683 плюс 9 расположенных ниже ОНП. Рекомбинантные гаплотипы B и C сгруппированы у родственных субъектов, что свидетельствует о том, что они не являются артефактами ошибки генотипирования. В Таблице 3 продемонстрированы значения p rs551564683 после добавления индивидуумов с гаплотипами B и C в одну группу по сравнению с индивидуумами с гаплотипом A. Imperfect r2 between different loci results from recombination events. A detailed analysis of the main 14-SNP haplotypes was carried out. In FIG. Figure 3 demonstrates the 3 major haplotypes in this 4 Mb region. There are 115 subjects (1 homozygote and 114 heterozygotes) with haplotype A who had identical genotypes for 14 SNPs who did not provide information about which SNP might be the cause. Six subjects had haplotype B, which contained heterozygous genotypes at rs551564683 plus 4 upstream SNPs, and 7 subjects had haplotype C, which contained heterozygous genotypes at rs551564683 plus 9 downstream SNPs. Recombinant haplotypes B and C clustered in related subjects, suggesting that they are not artifacts of genotyping error. Table 3 shows the p values of rs551564683 after adding individuals with haplotypes B and C into the same group compared with individuals with haplotype A.

Таблица 3: Результаты анализа гаплотиповTable 3: Haplotype analysis results

AA BB CC B+CB+C НосителиCarriers 115115 77 66 1313 Всего NTotal N 10631063 10701070 10691069 10761076 rs551564683rs551564683 3,43E-053.43E-05 1,40E-051.40E-05 1,18E-051.18E-05 4,82E-064.82E-06

Добавление каждого из гаплотипов B и C в отдельности улучшило значение p, а добавление обоих из них улучшило значение p еще больше. Улучшенные значения р показали, что оба гаплотипа В и С несут аллель являющийся причиной. Единственный общий ОНП между B и C был rs551564683, который считался вариантом, являющимся причиной.Adding each of haplotypes B and C individually improved the p value, and adding both of them improved the p value even more. Improved p values indicated that both haplotypes B and C carried the causative allele. The only common SNP between B and C was rs551564683, which was considered a causative variant.

Врожденное нарушение гликозилирования связанное с B4GALT1 согласуется с функциональной ролью rs551564683: A congenital disorder of glycosylation associated with B4GALT1 is consistent with a functional role for rs551564683:

Было проведено Полнофенотипический Поиск Ассоциаций (ПФПА -PheWAS - phenotype-wide association study) для проверки ассоциации rs551564683 со всеми признаками в базе данных амишей. Самая сильная связь после ЛПНП (р=3,3E-18) и общего холестерина (р=3,0E-18) была обнаружена с аспартаттрансаминазой (АСТ) (р=3,0E-8), где гомозиготы рецессивных аллелей имели двукратное повышение уровня АСТ по сравнению с гомозиготами дикого типа. Ранее сообщалось о повышении АСТ в случае врожденного расстройства гликозилирования (CGD - Congenital Disorder of Glycosylation), вызванного введением сдвига рамки в B4GALT1, что привело к усеченному дисфункциональному белку. Кроме того, наблюдалась сильная связь с уровнями фибриногена (p=5,0E-4), где уровень рецессивных гомозигот был на около 20% ниже, чем у дикого типа, что соответствовало дефекту свертывания крови у того же пациента с CDG. Кроме того, в небольшом эксперименте было выявлено 50% повышение (p=0,02) уровня креатинкиназы в сыворотке у 13 рецессивных аллельных гомозигот по сравнению с 13 гомозиготами дикого типа. Эта согласованность в фенотипе, связанном с миссенс-ОНП и вызванными усеченной вставкой в B4GALT1, еще более подтверждает, что B4GALT1 rs551564683 ОНП является причинно-следственным/функциональным геном и вариантом в этой области.A phenotypic-wide association study (PheWAS) was conducted to test the association of rs551564683 with all traits in the Amish database. The strongest association, after LDL (p=3.3E-18) and total cholesterol (p=3.0E-18), was found with aspartate transaminase (AST) (p=3.0E-8), where homozygotes of recessive alleles had a twofold increase AST levels compared to wild-type homozygotes. Previously, an increase in AST was reported in the case of Congenital Disorder of Glycosylation (CGD), caused by the introduction of a frameshift in B4GALT1 , which led to a truncated dysfunctional protein. Additionally, there was a strong association with fibrinogen levels (p=5.0E-4), where the level of recessive homozygotes was about 20% lower than the wild type, consistent with a coagulation defect in the same patient with CDG. Additionally, a small experiment found a 50% increase (p=0.02) in serum creatine kinase levels in 13 recessive allelic homozygotes compared with 13 wild-type homozygotes. This consistency in the phenotype associated with missense SNPs and those caused by a truncated insertion in B4GALT1 further supports the B4GALT1 rs551564683 SNP as the causative/functional gene and variant in this region.

Ассоциация между липидными субфракциями и rs551564683 была исследована в подгруппе из 759 индивидуумова-амишей, и была обнаружена ассоциация с более низкими уровнями почти всех субфракций со значительными или незначительными p-значениями, как продемонстрировано в Таблице 4. The association between lipid subfractions and rs551564683 was examined in a subset of 759 Amish individuals, and an association was found with lower levels of almost all subfractions with significant or nonsignificant p-values, as demonstrated in Table 4.

Показатель кальцификации коронарных артерий, показатель кальцификации аорты и перикардиальный жир показали тенденцию ассоциации с более низкими уровнями, но без значимых p-значений. Coronary artery calcification score, aortic calcification score, and pericardial fat showed a trend of association with lower levels, but without significant p-values.

ПФПА также обнаружил, что rs551564683 ассоциируется с более высоким креатинином и более низкой СКФ, а также с более высоким гематокритом и низкими базофилами.PFPA also found that rs551564683 was associated with higher creatinine and lower GFR, as well as higher hematocrit and lower basophils.

Таблица 4: Ассоциация между rs551564683 и липидными субфракциями у 759 особей ООАTable 4: Association between rs551564683 and lipid subfractions in 759 OOA individuals

ПризнакSign размер эффектаeffect size р-значениеp-value ХолHall -1,66E+01-1.66E+01 3,79E-043.79E-04 ЛПВПHDL -4,16E+00-4.16E+00 8,72E-038.72E-03 ЛПВП2HDL2 -1,51E+00-1.51E+00 4,53E-024.53E-02 ЛПВП2aHDL2a -9,26E-01-9.26E-01 9,93E-029.93E-02 ЛПВП2bHDL2b -1,94E-01-1.94E-01 2,96E-012.96E-01 ЛПВП2cHDL2c -2,64E-01-2.64E-01 2,14E-012.14E-01 ЛПВП3HDL3 -2,64E+00-2.64E+00 3,98E-033.98E-03 ЛПВП3aHDL3a -1,51E+00-1.51E+00 2,00E-022.00E-02 ЛПВП3bHDL3b -1,68E-01-1.68E-01 4,16E-014.16E-01 ЛПВП3cHDL3c -5,93E-01-5.93E-01 1,47E-021.47E-02 ЛПВП3dHDL3d -4,44E-01-4.44E-01 2,48E-022.48E-02 ЛПППBOB -7,31E-01-7.31E-01 4,92E-014.92E-01 ЛППП1LPPP1 -1,19E-02-1.19E-02 9,73E-019.73E-01 ЛППП2LPPP2 -7,65E-01-7.65E-01 3,37E-013.37E-01 ЛПНПLDL -1,23E+01-1.23E+01 2,37E-032.37E-03 ЛПНП1LDL1 -2,22E+00-2.22E+00 7,20E-027.20E-02 ЛПНП2LDL2 -5,64E+00-5.64E+00 3,99E-023.99E-02 ЛПНП3LDL3 -3,81E+00-3.81E+00 1,32E-011.32E-01 ЛПНП4LDL4 -3,96E-02-3.96E-02 9,65E-019.65E-01 ЛПНПРеальн.LDLReal. -1,12E+01-1.12E+01 9,53E-049.53E-04 LpaLpa -2,15E-01-2.15E-01 6,34E-016.34E-01 Lpa1Lpa1 -2,91E-01-2.91E-01 3,00E-013.00E-01 LpA2LpA2 4,67E-024.67E-02 8,27E-018.27E-01 Lpa3Lpa3 2,31E-012.31E-01 5,04E-015.04E-01 Lpa4Lpa4 -2,91E-02-2.91E-02 9,19E-019.19E-01 Lpa5Lpa5 -2,48E-01-2.48E-01 3,11E-013.11E-01 Остаточный ЛипопротеинResidual Lipoprotein -7,23E-01-7.23E-01 5,97E-015.97E-01 TCЛПВП отношениеTCLDL ratio -3,29E-02-3.29E-02 7,68E-017.68E-01 Общ.НеЛПНПTotal Non-LDL -1,24E+01-1.24E+01 3,97E-033.97E-03 Общ.lЛПОНПTotal VLDL -1,03E-01-1.03E-01 8,70E-018.70E-01 ТриглицеридTriglyceride 2,19E+002.19E+00 6,46E-016.46E-01 ЛПОНП1плюс2VLDL1plus2 -4,10E-02-4.10E-02 8,86E-018.86E-01 ЛПОНП3VLDL3 6,15E-036.15E-03 9,86E-019.86E-01 ЛПОНП3aVLDL3a 2,28E-022.28E-02 8,97E-018.97E-01 ЛПОНП3bVLDL3b -6,57E-02-6.57E-02 7,30E-017.30E-01

Пример 2: Подготовка проб и секвенированиеExample 2: Sample Preparation and Sequencing

Концентрации образцов геномной ДНК были получены от амишей, а затем перенесены в собственное учреждение и хранились при -80°C (LiCONiC TubeStore) до анализа последовательности. Количество образца определяли по флуоресценции (Life Technologies), а качество оценивали, прогоняя 100 нг образца в 2% предварительно залитом агарозном геле (Life Technologies). Genomic DNA sample concentrations were obtained from Amish and then transferred to an in-house facility and stored at -80°C (LiCONiC TubeStore) until sequence analysis. Sample quantity was determined by fluorescence (Life Technologies), and quality was assessed by running 100 ng of sample on a 2% preloaded agarose gel (Life Technologies).

Образцы ДНК были нормализованы, и каждый образец был обработан до средней длины фрагмента 150 пар оснований с использованием сфокусированной акустической энергии (Covaris LE220). Порезанную геномную ДНК готовили для захвата экзома с помощью специального набора реагентов от Kapa Biosystems с использованием полностью автоматизированного подхода, разработанного собственными силами. Уникальный штрих-код из 6 пар оснований был добавлен к каждому фрагменту ДНК во время подготовки библиотеки для облегчения захвата и секвенирования мультиплексного экзома. Равные количества образца объединяли перед захватом экзома с помощью инструмента для дизайна xGen, доступном от IDT, с некоторыми модификациями. Мультиплексированные образцы были секвенированы с использованием парного секвенирования 75 пар оснований на Illumina v4 HiSeq 2500.DNA samples were normalized and each sample was processed to an average fragment length of 150 bp using focused acoustic energy (Covaris LE220). Sheared genomic DNA was prepared for exome capture using a custom reagent kit from Kapa Biosystems using a fully automated approach developed in-house. A unique 6-bp barcode was added to each DNA fragment during library preparation to facilitate multiplex exome capture and sequencing. Equal amounts of sample were pooled before exome capture using the xGen design tool available from IDT with some modifications. Multiplexed samples were sequenced using 75-bp paired-end sequencing on an Illumina v4 HiSeq 2500.

Необработанные данные последовательности, сгенерированные на платформе Illumina Hiseq 2500, были загружены на высокопроизводительный вычислительный ресурс в DNAnexus (DNAnexus Inc., Mountain View, CA), а автоматизированные рабочие процессы обработали необработанные файлы.bcl в аннотированные проявления вариантов. Исходные показания были назначены для соответствующих образцов для анализа на основе конкретных штрих-кодов образцов с использованием программного обеспечения CASAVA (Illumina Inc., Сан-Диего, Калифорния). Raw sequence data generated on the Illumina Hiseq 2500 platform were uploaded to a high-performance computing resource in DNAnexus (DNAnexus Inc., Mountain View, CA), and automated workflows processed the raw .bcl files into annotated variant occurrences. Initial readings were assigned to the appropriate samples for analysis based on specific sample barcodes using CASAVA software (Illumina Inc., San Diego, CA).

Затем показания для конкретных образцов были приведены в соответствие с эталонной последовательностью с использованием BWA-mem (Li and Durbin, Bioinformatics, 2009, 25, 1754-1760). Это привело к созданию файла двоичного выравнивания (BAM - binary alignment) для каждого образца со всеми считываниями конкретного образца и геномными координатами, с которыми сопоставлено каждое чтение. После выравнивания чтения образца были оценены, чтобы идентифицировать и помечать дубликаты чтения с помощью инструмента Picard MarkDuplicates (picard.sourceforge.net), создавая файл выравнивания с каждым отмеченным дублированием чтения (duplicatesMarked.BAM). Sample-specific reads were then aligned to the reference sequence using BWA-mem (Li and Durbin, Bioinformatics, 2009, 25, 1754-1760). This resulted in the creation of a binary alignment (BAM) file for each sample, with all the reads for that particular sample and the genomic coordinates to which each read was mapped. Once aligned, sample reads were scored to identify and mark duplicate reads using the Picard MarkDuplicates tool (picard.sourceforge.net), creating an alignment file with each marked duplicate read (duplicatesMarked.BAM).

Набор инструментов для анализа генома (GATK - Genome Analysis Toolkit) (Van der Auwera, Cur. Protocols in Bioinformatics, 2013, 11, 11-33; McKenna, Genome Res., 2010, 20, 1297-1303) затем использовался для проведения локальной перестройки выровненных и помеченных как дубликаты чтений каждого образца. Затем GATK HaplotypeCaller использовался для обработки перестроенных считываний, помеченных как дубликаты, и для идентификации всех экзонных положений, в которых образец отличается от эталона генома, включая вариации одиночного нуклеотида и инделы, а также зиготность варианта в образце в любой позиции где этот конкретный образец отличается от эталонного. The Genome Analysis Toolkit (GATK) (Van der Auwera, Cur. Protocols in Bioinformatics, 2013, 11, 11-33; McKenna, Genome Res., 2010, 20, 1297-1303) was then used to perform local rearrangements of aligned and labeled duplicate reads from each sample. The GATK HaplotypeCaller was then used to process rearranged reads flagged as duplicates and to identify all exonic positions at which the sample differs from the genome reference, including single nucleotide variations and indels, as well as the zygosity of the variant in the sample at any position where that particular sample differs from reference

Связанные измерения, включая количество считываний, назначенных как для эталонного, так и для альтернативного аллеля, качество генотипа, представляющее достоверность вызова генотипа, и общее качество варианта проявления в этой позиции, выводились на каждом сайте варианта. Затем для оценки общего показателя качества вариантов выборки использовали перекалибровку показателя качества вариантов (VQSR - Variant Quality Score Recalibration) из GATK, используя обучающие наборы данных для оценки и пересчета этого показателя для повышения специфичности. Метрическая статистика была собрана для каждого образца, чтобы оценить производительность захвата, производительность выравнивания и проявление варианта. После завершения когортного секвенирования VCF на уровне проекта был создан путем совместного генотипирования с использованием GATK для получения генотипа и связанной метрической информации для всех образцов в любом месте, где любой образец в когорте несет вариант из эталонного генома. Именно этот VCF на уровне проекта использовался для последующего статистического анализа. В дополнение к VQSR варианты были аннотированы с помощью метрики «Качество по глубине» (QD - Quality By Depth) с использованием GATK, а также биаллельных вариантов с QD> 2,0, показателями пропущенности <1% и равновесными p-значениями Харди-Вайнберга> 1,0×10-6 были сохранены для дальнейшего анализа. Associated measures, including the number of reads assigned to both the reference and alternative allele, genotype quality representing the confidence of the genotype call, and the overall quality of the variant expression at that position, were output at each variant site. Variant Quality Score Recalibration (VQSR) from GATK was then used to estimate the overall quality score of the sample variants, using the training datasets to estimate and recalculate this score to improve specificity. Metric statistics were collected for each sample to evaluate capture performance, alignment performance, and variant expression. Once cohort sequencing was completed, a project-level VCF was created by co-genotyping using GATK to obtain genotype and associated metric information for all samples anywhere where any sample in the cohort carried a variant from the reference genome. It was this project-level VCF that was used for subsequent statistical analyses. In addition to VQSR, variants were annotated with the Quality By Depth metric using GATK, as well as biallelic variants with QD > 2.0, missingness rates < 1%, and Hardy-Weinberg equilibrium p-values > 1.0×10 -6 were retained for further analysis.

До анализа данных последовательностей расположенных ниже, образцы с сообщенным пол, который не соответствовал генетически определенному полу, образцы с высокими показателями гетерозиготности, низким охватом последовательности (определяемый как охват в 20 раз менее 75% целевых оснований) или необычно высокой степенью скрытности родства и генетически идентифицированные дубликаты образцов были исключены.Prior to analysis of downstream sequence data, samples with a reported sex that did not correspond to a genetically determined sex, samples with high rates of heterozygosity, low sequence coverage (defined as 20-fold coverage of less than 75% of the target bases), or unusually high degree of relationship secrecy, and genetically identified duplicate samples were excluded.

Варианты последовательности были аннотированы с использованием конвейера аннотаций, который использует ANNOVAR (Wang et al., Nuc. Acids Res., 2010, 38, e164) и другие настраиваемые алгоритмы для аннотирования и анализа. Варианты были классифицированы в соответствии с их потенциальными функциональными эффектами, а затем отфильтрованы по их наблюдаемым частотам в общедоступных базах данных по контролю населения и базах данных, чтобы отфильтровать распространенные полиморфизмы и высокочастотные, вероятно, доброкачественные варианты. Алгоритмы биоинформационного прогнозирования функциональных эффектов вариантов наряду с оценками сохранения, основанными на сопоставлении нескольких видов, были включены в процесс аннотирования вариантов и использовались для информирования о потенциальной вредности идентифицированных вариантов-кандидатов. Sequence variants were annotated using an annotation pipeline that uses ANNOVAR (Wang et al., Nuc. Acids Res., 2010, 38, e164) and other custom algorithms for annotation and analysis. Variants were classified according to their potential functional effects and then filtered by their observed frequencies in public population control and database databases to filter out common polymorphisms and high-frequency, likely benign variants. Bioinformatics prediction algorithms for the functional effects of variants, along with conservation assessments based on multi-species comparisons, were incorporated into the variant annotation process and used to inform the potential harmfulness of identified candidate variants.

Пример 3: Частота N352S Example 3: N352S Frequency B4GALT1B4GALT1 rs551564683 увеличена у амишей rs551564683 is increased in Amish

Посредством секвенирования экзома и анализа ассоциации у ~ 4700 субъектов-амишей было обнаружено, что rs551564683 на хромосоме 9 тесно связана с уровнем общего холестерина (p=1,3E-10) (см. Фиг. 4). RS551564683 кодирует миссенс-вариант, в котором серин заменен на аспарагин в положении 352 в белке B4GALT1. Следующим наиболее высоко-ассоциированным с ЛНП вариантом в регионе был rs149557496 с p-значением только 10-5, что указывает на то, что вариант N352S является наиболее вероятным причинным вариантом. Ссылаясь конкретно на Фиг. 4, в данных последовательности экзома варианта в самом высоком LD с Asn352Ser B4GALT1 был rs149557496 в HRCT1, удаленный 2,8 Мб, R2 0,78, значение P с ЛПНП у амишей 10-5. Данные по последовательности всего генома у амишей (TOPMED) не смогли идентифицировать вариант, более тесно связанный с ЛПНП-C в этом регионе.Through exome sequencing and association analysis in ~4700 Amish subjects, rs551564683 on chromosome 9 was found to be strongly associated with total cholesterol levels (p=1.3E-10) (see Figure 4). RS551564683 encodes a missense variant in which serine is replaced by asparagine at position 352 in the B4GALT1 protein. The next highest LDL-associated variant in the region was rs149557496 with a p-value of only 10 -5 , indicating that the N352S variant is the most likely causative variant. Referring specifically to FIG. 4, in the exome sequence data, the variant in the highest LD with Asn352Ser B4GALT1 was rs149557496 in HRCT1, 2.8 Mb removed, R 2 0.78, P value with Amish LDL 10 -5 . Whole Genome Sequence Data in the Amish (TOPMED) failed to identify a variant more closely related to LDL-C in this region.

Дальнейший анализ показал, что частота вариаций N352S B4GALT1 была более чем в 1000 раз увеличена в популяции амишей (см. Рис. 5). Данные показали, что в когорте 4725 амишей было идентифицировано 548 гетерозиготных носителей для аллеля, содержащего rs551564683, и 13 носителей были гомозиготными по аллелю (см. Рис. 5). Для сравнения, был проанализирован совокупный набор данных других популяционных когорт, доступных исследователям - всего 125 401 особь - и только 79 гетерозигот и 5 гомозигот были идентифицированы в этом совокупном наборе данных. Частота аллелей в когорте амишей оценивалась около в 0,06 по сравнению с около 0,0025 в наборе данных (см. Фиг. 5). Считается, что генетический дрейф может объяснить более высокую частоту этого аллеля у амишей.Further analysis revealed that the frequency of the N352S B4GALT1 variant was more than 1000-fold increased in the Amish population (see Fig. 5). The data showed that in a cohort of 4,725 Amish, 548 heterozygous carriers were identified for the allele containing rs551564683, and 13 carriers were homozygous for the allele (see Fig. 5). For comparison, the aggregate data set of other population cohorts available to researchers - a total of 125,401 individuals - was analyzed and only 79 heterozygotes and 5 homozygotes were identified in this aggregate data set. The allele frequency in the Amish cohort was estimated to be about 0.06 compared to about 0.0025 in the data set (see Figure 5). It is believed that genetic drift may explain the higher frequency of this allele in the Amish.

Пример 4: Example 4: N352S B4GALT1N352S B4GALT1 связан со снижением уровня липидов в сыворотке и повышением АСТ associated with decreased serum lipids and increased AST

Была оценена ассоциация вариации N352S B4GALT1 с различными фенотипами, включая сывороточные липиды, ишемическую болезнь сердца (ИБС - CAD -coronary artery disease) и особенностями печени. Ассоциации были проведены на основе когорты амишей, с индивидуумами, которые были гомозиготными по эталонному аллелю, которые были гетерозиготными по альтернативному аллелю и которые были гомозиготными по альтернативному аллелю. Были определены генотипические средства для липидных и печеночных признаков и риска развития ИБС, а меры воздействия были скорректированы путем устранения влияния возраста и квадрата возраста субъекта, пола субъекта и исследования (поскольку данные о фенотипе были собраны из нескольких исследований за период лет). В случае перикардиального жира генотипические средства были дополнительно скорректированы на ИМТ. Величины влияния вариации на измеренные фенотипы измеряли с 95% доверительным интервалом. Признаки и результаты представлены на Фиг. 6, Фиг. 7 и Фиг. 8.The association of the N352S B4GALT1 variation with various phenotypes, including serum lipids, coronary artery disease (CAD), and liver features, was assessed. Associations were made based on the Amish cohort, with individuals who were homozygous for the reference allele, who were heterozygous for the alternative allele, and who were homozygous for the alternative allele. Genotypic means for lipid and liver traits and CHD risk were determined, and effects were adjusted by removing the effects of age and the square of subject's age, subject's sex, and study (because phenotypic data were collected from multiple studies over a period of years). For pericardial fat, genotypic means were further adjusted for BMI. The magnitude of the effect of variation on the measured phenotypes was measured with 95% confidence intervals. The features and results are shown in FIG. 6, Fig. 7 and Fig. 8.

Как продемонстрировано на Фиг. 6, наличие вариации N352S, как правило, коррелировало с уменьшением сывороточных липидов, особенно для общего холестерина (значение p 1,3×10-10) и ЛПНП (значение p 1,8×10-9), который достиг сильной статистической значимости. Индивидуумы, гетерозиготные и гомозиготные по этому изменению, продемонстрировали снижение уровней ЛПНП на 17,3 мг/дл и 31,2 мг/дл соответственно. Существовала тенденция между вариантом и уменьшением кальцификации коронарной артерии. Кроме того, наличие этой вариации коррелировало с повышенными уровнями аспартатаминотрансферазы (АСТ) (значение p 6,0 × 10-8). Было определено, что значение p для рецессивной модели для уровней АСТ составляет 9 × 10-23. Изменения, по-видимому, не коррелируют с повышенными уровнями аланинаминотрансферазы (АЛТ), уровнями щелочной фосфатазы или уровнями жира в печени. Уровни холестерина, ЛПНП и АСТ графически продемонстрированы на Фиг. 7. На Фиг. 7 уровни холестерина, ЛПНП и АСТ продемонстрированы для субъектов, которые были гомозиготными (ТТ) для эталонного аллеля, гетерозиготными (СТ) для альтернативного аллеля и гомозиготными (СС) для альтернативного аллеля. Показанные значения не скорректированы. Значения были пересчитаны на основе корректировок по возрасту и квадрату возраста, полу и исследованию (Таблица в нижней части рисунка 7). As shown in FIG. 6, the presence of N352S variation tended to correlate with decreased serum lipids, especially for total cholesterol (p value 1.3×10 -10 ) and LDL (p value 1.8×10 -9 ), which reached strong statistical significance. Individuals heterozygous and homozygous for this change showed reductions in LDL levels of 17.3 mg/dL and 31.2 mg/dL, respectively. There was a trend between variant and decreased coronary artery calcification. Additionally, the presence of this variation was correlated with elevated aspartate aminotransferase (AST) levels (p value 6.0 x 10 -8 ). The p value for the recessive model for AST levels was determined to be 9 × 10 -23 . The changes do not appear to correlate with elevated alanine aminotransferase (ALT) levels, alkaline phosphatase levels, or liver fat levels. Cholesterol, LDL and AST levels are graphically demonstrated in FIG. 7. In FIG. 7 cholesterol, LDL, and AST levels are demonstrated for subjects who were homozygous (TT) for the reference allele, heterozygous (HT) for the alternative allele, and homozygous (HS) for the alternative allele. The values shown are not adjusted. Values were recalculated based on adjustments for age and age squared, sex, and study (Table at bottom of Figure 7).

Влияние изменения N352S на липидные субфракции также оценивали. Эти результаты продемонстрированы на Фиг. 8. Ассоциации были проведены на основе когорты амишей, с индивидуумами, которые были гомозиготными по эталонному аллелю, которые были гетерозиготными по альтернативному аллелю и которые были гомозиготными по альтернативному аллелю. Результаты на Фиг. 8 демонстрируют, что изменение N352S B4GALT1 ассоциируется с уменьшением во всех протестированных липидных субфракциях.The effect of changing N352S on lipid subfractions was also assessed. These results are demonstrated in FIG. 8. Associations were made based on the Amish cohort, with individuals who were homozygous for the reference allele, who were heterozygous for the alternative allele, and who were homozygous for the alternative allele. Results in Fig. 8 demonstrate that the N352S B4GALT1 change is associated with a decrease in all lipid subfractions tested.

Пример 5: Example 5: N352S B4GALT1N352S B4GALT1 связан со сниженным уровнем фибриногена associated with decreased fibrinogen levels

Ассоциация вариаций N352S B4GALT1 с уровнями фибриногена также была оценена в подмножестве образцов. Что касается сывороточных липидов, CAD и особенностей печени, оцененных в Примере 4, связь с уровнями фибриногена была выполнена на основе когорты амишей, с лицами, которые были гомозиготными по альтернативному аллелю, которые были гетерозиготными по эталонному аллелю, и которые были гомозиготными по альтернативному аллелю. Генотипические средние значения уровней фибриногена были определены в двух подгруппах индивидуумов - индивидуумах, не принимавших режим клопидогрела (наивные по препарату), и индивидуумов, принимавших режим клопидогрела (на клопидогреле), и, как часть анализа, средние уровни в каждой группе были скорректированы путем устранения влияния возраста субъекта и возраста в квадрате, пола субъекта и исследования. Величины эффекта изменения уровней фибриногена измеряли при доверительном интервале 95%. Как продемонстрировано на Фиг. 9, наличие вариации N352S было связано с пониженными уровнями фибриногена у каждого из наивных препаратов (значение p 1,15×10-3) и на клопидогреле (значение p 2,74×10-5) группы. Подгруппа, не получавшая лекарств, показала снижение фибриногена на около 24 мг/дл (см. Рис. 9). Подгруппа по клопидогрелу показала снижение фибриногена на около 32,5 мг/дл (см. Рис. 9). The association of N352S B4GALT1 variations with fibrinogen levels was also assessed in a subset of samples. For serum lipids, CAD, and liver features assessed in Example 4, associations with fibrinogen levels were made based on the Amish cohort, with individuals who were homozygous for the alternative allele, who were heterozygous for the reference allele, and who were homozygous for the alternative allele . Genotypic means of fibrinogen levels were determined in two subgroups of individuals - individuals not on a clopidogrel regimen (drug-naive) and individuals on a clopidogrel regimen (clopidogrel-on) - and, as part of the analysis, the average levels in each group were adjusted by eliminating the influence of subject age and age squared, subject gender, and study. Effect sizes for changes in fibrinogen levels were measured at 95% confidence intervals. As shown in FIG. 9, the presence of N352S variation was associated with reduced fibrinogen levels in each of the naïve (p value 1.15×10 -3 ) and clopidogrel (p value 2.74×10 -5 ) groups. The drug-free subgroup showed a decrease in fibrinogen of about 24 mg/dL (see Figure 9). The clopidogrel subgroup showed a decrease in fibrinogen of approximately 32.5 mg/dL (see Fig. 9).

Пример 6: Дополнительные ассоциации N352SExample 6: Additional N352S Associations B4GALT1 B4GALT1

В когорте амишей также была проведена оценка связей между вариацией N352S B4GALT1 и другими признаками, включая уровни креатинина, расчетную скорость клубочковой фильтрации (рСКФ), уровни базофилов и процент гематокрита. Как продемонстрировано на Фиг. 9, вариант слабо связан с небольшим повышением уровней креатинина, но незначительно связан с рСКФ, уровнями базофилов или процентом гематокрита.In the Amish cohort, associations between the N352S B4GALT1 variation and other traits including creatinine levels, estimated glomerular filtration rate (eGFR), basophil levels, and percentage hematocrit were also assessed. As shown in FIG. 9, the variant was weakly associated with a small increase in creatinine levels, but not significantly associated with eGFR, basophil levels, or percent hematocrit.

Пример 7: Нокаут ортолога Example 7: Ortholog Knockout b4galt1b4galt1 у рыбок данио in zebrafish

Параллельно с данными, полученными в клеточных анализах, была использована модель рыбок данио для изучения влияния Asn352Ser B4GALT1 на ЛПНП. In parallel with the data obtained from cellular assays, a zebrafish model was used to study the effect of Asn352Ser B4GALT1 on LDL.

Разведение данио, морфолино инъекция и валидацияZebrafish breeding, morpholino injection and validation

Запасы рыбок данио дикого типа (Tubingen) использовали для создания эмбрионов для инъекции морфолино. Взрослую рыбу содержали и разводили при 27-29°С, а эмбрионы выращивали при 28,5°С. Все животные содержались и разводимлись в соответствии с протоколами, утвержденными Комитетом по уходу и использованию животных Университета штата Мэриленд. Морфолино-антисмысловые олигонуклеотиды (MO) были получены (Gene Tools, Inc.) на основе ранее опубликованных MO, нацеленных против b4galt1 (Machingo et al., Dev. Biol., 2006, 297, 471-482). MO инъецировали на стадии 1-2 клеток и проверяли путем количественной оценки кОТ-ПЦР транскрипта b4galt1 дикого типа. Токсичность, не являющуюся целью, оценивали с помощью количественной оценки с помощью кОТ-ПЦРR изоформы delta113 p53 (Robu et al., PLoS Genet., 2007, 3, e78). В экспериментах по сохранению мРНК мРНК B4GALT1 человека транскрибировали из плазмидного вектора pCS2+, содержащего открытую рамку считывания (ORF - open reading frame) гена дикого типа или варианта N352S. мРНК смешивали с МО в различных концентрациях и совместно вводили в 1-2 эмбриона на клеточной стадии. Для каждого эксперимента с инъекцией инъецировали всего 200-400 эмбрионов, и каждый эксперимент повторяли минимум три раза.Wild-type zebrafish stocks (Tubingen) were used to generate embryos for morpholino injection. Adult fish were kept and bred at 27-29°C, and embryos were raised at 28.5°C. All animals were housed and bred in accordance with protocols approved by the University of Maryland Institutional Animal Care and Use Committee. Morpholino antisense oligonucleotides (MOs) were generated (Gene Tools, Inc.) based on previously published MOs targeting b4galt1 (Machingo et al., Dev. Biol., 2006, 297, 471-482). MO was injected at the 1–2 cell stage and verified by qRT-PCR quantification of the wild-type b4galt1 transcript. Off-target toxicity was assessed by qRT-PCR quantification of the delta113 isoform of p53 (Robu et al., PLoS Genet., 2007, 3, e78). In mRNA conservation experiments, human B4GALT1 mRNA was transcribed from the pCS2 + plasmid vector containing the open reading frame (ORF) of the wild-type or N352S variant gene. The mRNA was mixed with MO at various concentrations and co-injected into 1-2 cell-stage embryos. For each injection experiment, a total of 200–400 embryos were injected, and each experiment was repeated at least three times.

Количественная оценка ЛПНП у рыбок даниоQuantification of LDL in zebrafish

Сто личинок через 5 дней после оплодотворения (dpf - days post fertilization) гомогенизировали в эксперименте в 400 мкл охлажденного льдом 10 мкМ бутилированного гидрокситолуола. Гомогенат фильтровали через мембранный фильтр Dura PVDF 0,45 мкм (Millipore) для подготовки к экстракции липидов. Используя набор для анализа холестерина ЛПВП и ЛПНП/ЛПОНП (Cell Biolabs, Inc.), гомогенат обрабатывали в соответствии с протоколом производителя. После осаждения и разбавления образцы анализировали флуориметрическим анализом с использованием планшет-ридера SpectraMax Gemini EM и программного обеспечения для сбора и анализа данных микропланшетов SoftMax Pro (Molecular Devices).One hundred larvae 5 days post fertilization (dpf) were experimentally homogenized in 400 μl of ice-cold 10 μM butylated hydroxytoluene. The homogenate was filtered through a 0.45 μm Dura PVDF membrane filter (Millipore) in preparation for lipid extraction. Using an HDL and LDL/VLDL cholesterol assay kit (Cell Biolabs, Inc.), the homogenate was processed according to the manufacturer's protocol. After sedimentation and dilution, samples were analyzed by fluorometric analysis using a SpectraMax Gemini EM plate reader and SoftMax Pro microplate acquisition and analysis software (Molecular Devices).

Геномный нокаут ортолога рыбок данио (b4galt1) был получен с использованием CRISPR/Cas9-опосредованного нацеливания на экзон 2. В соответствии с сообщениями об эмбриональной летальности нокаутированных животных у мышей, инъецированные животные F0 не были жизнеспособными для взрослой жизни и постоянно умирали на ювенильных стадиях. Чтобы обойти отсутствие жизнеспособности, использовался нокдаун-подход с использованием ранее сообщавшегося антисмыслового антисмыслового морфолино-олигонуклеотида (МО), блокирующего сплайсинг, вводимого эмбрионам (Machingo et al., Dev. Biol., 2006, 297, 471-482). Эффективность МО была подтверждена при двух разных концентрациях с помощью кОТ-ПЦР (см. Рис. 10) и исключила возможность нецелевой токсичности (см. Рис. 11). Чтобы количественно оценить изменения в уровнях ЛПНП, инъецировали 8 нг МО и инъецированные эмбрионы культивировали до 5 дней после оплодотворения (dpf), на этой стадии личинки анализировали на общий ЛПНП согласно ранее опубликованным протоколам (O'Hare et al., J. Lipid Res., 2014, 55, 2242-2253). Наблюдалось значительное снижение ЛПНП у личинок с инъекцией МО по сравнению с контрольными личинками, что согласуется с ролью b4galt1 в гомеостазе ЛПНП (см. Рис. 12). Этот результат был подтвержден с использованием второго нацеленного на сплайсинг экзона 2 МО, который приводил к снижению концентрации ЛПНП при инъекции 2 нг МО (данные не продемонстрированы). Чтобы подтвердить специфичность этих наблюдений и проверить функциональность человеческого B4GALT1 у рыбок данио, полноразмерная мРНК, кодирующая ген человека, была сгенерирована транскрипцией in vitro из плазмиды pCS2+, несущей открытую рамку считывания (ORF) человеческого гена. Чтобы оценить способность мРНК человека дикого типа спасать фенотип нокдауна, ее вводили совместно с b4galt1 MO в эмбрионы и оценивали ЛПНП у личинок, не подвергшихся воздействию. Три концентрации мРНК (10 мкг, 25 мкг и 50 мкг) совместно вводили с 8 нг МО. Совместная инъекция 50 мкг мРНК B4GALT1 приводила к уровням ЛПНП, которые были статистически неотличимы от уровней у личинок, которым инъецировали только контрольный МО (значение р=0,14), что позволяет предположить, что мРНК человека может сохранить эффекты нокдауна гена рыбок данио. (см. Фиг. 12; личинки обрабатывали МО против b4galt1, МО совместно инъецировали мРНК B4GALT1 человека ДТ (сохранение ДТ) или МО совместно инъецировали с мРНК B4GALT1, кодирующей мутацию Asn352Ser (спасение N352S)).A genomic knockout of the zebrafish orthologue (b4galt1) was generated using CRISPR/Cas9-mediated targeting of exon 2. Consistent with reports of embryonic lethality of knockout animals in mice, injected F0 animals were not viable into adulthood and consistently died at juvenile stages. To circumvent the lack of viability, a knockdown approach was used using a previously reported splicing blocking antisense morpholino oligonucleotide (MO) injected into embryos (Machingo et al., Dev. Biol., 2006, 297, 471-482). The effectiveness of MO was confirmed at two different concentrations using qRT-PCR (see Figure 10) and excluded the possibility of off-target toxicity (see Figure 11). To quantify changes in LDL levels, 8 ng MO was injected and injected embryos were cultured until 5 days post fertilization (dpf), at which stage larvae were analyzed for total LDL according to previously published protocols (O'Hare et al., J. Lipid Res. , 2014, 55, 2242-2253). There was a significant decrease in LDL cholesterol in MO-injected larvae compared to control larvae, consistent with a role for b4galt1 in LDL homeostasis (see Fig. 12). This result was confirmed using a second splice-targeted exon 2 MO, which resulted in a decrease in LDL concentration when injected with 2 ng MO (data not shown). To confirm the specificity of these observations and test the functionality of human B4GALT1 in zebrafish, full-length mRNA encoding the human gene was generated by in vitro transcription from the pCS2 + plasmid carrying the open reading frame (ORF) of the human gene. To assess the ability of wild-type human mRNA to rescue the knockdown phenotype, it was co-injected with b4galt1 MO into embryos and LDL was assessed in naïve larvae. Three concentrations of mRNA (10 μg, 25 μg, and 50 μg) were co-administered with 8 ng MO. Co-injection of 50 μg of B4GALT1 mRNA resulted in LDL levels that were statistically indistinguishable from those in larvae injected with control MO alone (p value = 0.14), suggesting that human mRNA may retain the effects of zebrafish gene knockdown. (See Fig. 12; larvae were treated with anti-b4galt1 MO, MO co-injected with WT human B4GALT1 mRNA (WT rescue), or MO co-injected with B4GALT1 mRNA encoding the Asn352Ser mutation (N352S rescue)).

Эти данные подтверждают использование этой системы для функциональной интерпретации вариантов в человеческом B4GALT1 и предполагают, что мРНК B4GALT1 дикого типа человека является функциональной у рыбок данио в отношении регуляции системных уровней ЛПНП. Влияние p.Asn352Ser на функцию B4GALT1 было дополнительно изучено. Используя сайт-направленный мутагенез (O'Hare et al., Hepatology, 2017, 65, 1526-1542), в кодирующую последовательность человеческой конструкции ORF B4GALT1 было введено T-C-изменение для генерации полноразмерной мРНК. Совместная инъекция мРНК B4GALT1 p.352Ser с МО приводила к снижению способности к сохранению фенотипа ЛПНП. Полученная концентрация ЛПНП была на 15% ниже, чем в результате совместной инъекции мРНК дикого типа с МО, со статистически значимым эффектом (39,9 мкМ по сравнению с 46,6 мкМ, р-значение=0,02). Однако этот уровень ЛПНП также был статистически выше, чем у одного b4galt1 MO (значение p=0,01) (см. Рис. 12), что указывает на частичный дефект функции, вызванный миссенс вариантом.These data support the use of this system for the functional interpretation of variants in humanB4GALT1 and suggest that mRNAB4GALT1 human wild-type is functional in zebrafish for the regulation of systemic LDL levels. Effect of p.Asn352Ser on functionB4GALT1 was further studied. Using site-directed mutagenesis (O'Hare et al., Hepatology, 2017, 65, 1526-1542), into the coding sequence of the human ORF constructB4GALT1 a T-C change was introduced to generate full-length mRNA. Co-injection of mRNAB4GALT1 p.352Ser with MO resulted in a decreased ability to maintain the LDL phenotype. The resulting LDL concentration was 15% lower than that resulting from co-injection of wild-type mRNA with MO, with a statistically significant effect (39.9 μM vs. 46.6 μM, p-value=0.02). However, this LDL level was also statistically higher than that of the b4galt1 MO alone (p value = 0.01) (see Fig. 12), indicating a partial defect in function caused by the missense variant.

Пример 8: Целевое генотипированиеExample 8: Targeted Genotyping

Целевое генотипирование ОНП с использованием системы QuantStudio (Thermo Fisher Scientific) было проведено для 3236 пациентов с ООА. Основываясь на структуре LD 14 ОНП, семь ОНП были отобраны для генотипирования, и свидетельство ассоциации для rs551564683 было 4,1E-13, в то время как для других ОНП было около E-10 (Фиг. 14), подтверждая, что rs551564683 представляет собой вариант, являющийся причиной в этом регионе.Targeted SNP genotyping using the QuantStudio system (Thermo Fisher Scientific) was performed on 3236 patients with OOA. Based on the LD structure of 14 SNPs, seven SNPs were selected for genotyping, and the association evidence for rs551564683 was 4.1E-13, while the other SNPs were around E-10 (Figure 14), confirming that rs551564683 is variant that is the cause in this region.

Пример 9: N352S Example 9: N352S B4GALT1B4GALT1 вызывает снижение ферментативной активности при отсутствии изменения стабильности белка или клеточной локализации causes a decrease in enzymatic activity in the absence of changes in protein stability or cellular localization

Исследования свойств B4GALT1 проводили в клетках COS-7 и Huh7, сверхэкспрессирующих человеческий флаг-B4GALT1, меченный эпитопом 352Asn, или меченный эпитопом флаг-B4GALT1 352Ser (Фиг. 15 и 16). Как продемонстрировано на Фиг. 15, изображения конфокальной микроскопии Flag-352Asn или Flag-352Ser с использованием антител B4GALT1 или Flag указывают на идентичную картину окрашивания (маркер масштаба=10 мкм). Как продемонстрировано на Фиг. 16, субклеточная локализация с помощью непрямой иммунофлюоресценции клеток Huh7 показала совместную локализацию эндогенно экспрессированных B4GALT1 и TGN56, маркера аппарата Гольджи. Аналогичная картина совместной локализации наблюдалась независимо от того, были ли гиперэкспрессированы меченый человеческий эпитоп Flag-B4GALT1 352Sn или меченный эпитоп Flag-B4GALT1 352Ser (Фиг. 16). Как продемонстрировано на Фиг. 16, эндогенные B4GALT1, Flag-352Asn и Flag-352ser сверхэкспрессированы в клетках гепатомы Huh7 человека, совместно локализованных с маркером TGN46 сети транс Гольджи. Показаны изображения конфокальной микроскопии эндогенной субклеточной локализации B4GALT1, Flag-352Asn и Flag-352Se в связи с маркером сети транс Гольджи TGN46 с маркером масштаба=10 мкм.Studies of the properties of B4GALT1 were performed in COS-7 and Huh7 cells overexpressing human flag -B4GALT1 epitope-tagged 352Asn or flag-epitope-tagged 352Ser B4GALT1 (Figs. 15 and 16). As shown in FIG. 15, confocal microscopy images of Flag-352Asn or Flag-352Ser using B4GALT1 or Flag antibodies indicate an identical staining pattern (scale marker=10 μm). As shown in FIG. 16, subcellular localization by indirect immunofluorescence of Huh7 cells showed colocalization of endogenously expressed B4GALT1 and TGN56, a Golgi apparatus marker. A similar pattern of co-localization was observed regardless of whether human epitope-tagged Flag- B4GALT1 352Sn or epitope-tagged Flag- B4GALT1 352Ser were overexpressed (Fig. 16). As shown in FIG. 16, endogenous B4GALT1 , Flag-352Asn, and Flag-352ser are overexpressed in human hepatoma Huh7 cells, colocalizing with the trans-Golgi network marker TGN46. Shown are confocal microscopy images of the endogenous subcellular localization of B4GALT1 , Flag-352Asn, and Flag-352Se in association with the trans Golgi network marker TGN46 with scale marker=10 μm.

В клетках COS-7 наблюдалось низкое содержание эндогенного B4GALT1 (Фиг. 17, панель B), поэтому эту клеточную линию использовали для оценки влияния миссенс-мутации на стабильность белка и/или уровни в стационарном состоянии, а также активность галактозилтрансферазы. Результаты показали, что миссенс-мутация не влияет на стабильность белка и/или уровни устойчивого состояния (с помощью вестерн-блоттинга) (Фиг. 17). На Фиг. 17 продемонстрировано влияние 352Ser на стабильность белка и/или уровни устойчивого состояния. На панели A продемонстрированы клетки COS7, экспрессирующие либо белки-метки 352Asn, либо 352Ser Flag-метки, слитые со свободным EGFP, которые были экспрессированы в клетках COS7. Клеточные лизаты анализировали вестерн-блоттингом на B4GALT1, Bactin и EGFP с использованием коммерческих антител. Показан один из четырех подобных экспериментов. На панели B продемонстрированы уровни экспрессии мРНК для гена B4GALT1, определенные с помощью анализа кОТ-ПЦР. Данные представляют собой среднее значение ± СО из 4 экспериментов.Low levels of endogenous B4GALT1 were observed in COS-7 cells (Figure 17, panel B), so this cell line was used to evaluate the effect of the missense mutation on protein stability and/or steady-state levels, as well as galactosyltransferase activity. The results showed that the missense mutation did not affect protein stability and/or steady state levels (by Western blotting) (Figure 17). In FIG. 17 demonstrates the effect of 352Ser on protein stability and/or steady state levels. Panel A shows COS7 cells expressing either 352Asn or 352Ser Flag tag proteins fused to free EGFP, which were expressed in COS7 cells. Cell lysates were analyzed by Western blotting for B4GALT1 , Bactin, and EGFP using commercial antibodies. One of four such experiments is shown. Panel B shows the mRNA expression levels for the B4GALT1 gene determined by qRT-PCR analysis. Data represent the mean ± SD of 4 experiments.

Для определения каталитической активности 352Ser лизаты нетрансфицированных клеток COS-7 и клеток COS-7, трансфицированных одним вектором экспрессии или содержащих вставку кДНК дикого типа или мутантного B4GALT1, анализировали на активность галактозилтрансферазы. При нормализации относительно экспрессии FLAG-меченного белка (эксперимент по иммуноблоттингу на Фиг. 18, панели A и B) ферментативная активность 352Ser была на около 50% ниже по сравнению с 352 Asn (Фиг. 18, панель C). На Фиг. 18 продемонстрировано влияние мутации 352Ser на активность. На панелях A и B продемонстрированы клетки COS7, экспрессирующие слияние белков-меток 352Asn или 352Ser Flag, экспрессированных в клетках COS7. Клеточные лизаты инкубировали с кроличьим анти-Flag IgG или кроличьим преиммунным контрольным IgG. Иммунопреципитаты анализировали вестерн-блоттингом на B4GALT1 или Flag с использованием коммерческих антител. Показан один из четырех подобных экспериментов. Панель C демонстрирует активность B4GALT1 в иммунопреципитатах, измеренную с помощью коммерческого набора (R&D). Каждая точка данных представляет собой среднее значение рассчитанного соотношения удельной активности B4GALT1 с количеством белка 352Asn или 352Ser, выделенного в иммуннопреципитатах. Сигналы от вестерн-блоттинга ECL определяли количественно денситометрией с использованием программного обеспечения ImageJ. Данные представляют собой среднее значение ± SE для 4 экспериментов (*, p <0,05, 352 Asn против 352Ser).To determine the catalytic activity of 352Ser, lysates of untransfected COS-7 cells and COS-7 cells transfected with a single expression vector or containing a wild-type or mutant B4GALT1 cDNA insert were assayed for galactosyltransferase activity. When normalized to FLAG-tagged protein expression (immunoblot experiment in FIG. 18, panels A and B), the enzymatic activity of 352Ser was about 50% lower compared to 352Asn (FIG. 18, panel C). In FIG. 18 demonstrates the effect of the 352Ser mutation on activity. Panels A and B demonstrate COS7 cells expressing a fusion of the 352Asn or 352Ser Flag tag proteins expressed in COS7 cells. Cell lysates were incubated with rabbit anti-Flag IgG or rabbit preimmune control IgG. Immunoprecipitates were analyzed by Western blotting for B4GALT1 or Flag using commercial antibodies. One of four such experiments is shown. Panel C shows B4GALT1 activity in immunoprecipitates measured using a commercial kit (R&D). Each data point represents the average of the calculated ratio of the specific activity of B4GALT1 to the amount of 352Asn or 352Ser protein isolated in the immunoprecipitates. Signals from ECL Western blotting were quantified by densitometry using ImageJ software. Data represent mean ± SE of 4 experiments (*, p < 0.05, 352 Asn vs. 352 Ser).

Эти эксперименты демонстрируют, что эта миссенс-мутация не влияет на уровень экспрессии белка и его локализацию, но приводит к снижению ферментативной активности. These experiments demonstrate that this missense mutation does not affect protein expression levels or localization but does result in decreased enzymatic activity.

Пример 10: Тест на трансферрин с дефектами гликозилирования при врожденных нарушениях гликозилирования (CDG - Congenital Disorders of Glycosylation)Example 10: Test for transferrin with glycosylation defects in congenital disorders of glycosylation (CDG - Congenital Disorders of Glycosylation)

Тест CDG проводили с использованием образцов сыворотки по 0,1 мл от 24 субъектов из 3 групп генотипов (8 рецессивных гомозигот, 8 гетерозигот и 8 основных гомозигот). Каждая рецессивная (minor) гомозигота была сопоставлена с гетерозиготой и доминантной (major) гомозиготой, которые являются либо родными братьями или сестрами, либо близкородственными однополыми индивидами на основе коэффициента родства. Возраст и статус носителя также соответствовали по основным аллельным генам, изменяющим липиды, в APOBR3527Q. The CDG test was performed using 0.1 ml serum samples from 24 subjects from 3 genotype groups (8 recessive homozygotes, 8 heterozygotes and 8 primary homozygotes). Each recessive (minor) homozygote was matched with a heterozygote and a dominant (major) homozygote, who are either siblings or closely related same-sex individuals, based on a relatedness coefficient. Age and carrier status were also matched for major allelic lipid-modifying genes in APOB R3527Q .

Разбавленные водой образцы дважды промывали с использованием иммуноаффинной колонки. Профилирование гликозилирования элюированных белков проводили с использованием масс-спектрометра с двумя диапазонами сканирования, специфичными для APOCIII и трансферрина. Соотношения гликоформ каждого белка использовали для определения дефицита гликозилирования. Тест CDG проводился в медицинской лаборатории Клиники Mayo. Water-diluted samples were washed twice using an immunoaffinity column. Glycosylation profiling of eluted proteins was performed using a dual-scan mass spectrometer specific for APOCIII and transferrin. The glycoform ratios of each protein were used to determine glycosylation deficiency. The CDG test was performed at the Mayo Clinic medical laboratory.

Результаты показали, что все 24 образца имели нормальные уровни соотношения моноолигосахарид/диолигосахарид трансферрин, соотношение α-олигосахарид/диолигосахарид трансферрин, соотношение ApoCIII-1/ApoCIII-2 и ApoCIII-0/ApoCIII-2 коэффициент. Однако, хотя все образцы дикого типа имели нормальные уровни соотношения три-сиало/диолигосахарид-трансферрин, уровень у всех гетерозигот находился в промежуточном диапазоне, а уровень у всех рецессивных гомозигот был ненормальным и значительно выше, чем у подходящего дикого типа и гетерозигот (р=7,6 Е-10) (Фиг. 19). Эти результаты демонстрируют, что эта миссенс-мутация связана с дефектным гликозилированием в результате снижения ферментативной активности B4GALT1.The results showed that all 24 samples had normal levels of transferrin monooligosaccharide/dioligosaccharide ratio, transferrin α-oligosaccharide/dioligosaccharide ratio, ApoCIII-1/ApoCIII-2 ratio and ApoCIII-0/ApoCIII-2 ratio. However, although all wild-type samples had normal levels of the tri-sialo/dioligosaccharide-transferrin ratio, the level of all heterozygotes was in the intermediate range, and the level of all recessive homozygotes was abnormal and significantly higher than that of the matched wild type and heterozygotes (p= 7.6 E-10) (Fig. 19). These results demonstrate that this missense mutation is associated with defective glycosylation resulting from decreased enzymatic activity of B4GALT1 .

Пример 11: Глобальный анализ N-связанных гликанов гликопротеинов плазмы кровиExample 11: Global analysis of N-linked glycans of blood plasma glycoproteins

Чтобы определить, влияют ли десиалилирование и гипогалактозилирование только на трансферрин или распространяются на другие гликопротеины, группа аналитической химии из Regneron провела глобальный анализ N-гликанов. Обогащенные лектином гликопротеины экстрагировали из сыворотки из 5 пар доминантных и рецессивных гомозигот в двух экземплярах, и для меченых гликанов проводили глобальное разделение N-связанных гликанов с помощью хроматографии гидрофильного взаимодействия, определяли по флуоресценции и анализировали с помощью масс-спектрометрии (HILIC -FLR-MS) (Фиг. 20 и Таблица 5). Ссылаясь на Фиг. 20, продемонстрирован репрезентативный HILIC-FLR-MS спектр N-гликанового анализа гликопротеина из согласованной пары рецессивных (SS) и доминантных (NN) гомозигот N352S B4GALT1. Результаты показали, что рецессивные гомозиготы имеют значительно более высокие уровни гипогалактозилированных и менее сиалилированных гликанов, включая двуразветвленные гликаны только с одной галактозой и одной сиаловой кислотой (р=3,1 Е-5), асиалированные двуразветвленные гликаны с одной галактозой (р=0,001), и усеченные двуразветвленные гликаны, в которых отсутствуют как галактозы, так и сиаловые кислоты (р=0,005). С другой стороны, рецессивные гомозиготы имеют значительно более низкие уровни (р=0,001) двуразветвленные гликанов с двумя галактозами и двумя сиаловыми кислотами (Таблица 5). Наблюдалось значительное снижение общего галактозилирования (р=9,2 Е-5) и сиалилирования (р=0,001) среди малых гомозигот, при этом не было различий в уровне фукозилирования (р=0,5). Как CDT, так и общий N-гликанный анализ сыворотки демонстрируют значительно повышенные уровни углевод-дефицитных гликопротеинов у рецессивных гомозигот, что указывает на то, что N352S B4GALT1 ведет к дефектному гликозилированию белка.To determine whether desialylation and hypogalactosylation only affect transferrin or extend to other glycoproteins, the analytical chemistry group at Regneron performed a global analysis of N-glycans. Lectin-enriched glycoproteins were extracted from serum from 5 pairs of dominant and recessive homozygotes in duplicate, and the tagged glycans were subjected to global separation of N-linked glycans by hydrophilic interaction chromatography, detected by fluorescence, and analyzed by mass spectrometry (HILIC-FLR-MS ) (Fig. 20 and Table 5). Referring to FIG. 20, a representative HILIC-FLR-MS spectrum of N-glycan analysis of a glycoprotein from a matched pair of recessive (SS) and dominant (NN) N352S B4GALT1 homozygotes is demonstrated. Results showed that recessive homozygotes had significantly higher levels of hypogalactosylated and less sialylated glycans, including bibranched glycans with only one galactose and one sialic acid (p=3.1 E-5), asialylated bibranched glycans with only one galactose (p=0.001) , and truncated bibranched glycans, which lack both galactose and sialic acids (p = 0.005). On the other hand, recessive homozygotes have significantly lower levels (p=0.001) of bibranched glycans with two galactoses and two sialic acids (Table 5). There was a significant reduction in total galactosylation (p=9.2 E-5) and sialylation (p=0.001) among small homozygotes, but there was no difference in the level of fucosylation (p=0.5). Both CDT and total serum N-glycan analysis demonstrate significantly increased levels of carbohydrate-deficient glycoproteins in recessive homozygotes, indicating that N352S B4GALT1 leads to defective protein glycosylation.

Таблица 5: Средний (+СО)% площади пика значительно различающихся гликанов между рецессивными и доминантными гомозиготамиTable 5: Mean ( +SD )% peak area of significantly different glycans between recessive and dominant homozygotes

Гликан Glycan Доминантная гомозиготаDominant homozygote Рецессивная гомозиготаRecessive homozygote P значениеP value G0FG0F 0,58+0,340.58+0.34 1,84+0,481.84+0.48 0,0050.005 G1G1 0,19+0,120.19+0.12 0,91+0,160.91+0.16 0,0010.001 G1S1G1S1 0,63+0,160.63+0.16 4,7+0,384.7+0.38 3,1E-53.1E-5 G2S2G2S2 39,3+0,7939.3+0.79 31,5+1,831.5+1.8 0,0010.001

Данное раскрытие не ограничено вариантами осуществления, описанными и приведенными в качестве примеров выше, но допускает изменения и модификации в пределах объема прилагаемой формулы изобретения. Данное раскрытие также не должно быть каким-либо образом ограничено использованием любых заголовков, перечисленных в данном документе.This disclosure is not limited to the embodiments described and exemplified above, but is subject to changes and modifications within the scope of the appended claims. This disclosure shall also not be limited in any way by the use of any headings listed herein.

--->--->

ПЕРЕЧЕНЬ ПОСЛЕДОВАТЕЛЬНОСТЕЙLIST OF SEQUENCES

<110> Regeneron Pharmaceuticals, Inc.<110> Regeneron Pharmaceuticals, Inc.

University of Maryland, BaltimoreUniversity of Maryland, Baltimore

<120> Варианты B4GALT1 и их применение<120> B4GALT1 variants and their applications

<130> 189238.00202 (3040) (10351-WO01)<130> 189238.00202 (3040) (10351-WO01)

<160> 17<160> 17

<170> PatentIn версия 3.5<170> PatentIn version 3.5

<210> 1<210> 1

<211> 56718<211> 56718

<212> ДНК<212> DNA

<213> Homo sapiens<213> Homo sapiens

<220><220>

<223> геномная последовательность B4GALT1 дикого типа<223> wild-type B4GALT1 genomic sequence

<400> 1<400> 1

gcgcctcggg cggcttctcg ccgctcccag gtctggctgg ctggaggagt 50gcgcctcggg cggcttctcg ccgctcccag gtctggctgg ctggagaggagt 50

ctcagctctc agccgctcgc ccgcccccgc tccgggccct cccctagtcg 100ctcagctctc agccgctcgc ccgcccccgc tccgggccct cccctagtcg 100

ccgctgtggg gcagcgcctg gcgggcggcc cgcgggcggg tcgcctcccc 150ccgctgtggg gcagcgcctg gcgggcggcc cgcgggcggg tcgcctcccc 150

tcctgtagcc cacacccttc ttaaagcggc ggcgggaaga tgaggcttcg 200tcctgtagcc cacacccttc ttaaagcggc ggcgggaaga tgaggcttcg 200

ggagccgctc ctgagcggca gcgccgcgat gccaggcgcg tccctacagc 250ggagccgctc ctgagcggca gcgccgcgat gccaggcgcg tccctacagc 250

gggcctgccg cctgctcgtg gccgtctgcg ctctgcacct tggcgtcacc 300gggcctgccg cctgctcgtg gccgtctgcg ctctgcacct tggcgtcacc 300

ctcgtttact acctggctgg ccgcgacctg agccgcctgc cccaactggt 350ctcgtttact acctggctgg ccgcgacctg agccgcctgc cccaactggt 350

cggagtctcc acaccgctgc agggcggctc gaacagtgcc gccgccatcg 400cggagtctcc acaccgctgc agggcggctc gaacagtgcc gccgccatcg 400

ggcagtcctc cggggagctc cggaccggag gggcccggcc gccgcctcct 450ggcagtcctc cggggagctc cggaccggag gggcccggcc gccgcctcct 450

ctaggcgcct cctcccagcc gcgcccgggt ggcgactcca gcccagtcgt 500ctaggcgcct cctcccagcc gcgcccgggt ggcgactcca gcccagtcgt 500

ggattctggc cctggccccg ctagcaactt gacctcggtc ccagtgcccc 550ggattctggc cctggccccg ctagcaactt gacctcggtc ccagtgcccc 550

acaccaccgc actgtcgctg cccgcctgcc ctgaggagtc cccgctgctt 600acaccaccgc actngtcgctg cccgcctgcc ctgaggagtc cccgctgctt 600

ggtaaggact cgggtcggcg ccagtcggag gattgggacc cccccggatt 650ggtaaggact cgggtcggcg ccagtcggag gattgggacc cccccggatt 650

tccccgacag ggtcccccag acattccctc aggctggctc ttctacgaca 700tccccgacag ggtcccccag acattccctc aggctggctc ttctacgaca 700

gccagcctcc ctcttctgga tcagagtttt aaatcccaga cagaggcttg 750gccagcctcc ctcttctgga tcagagtttt aaatcccaga cagaggcttg 750

ggactggatg ggagagaagg tttgcgaggt gggtccctgg ggagtcctgt 800ggactggatg ggagagaagg tttgcgaggt gggtccctgg ggagtcctgt 800

tggaggcgtg gggccgggac cgcacaggga agtcccgagg cccctctagc 850tggaggcgtg gggccgggac cgcacaggga agtcccgagg cccctctagc 850

cccagaacca gagaaggcct tggagacttc cctgctgtgg cccgaggctc 900cccagaacca gagaaggcct tggagacttc cctgctgtgg cccgaggctc 900

aggaagtttt ggagtttggg tctgcttagg gcttcgagca gccttgcact 950aggaagtttt ggagtttggg tctgcttagg gcttcgagca gccttgcact 950

gagaactctg gtagggacct cgagtaatcc actccctttt ggggactgac 1000gagaactctg gtagggacct cgagtaatcc actccctttt ggggactgac 1000

gtgaggctcc cggtggggaa ggagactgac ctctcggttc acgtgtcttg 1050gtgaggctcc cggtggggaa ggagactgac ctctcggttc acgtgtcttg 1050

ccatagagcc actctcctga gtgggttttt ctcctgatcg tttgggccaa 1100ccatagagcc actctcctga gtgggttttt ctcctgatcg tttgggccaa 1100

gtgacttctc tctgaacctc atatttctct tctgggataa taaatggtca 1150gtgacttctc tctgaacctc atatttctct tctgggataa taaatggtca 1150

ccctttcaag gggttgtttt ggaagatatt gtgaacaatg gtaaataagg 1200ccctttcaag gggttgtttt ggaagatatt gtgaacaatg gtaaataagg 1200

gcttaattaa tgagggtaag ccctcagtaa attgtcactg tgtgttcatt 1250gcttaattaa tgagggtaag ccctcagtaa attgtcactg tgtgttcatt 1250

tcttcctctg tgtggatcgt gaccgagagc ccttccccct agcctcctcc 1300tcttcctctg tgtggatcgt gaccgagagc ccttccccct agcctcctcc 1300

tggtatgggt acccaaaacc taggtgagca gggatctctc ccaggggcag 1350tggtatgggt acccaaaacc taggtgagca gggatctctc ccaggggcag 1350

agagcttgtg tactctgggt gttagagggc taaaatataa ccagtcaaca 1400agagcttgtg tactctgggt gttagagggc taaaatataa ccagtcaaca 1400

ccacgttgcc catttctggt acttccggta gcagcctgag tctcaattat 1450ccacgttgcc catttctggt acttccggta gcagcctgag tctcaattat 1450

cttgcccaga tgatctgaac tctgacctct agcctgtttc agcataggca 1500cttgcccaga tgatctgaac tctgacctct agcctgtttc agcataggca 1500

gagagcttga gtaggtgagt ttgcattcct catagcagct ggctgagcct 1550gagagcttga gtaggtgagt ttgcattcct catagcagct ggctgagcct 1550

agtctggact tctctttgac ctgtaaccta caggcccaca ggcccaaggc 1600agtctggact tctctttgac ctgtaaccta caggcccaca ggcccaaggc 1600

aaccacaggt tgcttccagg gttaccacac aggtggtttc tcatttctaa 1650aaccacaggt tgcttccagg gttaccacac aggtggtttc tcatttctaa 1650

tgctaggttt tagataattg ttgtaagtga ggggccctgg caggcaggat 1700tgctaggttt tagataattg ttgtaagtga ggggccctgg caggcaggat 1700

gacatcctgc caataggagt tttctgtcac tttcccacag agccctggct 1750gacatcctgc caataggagt tttctgtcac tttcccacag agccctggct 1750

actacatact cttgctcaat ttcgccagta attgcgtcaa tgtgttcata 1800actacatact cttgctcaat ttcgccagta attgcgtcaa tgtgttcata 1800

tcaagtttgg gaagaacatc ttggaattgg tcagacgtga actgtggtaa 1850tcaagtttgg gaagaacatc ttggaattgg tcagacgtga actgtggtaa 1850

taatgggggc ttgttttttt aagcagataa ttaaattcct ttgcatttga 1900taatgggggc ttgttttttt aagcagataa ttaaattcct ttgcatttga 1900

tgattattct gggaagcaga ctagtcccat aaaatgaaat ggactctgcc 1950tgattattct gggaagcaga ctagtcccat aaaatgaaat ggactctgcc 1950

ttgctgctaa gtgtctgact tgagacatgc tatcgagttt ctcaaaatct 2000ttgctgctaa gtgtctgact tgagacatgc tatcgagttt ctcaaaatct 2000

cttccttgtg taaaatgtgg ttgtcgatga ttaccttaca ggggtttttt 2050cttccttgtg taaaatgtgg ttgtcgatga ttaccttaca ggggtttttt 2050

taagactaaa tgagatcgtg tacattaaat acaggcactc aggctgggca 2100taagactaaa tgagatcgtg tacattaaat acaggcactc aggctgggca 2100

tggtggctca cgcctgtaat cctagcactt tgggaggctg aggggagtgg 2150tggtggctca cgcctgtaat cctagcactt tgggaggctg aggggagtgg 2150

atcacttgag gttaggagtt tgagaccagc ctggccaata tggtgaaaca 2200atcacttgag gttaggagtt tgagaccagc ctggccaata tggtgaaaca 2200

ccatcccatc tctacaaaaa tacaaaaaag ttagccaggg gtggtggcat 2250ccatcccatc tctacaaaaa tacaaaaaag ttagccaggg gtggtggcat 2250

cgcagctact caggaggccg aggcaggaga attgcttgaa cctgggaggc 2300cgcagctact caggaggccg aggcaggaga attgcttgaa cctgggaggc 2300

agaggttgca gtgagtcaag attgtgccag tacactccag cctgggcgac 2350agaggttgca gtgagtcaag attgtgccag tacactccag cctgggcgac 2350

gaagcaagac tgtctaaaaa aaaaaaaaaa aaaaaaaata cgggcactca 2400gaagcaagac tgtctaaaaa aaaaaaaaaa aaaaaaaata cgggcactca 2400

atacaccgta taataataat atagtaataa tatttgctta ggatctttaa 2450atacaccgta taataataat atagtaataa tatttgctta ggatctttaa 2450

aaagtttcat tttttcagac tcccacagaa atggctctgc acagcagagt 2500aaagtttcat tttttcagac tcccacagaa atggctctgc acagcagagt 2500

gaagggggag agagactgag tctccaggcc agaaaaaggc caggtttttt 2550gaagggggag agagactgag tctccaggcc agaaaaaggc caggtttttt 2550

gcttttgttt ttagttgttg cctggatatt gcacagaaag aaaaaataat 2600gcttttgttt ttagttgttg cctggatatt gcacagaaag aaaaaataat 2600

tagcaagtta aacaaaagta ccgcaaagtt gattacattg gtatttgagt 2650tagcaagtta aacaaaagta ccgcaaagtt gattacattg gtatttgagt 2650

atcacatctt ctctcagaag cgtaagagac aaggtcgtga ccatacctct 2700atcacatctt ctctcagaag cgtaagagac aaggtcgtga ccatacctct 2700

gcttagtttt gttttgtaat ggtgttgcta gtgatcggct tgtcaccagt 2750gcttagtttt gttttgtaat ggtgttgcta gtgatcggct tgtcaccagt 2750

tactggtgtt tctaaatgga ctataattgg ctacttgaaa ggacttcctg 2800tactggtgtt tctaaatgga ctataattgg ctacttgaaa ggacttcctg 2800

agaaagaaca ttttggagga cgaggagaga gtgccttctc tattttggct 2850agaaagaaca ttttggagga cgaggagaga gtgccttctc tattttggct 2850

gctttcatgt gacatgcaag agaccatgac gtttaggctg ctgctgaggc 2900gctttcatgt gacatgcaag agaccatgac gtttaggctg ctgctgaggc 2900

agccccagaa atgggggccg agaggtcttt tcttcatttt aatagggtct 2950agccccagaa atggggggccg agaggtcttt tcttcatttt aatagggtct 2950

gtaggtttgg gtggttaggt acagttctca gaatggaggt tcctggctat 3000gtaggtttgg gtggttaggt acagttctca gaatggaggt tcctggctat 3000

gaggccttga gaaagctgaa agtctccttg ggagtgtgtg ggtgggggga 3050gaggccttga gaaagctgaa agtctccttg ggagtgtgtg ggtgggggga 3050

gtcgagccca tctgttcatg ggcaggtgtc agccaaagcc cttgcgggtg 3100gtcgagccca tctgttcatg ggcaggtgtc agccaaagcc cttgcgggtg 3100

gttttgaggt tggtgggaga aagcatccgt ggggtttaga gttgtggcct 3150gttttgaggt tggtgggaga aagcatccgt ggggtttaga gttgtggcct 3150

tttcactact tgcagttcct ttccccgact tggctttact ttctggtgtc 3200tttcactact tgcagttcct ttccccgact tggctttact ttctggtgtc 3200

caggggtctg ggccagatgc tgagattcct ctcagctgac aggtgtgggt 3250caggggtctg ggccagatgc tgagattcct ctcagctgac aggtgtgggt 3250

tatgggcaaa cccttccctg gaggacataa ggcaccggat tggactgctg 3300tatgggcaaa cccttccctg gaggacataa ggcaccggat tggactgctg 3300

atgggttgct gttggagttg tcagggcctt ggaatagtct tcagatagac 3350atgggttgct gttggagttg tcagggcctt ggaatagtct tcagatagac 3350

ttgggttagt gtgacctggg gcaggctgca ggtttggagc catagtaccc 3400ttgggttagt gtgacctggg gcaggctgca ggtttggagc catagtaccc 3400

cccgccccca caccgggcac cctgctctgg gctaatgtga ggcttgcagg 3450cccgccccca caccggggcac cctgctctgg gctaatgtga ggcttgcagg 3450

agtgagtgat gcagtgggaa ggggggcctt tcctgaggat tctacagctt 3500agtgagtgat gcagtgggaa ggggggcctt tcctgaggat tctacagctt 3500

tctccaggga atcctcccag gtagtttagg cctgcaggtg ctatgctatc 3550tctccaggga atcctcccag gtagtttagg cctgcaggtg ctatgctatc 3550

cttctttcct aaccctgtct caggtcctca gcggggccat gcggcatcca 3600cttctttcct aaccctgtct caggtcctca gcggggccat gcggcatcca 3600

cttataaccc tgcagcgagg ccctcttttc tggccacctg ggtgtttgcc 3650cttataaccc tgcagcgagg ccctcttttc tggccacctg ggtgtttgcc 3650

tgctgagatg ggaggaacag tggccttggg cttcttcccc cgtcatgttt 3700tgctgagatg ggaggaacag tggccttggg cttcttcccc cgtcatgttt 3700

atctctgctc agattgggca gcagctcaat gggacttgac cagctgtggc 3750atctctgctc agattgggca gcagctcaat gggacttgac cagctgtggc 3750

actgccagtc tgaagatgag tagggtgatg gggggaggtg ggcagtacct 3800actgccagtc tgaagatgag tagggtgatg gggggaggtg ggcagtacct 3800

gaagctgaac tggtgagaga ggcaggctgg cctgggggct cagctggggc 3850gaagctgaac tggtgagaga ggcaggctgg cctggggggct cagctggggc 3850

ctgggatggt tggtacagtc ccctcagggg ggtaggggag tgagtgttag 3900ctgggatggt tggtacagtc ccctcagggg ggtaggggag tgagtgttag 3900

actgcttaag cctcagaggc cgctcttgcc cacctatgct ttgaggagat 3950actgcttaag cctcagaggc cgctcttgcc cacctatgct ttgaggagat 3950

cctcttcatt tgttcaaagg gaagactctg atctagagat gggcacttgg 4000cctcttcatt tgttcaaagg gaagactctg atctagagat gggcacttgg 4000

accagcaaac agcagctaca ggtagccagg gcacccgagg agcacttgct 4050accagcaaac agcagctaca ggtagccagg gcacccgagg agcacttgct 4050

catgagccgg tttccctggt ttttatgggg gctgttgctg agcgtctgcc 4100catgagccgg tttccctggt ttttatgggg gctgttgctg agcgtctgcc 4100

agggtttgtg tcctagcact tgctggtctt tgctgggctc tcagctctca 4150agggtttgtg tcctagcact tgctggtctt tgctgggctc tcagctctca 4150

ggtgtttctc taccagcacg tttccccctc cctcatatgc acacatgtgg 4200ggtgtttctc taccagcacg tttccccctc cctcatatgc acacatgtgg 4200

acacaagcag gctgcccagg acagagtgta ctttgaggct tgggaaagga 4250acacaagcag gctgcccagg acaagtgta ctttgaggct tgggaaagga 4250

ctctctctcg cccttttggg gatgagcctt ggaacctcat caccttccgg 4300ctctctctcg cccttttggg gatgagcctt ggaacctcat caccttccgg 4300

cttggggtgg agcttcatcc tgggggttga agctttaggc tcagataact 4350cttggggtgg agcttcatcc tggggggttga agctttaggc tcagataact 4350

agtcttgtaa gccagttttg tcctgttgtt tttttcgtgg aaaataatgt 4400agtcttgtaa gccagttttg tcctgttgtt tttttcgtgg aaaataatgt 4400

attgacgtat acacagacat tctttgtcta acagtctgag attgagaaat 4450attgacgtat acacagacat tctttgtcta acagtctgag attgagaaat 4450

accctccatg actatttggt ttgctttcat ggtgaaactt ggtcgctttc 4500accctccatg actatttggt ttgctttcat ggtgaaactt ggtcgctttc 4500

ttagacacag cctatggcaa taagagtgat ccctggctgc tgtaattcat 4550ttagacacag cctatggcaa taagagtgat ccctggctgc tgtaattcat 4550

tccagacttt gagcaaacac aaggcaccgc ctccacctgc agtggagcct 4600tccagacttt gagcaaacac aaggcaccgc ctccacctgc agtggagcct 4600

ctgatgaacc aaatggaaac tccttgggga atggggagta agagccaaat 4650ctgatgaacc aaatggaaac tccttgggga atggggagta agagccaaat 4650

gtgggattgg acttaaactg cagcttctta gaactgtagc attccacgat 4700gtgggattgg acttaaactg cagcttctta gaactgtagc attccacgat 4700

gggattgtct agtgctcttc ctggaggtta ctattcaata gttggctagt 4750gggattgtct agtgctcttc ctggaggtta ctattcaata gttggctagt 4750

gcacaggttc aggggtgacc tgatatgccc tagcgtttca gaagatccct 4800gcacaggttc aggggtgacc tgatatgccc tagcgtttca gaagatccct 4800

gcaaggtgtg tcttttggtc catctgaagg gtcttgtatg gtgatcttgt 4850gcaaggtgtg tcttttggtc catctgaagg gtcttgtatg gtgatcttgt 4850

atggatatcc gtgacggcta aggcatctga taacttcatt ccttcagttc 4900atggatatcc gtgacggcta aggcatctga taacttcatt ccttcagttc 4900

cagcagtgtt cctgtattat gctgggcact agagctacaa agaagaaaac 4950cagcagtgtt cctgtattat gctgggcact agagctacaa agaagaaaac 4950

aaagtgcctc ctcttcagga actcttaatt taggcagggg aggcataatt 5000aaagtgcctc ctcttcagga actcttaatt taggcagggg aggcataatt 5000

gaacagtgct gaggtcatct aggggaacca aagtgtgtat ttatcccctt 5050gaacagtgct gaggtcatct aggggaacca aagtgtgtat ttatcccctt 5050

ccctatcact cccctccctc cttcatttct tcctttcttc tttcagaaac 5100ccctatcact cccctccctc cttcatttct tcctttcttc tttcagaaac 5100

tccaagttca tatcaaaatt ctccagccct ggttttattt ggttgtgtga 5150tccaagttca tatcaaaatt ctccagccct ggttttattt ggttgtgtga 5150

aaattttcct ctaatttctg aagctatgca ttagttctgc tgagtaatct 5200aaattttcct ctaatttctg aagctatgca ttagttctgc tgagtaatct 5200

ttaacttgct gctttataat gattataatg agatatcact gggtattatg 5250ttaacttgct gctttataat gattataatg agatatcact gggtattatg 5250

gtctttgggt agcagcaggg tagggatttc caggctggga ctaagctaat 5300gtctttgggt agcagcaggg tagggatttc caggctggga ctaagctaat 5300

ttatgggttg ggaattatgg ggcagttaat agcaaggcag tccaagcttt 5350ttatgggttg ggaattatgg ggcagttaat agcaaggcag tccaagcttt 5350

ccacagattc caccctaggg accatccaga cttaaggaac agggccggca 5400ccacagattc caccctaggg accatccaga cttaaggaac agggccggca 5400

ggctcatccc ctttgcactc agctgggcta tgggtgtgtg tttgtgaaag 5450ggctcatccc ctttgcactc agctgggcta tgggtgtgtg tttgtgaaag 5450

aggtttattc agtagtcata cctgctgatt tccctgctat ctgtttaccc 5500aggtttattc agtagtcata cctgctgatt tccctgctat ctgtttaccc 5500

agtgcctcct gtaccttgtt tcttactctt tgttctctgc tcttactatg 5550agtgcctcct gtaccttgtt tcttactctt tgttctctgc tcttactatg 5550

aagaagcaga gactggaatt ctgcttgaac ccacatctac ctggaaattc 5600aagaagcaga gactggaatt ctgcttgaac ccacatctac ctggaaattc 5600

cagtttttct tgtccagtgg agcagcaatc cagttgtttt aggacaaatg 5650cagtttttct tgtccagtgg agcagcaatc cagttgtttt aggacaaatg 5650

gtctgccctt gaagcttaaa tcctttgagg gcctggcatg gtgacagttt 5700gtctgccctt gaagcttaaa tcctttgagg gcctggcatg gtgacagttt 5700

tacatttggc tttggtatag actggtgtgg tccctgggca gtgaggtcac 5750tacatttggc tttggtatag actggtgtgg tccctgggca gtgaggtcac 5750

tgtaaggcca gccagccaga ccctggctcc taggggaatt aacaaggcat 5800tgtaaggcca gccagccaga ccctggctcc taggggaatt aacaaggcat 5800

gggattagac tcacagggtc cctcctgtcc ctaaacttgg taggggttcc 5850gggattagac tcacagggtc cctcctgtcc ctaaacttgg taggggttcc 5850

tgggagccag actgcgatta agattgtaga gacctgagac ctgagttgta 5900tgggagccag actgcgatta agattgtaga gacctgagac ctgagttgta 5900

ggggcctctg tgttgatctg ggccattgcc gggtgagctg aggcggtcac 5950ggggcctctg tgttgatctg ggccattgcc gggtgagctg aggcggtcac 5950

tagctcaagg agtgatctca ggatattgtt ctgtaagtca gagacctcca 6000tagctcaagg agtgatctca ggatattgtt ctgtaagtca gagacctcca 6000

ggttggagag tggggcttgg gggtggggga cagggtttag tggggagctg 6050ggttggagag tggggcttgg gggtggggga cagggtttag tggggagctg 6050

gttctgggtg aatgtggcct aaagggattt gtccttagaa gacagagggg 6100gttctgggtg aatgtggcct aaagggattt gtccttagaa gacagagggg 6100

tgagtcacac actcagtgct tcaggttcca ctttgcggct tggcctcagc 6150tgagtcacac actcagtgct tcaggttcca ctttgcggct tggcctcagc 6150

ccgccccttc cctgcacaaa tgaaggccag gggctatata attggctgtt 6200ccgccccttc cctgcacaaa tgaaggccag gggctatata attggctgtt 6200

gctgaattct ttggcagtga ttttaaagtc tggtctgggt gtgttatgta 6250gctgaattct ttggcagtga ttttaaagtc tggtctggggt gtgttatgta 6250

gctgcttctc tatccactcc ccacacccgc tgcttctcca gagcccctca 6300gctgcttctc tatccactcc ccacacccgc tgcttctcca gagcccctca 6300

caaagcccag gcagagagag agagagagag agagagaatg acttgcctca 6350caaagcccag gcagagagag agagagagag agagagaatg acttgcctca 6350

cagagatgtt ggggataggg ataggggtat gggtctttgc ttttgccttt 6400cagagatgtt ggggataggg ataggggtat gggtctttgc ttttgccttt 6400

tgagggggga taatctcttc cttcatttta aaagtaaaaa gtaatgcagg 6450tgagggggga taatctcttc cttcatttta aaagtaaaaa gtaatgcagg 6450

ctcattgaaa ataatttgaa aagttgaaag agatataaaa gcacacccaa 6500ctcattgaaa ataatttgaa aagttgaaag agatataaaa gcacaccaa 6500

attcctatca cccaaaagaa acataccggc atatttccta ctagtctttt 6550attcctatca cccaaaagaa acataccggc atatttccta ctagtctttt 6550

tcatgtttaa gaatatagct gatatatttt tttttctttt tctttttgag 6600tcatgtttaa gaatatagct gatatatttt tttttctttt tctttttgag 6600

acagggtttt tgctctgtca cccaggctgg agtgcagtga tcacggctca 6650acagggtttt tgctctgtca cccaggctgg agtgcagtga tcacggctca 6650

ctgcagcctc gacctctcgg gctaagcgat tctcccactt cagtctcccg 6700ctgcagcctc gacctctcgg gctaagcgat tctcccactt cagtctcccg 6700

agttgctggg accacaggtg cacaccgcca tgcctgacta atttttgtat 6750agttgctggg accacaggtg cacaccgcca tgcctgacta atttttgtat 6750

tttttgtaga gatggggttt tgccatgttg cctaggctgg tctcgaactc 6800tttttgtaga gatggggttt tgccatgttg cctaggctgg tctcgaactc 6800

cagagctcaa gtgattcacc tgccttggcc tcccaaagcg ctgggattat 6850cagagctcaa gtgattcacc tgccttggcc tcccaaagcg ctgggattat 6850

aggtgtcagt caccacaccc agtgttatag ctgttgtctt tatagatgaa 6900aggtgtcagt caccacaccc agtgttatag ctgttgtctt tatagatgaa 6900

cagatagatt gacatagatt catgtagata gcctggtgtt cagcattttt 6950cagatagatt gacatagatt catgtagata gcctggtgtt cagcattttt 6950

catttaagat tctgtcacag acttgaccct atacctttaa aaatcacaaa 7000catttaagat tctgtcacag acttgaccct atacctttaa aaatcacaaa 7000

ggcagtatca tagtctgtca gctgaatatg ccataactta aaaaaatcat 7050ggcagtatca tagtctgtca gctgaatatg ccataactta aaaaaatcat 7050

tcaactgttg ctgaacacac acatatacat atatagtttt tgttttttct 7100tcaactgttg ctgaacacac acatatacat atatagtttt tgttttttct 7100

tagtgatgta gtgatgcttg tgcagaaagc tttatgtact ttttggatgg 7150tagtgatgta gtgatgcttg tgcagaaagc tttatgtact ttttggatgg 7150

tttctgtagg agagctttct aaaaaaggaa aaaaagtgtt gaatgttttt 7200tttctgtagg agagctttct aaaaaaggaa aaaaagtgtt gaatgttttt 7200

tgagaagggc tagattttca agccagtctt acaaaaggat agactcattg 7250tgagaagggc tagattttca agccagtctt acaaaaggat agactcattg 7250

gaaattccag atttgcttag tgctggcaga tgagtatcac ttattgctga 7300gaaattccag atttgcttag tgctggcaga tgagtatcac ttattgctga 7300

acaatgtgtc tagaattctg attaaaaaag aaactaggtc caggaagtgc 7350acaatgtgtc tagaattctg attaaaaaag aaactaggtc caggaagtgc 7350

ctgggggcag gggcaaaggg ccaggctgca ggataggctc ttaggatctg 7400ctggggggcag gggcaaaggg ccaggctgca ggataggctc ttaggatctg 7400

gctgagcaga aatctgctgt gaacagaatc ggtgggggtg atgctttctc 7450gctgagcaga aatctgctgt gaacagaatc ggtggggggtg atgctttctc 7450

agtaacttct ccatttgttt ctttagcagc taagtccctg tgctggactt 7500agtaacttct ccatttgttt ctttagcagc taagtccctg tgctggactt 7500

ctgtggacta ctgtggctct ggggctgtgg ttgtgggtga acaacagcta 7550ctgtggacta ctgtggctct ggggctgtgg ttgtgggtga acaacagcta 7550

gctaaaccag tgctgttgac atcattgaga tgtgacgcac aggaaggtgg 7600gctaaaccag tgctgttgac atcattgaga tgtgacgcac aggaaggtgg 7600

gagcaagctt gcaaatcaga ttctgaaaca tatagcacag ctctcccacc 7650gagcaagctt gcaaatcaga ttctgaaaca tatagcacag ctctcccacc 7650

tccaggtggt cctgagatct agggaggagc catagtgaga aactttaggt 7700tccaggtggt cctgagatct agggaggagc catagtgaga aactttaggt 7700

ttctaggaat tctcttaggg agaagctctc ttagggagag gcagaacctg 7750ttctaggaat tctcttaggg agaagctctc ttagggagag gcagaacctg 7750

gttctcagtt ggggctgatt caggtgggtt agatcaataa agcctcaggc 7800gttctcagtt ggggctgatt caggtgggtt agatcaataa agcctcaggc 7800

cagtgtgcca ggctattccc aaggagtata ctttgaagtt actcccttta 7850cagtgtgcca ggctattccc aaggagtata ctttgaagtt actcccttta 7850

gaatgtcctc agtggagata aattctctct gaggagcagt tttgtctgcc 7900gaatgtcctc agtggagata aattctctct gagggagcagt tttgtctgcc 7900

ggggtcattt ggcacaaagc ctggagtgct agggcgaggt tgcactgagg 7950ggggtcattt ggcacaaagc ctggagtgct agggcgaggt tgcactgagg 7950

gaaggggcag gattatgtca gcagtgtgac ggatacagtg tgaggtcagg 8000gaaggggcag gattatgtca gcagtgtgac ggatacagtg tgaggtcagg 8000

ctccttcctg ccccaccacg ggggcctaga ggtcatgggg agggtccctg 8050ctccttcctg ccccaccacg ggggcctaga ggtcatgggg agggtccctg 8050

gcaggggatt caatcattgc ttggccccat gacagagtat attctaaaaa 8100gcaggggatt caatcattgc ttggccccat gacagagtat attctaaaaa 8100

tgccttaagt ttttttcttt caaagtttct tcctgttttg cataatggcc 8150tgccttaagt ttttttcttt caaagtttct tcctgttttg cataatggcc 8150

ttttgccttt gacatcctga aaccgcagag ctgtcattgg tgttgcagga 8200ttttgccttt gacatcctga aaccgcagag ctgtcattgg tgttgcagga 8200

cactgccagc ttgaaaaaaa tcaacaacaa aaaaagaaac aggaaaggat 8250cactgccagc ttgaaaaaaa tcaacaacaa aaaaagaaac aggaaaggat 8250

gtggagttca gggtgcggcc tagggaagct ggtatttgcg ttatgggatt 8300gtggagttca gggtgcggcc tagggaagct ggtatttgcg ttatgggatt 8300

gtggggatgt ggtattaagg tgttgggtag cgcctgacat ttagaggagt 8350gtggggatgt ggtattaagg tgttgggtag cgcctgacat ttagaggagt 8350

actctgggca gagtccctgc ctgcccaaga ataggtagaa ttgagtcttc 8400actctgggca gagtccctgc ctgcccaaga ataggtagaa ttgagtcttc 8400

acaccaaagt caggagagac cccctccccc caggaagaga atgaacaggg 8450acaccaaagt caggagagac cccctccccc caggaagaga atgaacaggg 8450

actcatttcc tcattcagca aacttttatt ggtaactaca ctatatgaag 8500actcatttcc tcattcagca aacttttatt ggtaactaca ctatatgaag 8500

tgtgagagat agacatgaac aagagaggcc cccactcttg ggcagtccct 8550tgtgagagat agacatgaac aagagaggcc cccactcttg ggcagtccct 8550

tagtagtagt agatagactc tggcaatatg gtgtggtcag agagaggaag 8600tagtagtagt agatagactc tggcaatatg gtgtggtcag agagaggaag 8600

cctgggtgct ttgagggtac tgaggaggtg cagggagcca aatgggtggt 8650cctgggtgct ttgaggtac tgaggaggtg cagggagcca aatgggtggt 8650

ctgggccagg gccagagtca gaatgaagga cctctcttcc agacgttgat 8700ctgggccagg gccagagtca gaatgaagga cctctcttcc agacgttgat 8700

tttagcatct ctgtctctca gtatgtttga acagtctccc ttattggaag 8750tttagcatct ctgtctctca gtatgtttga acagtctccc ttattggaag 8750

ggcaggagtc tactgctaaa agtaacctgc gatttcctct acttgctgtc 8800ggcaggagtc tactgctaaa agtaacctgc gatttcctct acttgctgtc 8800

atgtggaaag aatactaaag ctgaaattcc aaaagttgca cacctttacc 8850atgtggaaag aatactaaag ctgaaattcc aaaagttgca cacctttacc 8850

agcagggcag gagaggaaag gaaatggagg cagagtgagc tgaagatgat 8900agcagggcag gagaggaaag gaaatggagg cagagtgagc tgaagatgat 8900

aaaagaaaga gaaggtggtg cagtttggac tgttatggac agaggaagtc 8950aaaagaaaga gaaggtggtg cagtttggac tgttatggac agaggaagtc 8950

tgagggtagc tggactgagg gatcaaaggg aggcagttga aagggaagag 9000tgaggtagc tggactgagg gatcaaaggg aggcagttga aagggaagag 9000

agctgcagag agggatttct tggtctgcag agggtaggag caagccttga 9050agctgcagag agggatttct tggtctgcag agggtaggag caagccttga 9050

aggctgctgg agtgaggatt ccgagccctg gtctttattc tttttctaat 9100aggctgctgg agtgaggatt ccgagccctg gtctttattc tttttctaat 9100

tcattacatc attttaggca agtcctaact cctttggtct ctgttgtctt 9150tcattacatc attttaggca agtcctaact cctttggtct ctgttgtctt 9150

tctgaaattt gagtgggctg ggcctgctgg tctttagcct ctgtctttct 9200tctgaaattt gagtgggctg ggcctgctgg tctttagcct ctgtctttct 9200

ctacctccta gattccagtt tggcgagtgg gggggaaaac ctggttgtat 9250ctacctccta gattccagtt tggcgagtgg gggggaaaac ctggttgtat 9250

atgcaacgtg aaaggcctct ggaattcctt ttgaagctca ctacccatga 9300atgcaacgtg aaaggcctct ggaattcctt ttgaagctca ctacccatga 9300

ggcttctgct aaggatttca tcatgtctgt ctaagcagac ataaaaattt 9350ggcttctgct aaggatttca tcatgtctgt ctaagcagac ataaaaattt 9350

tagcaggtgg atgacccgta gaaatggcac aaggaatgtt tctttctgtc 9400tagcaggtgg atgacccgta gaaatggcac aaggaatgtt tctttctgtc 9400

acactgtggt atttgattta agaaagttgt tatcctctct gtgcctcagt 9450acactgtggt atttgattta agaaagttgt tatcctctct gtgcctcagt 9450

gttctcactt gtaaaatggc aataacagta tccacctcat agatgttatg 9500gttctcactt gtaaaatggc aataacagta tccacctcat agatgttatg 9500

aaatacaggt agtagccacg aaagggctta aaacagtgcc taacacagaa 9550aaatacaggt agtagccacg aaagggctta aaacagtgcc taacacagaa 9550

taagttgtga atatatgtta tttattattg gtagtataat gcttatttgt 9600taagttgtga atatatgtta tttattattg gtagtataat gcttatttgt 9600

gaagattttg gcttttgctt tataggacct tttttttttt tagttgaaaa 9650gaagatttg gcttttgctt tataggacct tttttttttt tagttgaaaa 9650

tacaatgtta ccatgttaaa tgttaaaaaa aattctactt accattgtaa 9700tacaatgtta ccatgttaaa tgttaaaaaa aattctactt accattgtaa 9700

cagaacatgc tcccacttct gtaacagagc ttgctattac ttttcaaatg 9750cagaacatgc tcccacttct gtaacagagc ttgctattac ttttcaaatg 9750

catacatatt ccaatgcata tattccaatg cagttgtaga gtgaaactgt 9800catacatatt ccaatgcata tattccaatg cagttgtaga gtgaaactgt 9800

ttgcatgcag ccatttttat ccaacattat cttataaaat gttatgttgt 9850ttgcatgcag ccatttttat ccaacattat cttataaaat gttatgttgt 9850

ttatgattat cctaattatc ttttgttgct gtctagtatc cttatagata 9900ttatgattat cctaattatc ttttgttgct gtctagtatc cttatagata 9900

ttccattagc atacactatt ccaggtttca ctatcgtcga taatctagat 9950ttccattagc atacactatt ccaggtttca ctatcgtcga taatctagat 9950

atgaacattt ttgtagtgtg tagctctttg cttcagttga attactttcc 10000atgaacattt ttgtagtgtg tagctctttg cttcagttga attactttcc 10000

tgggataaat tcctggggaa gaatttctag gccagaggat atggtcatct 10050tgggataaat tcctggggaa gaatttctag gccagaggat atggtcatct 10050

tgacaatact gattcacatt gctgcattgc tttccaagag gtttggaatc 10100tgacaatact gattcacatt gctgcattgc tttccaagag gtttggaatc 10100

attcacaggt tctaaattgg aaaatcctgg cttttgaagt atgtggattc 10150attcacaggt tctaaattgg aaaatcctgg cttttgaagt atgtggattc 10150

taagggcgat ttggatctag ctggagcctc acactgacac ttccagccag 10200taagggcgat ttggatctag ctggagcctc acactgacac ttccagccag 10200

tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtagt tccctatgct 10250tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtagt tccctatgct 10250

ggacaccgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtagttc 10300ggacaccgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtagttc 10300

cctatgctgg acaccatgtg gcctttctgg acattagggt tttcctgtga 10350cctatgctgg acaccatgtg gcctttctgg acattagggt tttcctgtga 10350

ttgcctcaga gcagttcctg ttgaattcac tctgtgtcca caaaaggagc 10400ttgcctcaga gcagttcctg ttgaattcac tctgtgtcca caaaaggagc 10400

cttactgtgg ctctttcaac acccacctac ctttgccaag ttggtttaca 10450cttactgtgg ctctttcaac acccacctac ctttgccaag ttggtttaca 10450

gaaagtaaga acattctttc cttcttcctt gatatgtggc gctaaaccta 10500gaaagtaaga acattctttc cttcttcctt gatatgtggc gctaaaccta 10500

tagcatgggg caggctctgg ctttaaaaac ctgacttaaa aataatggtg 10550tagcatgggg caggctctgg ctttaaaaac ctgacttaaa aataatggtg 10550

ttgatcaaaa agtttgtgga tcagtttttg gaaacactgc atgtagccat 10600ttgatcaaaa agtttgtgga tcagtttttg gaaacactgc atgtagccat 10600

ccatagaaac ttatattctg ttgggctagc ctgggcgcct gatcatttaa 10650ccatagaaac ttatattctg ttgggctagc ctgggcgcct gatcatttaa 10650

ctcatgtgga tgaacttcta tgtaatagcc ctggtgtatg ggatccagaa 10700ctcatgtgga tgaacttcta tgtaatagcc ctggtgtatg ggatccagaa 10700

acagggccct aatgaagaaa ggcttttaaa ttatgttgga taaaaataag 10750acagggccct aatgaagaaa ggcttttaaa ttatgttgga taaaaataag 10750

ttgttacaat agcccaaagt ctgcaaatat gaattgccag ttctgtcctt 10800ttgttacaat agcccaaagt ctgcaaatat gaattgccag ttctgtcctt 10800

gtagtcatcc accatgtgcc tgcatctttt gtagactctt gtagattcag 10850gtagtcatcc accatgtgcc tgcatctttt gtagactctt gtagattcag 10850

aagcccactg aattgcataa atgatggaat gattttagac ttagtgattt 10900aagcccactg aattgcataa atgatggaat gattttagac ttagtgattt 10900

cagtgactaa aagtttacag atcctggccg ggcacagtgg ctcacacccg 10950cagtgactaa aagtttacag atcctggccg ggcacagtgg ctcacacccg 10950

tattcccagc actttgggag gccgaggtgg gtggatcacc tgaggtcagg 11000tattcccagc actttgggag gccgaggtgg gtggatcacc tgaggtcagg 11000

agtttgagac cagcctggcc aacatggtga aaccttgtct ctactaaaaa 11050agtttgagac cagcctggcc aacatggtga aaccttgtct ctactaaaaa 11050

tacaaaaatt agccgggtgt ggtggcatgc acctgttgtc ccagctactt 11100tacaaaaatt agccgggtgt ggtggcatgc acctgttgtc ccagctactt 11100

gggaggctga ggtgggagaa tggcttgaac ctgggaggcg gaggttgcag 11150gggaggctga ggtgggagaa tggcttgaac ctgggaggcg gaggttgcag 11150

tgagcccaca tcaggccact gcactccagc ctgggtgaca gagtgagact 11200tgagcccaca tcaggccact gcactccagc ctgggtgaca gagtgagact 11200

ctgtctccac ctcccccgcc ccccgaaaaa aaaaaaagtt tacagatcca 11250ctgtctccac ctcccccgcc ccccgaaaaa aaaaaaagtt tacagatcca 11250

gcagatgggg catattcaat ttgtgacagc cactcccttc accttatagc 11300gcagatgggg catattcaat ttgtgacagc cactcccttc accttatagc 11300

tatgtcatat gtcttcttct cctttgactg cattctgcag cagtcagttg 11350tatgtcatat gtcttcttct cctttgactg cattctgcag cagtcagttg 11350

tgacttaata tggcactctg ggcccactga attaggtcag agctgctagt 11400tgacttaata tggcactctg ggcccactga attaggtcag agctgctagt 11400

agtatattgt tcctagagac ctagggcaag attttcttac tacataaaat 11450agtatattgt tcctagagac ctagggcaag attttcttac tacataaaat 11450

gagggagata atttcttacc tcaagatgtt ggtaagagga gtgaatgagg 11500gagggagata atttcttacc tcaagatgtt ggtaagagga gtgaatgagg 11500

ttagttatat ggtaatatca gtactctgaa tgtcttttga tcaatgccta 11550ttagttatat ggtaatatca gtactctgaa tgtcttttga tcaatgccta 11550

actcatcttc ttgggcacaa aaggcataca gtcagcaccc ttaggccaca 11600actcatcttc ttgggcacaa aaggcataca gtcagcaccc ttaggccaca 11600

tataaaattc ctccaaatgc aggttttcat ctgccttggg gcagagtcaa 11650tataaaattc ctccaaatgc aggttttcat ctgccttggg gcagagtcaa 11650

gagaaagaag aggaagaggc gtgaggctct gaccacaact tagggacaga 11700gagaaagaag aggaagaggc gtgaggctct gaccacaact tagggacaga 11700

atatagccca aagcgagtac cccaggccac aaggagaagg ccgctatctt 11750atatagccca aagcgagtac cccaggccac aaggagaagg ccgctatctt 11750

gttgaatcca cagcactgga aacttggagt gtgtgttccc ctgtgtcagt 11800gttgaatcca cagcactgga aacttggagt gtgtgttccc ctgtgtcagt 11800

tacactggaa ttttatggct gctcacattc ttcccttcag gtggacgttg 11850tacactggaa ttttatggct gctcacattc ttcccttcag gtggacgttg 11850

ttcatcagta tcctgggcaa gaggccatca taaaccacag acagctgagt 11900ttcatcagta tcctgggcaa gaggccatca taaaccacag acagctgagt 11900

gattaggaag aggagctgaa gagggagcat tagatgtttg attgagtctt 11950gattaggaag aggagctgaa gagggagcat tagatgtttg attgagtctt 11950

aggtgagaaa gtatatcatt aaaacaaaaa gatagatgta ggcgggctca 12000aggtgagaaa gtatatcatt aaaacaaaaa gatagatgta ggcgggctca 12000

gtcttgtgtg cctggtgtgt tggtagaaaa actaaagcac aagcctgtag 12050gtcttgtgtg cctggtgtgt tggtagaaaa actaaagcac aagcctgtag 12050

ataacctgct ttattctacc tcggggctgg tgttggaatc caggatgcca 12100ataacctgct ttattctacc tcggggctgg tgttggaatc caggatgcca 12100

gaccctaaag tccagctctc tttccaacct actgaataat ccgagagaaa 12150gaccctaaag tccagctctc tttccaacct actgaataat ccgagagaaa 12150

tcatgttctc tctctgggcc tcagtttgcc catgtataaa atgagatgaa 12200tcatgttctc tctctgggcc tcagtttgcc catgtataaa atgagatgaa 12200

ggattggctg ggatgctctc cagagtctct tcctgcctgg agttctgacg 12250ggattggctg ggatgctctc cagagtctct tcctgcctgg agttctgacg 12250

tagccatgta ctcctgctca gcatcgctaa atggctttgt ggtaggacca 12300tagccatgta ctcctgctca gcatcgctaa atggctttgt ggtaggacca 12300

ttgagtgctg cctccattag ggccagctat gtaatgctgg ggtggctgtc 12350ttgagtgctg cctccattag ggccagctat gtaatgctgg ggtggctgtc 12350

actgggccct aagagccagg attggtctta ctggagaaat ccacatccac 12400actggggccct aagagccagg attggtctta ctggagaaat ccacatccac 12400

ctaaacttaa gacccagggg tgtccaatct tttggcttcc ccaggccaca 12450ctaaacttaa gacccagggg tgtccaatct tttggcttcc ccaggccaca 12450

ctggaagaag aattgtcttg gaccgcatat aaaatacact aattatagcc 12500ctggaagaag aattgtcttg gaccgcatat aaaatacact aattatagcc 12500

gatgaggtta aaaaaaaaaa actcaatatt ttaagagagt tcatgaattt 12550gatgaggtta aaaaaaaaaa actcaatatt ttaagagagt tcatgaattt 12550

gtgttgagct gcattcaaag ccatcctggc cgcatgtggc ccatgggcca 12600gtgttgagct gcattcaaag ccatcctggc cgcatgtggc ccatgggcca 12600

tcggttggac atgcttgctt tagacctccc agcaattcta gtctctaaac 12650tcggttggac atgcttgctt tagacctccc agcaattcta gtctctaaac 12650

aggaaatcaa aagtcaagat gaatagataa gttggtcagt gtgaaaaagt 12700aggaaatcaa aagtcaagat gaatagataa gttggtcagt gtgaaaaagt 12700

aattggtggg agccactgta gatgcagggt tctaggctcc atcaacaacc 12750aattggtggg agccactgta gatgcagggt tctaggctcc atcaacaacc 12750

acctacatca ctgaacgaaa gataatgctt gttcagcact tattacatgc 12800acctacatca ctgaacgaaa gataatgctt gttcagcact tattacatgc 12800

caaccatggt aaaaatactt cagatgcatt gttttcatga actctcacag 12850caaccatggt aaaaatactt cagatgcatt gttttcatga actctcacag 12850

cagctctttt tcttgcctaa atgccccgtt agaacctcca gtacaatgtt 12900cagctctttt tcttgcctaa atgccccgtt agaacctcca gtacaatgtt 12900

aaatagatat gctaagagac aacatatgtg tcttgttagg gggaaaatat 12950aaatagatat gctaagagac aacatatgtg tcttgttagg gggaaaatat 12950

ccagtctttg actattaaga atggtgttag cagtgggttt ttcctaggtg 13000ccagtctttg actattaaga atggtgttag cagtgggttt ttcctaggtg 13000

ccctttatca ggttgaggaa gttcctttct attcctggtt tgttgagtat 13050ccctttatca ggttgaggaa gttcctttct attcctggtt tgttgagtat 13050

ttttatcatg aaaaggtgat gggttttgtc aaatgctttt ctgtgtctgt 13100ttttatcatg aaaaggtgat gggttttgtc aaatgctttt ctgtgtctgt 13100

tgagatgatc atgttttttt gtcatttatt ctattgatat ggtatattat 13150tgagatgatc atgttttttt gtcatttatt ctattgatat ggtatattat 13150

acattgattt ttcagatatt aatcttgcat acctgggata aatcccactt 13200acattgattt ttcagatatt aatcttgcat acctgggata aatcccactt 13200

ggtcatggtg tataattctt tttatttgtt gctggattga gtttgctagt 13250ggtcatggtg tataattctt tttatttgtt gctggattga gtttgctagt 13250

attttgttga tttgtattca taacagatag tggtctgtag tctttccctc 13300attttgttga tttgtattca taacagatag tggtctgtag tctttccctc 13300

cctccctccc tccctccctc cctcccttcc ttccttcctc tctctctctc 13350cctccctccc tccctccctc cctcccttcc ttccttcctc tctctctctc 13350

tctctcccct cccctccctt cttttcccct cctctcccct ccccttccct 13400tctctcccct cccctccctt cttttcccct cctctcccct ccccttccct 13400

ttcttctctt tcatagttgt ttaccactgt cagaaaaggt ctgttcgttt 13450ttcttctctt tcatagttgt ttaccactgt cagaaaaggt ctgttcgttt 13450

tctttcgtcg tgagatcttt gtttggtttt ggtatcaggg taatactgcc 13500tctttcgtcg tgagatcttt gtttggtttt ggtatcaggg taatactgcc 13500

tcaaaaaatg agtagggaag tgttccttcc tcttctgtat tttgagagag 13550tcaaaaaatg agtagggaag tgttccttcc tcttctgtat tttgagagag 13550

tttgtggtcg gtttttatta attcttcttt aaatatctgg tagcgttcac 13600tttgtggtcg gtttttatta attcttcttt aaatatctgg tagcgttcac 13600

cagtaaagcc atctgggcct gatgttttct ttgtggaaaa ctttttgatt 13650cagtaaagcc atctgggcct gatgttttct ttgtggaaaa ctttttgatt 13650

cctaattcag tttctggtta taggtctatt cagaccttct attttttctt 13700cctaattcag tttctggtta taggtctatt cagaccttct attttttctt 13700

aagtcagttt tgatagtttg tgtcttccaa ggagtttgct tcatctaagt 13750aagtcagttt tgatagtttg tgtcttccaa ggagtttgct tcatctaagt 13750

catctaattt gttggcatac atttcatagt gattccttat gatccttttt 13800catctaattt gttggcatac atttcatagt gattccttat gatccttttt 13800

atttccgtta aagttggtgt agggatagtc cctctttcat tactgattat 13850atttccgtta aagttggtgt agggatagtc cctctttcat tactgattat 13850

aataatttga attttctttt tttcttagtc ttgccaaaag cttgtcattt 13900aataatttga attttctttt tttcttagtc ttgccaaaag cttgtcattt 13900

ttattgatct tttcagagga ccaactttga gttcattatt tgttctcttt 13950ttattgatct tttcagagga ccaactttga gttcattatt tgttctcttt 13950

gttcttattt ttctgcttca ttaacttctc taatctttat tctttcattc 14000gttcttattt ttctgcttca ttaacttctc taatctttat tctttcattc 14000

tgcttgcttt tggttaagtt tgctttttct ggtgtcttaa ggtagaaggt 14050tgcttgcttt tggttaagtt tgctttttct ggtgtcttaa ggtagaaggt 14050

taggttactg atttgagatt taaagatcat gctctttaaa cgttttgata 14100taggttactg atttgagatt taaagatcat gctctttaaa cgttttgata 14100

gatactgtca gtttgccctc tggctttttc tcattaacag tgtataggag 14150gatactgtca gtttgccctc tggctttttc tcattaacag tgtataggag 14150

tgcttattcc tcacactcat accagccctg ggtgttacta acctttatat 14200tgcttattcc tcacactcat accagccctg ggtgttacta acctttatat 14200

atttgccagt atcatattca gacatagtat cttgttttaa tatgtttctc 14250atttgccagt atcatattca gacatagtat cttgttttaa tatgtttctc 14250

tgattactga tgaagttaag caaattttca cgtgtttatt ggccatctgt 14300tgattactga tgaagttaag caaattttca cgtgtttatt ggccatctgt 14300

ctttcttttt tcatcctttc tttcaagatg ggagtctttg ccatgttgcc 14350ctttcttttt tcatcctttc tttcaagatg ggagtctttg ccatgttgcc 14350

caggctggac tcgaactcct gggctcaaat gatcttcctg cctcagcctc 14400caggctggac tcgaactcct gggctcaaat gatcttcctg cctcagcctc 14400

ctgagtagct gggactatag gcgtgagcca ccatggctgg cttgcccatt 14450ctgagtagct gggactatag gcgtgagcca ccatggctgg cttgcccatt 14450

tgtatttctt atgtgagtat tttttctttt tttttgaagt ggagtctcac 14500tgtatttctt atgtgagtat tttttctttt tttttgaagt ggagtctcac 14500

tccatccccc agagtggagt gcagttgtcc gatcttggct cactgcaacc 14550tccatccccc agagtggagt gcagttgtcc gatcttggct cactgcaacc 14550

accgcctccc aggttcaagt gattctcaca ccttagcctc ccaagtatct 14600accgcctccc aggttcaagt gattctcaca ccttagcctc ccaagtatct 14600

gggactatag gtgtgtgcca ccacacctgg ctaatatttg tatttttagc 14650gggactatag gtgtgtgcca ccacacctgg ctaatatttg tatttttagc 14650

agagatgggg tttcaccatg ttggccaggc tggtttcaaa ctggcctcaa 14700agagatgggg tttcaccatg ttggccaggc tggtttcaaa ctggcctcaa 14700

gtgattcacc tgcctcggcc tcccaaagtg ctgggattac aggtgtgagc 14750gtgattcacc tgcctcggcc tcccaaagtg ctgggattac aggtgtgagc 14750

cactgtgccc agctgacttt ttttttcttt tttttaaccc tttttttttt 14800cactgtgccc agctgacttt ttttttcttt tttttaaccc tttttttttt 14800

ttaccctttt tttggcccat ttttttttac cctttttctt ttaacccatt 14850ttaccctttt tttggcccat ttttttttac cctttttctt ttaacccatt 14850

tttctattag ttttaaaaat atgtttgcag gagcttttta tattgtggat 14900tttctattag ttttaaaaat atgtttgcag gagcttttta tattgtggat 14900

ttttcttgtt tattacatat catttgtaaa tatggtctct ccatctgtca 14950ttttcttgtt tattacatat catttgtaaa tatggtctct ccatctgtca 14950

ctcttcttta tctctggttt ctttagctat gtagaagttg ttatgttatg 15000ctcttcttta tctctggttt ctttagctat gtagaagttg ttatgttatg 15000

ttatgttatg ttatgttatg ttatgttatg ttatgttatg ttatgttatt 15050ttatgttatg ttatgttatg ttatgttatg ttatgttatg ttatgttatt 15050

ttttggagag ggagtcttgc tctgtcgccc aggctggagt gcagtggtga 15100ttttggagag ggagtcttgc tctgtcgccc aggctggagt gcagtggtga 15100

aatctcggct cactgcaacc tctgcctcct gggttcaagc gattctcctg 15150aatctcggct cactgcaacc tctgcctcct gggttcaagc gattctcctg 15150

cctcagcttc ccgagaagct gtgattacag gcacccgcca ccacacccag 15200cctcagcttc ccgagaagct gtgattacag gcacccgcca cccaccag 15200

ctaatttttg tgttttagta gagacggggt ttcactatgt aggtcaagct 15250ctaatttttg tgttttagta gagacggggt ttcactatgt aggtcaagct 15250

gatctcaaac tcctgatctc aaatgatcct cccaaagtgc tggggttaca 15300gatctcaaac tcctgatctc aaatgatcct cccaaagtgc tggggttaca 15300

ggcgtgagcc actgcactcg gccagaagtt ttgaattttt atgtgtttaa 15350ggcgtgagcc actgcactcg gccagaagtt ttgaattttt atgtgtttaa 15350

atctatgttt tcctttatga cttcaggttg ctttcatact taagcaggtc 15400atctatgttt tcctttatga cttcaggttg ctttcatact taagcaggtc 15400

ttcaccatcc caaaatgata aaatttttct cctgagtttt cttctaagtt 15450ttcaccatcc caaaatgata aaatttttct cctgagtttt cttctaagtt 15450

ggttctttag aagccaccaa cttggcttcg acagcaaaag atgaacagaa 15500ggttctttag aagccaccaa cttggcttcg acagcaaaag atgaacagaa 15500

tttctgttca actctcatgc tgcaagaagc tttatgtaat actccaggga 15550tttctgttca actctcatgc tgcaagaagc tttatgtaat actccaggga 15550

ccctttaagg tcccagagtt ttcctccaaa tctatcagtg attctagtgg 15600ccctttaagg tcccagagtt ttcctccaaa tctatcagtg attctagtgg 15600

ctaagagtag aaatgtgaaa atttagccat gtgtgctgat agagctgtag 15650ctaagagtag aaatgtgaaa atttagccat gtgtgctgat agagctgtag 15650

taatttgtaa gctctgaagt tctaaggagt caggggagaa gggaaagtaa 15700taatttgtaa gctctgaagt tctaaggagt caggggagaa gggaaagtaa 15700

catttattga acatctatta gctcaataag aacatgcgat aagtatgtat 15750catttattga acatctatta gctcaataag aacatgcgat aagtatgtat 15750

atgtattatt tcacttacat ctgaaaggaa ggcataatta tccccactcc 15800atgtattatt tcacttacat ctgaaaggaa ggcataatta tccccactcc 15800

ttagagaagg aaattggagc tggctacatt taaagtagtc ctgacaccag 15850ttagagaagg aaattggagc tggctacatt taaagtagtc ctgacaccag 15850

agagatattg ccaggagtac ttggctggct gagtgcccag atggcccata 15900agagatattg ccaggagtac ttggctggct gagtgcccag atggcccata 15900

ggagtagtgg gccctccaca gtccaaggtc tggttctagg tggagagaga 15950ggagtagtgg gccctccaca gtccaaggtc tggttctagg tggagagaga 15950

aggatgtgct cgtagtcagc accgcagctc cagaaaatct gctggggctc 16000aggatgtgct cgtagtcagc accgcagctc cagaaaatct gctggggctc 16000

caaaactgat tagaggggca gctgactcag taataaaact cccaggagac 16050caaaactgat tagaggggca gctgactcag taataaaact cccaggagac 16050

ttacttacat actggaatgc aaagttgcag ctttactggg aagattagaa 16100ttacttacat actggaatgc aaagttgcag ctttactggg aagattagaa 16100

ctgttattga gtagcttaga aatctctggc tgaattcact gcaagggaag 16150ctgttattga gtagcttaga aatctctggc tgaattcact gcaagggaag 16150

ccgcaggata agctaactgc tggtgagtca gcagtcagag cagggaagtg 16200ccgcaggata agctaactgc tggtgagtca gcagtcagag cagggaagtg 16200

aatttaacat tagatgggtc agtctctcgt ggctgatgaa ttcatcccca 16250aatttaacat tagatgggtc agtctctcgt ggctgatgaa ttcatcccca 16250

caatactgta cacctgcctt agggaccttt gtctggacta ggggttgggg 16300caatactgta cacctgcctt agggaccttt gtctggacta ggggttgggg 16300

tccccctcct ttgtacagcc ctggaaggac acatccagct ccatccgcca 16350tccccctcct ttgtacagcc ctggaaggac acatccagct ccatccgcca 16350

tctctccctt acttatttcc ttccttcctt ccttctttcc atccagccat 16400tctctccctt acttatttcc ttccttcctt ccttctttcc atccagccat 16400

caagcttcct ttcatggcca ataatcatca ttggggtcta ctcatggact 16450caagcttcct ttcatggcca ataatcatca ttggggtcta ctcatggact 16450

ctcttgcctc atgtatttgt tttattttgt cctcattccc acttctattt 16500ctcttgcctc atgtatttgt tttattttgt cctcattccc acttctattt 16500

cccaggtata tcacaggcaa ctattctaac gtatttatag tttgtgtatc 16550cccaggtata tcacaggcaa ctattctaac gtatttatag tttgtgtatc 16550

tgtttttgct cttgccaaaa tggaagccac tgctttatac atagatgtat 16600tgtttttgct cttgccaaaa tggaagccac tgctttatac atagatgtat 16600

tcttaacttt aaaaaaaatt tttttagatt aacctacaat aaaattggct 16650tcttaacttt aaaaaaaatt tttttagatt aacctacaat aaaattggct 16650

ttttggcata tagtctataa attttaacac atacatattt ttgtgtatct 16700ttttggcata tagtctataa attttaacac atacatattt ttgtgtatct 16700

accaccacaa tcaggataca gaacagttcc atcaccccaa aaaaatccct 16750accaccacaa tcaggataca gaacagttcc atcaccccaa aaaaatccct 16750

cttgtagtca cattctcctc ccacccttaa tcccaggcaa ccactgatct 16800cttgtagtca cattctcctc ccacccttaa tcccaggcaa ccactgatct 16800

attcttcatt actattgttt tgtctttttg aggatgtcac ataaatggag 16850attcttcatt actattgttt tgtctttttg aggatgtcac ataaatggag 16850

tcacacagta tatatacatt tttttaaaca tatgtaaatg gcattttata 16900tcacacagta tatatacatt tttttaaaca tatgtaaatg gcattttata 16900

gctcattttg attatatgtt tttcatccag ttctgttttt tttttttatt 16950gctcattttg attatatgtt tttcatccag ttctgttttt ttttttttatt 16950

tttaaaaagt ttgacataac ttcagactta cagaaaagtt gttagactaa 17000tttaaaaagt ttgacataac ttcagactta cagaaaagtt gttagactaa 17000

tacaaagaat tcctggatat cctttggagt ccctaaatgt taacatttta 17050tacaaagaat tcctggatat cctttggagt ccctaaatgt taacatttta 17050

ctatatttac tttttccttc tctctctctc tctctctcgc tctgtgtgtg 17100ctatatttac tttttccttc tctctctctc tctctctcgc tctgtgtgtg 17100

tgtgtgtgtg tgtgtgtgtg tgtgtatcta cctgtagata gatagatatt 17150tgtgtgtgtg tgtgtgtgtg tgtgtatcta cctgtagata gatagatatt 17150

aatataattt tagatagatg tatctagatc tctctctctc atatatatgt 17200aatataattt tagatagatg tatctagatc tctctctctc atatatatgt 17200

gtgtgtgtat atatctatat ctatatctat atatatctcc ttttaccctt 17250gtgtgtgtat atatctatat ctatatctat atatatctcc ttttaccctt 17250

aaatattcag tgtatatttc ctaacaacaa ggtgatttaa aaatatatat 17300aaatattcag tgtatatttc ctaacaacaa ggtgatttaa aaatatatat 17300

ataaacatag tataattaac aatcaggaca tcaacattga aacatttctg 17350ataaacatag tataattaac aatcaggaca tcaacattga aacatttctg 17350

ctatgtcatc tacaggcctt aggaagactt tgtcaggtgc cccaataata 17400ctatgtcatc tacaggcctt aggaagactt tgtcaggtgc cccaataata 17400

gccttgatgg tagaagaaaa ccatgtgttg tattcagttg tcatgtctct 17450gccttgatgg tagaagaaaa ccatgtgttg tattcagttg tcatgtctct 17450

tagtgtcttg taatctgaaa taattcccaa gccctttgga tttcatgaca 17500tagtgtcttg taatctgaaa taattcccaa gccctttgga tttcatgaca 17500

gtgacattgt tgaagagtac aggccagtta ttttgtagaa ggtctctcag 17550gtgacattgt tgaagagtac aggccagtta ttttgtagaa ggtctctcag 17550

tttaggtctg tctgatgttt cctcctgatc agattcaggt tattcacttt 17600tttaggtctg tctgatgttt cctcctgatc agattcaggt tattcacttt 17600

tgacaggaat accactgaaa tgatgctgag ttcttctcag tgtaacgaga 17650tgacaggaat accactgaaa tgatgctgag ttcttctcag tgtaacgaga 17650

tctagagaca cacactgtca gtttgttcct tattggcagt gtgaaccttg 17700tctagagaca cacactgtca gtttgttcct tattggcagt gtgaaccttg 17700

aggatttcat tgtagtggca tttggcatta ctccattata gttactattt 17750aggatttcat tgtagtggca tttggcatta ctccattata gttactattt 17750

taccatttta aattaaaact atctggccgg gcgtagtagc tcatgtctgt 17800taccatttta aattaaaact atctggccgg gcgtagtagc tcatgtctgt 17800

aatcccagca ctttaggagg ctgaggcggg caaattgctt gaggtcagaa 17850aatcccagca ctttaggagg ctgaggcggg caaattgctt gaggtcagaa 17850

gtttgaaacc atcctagcca acataacatg gtgaaacgcc atctctataa 17900gtttgaaacc atcctagcca acataacatg gtgaaacgcc atctctataa 17900

aaaatacaaa aaattagcct ggcgtggtgg cgcatttgta gttccagcta 17950aaaatacaaa aaattagcct ggcgtggtgg cgcatttgta gttccagcta 17950

ctcaggaggc tgaggcacaa ggcttgcttg agcctgggag gcggaggttg 18000ctcaggaggc tgaggcacaa ggcttgcttg agcctgggag gcggaggttg 18000

cagtgagctg aaatcacgcc actgcactct agccagggtg acagagtgag 18050cagtgagctg aaatcacgcc actgcactct agccagggtg acagagtgag 18050

actctgtctc aaaaaaaaaa agtaaataaa taaaaaaatt ttttaagtat 18100actctgtctc aaaaaaaaaa agtaaataaa taaaaaaatt ttttaagtat 18100

cttatgggca tatacttgtc ctgttactcc tcaaactttc atccactttt 18150cttatgggca tatacttgtc ctgttactcc tcaaactttc atccactttt 18150

ttttttttaa attttttttc ttacctttca tcgttttctt gatatccact 18200ttttttttaa attttttttc ttacctttca tcgttttctt gatatccact 18200

gggttttagc atctacaaat gattcttgcc tgaatcagtt attatggtag 18250gggttttagc atctacaaat gattcttgcc tgaatcagtt attatggtag 18250

ttgatggttt tctaattcca ttattccttc tatgtttgtt aattttggca 18300ttgatggttt tctaattcca ttattccttc tatgtttgtt aattttggca 18300

ttcttctata aggaagagct tacccttttt ccctattaat taattcatat 18350ttcttctata aggaagagct tacccttttt ccctattaat taattcatat 18350

attaatgcag acctatgcat tcttacttca ttaaatcata atcctttact 18400attaatgcag acctatgcat tcttacttca ttaaatcata atcctttact 18400

atcattatgt attctgatgt tcagactatc ccagatttag ccaataagat 18450atcattatgt attctgatgt tcagactatc ccagatttag ccaataagat 18450

ccccttcagg ggaatggtct ttgggattcc tctttagagg ttcctggttc 18500ccccttcagg ggaatggtct ttgggattcc tctttagagg ttcctggttc 18500

ctgttttctt ttgacatatc ctattactct ttgagcattt tttttttttt 18550ctgttttctt ttgacatatc ctattactct ttgagcattt tttttttttt 18550

ttttactttt aggcacagca agaagttcca tggtcctctt gttctttccc 18600ttttactttt aggcacagca agaagttcca tggtcctctt gttctttccc 18600

caactcagcc ctagagtcag tcacttctcc aatgagctct agttcctttt 18650caactcagcc ctagagtcag tcacttctcc aatgagctct agttcctttt 18650

agtagagaat cataattaga aaacaagaat cagtgccaag tgtgcacctt 18700agtagagaat cataattaga aaacaagaat cagtgccaag tgtgcacctt 18700

tgtttttaag gtccatccac gttgccgtgt atatgtccag catgttgatt 18750tgtttttaag gtccatccac gttgccgtgt atatgtccag catgttgatt 18750

ctaactgctg aataatacct catgattgtc atccatccca gtgtttcttt 18800ctaactgctg aataatacct catgattgtc atccatccca gtgtttcttt 18800

ttcccttctg taatgaggga ctcctggact gcctccagca ttaccttcac 18850ttcccttctg taatgaggga ctcctggact gcctccagca ttaccttcac 18850

aaatattgct gtgaggaaaa tccttaaacg tttcctttat gggcaacgtg 18900aaatattgct gtgaggaaaa tccttaaacg tttcctttat gggcaacgtg 18900

tgagcatgtt tatgttgatt caggggtgcc agacacagct ccagaatggc 18950tgagcatgtt tatgttgatt caggggtgcc agacacagct ccagaatggc 18950

tgcctcagtt tacatttcca ccagcagagc atgacaggct ctgtgtctcc 19000tgcctcagtt tacatttcca ccagcagagc atgacaggct ctgtgtctcc 19000

gtgaataatc agcattaacc agcttcctat tttttgccaa actaatagat 19050gtgaataatc agcattaacc agcttcctat tttttgccaa actaatagat 19050

gtgctaggat aactctttgt tttaacttgt ttttctctga ttaccaatga 19100gtgctaggat aactctttgt tttaacttgt ttttctctga ttaccaatga 19100

gctggagcat ttcttcatat gcctgatggt ctttgggatt cctcttaggt 19150gctggagcat ttcttcatat gcctgatggt ctttgggatt cctcttaggt 19150

aaattgctta ttcattataa tcctttgcct gtttttcact ggagttctta 19200aaattgctta ttcattataa tcctttgcct gtttttcact ggagttctta 19200

tatttttctt gaagatatgc aggaattcct tatacatcct agatattaat 19250tatttttctt gaagatatgc aggaattcct tatacatcct agatattaat 19250

cccttcctgg tctcagacat tgcagatatc ttctgaatct gttatttact 19300cccttcctgg tctcagacat tgcagatatc ttctgaatct gttatttact 19300

tatttattta caattttttt tttaagagtt ggggttttgc tctgtcaccc 19350tatttattta caattttttt tttaagagtt ggggttttgc tctgtcaccc 19350

agactggagt gcagtggtat gatcatgact cattgtggcc tcgcaatcct 19400agactggagt gcagtggtat gatcatgact cattgtggcc tcgcaatcct 19400

gggcttaagc gatcctccca cctcagcctc ctgagtagtt gggactacag 19450gggcttaagc gatcctccca cctcagcctc ctgagtagtt gggactacag 19450

gtatgcacca ccagacttgg ctaattttat tttatttttt agagatggaa 19500gtatgcacca ccagacttgg ctaattttat tttatttttt agagatggaa 19500

gtcttaatat gttgctcagg ccaatcttga actcctggcc tcaagcaatc 19550gtcttaatat gttgctcagg ccaatcttga actcctggcc tcaagcaatc 19550

tttccacctc agcctcctgc atctattata tatatgttca ctttgctcat 19600tttccacctc agcctcctgc atctattata tatatgttca ctttgctcat 19600

gctgtatttt gttgcaacat aaaactattt ttcccattgt tttgtgcagt 19650gctgtatttt gttgcaacat aaaactattt ttcccattgt tttgtgcagt 19650

ctctcaccag cactcttctt tttctgtaac tgtgttaatg ccctttgttc 19700ctctcaccag cactcttctt tttctgtaac tgtgttaatg ccctttgttc 19700

ttccatatgt taggtatgct ggtatagttg aactctgctg actctcctca 19750ttccatatgt taggtatgct ggtatagttg aactctgctg actctcctca 19750

gtaaacagtc tctttttatg acaccttatc ctctactgaa ttctctctat 19800gtaaacagtc tctttttatg acaccttatc ctctactgaa ttctctctat 19800

caagaatgac ttggccgggc atgggggctc atgcctgtaa tcccagcatt 19850caagaatgac ttggccgggc atggggggctc atgcctgtaa tcccagcatt 19850

ctgggaggcc gaggtgggca gatcacccga ggtcagaagt tcaagaccag 19900ctgggaggcc gaggtgggca gatcacccga ggtcagaagt tcaagaccag 19900

cccggccaac acggtgaaac cctgtctcta tgaaaataca aaaatcagct 19950cccggccaac acggtgaaac cctgtctcta tgaaaataca aaaatcagct 19950

gggcgtggtg gcaggtgcct gtaatcccag ctacttggga ggctgaggcg 20000gggcgtggtg gcaggtgcct gtaatcccag ctacttggga ggctgaggcg 20000

ggagaatcac ttgaacctga gggggaggtt gcagtaagcc gggatggcac 20050ggagaatcac ttgaacctga gggggaggtt gcagtaagcc gggatggcac 20050

attgcactcc agactgggtg atggagaaac tccatctcag ggggaaaaaa 20100attgcactcc agactgggtg atggagaaac tccatctcag ggggaaaaaa 20100

aaaaaaaaaa aaagaatgac ttgtcttcct cttagagtgt gaggtctaca 20150aaaaaaaaaa aaagaatgac ttgtcttcct cttagagtgt gaggtctaca 20150

tacaaatatt attcttgtat tcagcaaatg tatgtcatag gcctagtgtg 20200tacaaatatt attcttgtat tcagcaaatg tatgtcatag gcctagtgtg 20200

tgttaggaac tgtgctgtca ccaacaaagt ttagagaggt tataaaactt 20250tgttaggaac tgtgctgtca ccaacaaagt ttagagaggt tataaaactt 20250

gactgtagct ttttagaggt ggaggagtga tttgaaacct aggctgtaat 20300gactgtagct ttttagaggt ggaggagtga tttgaaacct aggctgtaat 20300

tccttcctcc tgtgattcct tcctactgtg ttgccttccc ttgaaaattg 20350tccttcctcc tgtgattcct tcctactgtg ttgccttccc ttgaaaattg 20350

catttggggg ccaggtgtgg tggctctcgc ctgtaatccc agcactttgg 20400catttggggg ccaggtgtgg tggctctcgc ctgtaatccc agcactttgg 20400

gaggctgagg cgggtggatc acctgaggtc aggagttcaa gaccagcctg 20450gaggctgagg cgggtggatc acctgaggtc aggagttcaa gaccagcctg 20450

gccaacatgg cgaaaccccg tctttactaa aaatacaaaa attagctgga 20500gccaacatgg cgaaaccccg tctttactaa aaatacaaaa attagctgga 20500

tgtggtgtgt ggtgacatgc acctatattc ccaggtactc agtaggctga 20550tgtggtgtgt ggtgacatgc acctatattc ccaggtactc agtaggctga 20550

ggcaagagaa tcacttgaac ccaggaggca gaggctgcag tgagctgaaa 20600ggcaagagaa tcacttgaac ccaggaggca gaggctgcag tgagctgaaa 20600

ttgcaccact gcactccagc ctgagtgaca gagtgagact ctgtctcaaa 20650ttgcaccact gcactccagc ctgagtgaca gagtgagact ctgtctcaaa 20650

aaaaaaaaaa agaaaagaaa gaaaattgca tttagttcct gtagactgtg 20700aaaaaaaaaa agaaaagaaa gaaaattgca tttagttcct gtagactgtg 20700

tgtcaaatgt ctaaatctct tctaacaaat ggcctaagga ggtgcaaagc 20750tgtcaaatgt ctaaatctct tctaacaaat ggcctaagga ggtgcaaagc 20750

gaagcatcct caccagcatc ctgacttggc agtgaggcat gggaccctgg 20800gaagcatcct caccagcatc ctgacttggc agtgaggcat gggaccctgg 20800

agggagtagt ggtaagtgtg actctggaat tcttcctggg ctacttgtca 20850agggagtagt ggtaagtgtg actctggaat tcttcctggg ctacttgtca 20850

gtgactggct ccagattgag aggagagccc agaggacaca ggtggctgcc 20900gtgactggct ccagattgag aggagagccc agaggacaca ggtggctgcc 20900

ccagcctgga ggtgaaagtc ttaaaataaa atgccagatg cctagaccat 20950ccagcctgga ggtgaaagtc ttaaaataaa atgccagatg cctagaccat 20950

tctaaacctt tctgagaagc tgaaatcatc ccttctggaa gcgctctagt 21000tctaaacctt tctgagaagc tgaaatcatc ccttctggaa gcgctctagt 21000

tctaaaagga cagatataca gcaagatctt cctggggcta atatggagtt 21050tctaaaagga cagatataca gcaagatctt cctggggcta atatggagtt 21050

tataggcaag taggcctcag aacctttccc tggtagtgat atctgtgggc 21100tataggcaag taggcctcag aacctttccc tggtagtgat atctgtgggc 21100

aggcacagtt tccacacttt ccagaaattc cagcggaagg agtgagaagg 21150aggcacagtt tccacacttt ccagaaattc cagcggaagg agtgagaagg 21150

aggaatctgc ccttgagtga ggaccaaaga aagcagaaat tcctcttggg 21200aggaatctgc ccttgagtga ggaccaaaga aagcagaaat tcctcttggg 21200

aatttttcct ccagagacca aacactactt gggagcttgt ttactgggct 21250aatttttcct ccagagacca aacactactt gggagcttgt ttactgggct 21250

ttaaaagctt gtgaccccca gtcactcttt cttgacccca aggctttgca 21300ttaaaagctt gtgaccccca gtcactcttt cttgacccca aggctttgca 21300

tttctgtggc ttccccactg gacagaagtg gaactgtcat gctgcctgtt 21350tttctgtggc ttccccactg gacagaagtg gaactgtcat gctgcctgtt 21350

ctggggtctc ccagaggttt ccccatgtcc tctccttgct tctactgccc 21400ctggggtctc ccagaggttt ccccatgtcc tctccttgct tctactgccc 21400

cacagaattg gggatctgtg accacatatg gtatagaatt aatgcttgag 21450cacagaattg gggatctgtg accacatatg gtatagaatt aatgcttgag 21450

aatggtttag ttcagtgatg tcaaataaga ttcactttta tgccacctcc 21500aatggtttag ttcagtgatg tcaaataaga ttcactttta tgccacctcc 21500

atcagttgaa ggcccccctg gcccctaaat tggaaaagat tctgagacag 21550atcagttgaa ggcccccctg gcccctaaat tggaaaagat tctgagacag 21550

aatccccgtg ggtacagcgc agggacagta aaggcacgtg tgctgtgatt 21600aatccccgtg ggtacagcgc agggacagta aaggcacgtg tgctgtgatt 21600

tgctatccac tgtgtggatg catccaggaa tatcagaacc ctggaagatt 21650tgctatccac tgtgtggatg catccaggaa tatcagaacc ctggaagatt 21650

atttaagggg aagttaggac agcttttttg ccaatccaag ggtgttcttg 21700atttaagggg aagttaggac agcttttttg ccaatccaag ggtgttcttg 21700

aggaagtctg tcttcctgta tggccttcag tttctttcct gtgtaaccat 21750aggaagtctg tcttcctgta tggccttcag tttctttcct gtgtaaccat 21750

ggggccaaca cataattccc acagctctat tggcccttgt ctgccaggat 21800ggggccaaca cataattccc acagctctat tggcccttgt ctgccaggat 21800

tctctagggt ctgattcgag gtggatcctg gccctttgag gtggcagaat 21850tctctagggt ctgattcgag gtggatcctg gccctttgag gtggcagaat 21850

ctgatcatgg tgctgtttcc ttagatttag gccttgatac ccttggcgag 21900ctgatcatgg tgctgtttcc ttagatttag gccttgatac ccttggcgag 21900

agcatcctgg gctgagtgac cacctgaggt ttttctggtg attttgtgac 21950agcatcctgg gctgagtgac cacctgaggt ttttctggtg attttgtgac 21950

ccatgtaaaa ctttgagctt tgggattatt ctctcaagga aatagtgaca 22000ccatgtaaaa ctttgagctt tgggattatt ctctcaagga aatagtgaca 22000

tttggtgaag agcctgtttg gtgtggctat gtgaggctta gccaagaaaa 22050tttggtgaag agcctgtttg gtgtggctat gtgaggctta gccaagaaaa 22050

tgcaccattt ttattaggag gttaggccat ccgttgccac aaagtgtcag 22100tgcaccattt ttattaggag gttaggccat ccgttgccac aaagtgtcag 22100

atgctaggcc tagagcctgg agaaaactta ttttaaaatt gatggggtgc 22150atgctaggcc tagagcctgg agaaaactta ttttaaaatt gatggggtgc 22150

tggaggggtt ggggggtggt ggctgtagct catgaatcag gtgctaaacc 22200tggaggggtt ggggggtggt ggctgtagct catgaatcag gtgctaaacc 22200

tagaaacaaa aggcctcatg tggcagactg tttctgagca cagatgaatg 22250tagaaacaaa aggcctcatg tggcagactg tttctgagca cagatgaatg 22250

gatgagcaac tggcgcaact ttgcccagtt ggtccagctt cccacttggc 22300gatgagcaac tggcgcaact ttgcccagtt ggtccagctt cccacttggc 22300

cacctaggct tgctgtgaag acctcgtctg gcagaaatga gagtgttttt 22350cacctaggct tgctgtgaag acctcgtctg gcagaaatga gagtgttttt 22350

gccccatctt gatcttaact gtaatttaag actaaaatct tagattctaa 22400gccccatctt gatcttaact gtaatttaag actaaaatct tagattctaa 22400

aacatcaaag gcaagatggc tcccagctct gtgagctcag cttctcacct 22450aacatcaaag gcaagatggc tcccagctct gtgagctcag cttctcacct 22450

cttagttgaa caagtgcagt gtgggtcaat acatgattgc tgctcttgct 22500cttagttgaa caagtgcagt gtgggtcaat acatgattgc tgctcttgct 22500

gccaggaact gtcccagcat agaaaggaat gggacacaat ccctgccgtc 22550gccaggaact gtcccagcat agaaaggaat gggacacaat ccctgccgtc 22550

aagattctaa gggaggaagc aggcaggtcg actggtgcct catctctgca 22600aagattctaa gggaggaagc aggcaggtcg actggtgcct catctctgca 22600

gggctccagc caaggtttgt gaaggatttt gcaggcatat ggagtgggga 22650gggctccagc caaggtttgt gaaggatttt gcaggcatat ggagtgggga 22650

ctgattgatc ccgagagggg actggggaaa gctctgaaga ggggatgaca 22700ctgattgatc ccgagagggg actggggaaa gctctgaaga ggggatgaca 22700

tttggtttga actccaaaaa atggttgctt tacctgtttc ctgaagtttt 22750tttggtttga actccaaaaa atggttgctt tacctgtttc ctgaagtttt 22750

tgaggtggct tataagaaca tataccataa aaaggaccaa tataaattta 22800tgaggtggct tataagaaca tataccataa aaaggaccaa tataaattta 22800

aaatcagaaa aagagaaaat gggctgggca tggtggctca tgcctgtaat 22850aaatcagaaa aagagaaaat gggctgggca tggtggctca tgcctgtaat 22850

cccagcactt tgggaggcca aggtgggtgg atcgtgaggt caggagatcg 22900cccagcactt tgggaggcca aggtgggtgg atcgtgaggt caggagatcg 22900

agaccatcct gcctggccaa catggtgaaa ccccggctct actaaaaata 22950agaccatcct gcctggccaa catggtgaaa ccccggctct actaaaaata 22950

caaaaaatta gctgggtgtg gtggcacatg cctgtagtcc cacctacttg 23000caaaaaatta gctgggtgtg gtggcacatg cctgtagtcc cacctacttg 23000

ggaggctgag gcaggagaat cgcttgaaac ctgggaggcg gaggttgcag 23050ggaggctgag gcaggagaat cgcttgaaac ctgggaggcg gaggttgcag 23050

tgagctgaga tcgcaccact gcactccagc ctgggcgaca gagtgagact 23100tgagctgaga tcgcaccact gcactccagc ctgggcgaca gagtgagact 23100

cctcctcaaa aataaataaa taaagagaaa atggaactta gaaaattaag 23150cctcctcaaa aataaataaa taaagagaaa atggaactta gaaaattaag 23150

aggaagagtg aaaaggtaga tatttagtca ggcacagtgg ctcatgcctg 23200aggaagagtg aaaaggtaga tatttagtca ggcacagtgg ctcatgcctg 23200

taatcccaac actttgggag gccaagacag gaaaatctct tgagaccagg 23250taatcccaac actttgggag gccaagacag gaaaatctct tgagaccagg 23250

agcttgagac ttgcctggca acatctcagg tgagacctta tctctacaaa 23300agcttgagac ttgcctggca acatctcagg tgagacctta tctctacaaa 23300

aaatttaaaa attagctgag ctgtgtggct cgtgactgtg atcccagcta 23350aaatttaaaa attagctgag ctgtgtggct cgtgactgtg atcccagcta 23350

ctcaggaggc cgagaccaca gcccaggagg atcgcttggg cccagcagtt 23400ctcaggaggc cgagaccaca gcccaggagg atcgcttggg cccagcagtt 23400

tgaggctgca gtgagctggc accactgcaa ttcagcctgg gctacagagc 23450tgaggctgca gtgagctggc accactgcaa ttcagcctgg gctacagagc 23450

aagacccagt ttaaaaaaaa aaaaaaagat attcaaacca tgggtcccaa 23500aagacccagt ttaaaaaaaa aaaaaaagat attcaaacca tgggtcccaa 23500

cgtagttatt atatttgacc atttgcaaaa gctgaaagca aaacatgtta 23550cgtagttatt atatttgacc atttgcaaaa gctgaaagca aaacatgtta 23550

cacattttca gagaggaaaa tacacagtag ttcctgagtg taagttgttt 23600cacattttca gagaggaaaa tacacagtag ttcctgagtg taagttgttt 23600

ttcttgacct cattcttaaa ttgcttcatg agggtgggag ggaagtggta 23650ttcttgacct cattcttaaa ttgcttcatg agggtggggag ggaagtggta 23650

gttaataagt gaacctgtaa accagcgttt ctcaaaatgt agtccaggga 23700gttaataagt gaacctgtaa accagcgttt ctcaaaatgt agtccaggga 23700

attgcatcaa aattgcagtt acctacagtg cttgttaaaa tgcagattcc 23750attgcatcaa aattgcagtt acctacagtg cttgttaaaa tgcagattcc 23750

tgggcccctg ccccaggctt atcaaatcaa tctggtgagt aggactcaag 23800tgggcccctg ccccaggctt atcaaatcaa tctggtgagt aggactcaag 23800

aacctgtaaa ttcacatact tctgcagatg attcttcttg cactgcacag 23850aacctgtaaa ttcacatact tctgcagatg attcttcttg cactgcacag 23850

catgaaagcc tctgcaatag acagaaagct accagcattg cgaaagcaac 23900catgaaagcc tctgcaatag acagaaagct accagcattg cgaaagcaac 23900

ttgagtgctt ggcctttgaa ggttgagtgg gactttaatg agggagagag 23950ttgagtgctt ggcctttgaa ggttgagtgg gactttaatg agggagagag 23950

taaggcatga gaaatggcag ttccactgag gtcagtcagt ggttcattgc 24000taaggcatga gaaatggcag ttccactgag gtcagtcagt ggttcattgc 24000

tgacgaagtc acttttaagt catgttttag aagaactacc aagtgtggca 24050tgacgaagtc acttttaagt catgttttag aagaactacc aagtgtggca 24050

ggtcaggcat gtggcaggac tgtttctgag cacagatgaa tggatgagca 24100ggtcaggcat gtggcaggac tgtttctgag cacagatgaa tggatgagca 24100

cctggcccca ctgtgcccag ttggtctagc ttcccacttg gccacctacg 24150cctggcccca ctgtgcccag ttggtctagc ttcccacttg gccacctacg 24150

gtctgctgtg tggaccttgt ctggcagtct cctttaattt attttttatt 24200gtctgctgtg tggaccttgt ctggcagtct cctttaattt attttttatt 24200

atttttttct ttttgagatg gagtcttgct ttgttgccca ggctagagtg 24250atttttttct ttttgagatg gagtcttgct ttgttgccca ggctagagtg 24250

cagtggcatg atctcggctc actgcagcct ccacttccca ggttccagcg 24300cagtggcatg atctcggctc actgcagcct ccacttccca ggttccagcg 24300

attctcctgc ctcagcctcc caggtagctg ggatcacagg caagtgccac 24350attctcctgc ctcagcctcc caggtagctg ggatcacagg caagtgccac 24350

cacgcccagc taatttttgt atttttaata gagacatggt tttaccatgt 24400cacgcccagc taatttttgt atttttaata gagacatggt tttaccatgt 24400

tggccaggct ggtctcgaac tcctgacctc aggtgatcca cccatctcag 24450tggccaggct ggtctcgaac tcctgacctc aggtgatcca cccatctcag 24450

cctcccaaaa tgctggaatt acaggtgtga gccaccgcac ctggcctatt 24500cctcccaaaa tgctggaatt acaggtgtga gccaccgcac ctggcctatt 24500

ttttttcagc aaattctttg tttttctctc tgttcccaaa tgcagggtac 24550ttttttcagc aaattctttg tttttctctc tgttcccaaa tgcagggtac 24550

tgagaccaca gatgtattct gtttcctgtt gaaaaaatgt ttctcactta 24600tgagaccaca gatgtattct gtttcctgtt gaaaaaatgt ttctcactta 24600

gctgggtgtg gtagcatgca ctgcagtccc acgggaggct gaggcgagag 24650gctgggtgtg gtagcatgca ctgcagtccc acgggaggct gaggcgagag 24650

gattgcttga gcccaggagt tcgataatca tgccattgca ctctggtctg 24700gattgcttga gcccaggagt tcgataatca tgccattgca ctctggtctg 24700

ggtaacagag cgagaaactg tctcttaaaa aaaagaaaaa gaaaaagagg 24750ggtaacagag cgagaaactg tctcttaaaa aaaagaaaaa gaaaaagagg 24750

tcctagggaa agaaacaaat agtggcttgg atggtgagtt ggtggaaaga 24800tcctagggaa agaaacaaat agtggcttgg atggtgagtt ggtggaaaga 24800

acagtgggtg ttgggggtgt tgaacttgtg tttgtgtgtg gtgtacccaa 24850acagtgggtg ttgggggtgt tgaacttgtg tttgtgtgtg gtgtacccaa 24850

gacatatcat gtcagcatta agaatagact attcctgttt tctggtcact 24900gacatatcat gtcagcatta agaatagact attcctgttt tctggtcact 24900

gagttgtatg ttttgacatc cttattttgg aagatacttc cttactagga 24950gagttgtatg ttttgacatc cttattttgg aagatacttc cttactagga 24950

atgggatagg gagggggtca cctttcccat ctgtgggtca tattttaaaa 25000atgggatagg gagggggtca cctttcccat ctgtgggtca tattttaaaa 25000

tatttattgt tcaagtttaa agatataacc aaaggtataa agaaaaatac 25050tatttattgt tcaagtttaa agatataacc aaaggtataa agaaaaatac 25050

cacaaacatc tgatttaaga aacaaaccag ccgagcgcgg tggctcgtgc 25100cacaaacatc tgatttaaga aacaaaccag ccgagcgcgg tggctcgtgc 25100

ctgtaatccc agcactgtgg gaggccgagg caggcagatc atgaggtcaa 25150ctgtaatccc agcactgtgg gaggccgagg caggcagatc atgaggtcaa 25150

gagatcgaga ccatcctggc caacatggtg aaaccccgtc tctactgaaa 25200gagatcgaga ccatcctggc caacatggtg aaaccccgtc tctactgaaa 25200

atacaaaaat taactggtca tggtggtgtg tgcctgtagt cccagctact 25250atacaaaaat taactggtca tggtggtgtg tgcctgtagt cccagctact 25250

cgggaggctg tggcaggaga atcgcttgaa cccaggaggc ggaggttgta 25300cgggaggctg tggcaggaga atcgcttgaa cccaggaggc ggaggttgta 25300

gtgagccaag attgtgccac tgcattctag cctggcgaca gagtgagact 25350gtgagccaag attgtgccac tgcattctag cctggcgaca gagtgagact 25350

ccgtctcaaa aagaaaaaaa aaagaaagaa atcatttcct acaccttcga 25400ccgtctcaaa aagaaaaaaa aaagaaagaa atcatttcct acaccttcga 25400

agccttcatg agttagattt tgaaacagtg caaaatgctt cacgtgagaa 25450agccttcatg agttagattt tgaaacagtg caaaatgctt cacgtgagaa 25450

tcgagagtcc cttctggtgg ctctccatcc cctgctcttc tgtcaggttt 25500tcgagagtcc cttctggtgg ctctccatcc cctgctcttc tgtcaggttt 25500

tcttgtaggt ttatggaaac ctttgttact tgtgcaggtg gcagagaagc 25550tcttgtaggt ttatggaaac ctttgttact tgtgcaggtg gcagagaagc 25550

agagaggata gctgcgcgcc acccacacag ctaggattta ttggcgtact 25600agagaggata gctgcgcgcc acccacacag ctaggattta ttggcgtact 25600

cccacgtgca tggcagccaa gtggacacaa ctctgtgatg aatcctccca 25650cccacgtgca tggcagccaa gtggacacaa ctctgtgatg aatcctccca 25650

agagaactga ggggccctga tggaggagct gcttctttgc aaagctttcc 25700agagaactga ggggccctga tggagggagct gcttctttgc aaagctttcc 25700

ttgactctct tcctgtcccc tagttgattc cccttctgtg ctagttttag 25750ttgactctct tcctgtcccc tagttgattc cccttctgtg ctagttttag 25750

cttattgttt gttacctgtc acacttagca gtactgttgg ctttgctggt 25800cttattgttt gttacctgtc acacttagca gtactgttgg ctttgctggt 25800

ctccttgact actgggggta aagacctttt gttgttgttg ttgagacaga 25850ctccttgact actgggggta aagacctttt gttgttgttg ttgagacaga 25850

gtcttgctct gtcgcccagg ctggagtgca atggcgtgat ttcggctcac 25900gtcttgctct gtcgcccagg ctggagtgca atggcgtgat ttcggctcac 25900

tgcaaccttc acctcccagg ttcaagagat tctcctgcct cagcctccta 25950tgcaaccttc acctcccagg ttcaagagat tctcctgcct cagcctccta 25950

agtagctggg attacagcta caccacaccc ggttaatttt tgtattttta 26000agtagctggg attacagcta caccacaccc ggttaatttt tgtattttta 26000

atagagatgg ggtttagtag agatggggtt tcaccatgtt ggccaggctg 26050atagagatgg ggtttagtag agatggggtt tcaccatgtt ggccaggctg 26050

gtctcaagcc cctgacctca aggtgacctg cctgtctcag cctcccaaag 26100gtctcaagcc cctgacctca aggtgacctg cctgtctcag cctcccaaag 26100

tgctgggatt acagacatga gccaccatgc ccagcctcaa agacctcttc 26150tgctgggatt acagacatga gccaccatgc ccagcctcaa agacctcttc 26150

tttacttgct caccctgccg cccactcccc taccaacccc tgcatgccct 26200tttacttgct caccctgccg cccactcccc taccaacccc tgcatgccct 26200

ataccacctg gcacatgata catactaact gggtacatgt ttgaatatga 26250ataccacctg gcacatgata catactaact gggtacatgt ttgaatatga 26250

atggatgtgg tgctgtgaat gcttagggga agtgggtgaa atgcttaaga 26300atggatgtgg tgctgtgaat gcttagggga agtgggtgaa atgcttaaga 26300

accaaccttg agtggtctgg gaaggcttcc tgggagggtg gtgtttgagc 26350accaaccttg agtggtctgg gaaggcttcc tggagaggtg gtgtttgagc 26350

taaggccagg cagctgttag atttgttaga ctgaagccct tgcagactta 26400taaggccagg cagctgttag atttgttaga ctgaagccct tgcagactta 26400

gagagcttgt gctcttccca gaatgacggg tgagccacgt acagtaaatg 26450gagagcttgt gctcttccca gaatgacggg tgagccacgt acagtaaatg 26450

gtgcttctca tttctagccc aaggggcctc aaggggcacc gtgatttcac 26500gtgcttctca tttctagccc aaggggcctc aaggggcacc gtgatttcac 26500

gagaatgctg caagcaaatc ttttctcaag ctggggaatt tggtggtaat 26550gagaatgctg caagcaaatc ttttctcaag ctggggaatt tggtggtaat 26550

gcctggctca gcttgcggtg cgcacctggc ctttggaaga ttggtacaga 26600gcctggctca gcttgcggtg cgcacctggc ctttggaaga ttggtacaga 26600

gagaagcggc ccatccacat gagcctgtgg aacagcactg gtgggggagc 26650gagaagcggc ccatccacat gagcctgtgg aacagcactg gtgggggagc 26650

tgatttgtga agaggggctg tgcagtgtac tgtcaggtct gagacccagg 26700tgatttgtga agaggggctg tgcagtgtac tgtcaggtct gagacccagg 26700

aagaaattcc agtatcccag ctctcagaat cacagagttc taggcactgc 26750aagaaattcc agtatcccag ctctcagaat cacagagttc taggcactgc 26750

ctagttccac gtgttcccaa atgtttcctg aatacttgga tttcctgtcc 26800ctagttccac gtgttcccaa atgtttcctg aatacttgga tttcctgtcc 26800

agagaatttt caaaacaaac ttagaggcct gacccatggc tgccaaggaa 26850agagaatttt caaaacaaac ttagaggcct gacccatggc tgccaaggaa 26850

ggattttttt tttaaattaa attttaaaaa tcagtccagc atgaaaatct 26900ggattttttt tttaaattaa attttaaaaa tcagtccagc atgaaaatct 26900

atgatgattt cataagagaa aggacatttt aatattcaaa gagtaagaag 26950atgatgattt cataagagaa aggacatttt aatattcaaa gagtaagaag 26950

cacttaatct tggaagaaag ggcattccta tactttgatt acctttagtt 27000cacttaatct tggaagaaag ggcattccta tactttgatt acctttagtt 27000

taattaaaaa acacctacat ggtctttact tctgtgattt cattcctggg 27050taattaaaaa acacctacat ggtctttact tctgtgattt cattcctggg 27050

ctagtgaaac attgtcacaa taaagcatca ggccaacgct tctttcgacc 27100ctagtgaaac attgtcacaa taaagcatca ggccaacgct tctttcgacc 27100

cactggccaa tcagttgaca aacagtgact agatgtttca gcctattttg 27150cactggccaa tcagttgaca aacagtgact agatgtttca gcctattttg 27150

ctgaggctaa aggattgaac tagtgcttca gccagcatga aaaccagtca 27200ctgaggctaa aggattgaac tagtgcttca gccagcatga aaaccagtca 27200

ggagtccgtg ctggtgttgg cttagattag cagggccttt gatggagggg 27250ggagtccgtg ctggtgttgg cttagattag cagggccttt gatggagggg 27250

catgtatgtg tttgggtttg ctgtgccagg caggggagca gtggaatttg 27300catgtatgtg tttgggtttg ctgtgccagg caggggagca gtggaatttg 27300

tctgaattga gctcacacat tgaagttatt gagcgactta catgcaaggc 27350tctgaattga gctcacacat tgaagttatt gagcgactta catgcaaggc 27350

catgacctgg actcccagcc gagaggccca cgtggcgggg cttgagctgg 27400catgacctgg actcccagcc gagaggccca cgtggcgggg cttgagctgg 27400

gggagccgag gacagcttac atctgctcat ctgcttacgt aaccctgcct 27450gggagccgag gacagcttac atctgctcat ctgcttacgt aaccctgcct 27450

cccagcttcc agagccaaga aaacacacaa gccagcccag cggggccgag 27500cccagcttcc agagccaaga aaacacacaa gccagcccag cggggccgag 27500

agcctgtggt agcacacgcc atgcgccgca cagcaagggc gccttggctc 27550agcctgtggt agcacacgcc atgcgccgca cagcaagggc gccttggctc 27550

ggcttgaggc ctgtcatgaa gccctcagcc ctctgcctcc tcccagagct 27600ggcttgaggc ctgtcatgaa gccctcagcc ctctgcctcc tccgagct 27600

tctccccacc accccaggca gtggctctga aacctggtcg caggtctgca 27650tctccccacc accccaggca gtggctctga aacctggtcg caggtctgca 27650

tgattctgaa cagaggtagt cgttgccttc ctggagtctg agctctctgg 27700tgattctgaa cagaggtagt cgttgccttc ctggagtctg agctctctgg 27700

agtttctcac tgggacagag ccaggtgtgt agcagagcat ggtccctgca 27750agtttctcac tgggacagag ccaggtgtgt agcagagcat ggtccctgca 27750

gtatggcagg aggtgtgcag ggcattcagg aggcctcctg gctggcactc 27800gtatggcagg aggtgtgcag ggcattcagg aggcctcctg gctggcactc 27800

gacccaatta gtcattcaac gccaggtctg gggctgctgt ctgttgtctc 27850gacccaatta gtcattcaac gccaggtctg gggctgctgt ctgttgtctc 27850

aaaggtgtga gctgcaagat ccttagagtt gtggagaaaa aattgccaga 27900aaaggtgtga gctgcaagat ccttagagtt gtggagaaaa aattgccaga 27900

ttggcaagaa gggcaggatt gggggtcaag gtgtctcagt gtgttggaag 27950ttggcaagaa gggcaggatt gggggtcaag gtgtctcagt gtgttggaag 27950

catgatgggg gttgtgcaag gggcacagcg agttcagaag ggagcaggag 28000catgatgggg gttgtgcaag gggcacagcg agttcagaag ggagcaggag 28000

agtgagaaga ggctgttcag tgataaagct ctgcacagag ccattggagg 28050agtgagaaga ggctgttcag tgataaagct ctgcacagag ccattggagg 28050

agcaagctcc ttgaccatcc ttaaaccagg gtaattttca tttaggttct 28100agcaagctcc ttgaccatcc ttaaaccagg gtaattttca tttaggttct 28100

gccacacgct cagcagggaa ctcctggaag gcaggatttg tcttgtccat 28150gccacacgct cagcagggaa ctcctggaag gcaggatttg tcttgtccat 28150

cctccctccc tacctcaacc cactcctcct tgggctggca cacagtaggt 28200cctccctccc tacctcaacc cactcctcct tgggctggca cacagtaggt 28200

acccagaaag tatcaattga aacaaattga aagtggtctt gatacatatc 28250acccagaaag tatcaattga aacaaattga aagtggtctt gatacatatc 28250

acagggcaag tttgcagtta acagacattt cagagtaaag actctctggc 28300acagggcaag tttgcagtta acagacattt cagagtaaag actctctggc 28300

ttggtgctcg atcggcttct gtgggttgtc agcatgctgt ggacagcccc 28350ttggtgctcg atcggcttct gtgggttgtc agcatgctgt ggacagcccc 28350

ggcatgggag cgagtgggcg tgtgtgtgtg tgtatgtgag ggtgagagag 28400ggcatgggag cgagtgggcg tgtgtgtgtg tgtatgtgag ggtgagagag 28400

cgttagtgtg tgtgttgggg ttggggagag aggaggggga atagaagatg 28450cgttagtgtg tgtgttgggg ttggggagag aggaggggga atagaagatg 28450

gaccacccgg gtatcagctt ctgccctggg gagatggtgg tgtcagttgc 28500gaccacccgg gtatcagctt ctgccctggg gagatggtgg tgtcagttgc 28500

tgagggaatc ctgagaagca ggtctggctg taggtggtga tggtggtggg 28550tgagggaatc ctgagaagca ggtctggctg taggtggtga tggtggtggg 28550

gttgcatgag aatccatttg gggcaggttg aatttgaggt gcccatgaca 28600gttgcatgag aatccattg gggcaggttg aatttgaggt gcccatgaca 28600

tatggctagc catgttctgt tggctgtgag gtcaggagag agacatgaga 28650tatggctagc catgttctgt tggctgtgag gtcaggagag agacatgaga 28650

tggaaacaga ggtttgggaa ctgtcatgtg cttaaaccaa agacctgggt 28700tggaaacaga ggtttgggaa ctgtcatgtg cttaaaccaa agacctgggt 28700

atagggagag tgagaagaga agggggcaaa gatggacatc caagaaagaa 28750atagggagag tgagaagaga agggggcaaa gatggacatc caagaaagaa 28750

gctgagaaag cctaggaatt tgaggtaaga ggagacgtag gtaaatgtga 28800gctgagaaag cctaggaatt tgaggtaaga gggacgtag gtaaatgtga 28800

cgcttggtga tcaaggcttc tttccacctc tcctatgctg gacactcacg 28850cgcttggtga tcaaggcttc tttccacctc tcctatgctg gacactcacg 28850

tctcctgtct gcttggaaat tcatgctgag ggcagggaag gtgggagcaa 28900tctcctgtct gcttggaaat tcatgctgag ggcagggaag gtgggagcaa 28900

ggatttgtct aaagatcttg ctttggatcc ctgcactcct cctggtttac 28950ggatttgtct aaagatcttg ctttggatcc ctgcactcct cctggtttac 28950

caagtgtcac tggacacgtc agggcgttct gagaccttag agagcatcca 29000caagtgtcac tggacacgtc agggcgttct gagaccttag agagcatcca 29000

gtcctgtccc tgcagtttac aaatgaggaa accagtaccc tgagagtggc 29050gtcctgtccc tgcagtttac aaatgaggaa accagtaccc tgagagtggc 29050

tgtactatcc actctcagga taccaaagat catctggaaa gtcactggtg 29100tgtactatcc actctcagga taccaaagat catctggaaa gtcactggtg 29100

gagctggacc ggggcccagg catctcttct cctgtccggg gctcttgact 29150gagctggacc ggggcccagg catctcttct cctgtccggg gctcttgact 29150

tcaggaccac ctttctgaaa cccatgatgg ggcaacacca ggacactttc 29200tcaggaccac ctttctgaaa cccatgatgg ggcaacacca ggacactttc 29200

cagcctgcag gtgtctgtcc cgcggaagcg agccaggcca catgtgaatt 29250cagcctgcag gtgtctgtcc cgcggaagcg agccaggcca catgtgaatt 29250

cctgttttct gggtgggttt cagaaggtac gagcaagtcg gcagggtgac 29300cctgttttct gggtgggttt cagaaggtac gagcaagtcg gcagggtgac 29300

agcccaggtg cttcttgggt tccccaaaac gcggttatgt ttagcagcat 29350agcccaggtg cttcttgggt tccccaaaac gcggttatgt ttagcagcat 29350

cctcagaacc aaaggtgggg tgggggctgc agatgttgtg ggggccctct 29400cctcagaacc aaaggtgggg tggggggctgc agatgttgtg ggggccctct 29400

gaagtgaaaa gagccctgtg acagatcttt tcttcatgtt tttcacaagt 29450gaagtgaaaa gagccctgtg acagatcttt tcttcatgtt tttcacaagt 29450

tcactgtgca gcagggcccc cccagtagcc tttgcccagg gttgggtgtt 29500tcactgtgca gcagggcccc cccagtagcc tttgcccagg gttgggtgtt 29500

gggcagccca ggcctggctg accttgtggg gaagggtgtg aatggtggga 29550gggcagccca ggcctggctg accttgtggg gaagggtgtg aatggtggga 29550

atccccgagg gccctctttg cccgaaagcc ctaagccttg acatcagatg 29600atccccgagg gccctctttg cccgaaagcc ctaagccttg acatcagatg 29600

cccatcagat ggtccatcgg agccctacta cccagcttgc ccagtgagaa 29650cccatcagat ggtccatcgg agccctacta cccagcttgc ccagtgagaa 29650

tcatctgggc tccttgttag gtagccattt aggtccttcc caaaatccac 29700tcatctgggc tccttgttag gtagccattt aggtccttcc caaaatccac 29700

agactctcta agggaagggc ccgagatgct gtacttgtac taacttcctc 29750agactctcta agggaagggc ccgagatgct gtacttgtac taacttcctc 29750

aagcaattct tgtgataggt ttgggaaaaa cttgtccagg gtgaccactg 29800aagcaattct tgtgataggt ttgggaaaaa cttgtccagg gtgaccactg 29800

actgagtcct ggtcttctct gaagagcaca gtgcctgctc actttagggc 29850actgagtcct ggtcttctct gaagagcaca gtgcctgctc actttagggc 29850

accctgggag gtgggagctg gctcagcagg cagtcttata agggactgag 29900accctgggag gtgggagctg gctcagcagg cagtcttata agggactgag 29900

cttcaaggcc tctgtccctc caggagggag gtgcatgacc agagagggag 29950cttcaaggcc tctgtccctc caggagggag gtgcatgacc agagagggag 29950

gcctgaggat cttcttccct gccccagagg gtctgctgcc tgagctctgt 30000gcctgaggat cttcttccct gccccagagg gtctgctgcc tgagctctgt 30000

gatagcgcag agagtaaaag gatcaagctt gattgaggcc tatctctcaa 30050gatagcgcag agagtaaaag gatcaagctt gattgaggcc tatctctcaa 30050

tgcgaaagtt tgctagttaa gaggagagtg ggaagggcat ttctggcaaa 30100tgcgaaagtt tgctagttaa gaggagtg ggaagggcat ttctggcaaa 30100

gagaaaagtg tggacaggca tggcttaagg gatggggagg gagacagaca 30150gagaaaagtg tggacaggca tggcttaagg gatggggagg gagacagaca 30150

gagctgaggg tgaagggcct tttgctcagc tgtgggcctt ggccttccct 30200gagctgaggg tgaagggcct tttgctcagc tgtgggcctt ggccttccct 30200

tgtgcaggga cacacagcct tagagccact ggaggtttta gtgggaaagt 30250tgtgcaggga cacacagcct tagagccact ggaggtttta gtgggaaagt 30250

aatatggtcg gggctgtatc tcagaagaaa acaaactaat gggaacaggt 30300aatatggtcg gggctgtatc tcagaagaaa acaaactaat gggaacaggt 30300

cctgtgatgg tggacctggg tcagctacgg agggagggaa gatgtgagat 30350cctgtgatgg tggacctggg tcagctacgg agggagggaa gatgtgagat 30350

gtgtactggg gaagggggtg gaagtggcag ctatctggtg agaggaagca 30400gtgtactggg gaagggggtg gaagtggcag ctatctggtg agaggaagca 30400

ggcccacagc tttttttctc aagctgttga attcagaagg gcgagtgatt 30450ggcccacagc tttttttctc aagctgttga attcagaagg gcgagtgatt 30450

ccgggagtag ggggtgcttg gagagccacg cgttattgat aaacagggca 30500ccggggagtag ggggtgcttg gagagccacg cgttattgat aaacagggca 30500

ggctgaagcc tgctcactgg ccctgggcgg gttctcacca gcatgtttca 30550ggctgaagcc tgctcactgg ccctgggcgg gttctcacca gcatgtttca 30550

ggttttgatc tgtgcttgtg gttggtgttc ctacctgttc tctaggttcc 30600ggttttgatc tgtgcttgtg gttggtgttc ctacctgttc tctaggttcc 30600

ttcctttgtt cttgtggctc atttgcttca caggtgaagc tggttacact 30650ttcctttgtt cttgtggctc atttgcttca caggtgaagc tggttacact 30650

agagtaacag ttcccaaagt gtgttccctg gaaaaatggt tctgtagcca 30700agagtaacag ttcccaaagt gtgttccctg gaaaaatggt tctgtagcca 30700

aataagcttg ggaaatggtg ggttaaatat aacgaagggg gtttttcgac 30750aataagcttg ggaaatggtg ggttaaatat aacgaagggg gtttttcgac 30750

tgcacaactt ctcagagcct ttggtgtgtg tcgtgacttt gcagaagcag 30800tgcacaactt ctcagagcct ttggtgtgtg tcgtgacttt gcagaagcag 30800

gatttaatac gcagcattcc cgttcttatt tgaccacgag acatgttttt 30850gatttaatac gcagcattcc cgttcttatt tgaccacgag acatgttttt 30850

ccattaagca tcttgctggg tctgatgttt tctggaaccc attttgaggc 30900ccattaagca tcttgctggg tctgatgttt tctggaaccc attttgaggc 30900

ggtctggtct gcagagagta tggggagcct gggttcaagc cttggctctt 30950ggtctggtct gcagagagta tggggagcct gggttcaagc cttggctctt 30950

gactctcagc agagccttga ttccctgtgt tgcctggact gcaccacgtg 31000gactctcagc agagccttga ttccctgtgt tgcctggact gcaccacgtg 31000

taccacatac ccggtatgtg acgttttcct catccctctt cccacctgcc 31050taccacatac ccggtatgtg acgttttcct catccctctt cccacctgcc 31050

gttacctcac aatccacaat ctgcacctca tccatttttc ttctgaggca 31100gttacctcac aatccacaat ctgcacctca tccatttttc ttctgaggca 31100

agcactctct tactaactta cttatctcat ctgcatccat gttcttctag 31150agcactctct tactaactta cttatctcat ctgcatccat gttcttctag 31150

gccagaaact tgggagtcat ccctccctct ttgttacttc ttcttcctct 31200gccagaaact tgggagtcat ccctccctct ttgttacttc ttcttcctct 31200

ttgttacttt atcccctctg ttactaaaca ttcttctgtg tttccagcta 31250ttgttacttt atcccctctg ttactaaaca ttcttctgtg tttccagcta 31250

tttcttttat tttccctcgg tctcctttgg ggtttctttg cctccatctc 31300tttcttttat tttccctcgg tctcctttgg ggtttctttg cctccatctc 31300

tcccagacct tggttcacct tccatcgagt cccttcctgg gacatgggca 31350tccgagacct tggttcacct tccatcgagt cccttcctgg gacatgggca 31350

ctcatgccac tcctgctacc ttccacttcg aagctaactc cctccacact 31400ctcatgccac tcctgctacc ttccacttcg aagctaactc cctccacact 31400

gacgtcccca acatgcatgc atacacacac acacacacac acacacatac 31450gacgtcccca acatgcatgc atacacacac acacacacac acacacatac 31450

acacacacac acacacactt ccccagttag gctagaatca gagagatgat 31500acacacacac acacacactt ccccagttag gctagaatca gagagatgat 31500

gtcagccatt tgtccaaggc cacgcagctg ggaggtcaca gagctaagtc 31550gtcagccatt tgtccaaggc cacgcagctg ggaggtcaca gagctaagtc 31550

tcaacctcag gggttttgag aaattgcctt ctcatccgtg atcactgatt 31600tcaacctcag gggttttgag aaattgcctt ctcatccgtg atcactgatt 31600

tctacaacag cctgtcagga agtctgggta gaaattactt ccattttaca 31650tctacaacag cctgtcagga agtctgggta gaaattactt ccattttaca 31650

gtggagtcag agcggggagg gtcctgggca ggcgagtgct tcacagagtg 31700gtggagtcag agcggggagg gtcctgggca ggcgagtgct tcacagagtg 31700

accaaccatc taggtttgcc ccacactgaa gggggtttct ggggatggtt 31750accaaccatc taggtttgcc ccacactgaa gggggtttct ggggatggtt 31750

ggtcacccta atgctggatg tggtgcctga tgctgggcag gagggccctc 31800ggtcacccta atgctggatg tggtgcctga tgctgggcag gagggccctc 31800

tccgtggcca cgttgcctcc caggaggaga catttcctct gcagctgcag 31850tccgtggcca cgttgcctcc caggaggaga catttcctct gcagctgcag 31850

ctgcagcctg gccatctgat gcagcctgtg gagcggtggc gagtcctgtg 31900ctgcagcctg gccatctgat gcagcctgtg gagcggtggc gagtcctgtg 31900

gcctgctaac ttctccctcc ctccacctct ctagtgggcc ccatgctgat 31950gcctgctaac ttctccctcc ctccacctct ctagtgggcc ccatgctgat 31950

tgagtttaac atgcctgtgg acctggagct cgtggcaaag cagaacccaa 32000tgagtttaac atgcctgtgg acctggagct cgtggcaaag cagaacccaa 32000

atgtgaagat gggcggccgc tatgccccca gggactgcgt ctctcctcac 32050atgtgaagat gggcggccgc tatgccccca gggactgcgt ctctcctcac 32050

aaggtggcca tcatcattcc attccgcaac cggcaggagc acctcaagta 32100aaggtggcca tcatcattcc attccgcaac cggcaggagc acctcaagta 32100

ctggctatat tatttgcacc cagtcctgca gcgccagcag ctggactatg 32150ctggctatat tatttgcacc cagtcctgca gcgccagcag ctggactatg 32150

gcatctatgt tatcaaccag gtgaggcctg ggaaggtgga atgagagagg 32200gcatctatgt tatcaaccag gtgaggcctg ggaaggtgga atgagagagg 32200

gtgtgtgtgc atgcagatgt gtatcagatg tgtgtgtaat gagggcaggg 32250gtgtgtgtgc atgcagatgt gtatcagatg tgtgtgtaat gagggcaggg 32250

gaaggggagt gatttcacag acacctggca cttacagcga ggaaccagcc 32300gaaggggagt gatttcacag acacctggca cttacagcga ggaaccagcc 32300

ccccagccac caccagtgca gatgaggtaa acgccaaaca gtgtgcttgc 32350ccccagccac caccagtgca gatgaggtaa acgccaaaca gtgtgcttgc 32350

ctattgctgt caactctata gccaagggaa atgctggagt gttttcgttg 32400ctattgctgt caactctata gccaagggaa atgctggagt gttttcgttg 32400

ttctgttttt gttttctgga agtagccttc cagcaagatt gggaaaaaag 32450ttctgttttt gttttctgga agtagccttc cagcaagatt gggaaaaaag 32450

acaaccctaa ttattccaaa gtacacactg attattccct ggctttgtgt 32500acaaccctaa ttattccaaa gtacacactg attattccct ggctttgtgt 32500

agctgtgtat tttcctttta aaaataaaac caccatttag atgtcagact 32550agctgtgtat tttcctttta aaaataaaac caccatttag atgtcagact 32550

tttaggtaac ttcaaagttt atccagtcag tcagagcgtg tctcctgggg 32600tttaggtaac ttcaaagttt atccagtcag tcagagcgtg tctcctgggg 32600

cacctggaga cagtgccctt agttcaggtc acatgcctac atgccagccc 32650cacctggaga cagtgccctt agttcaggtc acatgcctac atgccagccc 32650

ctggtgaaat atctggagaa gtctgattcg tgggccatct gagagttatg 32700ctggtgaaat atctggagaa gtctgattcg tgggccatct gagagttatg 32700

tggactgggc cgagtctgag aaaaagtttc tcactgctcg tctgatccat 32750tggactgggc cgagtctgag aaaaagtttc tcactgctcg tctgatccat 32750

atgtgttggg ctttagccct gcttaggaaa gtaatgctaa ggataggtca 32800atgtgttggg ctttagccct gcttaggaaa gtaatgctaa ggataggtca 32800

actttcatca ccatggcatg gagaatcaga ttgatctaag aggcatcttt 32850actttcatca ccatggcatg gagaatcaga ttgatctaag aggcatcttt 32850

attgaaataa atttttcagt ttatttgagg agcattattt tcccaagagt 32900attgaaataa atttttcagt ttatttgagg agcattattt tcccaagagt 32900

ataactttga tatttcaaga ttacccctaa cacttaaatt catgttttta 32950ataactttga tatttcaaga ttacccctaa cacttaaatt catgttttta 32950

gactataacc tcctaggtgc aatgacacat ctaacttatc taagcaccca 33000gactataacc tcctaggtgc aatgacacat ctaacttatc taagcaccca 33000

gtttcattga aattcatttg aagagtctga gtacgcccat ttctacaagg 33050gtttcattga aattcatttg aagagtctga gtacgcccat ttctacaagg 33050

cccaatgtcc atttcatttc gagataaact ctgctttagg taggaggatt 33100cccaatgtcc atttcatttc gagataaact ctgctttagg taggaggatt 33100

gttggcagtt tacggcttcc atcaaggtca aggaactctg tgcaccttcc 33150gttggcagtt tacggcttcc atcaaggtca aggaactctg tgcaccttcc 33150

ctatgacccc aggggaagca ctcgaggact gctgtggcat tgtgctgcat 33200ctatgacccc aggggaagca ctcgaggact gctgtggcat tgtgctgcat 33200

cacttgctgc agggagattc tgaagaagtg taaggtctca gtcctgccct 33250cacttgctgc agggagattc tgaagaagtg taaggtctca gtcctgccct 33250

gtcccgaagc ctccaaccca cttctggcaa gtgggacctt cccagggaac 33300gtcccgaagc ctccaaccca cttctggcaa gtgggacctt cccagggaac 33300

aatttgttaa cagacccaaa tatcctgtga ttggatggtg gctgccaaat 33350aatttgttaa cagacccaaa tatcctgtga ttggatggtg gctgccaaat 33350

gctttggaag ctcagaggaa ggagagagag caatggcttg gaagaaccag 33400gctttggaag ctcagaggaa ggagagagag caatggcttg gaagaaccag 33400

gatataaact aggttctaaa gtctgcaggg agatgggctt ctcagctggg 33450gatataaact aggttctaaa gtctgcaggg agatgggctt ctcagctggg 33450

gccagtgagc agggacctta aggcagaaag gagccttgca tgttcctgga 33500gccagtgagc agggacctta aggcagaaag gagccttgca tgttcctgga 33500

aattgagatg cccactgggg taggaaagca ccagaagctc tgggaccagg 33550aattgagatg cccactgggg taggaaagca ccagaagctc tgggaccagg 33550

tgtcagagtt aagcctgtga ggcaggagag agcagaacaa gccctgttac 33600tgtcagagtt aagcctgtga ggcaggagag agcagaacaa gccctgttac 33600

aaggaaactg aagcaggaga gcaggtggtg ggcaaacccc ttgaggctgt 33650aaggaaactg aagcaggaga gcaggtggtg ggcaaacccc ttgaggctgt 33650

ttgaattctt cggccaagtg aggtacagac cagggcccta tgaacacctg 33700ttgaattctt cggccaagtg aggtacagac cagggcccta tgaacacctg 33700

caagcaagac agccacgcag ttgtgggtca ccttggaaga atattggaga 33750caagcaagac agccacgcag ttgtgggtca ccttggaaga atattggaga 33750

atgcaagaga gaacaggtaa atgtcctgca aaatgcgggt cactttaacc 33800atgcaagaga gaacaggtaa atgtcctgca aaatgcgggt cactttaacc 33800

caacacatat tcatttaaga aaagctctgt gattgagaaa catttgtctg 33850caacacatat tcatttaaga aaagctctgt gattgagaaa catttgtctg 33850

atgccagtta gcacatacca atgacggcaa gattcaggag cctgttatta 33900atgccagtta gcacatacca atgacggcaa gattcaggag cctgttatta 33900

aagcagtggc agcgagcacc tggaagaggc ggccaccatc accaggagcc 33950aagcagtggc agcgagcacc tggaagaggc ggccaccatc accaggagcc 33950

agcagggatg actaataagc cgtgccagct gcatctcgtt tctctcttga 34000agcagggatg actaataagc cgtgccagct gcatctcgtt tctctcttga 34000

cagttgctat gccagtagat gagggatgta ctgtggatac aatgctgtca 34050cagttgctat gccagtagat gagggatgta ctgtggatac aatgctgtca 34050

tatcttattc agcagggcat ctgatagcat cccacaaatc tgcctgagta 34100tatcttattc agcagggcat ctgatagcat cccacaaatc tgcctgagta 34100

gaagacagac agctgtggtc tgggtgccat ataggtaggt taaaatatat 34150gaagacagac agctgtggtc tgggtgccat ataggtaggt taaaatatat 34150

atttgggcct aggcgcagtg gctcatgcct gtaatcccag cactttggga 34200atttgggcct aggcgcagtg gctcatgcct gtaatcccag cactttggga 34200

ggccaaggca ggcggatcac ttgaagtcag gagttcaaga ccagcctggc 34250ggccaaggca ggcggatcac ttgaagtcag gagttcaaga ccagcctggc 34250

caacatggcg aaaccccgtc tctactaaaa atacaaaaat tagctggaca 34300caacatggcg aaaccccgtc tctactaaaa atacaaaaat tagctggaca 34300

tagtggtggg cggctgtaat cccagctact cgggaggctg aggcaggaga 34350tagtggtggg cggctgtaat cccagctact cgggaggctg aggcaggaga 34350

atctcttgaa cccaggaggc agaggttgca gtgagccgag atcatgccac 34400atctcttgaa cccaggaggc agaggttgca gtgagccgag atcatgccac 34400

tgcactccag cctgggcaac agagtgagac tctgtctcaa aaaaataaaa 34450tgcactccag cctgggcaac agagtgagac tctgtctcaa aaaaataaaa 34450

taaataaata aataaataaa atatatactt gggtaaagag gataaaagag 34500taaataaata aataaataaa atatatactt gggtaaagag gataaaagag 34500

ttagcgatga tgctgaattt ttgaactgag gtggctgttt tcaaggaaga 34550ttagcgatga tgctgaattt ttgaactgag gtggctgttt tcaaggaaga 34550

ctggagggtg ggatgctacg tctagatatg ttgcagttta ggtgaatgtg 34600ctggagggtg ggatgctacg tctagatatg ttgcagttta ggtgaatgtg 34600

agacttccct gttttgaagt caaatattgg accagtaaaa tctagccatc 34650agacttccct gttttgaagt caaatattgg accagtaaaa tctagccatc 34650

agcttaaatt cctatgatac aatttacata ctccccaggc tcaacacagt 34700agcttaaatt cctatgatac aatttacata ctccccaggc tcaacacagt 34700

agatttctga atgtcctctg ccagctacat gctcctgccc acctcaatcc 34750agatttctga atgtcctctg ccagctacat gctcctgccc acctcaatcc 34750

gagtagatgg aacaactaac caagccagct cagaccggtg gcacagctgt 34800gagtagatgg aacaactaac caagccagct cagaccggtg gcacagctgt 34800

gctggctaac actgggcacc acctaagaga gtgcttctcc aaaagtgtgc 34850gctggctaac actgggcacc acctaagaga gtgcttctcc aaaagtgtgc 34850

ttccccaaat ggagcgaaat acgcttgagg aatgttgggt tgaaccatgt 34900ttccccaaat ggagcgaaat acgcttgagg aatgttgggt tgaaccatgt 34900

aaagcaggtc tcattcccgc agagcctttg gtaccccggt gtacactgta 34950aaagcaggtc tcattcccgc agagcctttg gtaccccggt gtacactgta 34950

accccagaag tgtttcctga gcttgcctga cgagacaact tttccaagaa 35000accccagaag tgtttcctga gcttgcctga cgagacaact tttccaagaa 35000

ccgtctcaag tgatgagtgt tttgtgagtc acactttggg gaaagcgggc 35050ccgtctcaag tgatgagtgt tttgtgagtc acactttggg gaaagcgggc 35050

ctaagttagc atctcctccc agctgcctcc ctgctttccc tggaacacta 35100ctaagttagc atctcctccc agctgcctcc ctgctttccc tggaacacta 35100

ggaactgccc gtcctccctc cctccctcct cttcccactt cacaacttag 35150ggaactgccc gtcctccctc cctccctcct cttcccactt cacaacttag 35150

catcaggaat attttagttt tggtttttca aacatatata cctccttttt 35200catcaggaat attttagttt tggtttttca aacatatata cctccttttt 35200

tcttatcttg tcaatatcat cttttttttt tctttgcttt tcctcatact 35250tcttatcttg tcaatatcat cttttttttt tctttgcttt tcctcatact 35250

tttttttctc ttcatccttt ccttctccaa gggttaactt tccaccttag 35300tttttttctc ttcatccttt ccttctccaa gggttaactt tccaccttag 35300

gagaatcttt tctgcttttt ctcccacttc cccagctact ctcttatcat 35350gagaatcttt tctgcttttt ctcccacttc cccagctact ctcttatcat 35350

ctgctccaat ctcaccctaa ttgatcattt tgggaaaata tggtcagagt 35400ctgctccaat ctcaccctaa ttgatcattt tgggaaaata tggtcagagt 35400

ccagataact aagttgagaa atgcttaaac tctgccatac ctttccagta 35450cgataact aagttgagaa atgcttaaac tctgccatac ctttccagta 35450

aagaatatta cctaataaat aataaaatgg taatgggaaa cctgaaccct 35500aagaatatta cctaataaat aataaaatgg taatgggaaa cctgaaccct 35500

gaaaaaaaag aggtggaagg agaaacattt ggagcacatc ctgtctacaa 35550gaaaaaaaag aggtggaagg agaaacattt ggagcacatc ctgtctacaa 35550

attaggaact gcctgtgtta tctgttttat ggttatattc tagaagaaga 35600attaggaact gcctgtgtta tctgttttat ggttatattc tagaagaaga 35600

aagggatttt gtagcacctg gttttgacct ttctgcactg tttgttgagc 35650aagggatttt gtagcacctg gttttgacct ttctgcactg tttgttgagc 35650

aaataaacct tatgggctgt tagccctctt tatagcctct cagcttatcc 35700aaataaacct tatgggctgt tagccctctt tatagcctct cagcttatcc 35700

ctggcccaga caccctgctg tcattttgac ttttcattcc cacacacaca 35750ctggcccaga caccctgctg tcattttgac ttttcattcc cacacacaca 35750

tacacatgca cacacatgta cacacacaca cataccattt aagattagac 35800tacacatgca cacacatgta cacacacaca cataccattt aagattagac 35800

agaagtaatg ctcaaaatgg agtggcttct gagacattta gtccaagggt 35850agaagtaatg ctcaaaatgg agtggcttct gagacattta gtccaagggt 35850

tcccaaacag gcttttcagt atcagatttc tttctgcccc attgaaatgc 35900tcccaaacag gcttttcagt atcagatttc tttctgcccc attgaaatgc 35900

tacacaacct tccgcttaca gcaggtcaca agggtttcat tctacttgaa 35950tacacaacct tccgcttaca gcaggtcaca agggtttcat tctacttgaa 35950

gtaggggcca tgtcccattt ccacttcctt ggcttcccat tcagtcactg 36000gtaggggcca tgtcccattt ccacttcctt ggcttcccat tcagtcactg 36000

ctaggatttg cctagacccc tgaggccaga caatgtagaa acttctgctc 36050ctaggatttg cctagacccc tgaggccaga caatgtagaa acttctgctc 36050

catgtcacag gtgaggaaac aggctcagag agggacaggc tccgaaagtc 36100catgtcacag gtgaggaaac aggctcagag agggacaggc tccgaaagtc 36100

acatagacaa cagtagggct gcggctcaaa ccccagcgtc tgactccagg 36150acatagacaa cagtagggct gcggctcaaa ccccagcgtc tgactccagg 36150

tttagtgcct tctcagggca tcagtgacac tcctcatggc cagggtgccc 36200tttagtgcct tctcagggca tcagtgacac tcctcatggc cagggtgccc 36200

ccagtgttgc tcacagtctg gtatccaggg ctgagagtgt gctgtgtgct 36250ccagtgttgc tcacagtctg gtatccaggg ctgagagtgt gctgtgtgct 36250

cagactgcct gggttcagtc ctggcactgc cactttacag tcagtgacct 36300cagactgcct gggttcagtc ctggcactgc cactttacag tcagtgacct 36300

caggcaggtt acttaagctc tgcaggcctc agtttcctcc ttggtgggga 36350caggcaggtt acttaagctc tgcaggcctc agtttcctcc ttggtgggga 36350

gggttatgag gcatccttct catggtaaac cttcagtaaa taccagccgt 36400gggttatgag gcatccttct catggtaaac cttcagtaaa taccagccgt 36400

tactaggagg gtccactcct gcctctccac tctccattca tcctgcctgt 36450tactaggagg gtccactcct gcctctccac tctccattca tcctgcctgt 36450

ttcctctgcc tgcttcctct gcctgcttct gtggtggtga attcttcatg 36500ttcctctgcc tgcttcctct gcctgcttct gtggtggtga attcttcatg 36500

gctcccaccg cctcctgctg cacccccact cagggcccgc atcaggaccc 36550gctcccaccg cctcctgctg cacccccact cagggcccgc atcaggaccc 36550

ttcctcctat tggtttgaac tccttggagt cagagggtaa tggatagtgg 36600ttcctcctat tggtttgaac tccttggagt cagagggtaa tggatagtgg 36600

agtgagccag gtggcagaat ctcagaggcc atcccgggcc tataagcctc 36650agtgagccag gtggcagaat ctcagaggcc atcccggggcc tataagcctc 36650

ttcaaaatag ggccacgtat caagctttac acacaggagt gaactttcac 36700ttcaaaatag ggccacgtat caagctttac acacaggagt gaactttcac 36700

aagttgttat gactcatact ctgtctatag taagctgtta accactccca 36750aagttgttat gactcatact ctgtctatag taagctgtta accactccca 36750

tttggcttat gcctctgtaa ttattgtact aacttatatc ttaaaataag 36800tttggcttat gcctctgtaa ttattgtact aacttatatc ttaaaataag 36800

gatattgaag gaatgagccg ggagaggctt tcctggttga gatatagaag 36850gatattgaag gaatgagccg ggagaggctt tcctggttga gatatagaag 36850

aacaagagtt gctctttttc cttaaggtct ctcctcccac ccctgacctt 36900aacaagagtt gctctttttc cttaaggtct ctcctcccac ccctgacctt 36900

agctcaccag catgggagaa tactatttga ctccttgtac tctgagacgt 36950agctcaccag catgggagaa tactatttga ctccttgtac tctgagacgt 36950

ggatttcaag atatagcatt ccaacttcaa cggcagcaag aaaagaagca 37000ggatttcaag atatagcatt ccaacttcaa cggcagcaag aaaagaagca 37000

acagaaggag aagacatcat agcaaacagg gatgcatgct gcatttccta 37050acagaaggag aagacatcat agcaaacagg gatgcatgct gcatttccta 37050

atactcaaac ccggaaacga gacttcactc aaggtgaagg gagggcaggt 37100atactcaaac ccggaaacga gacttcactc aaggtgaagg gagggcaggt 37100

caccacctgg tagcactagc cctaaattaa ggaatgcaga atgtttgtgg 37150caccacctgg tagcactagc cctaaattaa ggaatgcaga atgtttgtgg 37150

gattgcccat cataaaaatt acaaaatgag taaggaatgc aggcacagct 37200gattgcccat cataaaaatt acaaaatgag taaggaatgc aggcacagct 37200

ggccaggtgg gtttgtcaca accatggcag ccctttgccc cacagccagt 37250ggccaggtgg gtttgtcaca accatggcag ccctttgccc cacagccagt 37250

acacagaact ggtctctcca attccgattg catatcttct ggcacctctg 37300acacagaact ggtctctcca attccgattg catatcttct ggcacctctg 37300

ttcctctccc tcagctgccc aggatttttc tggttctgac catgttactt 37350ttcctctccc tcagctgccc aggatttttc tggttctgac catgttactt 37350

cctcttttaa acctgttagc atttcacgac tgcctacagg caacggtcta 37400cctcttttaa acctgttagc atttcacgac tgcctacagg caacggtcta 37400

aatggtcgga aggcccaagc ttagcatccg agaccctgac ctacctccag 37450aatggtcgga aggcccaagc ttagcatccg agaccctgac ctacctccag 37450

ccacttcctc ctcctctcca cttcactgga ctccccatct ccacccagac 37500ccacttcctc ctcctctcca cttcactgga ctccccatct ccacccagac 37500

acctctgttc tcccctctgt gtgcctttgc ttatgctgtc ccctgtgttc 37550acctctgttc tcccctctgt gtgcctttgc ttatgctgtc ccctgtgttc 37550

ctagtgtgtc tctggctatc ttttaagctt ccctccccaa cctcattagt 37600ctagtgtgtc tctggctatc ttttaagctt ccctccccaa cctcattagt 37600

tctgtggagc ccctggaata gagctgactt ctccttccct gctgctccca 37650tctgtggagc ccctggaata gagctgactt ctccttccct gctgctccca 37650

ggctgctcag aactttctgg aaagggatga ttatctgagt tccagcctca 37700ggctgctcag aactttctgg aaagggatga ttatctgagt tccagcctca 37700

ccccagcccc cggactctga gtccctcatg tctgcctccc ttctttctct 37750ccccagcccc cggactctga gtccctcatg tctgcctccc ttctttctct 37750

ctgaccacac agctggtaca tagtcagtac agacgcagtc agtgagtgga 37800ctgaccacac agctggtaca tagtcagtac agacgcagtc agtgagtgga 37800

gcacggggct tctctccagg attcctgccc ctttgtttat ccctagtctc 37850gcacggggct tctctccagg attcctgccc ctttgtttat ccctagtctc 37850

aggactccct actcctggtc ttctgcctaa atctgtgcct cttggaagtg 37900aggactccct actcctggtc ttctgcctaa atctgtgcct cttggaagtg 37900

aagcctccgt tcccagtggg gccaggtcct gacccttggg aacttgcagg 37950aagcctccgt tcccagtggg gccaggtcct gacccttggg aacttgcagg 37950

atccctccct tgggcctctc cccgaagctt ccagctcaat gctgaccaga 38000atccctccct tgggcctctc cccgaagctt ccagctcaat gctgaccaga 38000

gcacaggctg cctgtgacag tccttggggt gacctccctt atcaggaaaa 38050gcacaggctg cctgtgacag tccttggggt gacctccctt atcaggaaaa 38050

atgcagaaaa cctattaata ccttagcctt gtgattgtta atggtcacaa 38100atgcagaaaa cctattaata ccttagcctt gtgattgtta atggtcacaa 38100

aactccttta gggtcctttg gactcagcac ctttatggtc tcactttgaa 38150aactccttta gggtcctttg gactcagcac ctttatggtc tcactttgaa 38150

ttttgaacct cccacctccc cccatccccc agagtaaggc aaatggtctt 38200ttttgaacct cccacctccc cccaccccc agagtaaggc aaatggtctt 38200

ctgattgttc ctgcagaggg aaggctccac aggtaagcac acgatggcca 38250ctgattgttc ctgcagagg aaggctccac aggtaagcac acgatggcca 38250

ggaagcagag ctggagcctg cctgaaaggc tgtggagaaa tggagggagg 38300ggaagcagag ctggagcctg cctgaaaggc tgtggagaaa tggagggagg 38300

gctgccctga ggactctgtc tggctttgaa gttttctact gtttcctttt 38350gctgccctga ggactctgtc tggctttgaa gttttctact gtttcctttt 38350

cttctgtgca ctgttttagg atgatggggt gatagttcca ggctggttga 38400cttctgtgca ctgttttagg atgatggggt gatagttcca ggctggttga 38400

ggatggattt ggagacagtc ctttgtaccc tcagtgagca agagtatctg 38450ggatggattt ggagacagtc ctttgtaccc tcagtgagca agagtatctg 38450

tcaccctacc tcagcagttg tctctgtcac tggtccaagc agctggttcc 38500tcaccctacc tcagcagttg tctctgtcac tggtccaagc agctggttcc 38500

tacacaaggt caagatcaac tggggagaag cagactcctg ggtctatccc 38550tacacaaggt caagatcaac tggggagaag cagactcctg ggtctatccc 38550

attagtgagg acagctgcct gggcttatgg cctcattggt ttggtttcta 38600attagtgagg acagctgcct gggcttatgg cctcattggt ttggtttcta 38600

tcttgatcat ctctaccatc cccccatccc ggccttccat tttctacctc 38650tcttgatcat ctctaccatc cccccatccc ggccttccat tttctacctc 38650

agctgtcagt gcacagattg atgtgtgtgg gaacggagct tgggaggagt 38700agctgtcagt gcacagattg atgtgtgtgg gaacggagct tgggaggagt 38700

ggggtagggc tggtcctgtc ctgtagcctc cccttccttc gggcacttgg 38750ggggtagggc tggtcctgtc ctgtagcctc cccttccttc gggcacttgg 38750

accctttgga gcttgccggg gtggggaatg ggagtgggaa ggccagggag 38800accctttgga gcttgccggg gtggggaatg ggagtgggaa ggccagggag 38800

tgtctctgca ccatcactgt ttgagtgttg cccctttgct gtgtgcccca 38850tgtctctgca ccatcactgt ttgagtgttg cccctttgct gtgtgcccca 38850

cctagtctat gtgtgtctct gttctctggg gactcaattt gctggtgaat 38900cctagtctat gtgtgtctct gttctctggg gactcaattt gctggtgaat 38900

tgcttccatg gacattgttc tgggaaatgc cattttttct gctcacccat 38950tgcttccatg gacattgttc tgggaaatgc cattttttct gctcacccat 38950

gactctgtga caaggaatga cagcttatta ggaatttgtt tttgcattgg 39000gactctgtga caaggaatga cagcttatta ggaatttgtt tttgcattgg 39000

aacagtggtc atcagaatgg gccccttttc ccttgcagct ttgacatttg 39050aacagtggtc atcagaatgg gccccttttc ccttgcagct ttgacatttg 39050

cctctctttt cctcacctct ctcccttgca tccacccttt tctctttttc 39100cctctctttt cctcacctct ctcccttgca tccacccttt tctctttttc 39100

ttcttttttg ttttccttct agcaggggcc ttttaccttt acttgttaat 39150ttcttttttg ttttccttct agcaggggcc ttttaccttt acttgttaat 39150

cctgtttgta gcaaagcaag tggaaggagg agttcctctc tgatctgctt 39200cctgtttgta gcaaagcaag tggaaggagg agttcctctc tgatctgctt 39200

cttattctcc acctaccttc tcttctgtac tttccgcctc ctagagagag 39250cttattctcc acctaccttc tcttctgtac tttccgcctc ctagagagag 39250

agagagagag aggaatgccg acctaactac cgctgccact gctgctgcca 39300agagagagag aggaatgccg acctaactac cgctgccact gctgctgcca 39300

ccaccgctgc caccaccacc ctggtaatgt tcacatgtcc tcaaatcaac 39350ccaccgctgc caccaccacc ctggtaatgt tcacatgtcc tcaaatcaac 39350

ccagagccag ggccctgctg gtcaggggga ggctatgtaa ataatcccat 39400ccagagccag ggccctgctg gtcaggggga ggctatgtaa ataatcccat 39400

gagtgtgcca tcctcaggcc ctggggtctc ctaggcaaga ccagggcctc 39450gagtgtgcca tcctcaggcc ctggggtctc ctaggcaaga cccaggcctc 39450

tgtgggctct ctcggaaatg ctgaggttgc tggaagccag cccgtcatac 39500tgtgggctct ctcggaaatg ctgaggttgc tggaagccag cccgtcatac 39500

agggtctgag agtttaactt cttttaaatt aaaccacagt tgagctcatg 39550agggtctgag agtttaactt cttttaaatt aaaccacagt tgagctcatg 39550

ctgtgtgtgt ataaactttt gtatcctgct ttttccttaa attctttatc 39600ctgtgtgtgt ataaactttt gtatcctgct ttttccttaa attctttatc 39600

atcagcatct tcccatgtta tttcatagtc ttcatcatca tcactttcca 39650atcagcatct tcccatgtta tttcatagtc ttcatcatca tcactttcca 39650

taccttcata gtagttgatc gtagaattcc atcataatta acttgtcttt 39700taccttcata gtagttgatc gtagaattcc atcataatta acttgtcttt 39700

tctctcttag aagtccctta ggtaatgtcc aattttccgt gagtgtaagt 39750tctctcttag aagtccctta ggtaatgtcc aattttccgt gagtgtaagt 39750

aataccataa tgaacatctt ggagtctgaa gtttattctg tgttggtttg 39800aataccataa tgaacatctt ggagtctgaa gtttattctg tgttggtttg 39800

ttccacattt aggatcattt tcccaggcta gattttcaga tgtgggatta 39850ttccacattt aggatcattt tcccaggcta gattttcaga tgtgggatta 39850

tgggttcaga tatggtttac acatttttat agttcttaat acagatggcc 39900tgggttcaga tatggtttac acatttttat agttcttaat acagatggcc 39900

aaattgcttt ctgaaagaga agcttttctt aagtattttt ctccaacttg 39950aaattgcttt ctgaaagaga agcttttctt aagtattttt ctccaacttg 39950

tatcttaaac atcctgaaca tgcttagcac cactgtcttg atatatctgc 40000tatcttaaac atcctgaaca tgcttagcac cactgtcttg atatatctgc 40000

ggaaagccac gtctccactt ttcagtgtgt cgggccctgg gagaggcagg 40050ggaaagccac gtctccactt ttcagtgtgt cgggccctgg gagaggcagg 40050

catcctgcgc tggctccttg gagctgggtt taaaattgtc tcctctggct 40100catcctgcgc tggctccttg gagctgggtt taaaattgtc tcctctggct 40100

gggcgtggtg gctcacacct gtaatcccag tactttggga ggccgaggtg 40150gggcgtggtg gctcacacct gtaatcccag tactttggga ggccgaggtg 40150

ggcggatcac taggtcagga gatcgagacc atcctggcta acatggtgaa 40200ggcggatcac taggtcagga gatcgagacc atcctggcta acatggtgaa 40200

accccgtctc tactaaaaat acaaaaaatt agccgggcgt ggtggcgggc 40250accccgtctc tactaaaaat acaaaaaatt agccgggcgt ggtggcgggc 40250

acttgaaaag tcccagctac tcgggaggct gaggcaggag aatgatatga 40300acttgaaaag tcccagctac tcgggaggct gaggcaggag aatgatatga 40300

acccgggagg cggagcttgc agtgagccga gatcgcgcca ctgcactcca 40350acccgggagg cggagcttgc agtgagccga gatcgcgcca ctgcactcca 40350

gcctgggcga cagagtgaga ctccatttta aaaaaacaaa caaacaaaac 40400gcctgggcga cagagtgaga ctccatttta aaaaaacaaa caaacaaaac 40400

aaaaaaacaa acaaacaaaa actgtctctt ctgtgctcac ttcacccaga 40450aaaaaaacaa acaaacaaaa actngtctctt ctgtgctcac ttcacccaga 40450

atccctgttg ggctcttcaa ggagctcagt tctctctgaa agcaacttta 40500atccctgttg ggctcttcaa ggagctcagt tctctctgaa agcaacttta 40500

tagcctcagt ccagtctgtg ttcctgtgtg gcaggggtca agggtatgct 40550tagcctcagt ccagtctgtg ttcctgtgtg gcaggggtca agggtatgct 40550

cactcttgag agtggtgtct ttggttgacc aagaaccact cccatagcct 40600cactcttgag agtggtgtct ttggttgacc aagaaccact cccatagcct 40600

ggtccctaac ccttgaaggc ccatctctct cactcactgg ggtgaagagt 40650ggtccctaac ccttgaaggc ccatctctct cactcactgg ggtgaagagt 40650

ttaaatctca gatccaagtt ttgttgagag ctctgagcta ccatattgct 40700ttaaatctca gatccaagtt ttgttgagag ctctgagcta ccatattgct 40700

atggttaaca atagttaaca atgttaacaa tggttaacta tggttaacaa 40750atggttaaca atagttaaca atgttaacaa tggttaacta tggttaacaa 40750

tagttaacaa tgtttaacaa ctagagccca gctgggtgtg gtggcatgtg 40800tagttaacaa tgtttaacaa ctagagccca gctgggtgtg gtggcatgtg 40800

ctaacagtcc cagcttctca agaggctgag gtgagaagat tgctggagtc 40850ctaacagtcc cagcttctca agaggctgag gtgagaagat tgctggagtc 40850

caggagctca aggccagcct gggcaacatg gcgagaccct gtctcccctg 40900caggagctca aggccagcct gggcaacatg gcgagaccct gtctcccctg 40900

caaaaaaaca acaacaacaa aagcaaaact agagcccaac tgctgtgaac 40950caaaaaaaca acaacaacaa aagcaaaact agagcccaac tgctgtgaac 40950

tcatggctga gtagatatta ttagccctcc acaaactcag catttgtata 41000tcatggctga gtagatatta ttagccctcc acaaactcag catttgtata 41000

atcccaggct gtttccagta attctctggg gatcatctcc cagcctgtcc 41050atcccaggct gtttccagta attctctggg gatcatctcc cagcctgtcc 41050

actgttccag gatccacact taggcctata ggaatgcccc gtcagagctt 41100actgttccag gatccacact taggcctata ggaatgcccc gtcagagctt 41100

ctgctgccgc tgatctgtta ctgtttcatg caacccactc ggcctagttc 41150ctgctgccgc tgatctgtta ctgtttcatg caacccactc ggcctagttc 41150

cttcctctta ctgtctcagt gggcacagaa aagcatacag agggtgtttc 41200cttcctctta ctgtctcagt gggcacagaa aagcatacag agggtgtttc 41200

agcaaacatt gccactggct gcagacctgc ccccggatct gtcctgttga 41250agcaaacatt gccactggct gcagacctgc ccccggatct gtcctgttga 41250

gagcttagtg ctgcgttctt gcatggtggg gaggggtgtg gctctgtgat 41300gagcttagtg ctgcgttctt gcatggtggg gaggggtgtg gctctgtgat 41300

gagccagggc atgtgtatag gagcaacagt gtctctctta tcacgtagaa 41350gagccagggc atgtgtatag gagcaacagt gtctctctta tcacgtagaa 41350

gttctgactc attgcgagtc ttggctttgg gttaatggtt ccagccatgt 41400gttctgactc attgcgagtc ttggctttgg gttaatggtt ccagccatgt 41400

tgctgctgtg tcttttggtg caggagaggc tgggcacagt tggtccctaa 41450tgctgctgtg tcttttggtg caggagaggc tgggcacagt tggtccctaa 41450

gccattatgg ataagggatg tgtctgctga tatacacaca tggacctgac 41500gccattatgg ataagggatg tgtctgctga tatacacaca tggacctgac 41500

atccagggaa ggcagggtga ttggacagaa cagttcttcc agaagctgtt 41550atccagggaa ggcaggtga ttggacagaa cagttcttcc agaagctgtt 41550

ggaacttgga caagagtggc ccttggcttt ctgtagttgg tcatctgtcc 41600ggaacttgga caagagtggc ccttggcttt ctgtagttgg tcatctgtcc 41600

cctgttgcaa tcaggggaag gccacacttg ccttccttaa ccacagttag 41650cctgttgcaa tcaggggaag gccacacttg ccttccttaa ccacagttag 41650

gattttcttg gggattagac cagattctag cacctgtcct gaacctctcg 41700gattttcttg gggattagac cagattctag cacctgtcct gaacctctcg 41700

ccccgcccct acaaaggctg cttgcaagtg tagtgcacat acacagggag 41750ccccgcccct acaaaggctg cttgcaagtg tagtgcacat acacagggag 41750

caggtggggc atggaagtgg aagtggagcc cctgcctttg gcccttgggg 41800caggtggggc atggaagtgg aagtggagcc cctgcctttg gcccttgggg 41800

gaggcactgt ctgcttaccc acggttgttg cctcatagga atcatacaac 41850gaggcactgt ctgcttaccc acggttgttg cctcatagga atcatacaac 41850

agcttcctaa ctggtctcct tgccttcagt tggattgggg cacaaatccc 41900agcttcctaa ctggtctcct tgccttcagt tggattgggg cacaaatccc 41900

tccttgacat ataaaccatg gtttaaggct ccctgtggcc taaataaaga 41950tccttgacat ataaaccatg gtttaaggct ccctgtggcc taaataaaga 41950

taaagcttaa gtatcttaac aagcacctaa cccttctccc cagcctcggt 42000taaagcttaa gtatcttaac aagcacctaa cccttctccc cagcctcggt 42000

gatttggctc atcgctgcct tcatgtttca ttctggcttc actcattcgg 42050gatttggctc atcgctgcct tcatgtttca ttctggcttc actcattcgg 42050

aatttcttgt agttccttgg ctgttctctt ttccttaccg cctttacaaa 42100aatttcttgt agttccttgg ctgttctctt ttccttaccg cctttacaaa 42100

tgctctcacc atgcatgctt ttctctgctc ctacagatgc cttctctccc 42150tgctctcacc atgcatgctt ttctctgctc ctacagatgc cttctctccc 42150

agcaccgcct ccagagtcta tgtctggtcg attctgtctg ctgtctccag 42200agcaccgcct cgagtcta tgtctggtcg attctgtctg ctgtctccag 42200

tccccatctt gtggcagtct ctgctcaatc atttggggat tttatatgtt 42250tccccatctt gtggcagtct ctgctcaatc atttggggat tttatatgtt 42250

ttctggcctt tcttttgggg gcctgtcttc tccttctaaa agcagccagt 42300ttctggcctt tcttttgggg gcctgtcttc tccttctaaa agcagccagt 42300

tgacctagaa ggaagggata actgtaactc ttgtctacca acataagatt 42350tgacctagaa ggaagggata actgtaactc ttgtctacca acataagatt 42350

aggcccaccc tttaaaagct gcgtctttga aagggacacc tgcacccagc 42400aggcccaccc tttaaaagct gcgtctttga aagggacacc tgcacccagc 42400

atgctggctt ctcttcacca agcgtgactt cctacgcatt tcacaggcct 42450atgctggctt ctcttcacca agcgtgactt cctacgcatt tcacaggcct 42450

ccagaggtcc ccctgactct cttctgctgt gagaaactct aatcatgtaa 42500ccagaggtcc ccctgactct cttctgctgt gagaaactct aatcatgtaa 42500

gccacaggct aattcccttg agccttaaat gtttttagta atttcccatt 42550gccacaggct aattcccttg agccttaaat gtttttagta atttcccatt 42550

catcagagaa gcaggatttg ggaggaattt tgaagcaaac actacagaag 42600catcagagaa gcaggatttg ggaggaattt tgaagcaaac actacagaag 42600

gcagagtctc caggtaggat atctaagaga catttggaat ggtctgactg 42650gcagagtctc caggtaggat atctaagaga catttggaat ggtctgactg 42650

ttcaagatgg atgggaaagc ctcttcctgt aatgatagta gccaacattt 42700ttcaagatgg atgggaaagc ctcttcctgt aatgatagta gccaacattt 42700

gttgtcaggc agtggggccc catttttgag atggggtctc tgtcacccag 42750gttgtcaggc agtggggccc catttttgag atggggtctc tgtcacccag 42750

gttggagtgc ggtggtgctg tcatggctca ctgcaacctc agcctccccg 42800gttggagtgc ggtggtgctg tcatggctca ctgcaacctc agcctccccg 42800

ggctgggtct tcttaattct gaaaaaccca gcttttaaag ggtggaccta 42850ggctgggtct tcttaattct gaaaaaccca gcttttaaag ggtggaccta 42850

atcttatgtt ggtagacaat gttgtctcat ttaatacaat gcacatgctc 42900atcttatgtt ggtagacaat gttgtctcat ttaatacaat gcacatgctc 42900

tccccataac acaaaagagg gaactgaggc ctggaggtgt gatgtacccc 42950tccccataac acaaaagagg gaactgaggc ctggaggtgt gatgtacccc 42950

aagtcacata gctaataaat aaagaagcca gcattcctgg gattaaaaat 43000aagtcacata gctaataaat aaagaagcca gcattcctgg gattaaaaat 43000

gcatgtgtct gtcactgtgg tgtatttggt gcttgatcaa tgtttacttg 43050gcatgtgtct gtcactgtgg tgtatttggt gcttgatcaa tgtttacttg 43050

agcaaatgga ggggcagagg taccgatgag tgtgctcagt gaggagggca 43100agcaaatgga ggggcagagg taccgatgag tgtgctcagt gagggagggca 43100

ggagtgaagc tgggcgtctt cccgcctctt gtgagtggtg gggcttggtg 43150ggagtgaagc tgggcgtctt cccgcctctt gtgagtggtg gggcttggtg 43150

agcttgccag ggcctgtctt tcttatcaaa gaaggtgtgt gccccagtgt 43200agcttgccag ggcctgtctt tcttatcaaa gaaggtgtgt gccccagtgt 43200

tacagcattt cacccaaagc agcctagaaa atgcttgact tttctgtcat 43250tacagcattt cacccaaagc agcctagaaa atgcttgact tttctgtcat 43250

tccggggagg acactttcct cctccactgt tctgctggcc tggtgtaccc 43300tccggggagg acactttcct cctccactgt tctgctggcc tggtgtaccc 43300

acggcccctg atagatgata gcacctgcta aagtgcacca tgcccttccg 43350acggcccctg atagatgata gcacctgcta aagtgcacca tgcccttccg 43350

tctcactgca tcccacagat gaggccaggc tgggatgagg gagaaaggga 43400tctcactgca tcccacagat gaggccaggc tgggatgagg gagaaaggga 43400

gggatatata gttcaggtta ttttggaaaa ctgcctgacc aattttaagt 43450gggatatata gttcaggtta ttttggaaaa ctgcctgacc aattttaagt 43450

ctgggccgga cactggggca tctcaccacg ttgaaagggc cgtggcaccc 43500ctgggccgga cactggggca tctcaccacg ttgaaagggc cgtggcaccc 43500

cgggcggtga aaggggctgg aaccaggtct gcttcttggg cttctcctcc 43550cgggcggtga aaggggctgg aaccaggtct gcttcttggg cttctcctcc 43550

agggtgccat tgctcatggg ccttggctgc agaggtgctc attcgtggtt 43600agggtgccat tgctcatggg ccttggctgc agaggtgctc attcgtggtt 43600

ccaaaattcc aattcctggg agaggaaaaa tgcttagttc agtctcagtt 43650ccaaaattcc aattcctggg agaggaaaaa tgcttagttc agtctcagtt 43650

aggcctctgc ttagatcaaa cagccaaggc cagtaggccc agtcctatgg 43700aggcctctgc ttagatcaaa cagccaaggc cagtaggccc agtcctatgg 43700

tagagacatg gcctcaaaga gccctctgct gcagttgttg gggagtgtac 43750tagagacatg gcctcaaaga gccctctgct gcagttgttg gggagtgtac 43750

caagagaagg gagcattgtc ctgggctggg cagccctggg ggtctagtgc 43800caagagaagg gagcattgtc ctgggctggg cagccctggg ggtctagtgc 43800

atagatgtag aaaggctctg ttggtatacc tccctttgct tgttggaaag 43850atagatgtag aaaggctctg ttggtatacc tccctttgct tgttggaaag 43850

tgctcaacgg ggctgaattg tgtttgacag tgtaagtctg ggctggggtg 43900tgctcaacgg ggctgaattg tgtttgacag tgtaagtctg ggctggggtg 43900

agggttgtta caagattgtc aagatgatta aatgaaatgc catttgaaac 43950agggttgtta caagattgtc aagatgatta aatgaaatgc catttgaaac 43950

acttatccat gccttgtgta tggtatcccc accagtgaat attcacagta 44000acttatccat gccttgtgta tggtatcccc accagtgaat attcacagta 44000

tattataata attccaacaa cttcataatt ttcatatgca atttctaaac 44050tattataata attccaacaa cttcataatt ttcatatgca atttctaaac 44050

tttgaacttt tttttttttt tttttttttt tgagacagtg tctcgctctg 44100tttgaacttt tttttttttt tttttttttt tgagacagtg tctcgctctg 44100

ttgcccaggc tggagtgcag tggcgcaatc ttggctcact gcaacctcca 44150ttgcccaggc tggagtgcag tggcgcaatc ttggctcact gcaacctcca 44150

cctcccggct tcaagtgatt ctcctgcctc agcctcctga gtagctagga 44200cctcccggct tcaagtgatt ctcctgcctc agcctcctga gtagctagga 44200

atccaggcgc ccgccaccac acccagctaa tttttgtatt tttagtagag 44250atccaggcgc ccgccaccac acccagctaa tttttgtatt tttagtagag 44250

acgggctttc gccatgttgg ccaggctggt ctcaaactcc tgacctgagg 44300acgggctttc gccatgttgg ccaggctggt ctcaaactcc tgacctgagg 44300

tgatccaccg ccttggcctt ccaaagtgct aggattacat acgtgagcca 44350tgatccaccg ccttggcctt ccaaagtgct aggattacat acgtgagcca 44350

ctgtgcccgg caattttttg tgtttttagt agagatgggg tttcaccatg 44400ctgtgcccgg caattttttg tgtttttagt agagatgggg tttcaccatg 44400

ttggccaggc tggtctcgaa ctcctgacct caagtgatct gcccgcctca 44450ttggccaggc tggtctcgaa ctcctgacct caagtgatct gcccgcctca 44450

gcctccctaa tgctgggatt acaggtgtga gccaccacgc ccagcctaaa 44500gcctccctaa tgctgggatt acaggtgtga gccaccacgc ccagcctaaa 44500

ctttgaattt ctttgaaccc atgacttaca cagaattagc tgaacgcaga 44550ctttgaattt ctttgaaccc atgacttaca cagaattagc tgaacgcaga 44550

attccaaatc aactcagcct gtgggacagc caaaaaacac agtgtgcctt 44600attccaaatc aactcagcct gtgggacagc caaaaaacac agtgtgcctt 44600

tgggctcctt cactcaccac gcggggttag aaaactttgt cagaggcttt 44650tgggctcctt cactcaccac gcggggttag aaaactttgt cagaggcttt 44650

aaaaaaggag ctcttgtgtg taaaatgttt ccttgattct ctttctggtg 44700aaaaaaggag ctcttgtgtg taaaatgttt ccttgattct ctttctggtg 44700

cctctctttc tctaagtggt ttgcttcccc aagttcccca cctgagtctg 44750cctctctttc tctaagtggt ttgcttcccc aagttcccca cctgagtctg 44750

ggtggctgtg gcacatctgt gcattctgta cgcacacagg cagccttttg 44800ggtggctgtg gcacatctgt gcattctgta cgcacacagg cagccttttg 44800

gagtgccagt ttccaggtct tggttttatt tatttattta tttatttttt 44850gagtgccagt ttccaggtct tggttttatt tatttattta tttatttttt 44850

tgagatgggg gtctcactct gccgcccagg ctggagtgca gtggtgccgt 44900tgagatgggg gtctcactct gccgcccagg ctggagtgca gtggtgccgt 44900

catggctcac tgcaacctca acctccctgg gatcagttga gcctcctacc 44950catggctcac tgcaacctca acctccctgg gatcagttga gcctcctacc 44950

tcagcctcca gagtactagg gaccaccatg cctggcaaat ttttgtaatt 45000tcagcctcca gagtactagg gaccaccatg cctggcaaat ttttgtaatt 45000

ttttgtagag gcagagtctc accatgttgc tcaggctggt ctcgagctcc 45050ttttgtagag gcagagtctc accatgttgc tcaggctggt ctcgagctcc 45050

tagactcaag tgatctgccc accttggcct cccaagtgtt aggattacaa 45100tagactcaag tgatctgccc accttggcct cccaagtgtt aggattacaa 45100

gtgtgagcca ccatgcccag cccaggtcat cttttgaggg catggagaga 45150gtgtgagcca ccatgcccag cccaggtcat cttttgaggg catggagaga 45150

agactttgag catcccactt ttgagattgt gtaccagtcg caagccccta 45200agactttgag catcccactt ttgagattgt gtaccagtcg caagccccta 45200

tgacacactt tttccccaaa gtagagggct ctgactatgt tgatcccaag 45250tgacacactt tttccccaaa gtagagggct ctgactatgt tgatcccaag 45250

agagatggga aagagcattg aatgaggatt ccaaagtatt gggccttagt 45300agagatggga aagagcattg aatgaggatt ccaaagtatt gggccttagt 45300

tcgtttcctc atgttggtgt tgtgaagatt ctggttagga taacagcatg 45350tcgtttcctc atgttggtgt tgtgaagatt ctggttagga taacagcatg 45350

tgtgcaggag gctttgtgaa ctgctgagag tgaggcgtgg caatgtcagt 45400tgtgcaggag gctttgtgaa ctgctgagag tgaggcgtgg caatgtcagt 45400

gctaggtttg tccttactaa cctggggcca tgggaattga taagaccaga 45450gctaggtttg tccttactaa cctggggcca tgggaattga taagaccaga 45450

ttcccaactc taccccacaa tgtgatccct gtggtgaccc ctcacagggc 45500ttcccaactc taccccacaa tgtgatccct gtggtgaccc ctcacagggc 45500

tctttggtcg agcttcccag aagggatcac catctgccat tgtatgttga 45550tctttggtcg agcttcccag aagggatcac catctgccat tgtatgttga 45550

accccattca ttcattcatt cattcagcca accagcaact atttgttgag 45600accccattca ttcattcatt cattcagcca accagcaact atttgttgag 45600

ctcttattgt gtgagaagca gtcttcaagg aactgggtga ataaaaaaaa 45650ctcttattgt gtgagaagca gtcttcaagg aactgggtga ataaaaaaaa 45650

caaaacatcc taaccttcat tgagcttaca ttcttactga aagaaaacaa 45700caaaacatcc taaccttcat tgagcttaca ttcttactga aagaaaacaa 45700

ataaaacata catgtaatcc tagcactttg ggaggccaag gcaggcggat 45750ataaaacata catgtaatcc tagcactttg ggaggccaag gcaggcggat 45750

cacttgaggt caggaatttg aaaccagcct ggccaacgtg aaacccatct 45800cacttgaggt caggaatttg aaaccagcct ggccaacgtg aaacccatct 45800

ctactgaaaa ttaaaaaaaa aaaaaaaaaa aagccgggca tggtggcaca 45850ctactgaaaa ttaaaaaaaa aaaaaaaaaa aagccggggca tggtggcaca 45850

tgcctgtaat cccagctact cgcgaggcta aggcaggaga atcgcttgaa 45900tgcctgtaat cccagctact cgcgaggcta aggcaggaga atcgcttgaa 45900

tcctggaggc agaggttgca gtgagccaag atcataccat tatactccag 45950tcctggaggc agaggttgca gtgagccaag atcataccat tatactccag 45950

cctcagtgat gaagcaagac tccatctcaa aaataaaaaa taaaaataaa 46000cctcagtgat gaagcaagac tccatctcaa aaataaaaaa taaaaataaa 46000

aatatgcatt ccctttgcac cagcacactt ggtgcctggg gacctcgtgg 46050aatatgcatt ccctttgcac cagcacactt ggtgcctggg gacctcgtgg 46050

ttggcaccct gaagcaggtg tccctcttct gtcttgcaca ccttgcttct 46100ttggcaccct gaagcaggtg tccctcttct gtcttgcaca ccttgcttct 46100

gtcctggtgt gtatggcatg gccttctgcc ctccatggtg agcactgtga 46150gtcctggtgt gtatggcatg gccttctgcc ctccatggtg agcactgtga 46150

gggcagaggt tgagttgggt ttgctgtatt tctcaggtgc ctaggtttgt 46200gggcagaggt tgagttgggt ttgctgtatt tctcaggtgc ctaggtttgt 46200

gcttgacagg tagatggaag gcacacaatg tggtcatcaa acctcagtca 46250gcttgacagg tagatggaag gcacacaatg tggtcatcaa acctcagtca 46250

accatataag gaaggtagaa gtgaaaagtc ccataggtac ccaactaatg 46300accatataag gaaggtagaa gtgaaaagtc ccataggtac ccaactaatg 46300

tcaccagttt cctggatacc tttcctggag tttatttata gtgtgtataa 46350tcaccagttt cctggatacc tttcctggag tttatttata gtgtgtataa 46350

ataaatgatg tatgtgttta aatgcctttt tcacctttcc ttttagagct 46400ataaatgatg tatgtgttta aatgcctttt tcacctttcc ttttagagct 46400

gcctcttttt aacagttcca ttccattgta tggatgtact atgatttatt 46450gcctcttttt aacagttcca ttccattgta tggatgtact atgatttatt 46450

gaaccagttc cctactgatt attctgtttt ttgcagtctt ttgttatgat 46500gaaccagttc cctactgatt attctgtttt ttgcagtctt ttgttatgat 46500

gaacattcca cagtgacaat gttgttcata gtcattcaca cacatgcaag 46550gaacattcca cagtgacaat gttgttcata gtcattcaca cacatgcaag 46550

tccttctgca ggatatattt ctagagggga attgctgact cagaggtttt 46600tccttctgca ggatatattt ctagagggga attgctgact cagaggtttt 46600

ggtactctgt gttgattgta gagtgacggc agaaaagtga ggcccaagag 46650ggtactctgt gttgattgta gagtgacggc agaaaagtga ggcccaagag 46650

tttcctagtg accatgtgta gtggacaagt caccagtccc tgtgagtgtt 46700tttcctagtg accatgtgta gtggacaagt caccagtccc tgtgagtgtt 46700

tggcccaaag gctttaaggc atttgatatc actgtttttg tttctgcacc 46750tggcccaaag gctttaaggc atttgatatc actgtttttg tttctgcacc 46750

aggcgggaga cactatattc aatcgtgcta agctcctcaa tgttggcttt 46800aggcgggaga cactatattc aatcgtgcta agctcctcaa tgttggcttt 46800

caagaagcct tgaaggacta tgactacacc tgctttgtgt ttagtgacgt 46850caagaagcct tgaaggacta tgactacacc tgctttgtgt ttagtgacgt 46850

ggacctcatt ccaatgaatg accataatgc gtacaggtgt ttttcacagc 46900ggacctcatt ccaatgaatg accataatgc gtacaggtgt ttttcacagc 46900

cacggcacat ttccgttgca atggataagt ttggattcag gtaagagata 46950cacggcacat ttccgttgca atggataagt ttggattcag gtaagagata 46950

ctcagtcaga atctgtggta aacatgtctc tctcatgtgt tgactaggaa 47000ctcagtcaga atctgtggta aacatgtctc tctcatgtgt tgactaggaa 47000

atgcagtcct ggcagctcaa gagtgcctct ttaagctctg gagcagaatg 47050atgcagtcct ggcagctcaa gagtgcctct ttaagctctg gagcagaatg 47050

cctcctctga gaaatgggtg ctttgtatta gttgagatgg aaagaagaga 47100cctcctctga gaaatgggtg ctttgtatta gttgagatgg aaagaagaga 47100

ccagaaatgc ctgtagtctc tgcacatcca gacaaaaaca aattttcccc 47150ccagaaatgc ctgtagtctc tgcacatcca gacaaaaaca aattttcccc 47150

cctttttttt ttttgtttgt tttttgagac agggtctggc tctgtcaccc 47200cctttttttt ttttgtttgt tttttgagac agggtctggc tctgtcaccc 47200

aggctggagt gcagtgccgt gatcttggct caccgcaacc tctgcctccc 47250aggctggagt gcagtgccgt gatcttggct caccgcaacc tctgcctccc 47250

gggttcatgc catcctgtca cctcagcctc ctgagtagct gggactacaa 47300gggttcatgc catcctgtca cctcagcctc ctgagtagct gggactacaa 47300

acacttgcca ccatgcgcag ctaatttttg tatattttgt agagatgggg 47350acacttgcca ccatgcgcag ctaatttttg tatattttgt agagatgggg 47350

ttttgctgta ttgcccagtc tggtctcgaa ctcctgagct caagcaatcc 47400ttttgctgta ttgcccagtc tggtctcgaa ctcctgagct caagcaatcc 47400

atctgccttg gcctctcgaa gtgctggatt ataggcatgt ggcaccatgc 47450atctgccttg gcctctcgaa gtgctggatt ataggcatgt ggcaccatgc 47450

ctggcctaag aacagttttt agcatttggg aggggctctc atctttaagc 47500ctggcctaag aacagttttt agcatttggg aggggctctc atctttaagc 47500

tccaaatgat actgtatttt cttgcttttt tctttctctt gccccacaag 47550tccaaatgat actgtatttt cttgcttttt tctttctctt gccccacaag 47550

ttttggaaag taaattggaa tagttttccc ccactgaatt atttagcttg 47600ttttggaaag taaattggaa tagttttccc ccactgaatt atttagcttg 47600

tatacctcag cagatgttcc ttggcctgtt ttgttttgtt tttgagacag 47650tatacctcag cagatgttcc ttggcctgtt ttgttttgtt tttgagacag 47650

ggtcttgctc tgtcacccag gctggagtgc agtgacacaa tcatggctca 47700ggtcttgctc tgtcacccag gctggagtgc agtgacacaa tcatggctca 47700

ctgcagcctt gactgcctgg gctcaatcca tcctgcagcc tcagcctcct 47750ctgcagcctt gactgcctgg gctcaatcca tcctgcagcc tcagcctcct 47750

gagtagttgg gactacaggc atgagccagc atgtccagct aattttttat 47800gagtagttgg gactacaggc atgagccagc atgtccagct aattttttat 47800

ttttagtgga gatgaggtct ggctatgttg cccaagctgg gcttgaactc 47850ttttagtgga gatgaggtct ggctatgttg cccaagctgg gcttgaactc 47850

ttgggctcaa gtgatcctct cacctcagcc ttccaaagca ttgggattac 47900ttgggctcaa gtgatcctct cacctcagcc ttccaaagca ttgggattac 47900

aggtgtgaac cactgctccc gcccttggcc ctataagaag gaatgtgatt 47950aggtgtgaac cactgctccc gcccttggcc ctataagaag gaatgtgatt 47950

ctgttttcca gcagggcaca aacttctgct taaatacaaa gcccaaattt 48000ctgttttcca gcagggcaca aacttctgct taaatacaaa gcccaaattt 48000

ttccaccaaa atgcccctag tgaagtggcc agcccagatg cccgactagc 48050ttccaccaaa atgcccctag tgaagtggcc agcccagatg cccgactagc 48050

gtattatcca aagcatattg tcattggtgg aaaatggcct tatagtccat 48100gtattatcca aagcatattg tcattggtgg aaaatggcct tatagtccat 48100

tgttttgtct taaaagtaaa tatataaata aacttgtata ttgtttccta 48150tgttttgtct taaaagtaaa tatataaata aacttgtata ttgtttccta 48150

attccgtgtt tatattaaca taaaagtgtt ttaaattacc tgtcagtggc 48200attccgtgtt tatattaaca taaaagtgtt ttaaattacc tgtcagtggc 48200

caggtgcagt ggctcgtgcc tgtaatcgca gcactttggg aggccgaggc 48250caggtgcagt ggctcgtgcc tgtaatcgca gcactttggg aggccgaggc 48250

gggcagatca cctgaggtca ggagttcgag accagcctga ccagcatggt 48300gggcagatca cctgaggtca ggagttcgag accagcctga ccagcatggt 48300

gaaaccctgt ctctactaaa aatacaaaaa ttagccaggt gtggtggcag 48350gaaaccctgt ctctactaaa aatacaaaaa ttagccaggt gtggtggcag 48350

gtgcctgtaa tcccagctac tcgggaagct gaggcaggag aattgcttga 48400gtgcctgtaa tcccagctac tcgggaagct gaggcaggag aattgcttga 48400

acccgggagg cagaggttgc agtgagttga gatcgcgcca ttgaacttca 48450acccgggagg cagaggttgc agtgagttga gatcgcgcca ttgaacttca 48450

acttgggcaa cagagcaaga ctctgtctca gagaaagaaa aaaaaaaacc 48500acttgggcaa cagagcaaga ctctgtctca gagaaagaaa aaaaaaaacc 48500

tatcagttga ataacaaaac cctttccttc cttgctttaa gtgaatctga 48550tatcagttga ataacaaaac cctttccttc cttgctttaa gtgaatctga 48550

agatccagga gctgtgctgc aggtaccctc tatgttgggt acccctggtt 48600agatccagga gctgtgctgc aggtaccctc tatgttgggt acccctggtt 48600

taggctgact agtacagtgt ggttggctca tgtagacagc agacccttta 48650taggctgact agtacagtgt ggttggctca tgtagacagc agacccttta 48650

ttttagatac aacttttttt ctttttcttt tatttttttt gagacagagt 48700ttttagatac aacttttttt ctttttcttt tatttttttt gagacagagt 48700

cttgcttgtc acccagcctg gagtgcagtg gcgtgatcat ggctcactat 48750cttgcttgtc acccagcctg gagtgcagtg gcgtgatcat ggctcactat 48750

agccttaaac tccctggctc aagtgatcct ctcacctcgg ctttcctagt 48800agccttaaac tccctggctc aagtgatcct ctcacctcgg ctttcctagt 48800

agctgggacc acaggtgtgg gccagcaccc ctggctgatt taaaaaaaaa 48850agctgggacc acaggtgtgg gccagcaccc ctggctgatt taaaaaaaaa 48850

aaaatttttt tttttagaga tgtctcacta tgttacccag gctggtcttg 48900aaaatttttt tttttagaga tgtctcacta tgttacccag gctggtcttg 48900

aactcctggg ggctcaagca atcctcctgc tttgacctcc caaagtgctg 48950aactcctggg ggctcaagca atcctcctgc tttgacctcc caaagtgctg 48950

ggatgacagg catgaactac tgcacctgct gagatgcaac agctttctgt 49000ggatgacagg catgaactac tgcacctgct gagatgcaac agctttctgt 49000

cagactcatt ttattctcat catttcttcc tgtcctccct tgctgggagc 49050cagactcatt ttattctcat catttcttcc tgtcctccct tgctgggagc 49050

atgagagctg tgatgggaat ataggaatgt atgaagtcct tctcccagat 49100atgagagctg tgatgggaat ataggaatgt atgaagtcct tctcccagat 49100

caaaaatcct aacttcttgt cttaaaggga ggaaaatttg aatgtaacct 49150caaaaatcct aacttcttgt cttaaaggga ggaaaatttg aatgtaacct 49150

tacttttaga ctcttcagaa atccttctat acccttccgt ccccgctttc 49200tacttttaga ctcttcagaa atccttctat acccttccgt ccccgctttc 49200

acccttcctc cctctccgtg tgtgtatctt cttctcttga aacacacagg 49250acccttcctc cctctccgtg tgtgtatctt cttctcttga aacacacagg 49250

tttataccct gacccctctt gattcatccc ttgaagcaca gtggtgaaca 49300tttataccct gacccctctt gattcatccc ttgaagcaca gtggtgaaca 49300

aggaaggggc ccgtgatgcc ctaattcttt gccacagcac catgtttgtt 49350aggaaggggc ccgtgatgcc ctaattcttt gccacagcac catgtttgtt 49350

tcacaaggag cctggcaggt ttgggcttgg ggcagatagg ggagagaaag 49400tcacaaggag cctggcaggt ttgggcttgg ggcagatagg ggagagaaag 49400

cagcagagac agcaaaacca aatcatgtca gcttggcatg tacttccctc 49450cagcagagac agcaaaacca aatcatgtca gcttggcatg tacttccctc 49450

tgaaatagct aagaatccat ttctgtaaaa gcactgatta tcagaaaacc 49500tgaaatagct aagaatccat ttctgtaaaa gcactgatta tcagaaaacc 49500

ttattggcct ggccaccttt ggttcaaacc ctcacattaa taatgtggac 49550ttattggcct ggccaccttt ggttcaaacc ctcacattaa taatgtggac 49550

agtagtatga ggtgtgccaa aggtggatga ctcagcacct aagtgatgac 49600agtagtatga ggtgtgccaa aggtggatga ctcagcacct aagtgatgac 49600

acctaattac gaataggttc attaaagcag accccctggg gacctttgct 49650acctaattac gaataggttc attaaagcag accccctggg gacctttgct 49650

tgaggatcct tacagtcaga attcctgaat atatttgaaa ataataattg 49700tgaggatcct tacagtcaga attcctgaat atatttgaaa aataataattg 49700

catctttatt ttcatatgtt ctgtatggtt tggctgactt ccccctcaaa 49750catctttatt ttcatatgtt ctgtatggtt tggctgactt ccccctcaaa 49750

gtctgagtta gagttttcct taatttatgt gatgggtttg gtctttttgg 49800gtctgagtta gagttttcct taatttatgt gatgggtttg gtctttttgg 49800

attccagaaa gagctgggtg tggtttggag ctgcactcag agtcacacaa 49850attccagaaa gagctgggtg tggtttggag ctgcactcag agtcacacaa 49850

aaccacagcc tttagagaac ccacaggaag gctttggggc acgtcctgat 49900aaccacagcc tttagagaac ccacaggaag gctttggggc acgtcctgat 49900

tcttgacatt tctcatcagt gctgactttg tatcccttag gagttcacaa 49950tcttgacatt tctcatcagt gctgactttg tatcccttag gagttcacaa 49950

ttcataacca ctgaaatatt aaaatacaaa aagttttgga aggatgagag 50000ttcataacca ctgaaatatt aaaatacaaa aagttttgga aggatgagag 50000

cccagatgct ctactacttg aaaatatgtt aaaacataag ttcatcatta 50050cccagatgct ctactacttg aaaatatgtt aaaacataag ttcatcatta 50050

tacattttgc taaatcagga taaagtctga agtttcaaag aagttttatt 50100tacattttgc taaatcagga taaagtctga agtttcaaag aagttttatt 50100

ttagcaaatt ttcagaaaca ctgcctcaac tgttagggcc agtgttctag 50150ttagcaaatt ttcagaaaca ctgcctcaac tgttagggcc agtgttctag 50150

tcagtatgcc tttggaagca tgaaagctgg attggtcgat aggatgggtg 50200tcagtatgcc tttggaagca tgaaagctgg attggtcgat aggatgggtg 50200

tggaaggggg gctgtgactg ggtgggtaca gagaggctct gaaacaatct 50250tggaaggggg gctgtgactg ggtgggtaca gagaggctct gaaacaatct 50250

cagattccag gagttcctgg ataaggactt catgtgcggg aacagagcac 50300cagattccag gagttcctgg ataaggactt catgtgcggg aacagagcac 50300

aggagaagca gattcctgag ccactcagga agaactgggc ctaggcctgc 50350aggagaagca gattcctgag ccactcagga agaactgggc ctaggcctgc 50350

tcttgtcact gactggcttt ctacataacc acagaaacag cactgtgttg 50400tcttgtcact gactggcttt ctacataacc acagaaacag cactgtgttg 50400

tagaaagagg aagatcatac tttttgatat ctgtgtctaa tttaaggtca 50450tagaaagagg aagatcatac tttttgatat ctgtgtctaa tttaaggtca 50450

tctgagccct gatagaaaag caaaacagac aaaacccttg taactgctcc 50500tctgagccct gatagaaaag caaaacagac aaaacccttg taactgctcc 50500

ctcccacccc acccaccatc aaaaaagctt tagagaggct ggacatggtg 50550ctcccacccc acccaccatc aaaaaagctt tagagaggct ggacatggtg 50550

gctcttgcct gtgatcccag cactttggga ggctaaggtg ggtggatcac 50600gctcttgcct gtgatcccag cactttggga ggctaaggtg ggtggatcac 50600

ctgaggtcag gagttcgaga ccagcctgac caatatggtg aaaccccatc 50650ctgaggtcag gagttcgaga ccagcctgac caatatggtg aaaccccatc 50650

tgtactaaaa atacaaaaat tagccaggtg tggtggcaca cgcctgtagt 50700tgtactaaaa atacaaaaat tagccaggtg tggtggcaca cgcctgtagt 50700

cccagctact tgggaggctg agacaggaga attacttgaa aacctgggag 50750cccagctact tgggaggctg agacaggaga attacttgaa aacctgggag 50750

gcggaggttg cagtgagccg agatcacgcc attgtactcc agcctgggct 50800gcggaggttg cagtgagccg agatcacgcc attgtactcc agcctgggct 50800

acagagcgag actccttcaa aaaaaaaaaa aaaaaaagat ccggtttggt 50850acagagcgag actccttcaa aaaaaaaaaa aaaaaaagat ccggtttggt 50850

gtcttacaac tgtaatccca gcactttggg aggccgaggc cggtggatca 50900gtcttacaac tgtaatccca gcactttggg aggccgaggc cggtggatca 50900

cgaggttaag agatcaagac catcctgacc aacatggtga aaccctgtct 50950cgaggttaag agatcaagac catcctgacc aacatggtga aaccctgtct 50950

ctactaaaaa ttagctgggc gtggtggcag gcgcctgtag tcccagctcc 51000ctactaaaaa ttagctgggc gtggtggcag gcgcctgtag tcccagctcc 51000

tcaggaggct gaggcagaag aatcgcttga acccgggagg cggaagttgc 51050tcaggaggct gaggcagaag aatcgcttga acccgggagg cggaagttgc 51050

agtgagccta gatcgcgccc ctgcactcca gcctggcaac agagcaagac 51100agtgagccta gatcgcgccc ctgcactcca gcctggcaac agagcaagac 51100

tacgtctcaa aaaaaaaata aataaaaact ctagagaagc aaaaagaata 51150tacgtctcaa aaaaaaaata aataaaaact ctagagaagc aaaaagaata 51150

actttaaaag tgtttatgtt ctcagcaagc tttattttgg ggatgtcaga 51200actttaaaag tgtttatgtt ctcagcaagc tttattttgg ggatgtcaga 51200

acttaactaa ccactgctcc ttctgtgtgt atgtttttcc tccagcctac 51250acttaactaa ccactgctcc ttctgtgtgt atgtttttcc tccagcctac 51250

cttatgttca gtattttgga ggtgtctctg ctctaagtaa acaacagttt 51300cttatgttca gtattttgga ggtgtctctg ctctaagtaa acaacagttt 51300

ctaaccatca atggatttcc taataattat tggggctggg gaggagaaga 51350ctaaccatca atggatttcc taataattat tggggctggg gaggagaaga 51350

tgatgacatt tttaacaggt aatggtcata acttagatat ctttctcctc 51400tgatgacatt tttaacaggt aatggtcata acttagatat ctttctcctc 51400

tgtcaacctt cacttccagt tttttaacca atgcttggtt gttccccaag 51450tgtcaacctt cacttccagt tttttaacca atgcttggtt gttccccaag 51450

gactgaccct cagatgggat gcacccctag tcagcccaca ttcttaggtg 51500gactgaccct cagatgggat gcacccctag tcagcccaca ttcttaggtg 51500

tggcttccta caggtcctgc aggtgctaaa agggatctgt aggaaaatga 51550tggcttccta caggtcctgc aggtgctaaa agggatctgt aggaaaatga 51550

gtttctgaga tttttgtatt ggcctggaaa aatgtcaaat gggaaccaag 51600gtttctgaga tttttgtatt ggcctggaaa aatgtcaaat gggaaccaag 51600

tgacggggca agtttacttt gacttgctgc atgccgtttt gtactcaagg 51650tgacggggca agtttacttt gacttgctgc atgccgtttt gtactcaagg 51650

agtaaaccaa tgtcctttgt aaaaatccct cctttcatta tggtcccctt 51700agtaaaccaa tgtcctttgt aaaaatccct cctttcatta tggtcccctt 51700

tcactgtgaa acaagtttcc ttgagcagaa tcctaactgt cttcacagaa 51750tcactgtgaa acaagtttcc ttgagcagaa tcctaactgt cttcacagaa 51750

gctttgtgtt atatttttat tttggagtat tttcacatat acaaaagaga 51800gctttgtgtt atatttttat tttggagtat tttcacatat acaaaagaga 51800

tactgtagta taataaacct ttgaggacct atccagcccc agcaaccatt 51850tactgtagta taataaacct ttgaggacct atccagcccc agcaaccatt 51850

atggcctggt cagttctgtc ccatccacat cctggggctc tttttaagct 51900atggcctggt cagttctgtc ccatccacat cctggggctc tttttaagct 51900

ggtaaatcat tatgatgtgg gttgtcattt acagtggtaa aaaacatcta 51950ggtaaatcat tatgatgtgg gttgtcattt acagtggtaa aaaacatcta 51950

tcagtagcat ttgaaagaac attctgctca gtcctctggc tgtagaggct 52000tcagtagcat ttgaaagaac attctgctca gtcctctggc tgtagaggct 52000

tcaaccccac cagccaccga tgagcacctt ctccctccag gagccagtct 52050tcaaccccac cagccaccga tgagcacctt ctccctccag gagccagtct 52050

gagctcatta ctgagtttaa tatcagaata caccctggtg cagcctttct 52100gagctcatta ctgagtttaa tatcagaata caccctggtg cagcctttct 52100

aaattgcagt accagttaac agaaggtgtc tgtcagagca acacccaagt 52150aaattgcagt accagttaac agaaggtgtc tgtcagagca acacccaagt 52150

cattcaagtt accattgtgt gcaaacttaa cagagaccca cgtcttcaat 52200cattcaagtt accattgtgt gcaaacttaa cagagaccca cgtcttcaat 52200

ataagccttg aaggaaactc cagttttagt atgtagatgg ggtatcaagt 52250ataagccttg aaggaaactc cagttttagt atgtagatgg ggtatcaagt 52250

gtgtgcacat tgaacatctg ctgcatacag agcactgtgc caggcaggcc 52300gtgtgcacat tgaacatctg ctgcatacag agcactgtgc caggcaggcc 52300

caggacactg aaaacctgga catagggtcc agacagaagc aagcctgctt 52350caggacactg aaaacctgga catagggtcc agacagaagc aagcctgctt 52350

ccacagaggc actcctgggc agacactctg gactgatatg acagtgtgca 52400ccacagaggc actcctgggc agacactctg gactgatatg acagtgtgca 52400

gggccgacag gataccacag gtctgaatgg tcagaacagc tggggaggga 52450gggccgacag gataccacag gtctgaatgg tcagaacagc tggggaggga 52450

gggagcatcc gcaggcatct agtcccatgc taacgcagtg gcactagaag 52500gggagcatcc gcaggcatct agtcccatgc taacgcagtg gcactagaag 52500

gatgggtggt gtgtggagca actttcttga aagataaagg acctaacact 52550gatgggtggt gtgtggagca actttcttga aagataaagg acctaacact 52550

ttctatgcac cacttactgt gtgccaggca aggccaggaa tgtttaagtg 52600ttctatgcac cacttactgt gtgccaggca aggccaggaa tgtttaagtg 52600

gtctgggatc agccagttct gcctcttaac taactttgct gtcctgctct 52650gtctgggatc agccagttct gcctcttaac taactttgct gtcctgctct 52650

ccaggctttc attttggtcc tcattccttt tccttggacc aacacagaat 52700ccaggctttc attttggtcc tcattccttt tccttggacc aacacagaat 52700

cctccaccct gttctggctg cctctagtct tgttctcagc cctccatttg 52750cctccaccct gttctggctg cctctagtct tgttctcagc cctccattg 52750

tttttttctg ccttttccca catgttctga agccctccat tcgtatacta 52800tttttttctg ccttttccca catgttctga agccctccat tcgtatacta 52800

ctttccagag acttccccat ggctaaaagc attttggaaa tactgtatat 52850ctttccagag acttccccat ggctaaaagc attttggaaa tactgtatat 52850

taggcccctt tcagatactg gcaaccgttt gtgggatgct ctgagaaggc 52900taggcccctt tcagatactg gcaaccgttt gtgggatgct ctgagaaggc 52900

ctctgtgact tagcctggcc cttttcagcc catcacctgc cacgtcctac 52950ctctgtgact tagcctggcc cttttcagcc catcacctgc cacgtcctac 52950

cccagaccct tgtcaccagt ccccaggagc ttacgttgct ccctgagggc 53000cccagaccct tgtcaccagt ccccaggagc ttacgttgct ccctgagggc 53000

actaggcttg ctctcacttc catgcctttg cctgtgccat cctggctgcc 53050actaggcttg ctctcacttc catgcctttg cctgtgccat cctggctgcc 53050

caaaatgcta tggcagatac ctgttcatcc tcaactgggc tctgcctagg 53100caaaatgcta tggcagatac ctgttcatcc tcaactgggc tctgcctagg 53100

cttgctccag cagaggttac aaactctatg cttcttcctc tgtgtctcca 53150cttgctccag cagaggttac aaactctatg cttcttcctc tgtgtctcca 53150

acctcatctt cctcttctca cctccatcct ggccctaaag gccctatgtt 53200acctcatctt cctcttctca cctccatcct ggccctaaag gccctatgtt 53200

tgaagcattc acactgtata ttctgtgggg cacacggccc cagtgtctgg 53250tgaagcattc acactgtata ttctgtgggg cacacggccc cagtgtctgg 53250

cacatggtag tcaacaccac aaaccgcaga accagttgta aaaggacatg 53300cacatggtag tcaacaccac aaaccgcaga accagttgta aaaggacatg 53300

gagtcggaat gtgagtttta accagggtca tgctgggctg ggttctggca 53350gagtcggaat gtgagtttta accagggtca tgctgggctg ggttctggca 53350

tgatgctggg ttgtgggctg agtgagaaca gcaagggtga tggtggatgg 53400tgatgctggg ttgtgggctg agtgagaaca gcaagggtga tggtggatgg 53400

agcaacagtc ttgcagccgg ggctctcagg ccaagtgtat ggcagctctg 53450agcaacagtc ttgcagccgg ggctctcagg ccaagtgtat ggcagctctg 53450

tgataatgac tttcccttta ctctttgcag attagttttt agaggcatgt 53500tgataatgac tttcccttta ctctttgcag attagttttt agaggcatgt 53500

ctatatctcg cccaaatgct gtggtcggga ggtgtcgcat gatccgccac 53550ctatatctcg cccaaatgct gtggtcggga ggtgtcgcat gatccgccac 53550

tcaagagaca agaaaaatga acccaatcct cagaggtgca ttctttgttt 53600tcaagagaca agaaaaatga acccaatcct cagaggtgca ttctttgttt 53600

attcatactc cttccccctt taggatgagg taggctgcag gtccgaggct 53650attcatactc cttccccctt taggatgagg taggctgcag gtccgaggct 53650

ctgggcctag agggaaattg aggtggtcag gttacagtgg agagggagga 53700ctgggcctag agggaaattg aggtggtcag gttacagtgg agagggagga 53700

ggaagtacgt gtgatgattt cttcttaaga tttttgtttt aagacaatct 53750ggaagtacgt gtgatgattt cttcttaaga tttttgtttt aagacaatct 53750

ccttgtgctc ttttccttgt aggtttgacc gaattgcaca cacaaaggag 53800ccttgtgctc ttttccttgt aggtttgacc gaattgcaca cacaaaggag 53800

acaatgctct ctgatggttt gaactcactc acctaccagg tgctggatgt 53850acaatgctct ctgatggttt gaactcactc acctaccagg tgctggatgt 53850

acagagatac ccattgtata cccaaatcac agtggacatc gggacaccga 53900acagagatac ccattgtata cccaaatcac agtggacatc gggacaccga 53900

gctagcgttt tggtacacgg ataagagacc tgaaattagc cagggacctc 53950gctagcgttt tggtacacgg ataagagacc tgaaattagc cagggacctc 53950

tgctgtgtgt ctctgccaat ctgctgggct ggtccctctc atttttacca 54000tgctgtgtgt ctctgccaat ctgctgggct ggtccctctc atttttacca 54000

gtctgagtga caggtcccct tcgctcatca ttcagatggc tttccagatg 54050gtctgagtga caggtcccct tcgctcatca ttcagatggc tttccagatg 54050

accaggacga gtgggatatt ttgcccccaa cttggctcgg catgtgaatt 54100accaggacga gtgggatatt ttgcccccaa cttggctcgg catgtgaatt 54100

cttagctctg caaggtgttt atgcctttgc gggtttcttg atgtgttcgc 54150cttagctctg caaggtgttt atgcctttgc gggtttcttg atgtgttcgc 54150

agtgtcaccc cagagtcaga actgtacaca tcccaaaatt tggtggccgt 54200agtgtcaccc cagagtcaga actgtacaca tcccaaaatt tggtggccgt 54200

ggaacacatt cccggtgata gaattgctaa attgtcgtga aataggttag 54250ggaacacatt cccggtgata gaattgctaa attgtcgtga aataggttag 54250

aatttttctt taaattatgg ttttcttatt cgtgaaaatt cggagagtgc 54300aatttttctt taaattatgg ttttcttatt cgtgaaaatt cggagagtgc 54300

tgctaaaatt ggattggtgt gatctttttg gtagttgtaa tttaacagaa 54350tgctaaaatt ggattggtgt gatctttttg gtagttgtaa tttaacagaa 54350

aaacacaaaa tttcaaccat tcttaatgtt acgtcctccc cccaccccct 54400aaacacaaaa tttcaaccat tcttaatgtt acgtcctccc cccaccccct 54400

tctttcagtg gtatgcaacc actgcaatca ctgtgcatat gtcttttctt 54450tctttcagtg gtatgcaacc actgcaatca ctgtgcatat gtcttttctt 54450

agcaaaagga ttttaaaact tgagccctgg accttttgtc ctatgtgtgt 54500agcaaaagga ttttaaaact tgagccctgg accttttgtc ctatgtgtgt 54500

ggattccagg gcaactctag catcagagca aaagccttgg gtttctcgca 54550ggattccagg gcaactctag catcagagca aaagccttgg gtttctcgca 54550

ttcagtggcc tatctccaga ttgtctgatt tctgaatgta aagttgttgt 54600ttcagtggcc tatctccaga ttgtctgatt tctgaatgta aagttgttgt 54600

gttttttttt aaatagtagt ttgtagtatt ttaaagaaag aacagatcga 54650gttttttttt aaatagtagt ttgtagtatt ttaaagaaag aacagatcga 54650

gttctaatta tgatctagct tgattttgtg ttgatccaaa tttgcatagc 54700gttctaatta tgatctagct tgattttgtg ttgatccaaa tttgcatagc 54700

tgtttaatgt taagtcatga caatttattt ttcttggcat gctatgtaaa 54750tgtttaatgt taagtcatga caatttattt ttcttggcat gctatgtaaa 54750

cttgaatttc ctatgtattt ttattgtggt gttttaaata tggggagggg 54800cttgaatttc ctatgtattt ttattgtggt gttttaaata tggggagggg 54800

tattgagcat tttttaggga gaaaaataaa tatatgctgt agtggccaca 54850tattgagcat tttttaggga gaaaaataaa tatatgctgt agtggccaca 54850

aataggccta tgatttagct ggcaggccag gttttctcaa gagcaaaatc 54900aataggccta tgatttagct ggcaggccag gttttctcaa gagcaaaatc 54900

accctctggc cccttggcag gtaaggcctc ccggtcagca ttatcctgcc 54950accctctggc cccttggcag gtaaggcctc ccggtcagca ttatcctgcc 54950

agacctcggg gaggatacct gggagacaga agcctctgca cctactgtgc 55000agacctcggg gaggatacct gggagacaga agcctctgca cctactgtgc 55000

agaactctcc acttccccaa ccctccccag gtgggcaggg cggagggagc 55050agaactctcc acttccccaa ccctccccag gtgggcaggg cggagggagc 55050

ctcagcctcc ttagactgac ccctcaggcc cctaggctgg ggggttgtaa 55100ctcagcctcc ttagactgac ccctcaggcc cctaggctgg ggggttgtaa 55100

ataacagcag tcaggttgtt taccagccct ttgcacctcc ccaggcagag 55150ataacagcag tcaggttgtt taccagccct ttgcacctcc ccaggcagag 55150

ggagcctctg ttctggtggg ggccacctcc ctcagaggct ctgctagcca 55200ggagcctctg ttctggtggg ggccacctcc ctcagaggct ctgctagcca 55200

cactccgtgg cccacccttt gttaccagtt cttcctcctt cctcttttcc 55250cactccgtgg cccacccttt gttaccagtt cttcctcctt cctcttttcc 55250

cctgcctttc tcattccttc cttcgtctcc ctttttgttc ctttgcctct 55300cctgcctttc tcattccttc cttcgtctcc ctttttgttc ctttgcctct 55300

tgcctgtccc ctaaaacttg actgtggcac tcagggtcaa acagactatc 55350tgcctgtccc ctaaaacttg actgtggcac tcaggtcaa acagactatc 55350

cattccccag catgaatgtg ccttttaatt agtgatctag aaagaagttc 55400cattccccag catgaatgtg ccttttaatt agtgatctag aaagaagttc 55400

agccgaaccc acaccccaac tccctcccaa gaacttcggt gcctaaagcc 55450agccgaaccc acaccccaac tccctcccaa gaacttcggt gcctaaagcc 55450

tcctgttcca cctcaggttt tcacaggtgc tcccacccca gttgaggctc 55500tcctgttcca cctcaggttt tcacaggtgc tcccacccca gttgaggctc 55500

ccacccacag ggctgtctgt cacaaaccca cctctgttgg gagctattga 55550ccacccacag ggctgtctgt cacaaaccca cctctgttgg gagctattga 55550

gccacctggg atgagatgac acaaggcact cctaccactg agcgcctttg 55600gccacctggg atgagatgac acaaggcact cctaccactg agcgcctttg 55600

ccaggtccag cctgggctca ggttccaaga ctcagctgcc taatcccagg 55650ccaggtccag cctgggctca ggttccaaga ctcagctgcc taatcccagg 55650

gttgagcctt gtgctcgtgg cggaccccaa accactgccc tcctgggtac 55700gttgagcctt gtgctcgtgg cggaccccaa accactgccc tcctgggtac 55700

cagccctcag tgtggaggct gagctggtgc ctggccccag tcttatctgt 55750cagccctcag tgtggaggct gagctggtgc ctggccccag tcttatctgt 55750

gcctttactg ctttgcgcat ctcagatgct aacttggttc tttttccaga 55800gcctttactg ctttgcgcat ctcagatgct aacttggttc tttttccaga 55800

agcctttgta ttggttaaaa attattttcc attgcagaag cagctggact 55850agcctttgta ttggttaaaa attattttcc attgcagaag cagctggact 55850

atgcaaaaag tatttctctg tcagttcccc actctatacc aaggatatta 55900atgcaaaaag tatttctctg tcagttcccc actctatacc aaggatatta 55900

ttaaaactag aaatgactgc attgagaggg agttgtggga aataagaaga 55950ttaaaactag aaatgactgc attgagaggg agttgtggga aataagaaga 55950

atgaaagcct ctctttctgt ccgcagatcc tgacttttcc aaagtgcctt 56000atgaaagcct ctctttctgt ccgcagatcc tgacttttcc aaagtgcctt 56000

aaaagaaatc agacaaatgc cctgagtggt aacttctgtg ttattttact 56050aaaagaaatc agacaaatgc cctgagtggt aacttctgtg ttattttact 56050

cttaaaacca aactctacct tttcttgttg tttttttttt tttttttttt 56100cttaaaacca aactctacct tttcttgttg tttttttttt tttttttttt 56100

ttttttttgg ttaccttctc attcatgtca agtatgtggt tcattcttag 56150ttttttttgg ttaccttctc attcatgtca agtatgtggt tcattcttag 56150

aaccaaggga aatactgctc cccccatttg ctgacgtagt gctctcatgg 56200aaccaaggga aatactgctc cccccatttg ctgacgtagt gctctcatgg 56200

gctcacctgg gcccaaggca cagccagggc acagttaggc ctggatgttt 56250gctcacctgg gcccaaggca cagccagggc acagttaggc ctggatgttt 56250

gcctggtccg tgagatgccg cgggtcctgt ttccttactg gggatttcag 56300gcctggtccg tgagatgccg cgggtcctgt ttccttactg gggatttcag 56300

ggctgggggt tcagggagca tttccttttc ctgggagtta tgaccgcgaa 56350ggctggggggt tcagggagca tttccttttc ctgggagtta tgaccgcgaa 56350

gttgtcatgt gccgtgccct tttctgtttc tgtgtatcct attgctggtg 56400gttgtcatgt gccgtgccct tttctgtttc tgtgtatcct attgctggtg 56400

actctgtgtg aactggcctt tgggaaagat cagagagggc agaggtggca 56450actctgtgtg aactggcctt tgggaaagat cagagagggc agaggtggca 56450

caggacagta aaggagatgc tgtgctggcc ttcagcctgg acagggtctc 56500caggacagta aaggatgc tgtgctggcc ttcagcctgg acagggtctc 56500

tgctgactgc caggggcggg ggctctgcat agccaggatg acggctttca 56550tgctgactgc caggggcggg ggctctgcat agccaggatg acggctttca 56550

tgtcccagag acctgttgtg ctgtgtattt tgatttcctg tgtatgcaaa 56600tgtcccagag acctgttgtg ctgtgtattt tgatttcctg tgtatgcaaa 56600

tgtgtgtatt taccattgtg tagggggctg tgtctgatct tggtgttcaa 56650tgtgtgtatt taccattgtg tagggggctg tgtctgatct tggtgttcaa 56650

aacagaactg tatttttgcc tttaaaatta aataatataa cgtgaataaa 56700aacagaactg tatttttgcc tttaaaatta aataatataa cgtgaataaa 56700

tgaccctatc tttgtaac 56718tgaccctatc tttgtaac 56718

<210> 2<210> 2

<211> 56718<211> 56718

<212> ДНК<212> DNA

<213> Homo sapien<213> Homo sapien

<220><220>

<223> геномная последовательность варианта B4GALT1<223> genomic sequence of the B4GALT1 variant

<400> 2<400> 2

gcgcctcggg cggcttctcg ccgctcccag gtctggctgg ctggaggagt 50gcgcctcggg cggcttctcg ccgctcccag gtctggctgg ctggagaggagt 50

ctcagctctc agccgctcgc ccgcccccgc tccgggccct cccctagtcg 100ctcagctctc agccgctcgc ccgcccccgc tccgggccct cccctagtcg 100

ccgctgtggg gcagcgcctg gcgggcggcc cgcgggcggg tcgcctcccc 150ccgctgtggg gcagcgcctg gcgggcggcc cgcgggcggg tcgcctcccc 150

tcctgtagcc cacacccttc ttaaagcggc ggcgggaaga tgaggcttcg 200tcctgtagcc cacacccttc ttaaagcggc ggcgggaaga tgaggcttcg 200

ggagccgctc ctgagcggca gcgccgcgat gccaggcgcg tccctacagc 250ggagccgctc ctgagcggca gcgccgcgat gccaggcgcg tccctacagc 250

gggcctgccg cctgctcgtg gccgtctgcg ctctgcacct tggcgtcacc 300gggcctgccg cctgctcgtg gccgtctgcg ctctgcacct tggcgtcacc 300

ctcgtttact acctggctgg ccgcgacctg agccgcctgc cccaactggt 350ctcgtttact acctggctgg ccgcgacctg agccgcctgc cccaactggt 350

cggagtctcc acaccgctgc agggcggctc gaacagtgcc gccgccatcg 400cggagtctcc acaccgctgc agggcggctc gaacagtgcc gccgccatcg 400

ggcagtcctc cggggagctc cggaccggag gggcccggcc gccgcctcct 450ggcagtcctc cggggagctc cggaccggag gggcccggcc gccgcctcct 450

ctaggcgcct cctcccagcc gcgcccgggt ggcgactcca gcccagtcgt 500ctaggcgcct cctcccagcc gcgcccgggt ggcgactcca gcccagtcgt 500

ggattctggc cctggccccg ctagcaactt gacctcggtc ccagtgcccc 550ggattctggc cctggccccg ctagcaactt gacctcggtc ccagtgcccc 550

acaccaccgc actgtcgctg cccgcctgcc ctgaggagtc cccgctgctt 600acaccaccgc actngtcgctg cccgcctgcc ctgaggagtc cccgctgctt 600

ggtaaggact cgggtcggcg ccagtcggag gattgggacc cccccggatt 650ggtaaggact cgggtcggcg ccagtcggag gattgggacc cccccggatt 650

tccccgacag ggtcccccag acattccctc aggctggctc ttctacgaca 700tccccgacag ggtcccccag acattccctc aggctggctc ttctacgaca 700

gccagcctcc ctcttctgga tcagagtttt aaatcccaga cagaggcttg 750gccagcctcc ctcttctgga tcagagtttt aaatcccaga cagaggcttg 750

ggactggatg ggagagaagg tttgcgaggt gggtccctgg ggagtcctgt 800ggactggatg ggagagaagg tttgcgaggt gggtccctgg ggagtcctgt 800

tggaggcgtg gggccgggac cgcacaggga agtcccgagg cccctctagc 850tggaggcgtg gggccgggac cgcacaggga agtcccgagg cccctctagc 850

cccagaacca gagaaggcct tggagacttc cctgctgtgg cccgaggctc 900cccagaacca gagaaggcct tggagacttc cctgctgtgg cccgaggctc 900

aggaagtttt ggagtttggg tctgcttagg gcttcgagca gccttgcact 950aggaagtttt ggagtttggg tctgcttagg gcttcgagca gccttgcact 950

gagaactctg gtagggacct cgagtaatcc actccctttt ggggactgac 1000gagaactctg gtagggacct cgagtaatcc actccctttt ggggactgac 1000

gtgaggctcc cggtggggaa ggagactgac ctctcggttc acgtgtcttg 1050gtgaggctcc cggtggggaa ggagactgac ctctcggttc acgtgtcttg 1050

ccatagagcc actctcctga gtgggttttt ctcctgatcg tttgggccaa 1100ccatagagcc actctcctga gtgggttttt ctcctgatcg tttgggccaa 1100

gtgacttctc tctgaacctc atatttctct tctgggataa taaatggtca 1150gtgacttctc tctgaacctc atatttctct tctgggataa taaatggtca 1150

ccctttcaag gggttgtttt ggaagatatt gtgaacaatg gtaaataagg 1200ccctttcaag gggttgtttt ggaagatatt gtgaacaatg gtaaataagg 1200

gcttaattaa tgagggtaag ccctcagtaa attgtcactg tgtgttcatt 1250gcttaattaa tgagggtaag ccctcagtaa attgtcactg tgtgttcatt 1250

tcttcctctg tgtggatcgt gaccgagagc ccttccccct agcctcctcc 1300tcttcctctg tgtggatcgt gaccgagagc ccttccccct agcctcctcc 1300

tggtatgggt acccaaaacc taggtgagca gggatctctc ccaggggcag 1350tggtatgggt acccaaaacc taggtgagca gggatctctc ccaggggcag 1350

agagcttgtg tactctgggt gttagagggc taaaatataa ccagtcaaca 1400agagcttgtg tactctgggt gttagagggc taaaatataa ccagtcaaca 1400

ccacgttgcc catttctggt acttccggta gcagcctgag tctcaattat 1450ccacgttgcc catttctggt acttccggta gcagcctgag tctcaattat 1450

cttgcccaga tgatctgaac tctgacctct agcctgtttc agcataggca 1500cttgcccaga tgatctgaac tctgacctct agcctgtttc agcataggca 1500

gagagcttga gtaggtgagt ttgcattcct catagcagct ggctgagcct 1550gagagcttga gtaggtgagt ttgcattcct catagcagct ggctgagcct 1550

agtctggact tctctttgac ctgtaaccta caggcccaca ggcccaaggc 1600agtctggact tctctttgac ctgtaaccta caggcccaca ggcccaaggc 1600

aaccacaggt tgcttccagg gttaccacac aggtggtttc tcatttctaa 1650aaccacaggt tgcttccagg gttaccacac aggtggtttc tcatttctaa 1650

tgctaggttt tagataattg ttgtaagtga ggggccctgg caggcaggat 1700tgctaggttt tagataattg ttgtaagtga ggggccctgg caggcaggat 1700

gacatcctgc caataggagt tttctgtcac tttcccacag agccctggct 1750gacatcctgc caataggagt tttctgtcac tttcccacag agccctggct 1750

actacatact cttgctcaat ttcgccagta attgcgtcaa tgtgttcata 1800actacatact cttgctcaat ttcgccagta attgcgtcaa tgtgttcata 1800

tcaagtttgg gaagaacatc ttggaattgg tcagacgtga actgtggtaa 1850tcaagtttgg gaagaacatc ttggaattgg tcagacgtga actgtggtaa 1850

taatgggggc ttgttttttt aagcagataa ttaaattcct ttgcatttga 1900taatgggggc ttgttttttt aagcagataa ttaaattcct ttgcatttga 1900

tgattattct gggaagcaga ctagtcccat aaaatgaaat ggactctgcc 1950tgattattct gggaagcaga ctagtcccat aaaatgaaat ggactctgcc 1950

ttgctgctaa gtgtctgact tgagacatgc tatcgagttt ctcaaaatct 2000ttgctgctaa gtgtctgact tgagacatgc tatcgagttt ctcaaaatct 2000

cttccttgtg taaaatgtgg ttgtcgatga ttaccttaca ggggtttttt 2050cttccttgtg taaaatgtgg ttgtcgatga ttaccttaca ggggtttttt 2050

taagactaaa tgagatcgtg tacattaaat acaggcactc aggctgggca 2100taagactaaa tgagatcgtg tacattaaat acaggcactc aggctgggca 2100

tggtggctca cgcctgtaat cctagcactt tgggaggctg aggggagtgg 2150tggtggctca cgcctgtaat cctagcactt tgggaggctg aggggagtgg 2150

atcacttgag gttaggagtt tgagaccagc ctggccaata tggtgaaaca 2200atcacttgag gttaggagtt tgagaccagc ctggccaata tggtgaaaca 2200

ccatcccatc tctacaaaaa tacaaaaaag ttagccaggg gtggtggcat 2250ccatcccatc tctacaaaaa tacaaaaaag ttagccaggg gtggtggcat 2250

cgcagctact caggaggccg aggcaggaga attgcttgaa cctgggaggc 2300cgcagctact caggaggccg aggcaggaga attgcttgaa cctgggaggc 2300

agaggttgca gtgagtcaag attgtgccag tacactccag cctgggcgac 2350agaggttgca gtgagtcaag attgtgccag tacactccag cctgggcgac 2350

gaagcaagac tgtctaaaaa aaaaaaaaaa aaaaaaaata cgggcactca 2400gaagcaagac tgtctaaaaa aaaaaaaaaa aaaaaaaata cgggcactca 2400

atacaccgta taataataat atagtaataa tatttgctta ggatctttaa 2450atacaccgta taataataat atagtaataa tatttgctta ggatctttaa 2450

aaagtttcat tttttcagac tcccacagaa atggctctgc acagcagagt 2500aaagtttcat tttttcagac tcccacagaa atggctctgc acagcagagt 2500

gaagggggag agagactgag tctccaggcc agaaaaaggc caggtttttt 2550gaagggggag agagactgag tctccaggcc agaaaaaggc caggtttttt 2550

gcttttgttt ttagttgttg cctggatatt gcacagaaag aaaaaataat 2600gcttttgttt ttagttgttg cctggatatt gcacagaaag aaaaaataat 2600

tagcaagtta aacaaaagta ccgcaaagtt gattacattg gtatttgagt 2650tagcaagtta aacaaaagta ccgcaaagtt gattacattg gtatttgagt 2650

atcacatctt ctctcagaag cgtaagagac aaggtcgtga ccatacctct 2700atcacatctt ctctcagaag cgtaagagac aaggtcgtga ccatacctct 2700

gcttagtttt gttttgtaat ggtgttgcta gtgatcggct tgtcaccagt 2750gcttagtttt gttttgtaat ggtgttgcta gtgatcggct tgtcaccagt 2750

tactggtgtt tctaaatgga ctataattgg ctacttgaaa ggacttcctg 2800tactggtgtt tctaaatgga ctataattgg ctacttgaaa ggacttcctg 2800

agaaagaaca ttttggagga cgaggagaga gtgccttctc tattttggct 2850agaaagaaca ttttggagga cgaggagaga gtgccttctc tattttggct 2850

gctttcatgt gacatgcaag agaccatgac gtttaggctg ctgctgaggc 2900gctttcatgt gacatgcaag agaccatgac gtttaggctg ctgctgaggc 2900

agccccagaa atgggggccg agaggtcttt tcttcatttt aatagggtct 2950agccccagaa atggggggccg agaggtcttt tcttcatttt aatagggtct 2950

gtaggtttgg gtggttaggt acagttctca gaatggaggt tcctggctat 3000gtaggtttgg gtggttaggt acagttctca gaatggaggt tcctggctat 3000

gaggccttga gaaagctgaa agtctccttg ggagtgtgtg ggtgggggga 3050gaggccttga gaaagctgaa agtctccttg ggagtgtgtg ggtgggggga 3050

gtcgagccca tctgttcatg ggcaggtgtc agccaaagcc cttgcgggtg 3100gtcgagccca tctgttcatg ggcaggtgtc agccaaagcc cttgcgggtg 3100

gttttgaggt tggtgggaga aagcatccgt ggggtttaga gttgtggcct 3150gttttgaggt tggtgggaga aagcatccgt ggggtttaga gttgtggcct 3150

tttcactact tgcagttcct ttccccgact tggctttact ttctggtgtc 3200tttcactact tgcagttcct ttccccgact tggctttact ttctggtgtc 3200

caggggtctg ggccagatgc tgagattcct ctcagctgac aggtgtgggt 3250caggggtctg ggccagatgc tgagattcct ctcagctgac aggtgtgggt 3250

tatgggcaaa cccttccctg gaggacataa ggcaccggat tggactgctg 3300tatgggcaaa cccttccctg gaggacataa ggcaccggat tggactgctg 3300

atgggttgct gttggagttg tcagggcctt ggaatagtct tcagatagac 3350atgggttgct gttggagttg tcagggcctt ggaatagtct tcagatagac 3350

ttgggttagt gtgacctggg gcaggctgca ggtttggagc catagtaccc 3400ttgggttagt gtgacctggg gcaggctgca ggtttggagc catagtaccc 3400

cccgccccca caccgggcac cctgctctgg gctaatgtga ggcttgcagg 3450cccgccccca caccggggcac cctgctctgg gctaatgtga ggcttgcagg 3450

agtgagtgat gcagtgggaa ggggggcctt tcctgaggat tctacagctt 3500agtgagtgat gcagtgggaa ggggggcctt tcctgaggat tctacagctt 3500

tctccaggga atcctcccag gtagtttagg cctgcaggtg ctatgctatc 3550tctccaggga atcctcccag gtagtttagg cctgcaggtg ctatgctatc 3550

cttctttcct aaccctgtct caggtcctca gcggggccat gcggcatcca 3600cttctttcct aaccctgtct caggtcctca gcggggccat gcggcatcca 3600

cttataaccc tgcagcgagg ccctcttttc tggccacctg ggtgtttgcc 3650cttataaccc tgcagcgagg ccctcttttc tggccacctg ggtgtttgcc 3650

tgctgagatg ggaggaacag tggccttggg cttcttcccc cgtcatgttt 3700tgctgagatg ggaggaacag tggccttggg cttcttcccc cgtcatgttt 3700

atctctgctc agattgggca gcagctcaat gggacttgac cagctgtggc 3750atctctgctc agattgggca gcagctcaat gggacttgac cagctgtggc 3750

actgccagtc tgaagatgag tagggtgatg gggggaggtg ggcagtacct 3800actgccagtc tgaagatgag tagggtgatg gggggaggtg ggcagtacct 3800

gaagctgaac tggtgagaga ggcaggctgg cctgggggct cagctggggc 3850gaagctgaac tggtgagaga ggcaggctgg cctggggggct cagctggggc 3850

ctgggatggt tggtacagtc ccctcagggg ggtaggggag tgagtgttag 3900ctgggatggt tggtacagtc ccctcagggg ggtaggggag tgagtgttag 3900

actgcttaag cctcagaggc cgctcttgcc cacctatgct ttgaggagat 3950actgcttaag cctcagaggc cgctcttgcc cacctatgct ttgaggagat 3950

cctcttcatt tgttcaaagg gaagactctg atctagagat gggcacttgg 4000cctcttcatt tgttcaaagg gaagactctg atctagagat gggcacttgg 4000

accagcaaac agcagctaca ggtagccagg gcacccgagg agcacttgct 4050accagcaaac agcagctaca ggtagccagg gcacccgagg agcacttgct 4050

catgagccgg tttccctggt ttttatgggg gctgttgctg agcgtctgcc 4100catgagccgg tttccctggt ttttatgggg gctgttgctg agcgtctgcc 4100

agggtttgtg tcctagcact tgctggtctt tgctgggctc tcagctctca 4150agggtttgtg tcctagcact tgctggtctt tgctgggctc tcagctctca 4150

ggtgtttctc taccagcacg tttccccctc cctcatatgc acacatgtgg 4200ggtgtttctc taccagcacg tttccccctc cctcatatgc acacatgtgg 4200

acacaagcag gctgcccagg acagagtgta ctttgaggct tgggaaagga 4250acacaagcag gctgcccagg acaagtgta ctttgaggct tgggaaagga 4250

ctctctctcg cccttttggg gatgagcctt ggaacctcat caccttccgg 4300ctctctctcg cccttttggg gatgagcctt ggaacctcat caccttccgg 4300

cttggggtgg agcttcatcc tgggggttga agctttaggc tcagataact 4350cttggggtgg agcttcatcc tggggggttga agctttaggc tcagataact 4350

agtcttgtaa gccagttttg tcctgttgtt tttttcgtgg aaaataatgt 4400agtcttgtaa gccagttttg tcctgttgtt tttttcgtgg aaaataatgt 4400

attgacgtat acacagacat tctttgtcta acagtctgag attgagaaat 4450attgacgtat acacagacat tctttgtcta acagtctgag attgagaaat 4450

accctccatg actatttggt ttgctttcat ggtgaaactt ggtcgctttc 4500accctccatg actatttggt ttgctttcat ggtgaaactt ggtcgctttc 4500

ttagacacag cctatggcaa taagagtgat ccctggctgc tgtaattcat 4550ttagacacag cctatggcaa taagagtgat ccctggctgc tgtaattcat 4550

tccagacttt gagcaaacac aaggcaccgc ctccacctgc agtggagcct 4600tccagacttt gagcaaacac aaggcaccgc ctccacctgc agtggagcct 4600

ctgatgaacc aaatggaaac tccttgggga atggggagta agagccaaat 4650ctgatgaacc aaatggaaac tccttgggga atggggagta agagccaaat 4650

gtgggattgg acttaaactg cagcttctta gaactgtagc attccacgat 4700gtgggattgg acttaaactg cagcttctta gaactgtagc attccacgat 4700

gggattgtct agtgctcttc ctggaggtta ctattcaata gttggctagt 4750gggattgtct agtgctcttc ctggaggtta ctattcaata gttggctagt 4750

gcacaggttc aggggtgacc tgatatgccc tagcgtttca gaagatccct 4800gcacaggttc aggggtgacc tgatatgccc tagcgtttca gaagatccct 4800

gcaaggtgtg tcttttggtc catctgaagg gtcttgtatg gtgatcttgt 4850gcaaggtgtg tcttttggtc catctgaagg gtcttgtatg gtgatcttgt 4850

atggatatcc gtgacggcta aggcatctga taacttcatt ccttcagttc 4900atggatatcc gtgacggcta aggcatctga taacttcatt ccttcagttc 4900

cagcagtgtt cctgtattat gctgggcact agagctacaa agaagaaaac 4950cagcagtgtt cctgtattat gctgggcact agagctacaa agaagaaaac 4950

aaagtgcctc ctcttcagga actcttaatt taggcagggg aggcataatt 5000aaagtgcctc ctcttcagga actcttaatt taggcagggg aggcataatt 5000

gaacagtgct gaggtcatct aggggaacca aagtgtgtat ttatcccctt 5050gaacagtgct gaggtcatct aggggaacca aagtgtgtat ttatcccctt 5050

ccctatcact cccctccctc cttcatttct tcctttcttc tttcagaaac 5100ccctatcact cccctccctc cttcatttct tcctttcttc tttcagaaac 5100

tccaagttca tatcaaaatt ctccagccct ggttttattt ggttgtgtga 5150tccaagttca tatcaaaatt ctccagccct ggttttattt ggttgtgtga 5150

aaattttcct ctaatttctg aagctatgca ttagttctgc tgagtaatct 5200aaattttcct ctaatttctg aagctatgca ttagttctgc tgagtaatct 5200

ttaacttgct gctttataat gattataatg agatatcact gggtattatg 5250ttaacttgct gctttataat gattataatg agatatcact gggtattatg 5250

gtctttgggt agcagcaggg tagggatttc caggctggga ctaagctaat 5300gtctttgggt agcagcaggg tagggatttc caggctggga ctaagctaat 5300

ttatgggttg ggaattatgg ggcagttaat agcaaggcag tccaagcttt 5350ttatgggttg ggaattatgg ggcagttaat agcaaggcag tccaagcttt 5350

ccacagattc caccctaggg accatccaga cttaaggaac agggccggca 5400ccacagattc caccctaggg accatccaga cttaaggaac agggccggca 5400

ggctcatccc ctttgcactc agctgggcta tgggtgtgtg tttgtgaaag 5450ggctcatccc ctttgcactc agctgggcta tgggtgtgtg tttgtgaaag 5450

aggtttattc agtagtcata cctgctgatt tccctgctat ctgtttaccc 5500aggtttattc agtagtcata cctgctgatt tccctgctat ctgtttaccc 5500

agtgcctcct gtaccttgtt tcttactctt tgttctctgc tcttactatg 5550agtgcctcct gtaccttgtt tcttactctt tgttctctgc tcttactatg 5550

aagaagcaga gactggaatt ctgcttgaac ccacatctac ctggaaattc 5600aagaagcaga gactggaatt ctgcttgaac ccacatctac ctggaaattc 5600

cagtttttct tgtccagtgg agcagcaatc cagttgtttt aggacaaatg 5650cagtttttct tgtccagtgg agcagcaatc cagttgtttt aggacaaatg 5650

gtctgccctt gaagcttaaa tcctttgagg gcctggcatg gtgacagttt 5700gtctgccctt gaagcttaaa tcctttgagg gcctggcatg gtgacagttt 5700

tacatttggc tttggtatag actggtgtgg tccctgggca gtgaggtcac 5750tacatttggc tttggtatag actggtgtgg tccctgggca gtgaggtcac 5750

tgtaaggcca gccagccaga ccctggctcc taggggaatt aacaaggcat 5800tgtaaggcca gccagccaga ccctggctcc taggggaatt aacaaggcat 5800

gggattagac tcacagggtc cctcctgtcc ctaaacttgg taggggttcc 5850gggattagac tcacagggtc cctcctgtcc ctaaacttgg taggggttcc 5850

tgggagccag actgcgatta agattgtaga gacctgagac ctgagttgta 5900tgggagccag actgcgatta agattgtaga gacctgagac ctgagttgta 5900

ggggcctctg tgttgatctg ggccattgcc gggtgagctg aggcggtcac 5950ggggcctctg tgttgatctg ggccattgcc gggtgagctg aggcggtcac 5950

tagctcaagg agtgatctca ggatattgtt ctgtaagtca gagacctcca 6000tagctcaagg agtgatctca ggatattgtt ctgtaagtca gagacctcca 6000

ggttggagag tggggcttgg gggtggggga cagggtttag tggggagctg 6050ggttggagag tggggcttgg gggtggggga cagggtttag tggggagctg 6050

gttctgggtg aatgtggcct aaagggattt gtccttagaa gacagagggg 6100gttctgggtg aatgtggcct aaagggattt gtccttagaa gacagagggg 6100

tgagtcacac actcagtgct tcaggttcca ctttgcggct tggcctcagc 6150tgagtcacac actcagtgct tcaggttcca ctttgcggct tggcctcagc 6150

ccgccccttc cctgcacaaa tgaaggccag gggctatata attggctgtt 6200ccgccccttc cctgcacaaa tgaaggccag gggctatata attggctgtt 6200

gctgaattct ttggcagtga ttttaaagtc tggtctgggt gtgttatgta 6250gctgaattct ttggcagtga ttttaaagtc tggtctggggt gtgttatgta 6250

gctgcttctc tatccactcc ccacacccgc tgcttctcca gagcccctca 6300gctgcttctc tatccactcc ccacacccgc tgcttctcca gagcccctca 6300

caaagcccag gcagagagag agagagagag agagagaatg acttgcctca 6350caaagcccag gcagagagag agagagagag agagagaatg acttgcctca 6350

cagagatgtt ggggataggg ataggggtat gggtctttgc ttttgccttt 6400cagagatgtt ggggataggg ataggggtat gggtctttgc ttttgccttt 6400

tgagggggga taatctcttc cttcatttta aaagtaaaaa gtaatgcagg 6450tgagggggga taatctcttc cttcatttta aaagtaaaaa gtaatgcagg 6450

ctcattgaaa ataatttgaa aagttgaaag agatataaaa gcacacccaa 6500ctcattgaaa ataatttgaa aagttgaaag agatataaaa gcacaccaa 6500

attcctatca cccaaaagaa acataccggc atatttccta ctagtctttt 6550attcctatca cccaaaagaa acataccggc atatttccta ctagtctttt 6550

tcatgtttaa gaatatagct gatatatttt tttttctttt tctttttgag 6600tcatgtttaa gaatatagct gatatatttt tttttctttt tctttttgag 6600

acagggtttt tgctctgtca cccaggctgg agtgcagtga tcacggctca 6650acagggtttt tgctctgtca cccaggctgg agtgcagtga tcacggctca 6650

ctgcagcctc gacctctcgg gctaagcgat tctcccactt cagtctcccg 6700ctgcagcctc gacctctcgg gctaagcgat tctcccactt cagtctcccg 6700

agttgctggg accacaggtg cacaccgcca tgcctgacta atttttgtat 6750agttgctggg accacaggtg cacaccgcca tgcctgacta atttttgtat 6750

tttttgtaga gatggggttt tgccatgttg cctaggctgg tctcgaactc 6800tttttgtaga gatggggttt tgccatgttg cctaggctgg tctcgaactc 6800

cagagctcaa gtgattcacc tgccttggcc tcccaaagcg ctgggattat 6850cagagctcaa gtgattcacc tgccttggcc tcccaaagcg ctgggattat 6850

aggtgtcagt caccacaccc agtgttatag ctgttgtctt tatagatgaa 6900aggtgtcagt caccacaccc agtgttatag ctgttgtctt tatagatgaa 6900

cagatagatt gacatagatt catgtagata gcctggtgtt cagcattttt 6950cagatagatt gacatagatt catgtagata gcctggtgtt cagcattttt 6950

catttaagat tctgtcacag acttgaccct atacctttaa aaatcacaaa 7000catttaagat tctgtcacag acttgaccct atacctttaa aaatcacaaa 7000

ggcagtatca tagtctgtca gctgaatatg ccataactta aaaaaatcat 7050ggcagtatca tagtctgtca gctgaatatg ccataactta aaaaaatcat 7050

tcaactgttg ctgaacacac acatatacat atatagtttt tgttttttct 7100tcaactgttg ctgaacacac acatatacat atatagtttt tgttttttct 7100

tagtgatgta gtgatgcttg tgcagaaagc tttatgtact ttttggatgg 7150tagtgatgta gtgatgcttg tgcagaaagc tttatgtact ttttggatgg 7150

tttctgtagg agagctttct aaaaaaggaa aaaaagtgtt gaatgttttt 7200tttctgtagg agagctttct aaaaaaggaa aaaaagtgtt gaatgttttt 7200

tgagaagggc tagattttca agccagtctt acaaaaggat agactcattg 7250tgagaagggc tagattttca agccagtctt acaaaaggat agactcattg 7250

gaaattccag atttgcttag tgctggcaga tgagtatcac ttattgctga 7300gaaattccag atttgcttag tgctggcaga tgagtatcac ttattgctga 7300

acaatgtgtc tagaattctg attaaaaaag aaactaggtc caggaagtgc 7350acaatgtgtc tagaattctg attaaaaaag aaactaggtc caggaagtgc 7350

ctgggggcag gggcaaaggg ccaggctgca ggataggctc ttaggatctg 7400ctggggggcag gggcaaaggg ccaggctgca ggataggctc ttaggatctg 7400

gctgagcaga aatctgctgt gaacagaatc ggtgggggtg atgctttctc 7450gctgagcaga aatctgctgt gaacagaatc ggtggggggtg atgctttctc 7450

agtaacttct ccatttgttt ctttagcagc taagtccctg tgctggactt 7500agtaacttct ccatttgttt ctttagcagc taagtccctg tgctggactt 7500

ctgtggacta ctgtggctct ggggctgtgg ttgtgggtga acaacagcta 7550ctgtggacta ctgtggctct ggggctgtgg ttgtgggtga acaacagcta 7550

gctaaaccag tgctgttgac atcattgaga tgtgacgcac aggaaggtgg 7600gctaaaccag tgctgttgac atcattgaga tgtgacgcac aggaaggtgg 7600

gagcaagctt gcaaatcaga ttctgaaaca tatagcacag ctctcccacc 7650gagcaagctt gcaaatcaga ttctgaaaca tatagcacag ctctcccacc 7650

tccaggtggt cctgagatct agggaggagc catagtgaga aactttaggt 7700tccaggtggt cctgagatct agggaggagc catagtgaga aactttaggt 7700

ttctaggaat tctcttaggg agaagctctc ttagggagag gcagaacctg 7750ttctaggaat tctcttaggg agaagctctc ttagggagag gcagaacctg 7750

gttctcagtt ggggctgatt caggtgggtt agatcaataa agcctcaggc 7800gttctcagtt ggggctgatt caggtgggtt agatcaataa agcctcaggc 7800

cagtgtgcca ggctattccc aaggagtata ctttgaagtt actcccttta 7850cagtgtgcca ggctattccc aaggagtata ctttgaagtt actcccttta 7850

gaatgtcctc agtggagata aattctctct gaggagcagt tttgtctgcc 7900gaatgtcctc agtggagata aattctctct gagggagcagt tttgtctgcc 7900

ggggtcattt ggcacaaagc ctggagtgct agggcgaggt tgcactgagg 7950ggggtcattt ggcacaaagc ctggagtgct agggcgaggt tgcactgagg 7950

gaaggggcag gattatgtca gcagtgtgac ggatacagtg tgaggtcagg 8000gaaggggcag gattatgtca gcagtgtgac ggatacagtg tgaggtcagg 8000

ctccttcctg ccccaccacg ggggcctaga ggtcatgggg agggtccctg 8050ctccttcctg ccccaccacg ggggcctaga ggtcatgggg agggtccctg 8050

gcaggggatt caatcattgc ttggccccat gacagagtat attctaaaaa 8100gcaggggatt caatcattgc ttggccccat gacagagtat attctaaaaa 8100

tgccttaagt ttttttcttt caaagtttct tcctgttttg cataatggcc 8150tgccttaagt ttttttcttt caaagtttct tcctgttttg cataatggcc 8150

ttttgccttt gacatcctga aaccgcagag ctgtcattgg tgttgcagga 8200ttttgccttt gacatcctga aaccgcagag ctgtcattgg tgttgcagga 8200

cactgccagc ttgaaaaaaa tcaacaacaa aaaaagaaac aggaaaggat 8250cactgccagc ttgaaaaaaa tcaacaacaa aaaaagaaac aggaaaggat 8250

gtggagttca gggtgcggcc tagggaagct ggtatttgcg ttatgggatt 8300gtggagttca gggtgcggcc tagggaagct ggtatttgcg ttatgggatt 8300

gtggggatgt ggtattaagg tgttgggtag cgcctgacat ttagaggagt 8350gtggggatgt ggtattaagg tgttgggtag cgcctgacat ttagaggagt 8350

actctgggca gagtccctgc ctgcccaaga ataggtagaa ttgagtcttc 8400actctgggca gagtccctgc ctgcccaaga ataggtagaa ttgagtcttc 8400

acaccaaagt caggagagac cccctccccc caggaagaga atgaacaggg 8450acaccaaagt caggagagac cccctccccc caggaagaga atgaacaggg 8450

actcatttcc tcattcagca aacttttatt ggtaactaca ctatatgaag 8500actcatttcc tcattcagca aacttttatt ggtaactaca ctatatgaag 8500

tgtgagagat agacatgaac aagagaggcc cccactcttg ggcagtccct 8550tgtgagagat agacatgaac aagagaggcc cccactcttg ggcagtccct 8550

tagtagtagt agatagactc tggcaatatg gtgtggtcag agagaggaag 8600tagtagtagt agatagactc tggcaatatg gtgtggtcag agagaggaag 8600

cctgggtgct ttgagggtac tgaggaggtg cagggagcca aatgggtggt 8650cctgggtgct ttgaggtac tgaggaggtg cagggagcca aatgggtggt 8650

ctgggccagg gccagagtca gaatgaagga cctctcttcc agacgttgat 8700ctgggccagg gccagagtca gaatgaagga cctctcttcc agacgttgat 8700

tttagcatct ctgtctctca gtatgtttga acagtctccc ttattggaag 8750tttagcatct ctgtctctca gtatgtttga acagtctccc ttattggaag 8750

ggcaggagtc tactgctaaa agtaacctgc gatttcctct acttgctgtc 8800ggcaggagtc tactgctaaa agtaacctgc gatttcctct acttgctgtc 8800

atgtggaaag aatactaaag ctgaaattcc aaaagttgca cacctttacc 8850atgtggaaag aatactaaag ctgaaattcc aaaagttgca cacctttacc 8850

agcagggcag gagaggaaag gaaatggagg cagagtgagc tgaagatgat 8900agcagggcag gagaggaaag gaaatggagg cagagtgagc tgaagatgat 8900

aaaagaaaga gaaggtggtg cagtttggac tgttatggac agaggaagtc 8950aaaagaaaga gaaggtggtg cagtttggac tgttatggac agaggaagtc 8950

tgagggtagc tggactgagg gatcaaaggg aggcagttga aagggaagag 9000tgaggtagc tggactgagg gatcaaaggg aggcagttga aagggaagag 9000

agctgcagag agggatttct tggtctgcag agggtaggag caagccttga 9050agctgcagag agggatttct tggtctgcag agggtaggag caagccttga 9050

aggctgctgg agtgaggatt ccgagccctg gtctttattc tttttctaat 9100aggctgctgg agtgaggatt ccgagccctg gtctttattc tttttctaat 9100

tcattacatc attttaggca agtcctaact cctttggtct ctgttgtctt 9150tcattacatc attttaggca agtcctaact cctttggtct ctgttgtctt 9150

tctgaaattt gagtgggctg ggcctgctgg tctttagcct ctgtctttct 9200tctgaaattt gagtgggctg ggcctgctgg tctttagcct ctgtctttct 9200

ctacctccta gattccagtt tggcgagtgg gggggaaaac ctggttgtat 9250ctacctccta gattccagtt tggcgagtgg gggggaaaac ctggttgtat 9250

atgcaacgtg aaaggcctct ggaattcctt ttgaagctca ctacccatga 9300atgcaacgtg aaaggcctct ggaattcctt ttgaagctca ctacccatga 9300

ggcttctgct aaggatttca tcatgtctgt ctaagcagac ataaaaattt 9350ggcttctgct aaggatttca tcatgtctgt ctaagcagac ataaaaattt 9350

tagcaggtgg atgacccgta gaaatggcac aaggaatgtt tctttctgtc 9400tagcaggtgg atgacccgta gaaatggcac aaggaatgtt tctttctgtc 9400

acactgtggt atttgattta agaaagttgt tatcctctct gtgcctcagt 9450acactgtggt atttgattta agaaagttgt tatcctctct gtgcctcagt 9450

gttctcactt gtaaaatggc aataacagta tccacctcat agatgttatg 9500gttctcactt gtaaaatggc aataacagta tccacctcat agatgttatg 9500

aaatacaggt agtagccacg aaagggctta aaacagtgcc taacacagaa 9550aaatacaggt agtagccacg aaagggctta aaacagtgcc taacacagaa 9550

taagttgtga atatatgtta tttattattg gtagtataat gcttatttgt 9600taagttgtga atatatgtta tttattattg gtagtataat gcttatttgt 9600

gaagattttg gcttttgctt tataggacct tttttttttt tagttgaaaa 9650gaagatttg gcttttgctt tataggacct tttttttttt tagttgaaaa 9650

tacaatgtta ccatgttaaa tgttaaaaaa aattctactt accattgtaa 9700tacaatgtta ccatgttaaa tgttaaaaaa aattctactt accattgtaa 9700

cagaacatgc tcccacttct gtaacagagc ttgctattac ttttcaaatg 9750cagaacatgc tcccacttct gtaacagagc ttgctattac ttttcaaatg 9750

catacatatt ccaatgcata tattccaatg cagttgtaga gtgaaactgt 9800catacatatt ccaatgcata tattccaatg cagttgtaga gtgaaactgt 9800

ttgcatgcag ccatttttat ccaacattat cttataaaat gttatgttgt 9850ttgcatgcag ccatttttat ccaacattat cttataaaat gttatgttgt 9850

ttatgattat cctaattatc ttttgttgct gtctagtatc cttatagata 9900ttatgattat cctaattatc ttttgttgct gtctagtatc cttatagata 9900

ttccattagc atacactatt ccaggtttca ctatcgtcga taatctagat 9950ttccattagc atacactatt ccaggtttca ctatcgtcga taatctagat 9950

atgaacattt ttgtagtgtg tagctctttg cttcagttga attactttcc 10000atgaacattt ttgtagtgtg tagctctttg cttcagttga attactttcc 10000

tgggataaat tcctggggaa gaatttctag gccagaggat atggtcatct 10050tgggataaat tcctggggaa gaatttctag gccagaggat atggtcatct 10050

tgacaatact gattcacatt gctgcattgc tttccaagag gtttggaatc 10100tgacaatact gattcacatt gctgcattgc tttccaagag gtttggaatc 10100

attcacaggt tctaaattgg aaaatcctgg cttttgaagt atgtggattc 10150attcacaggt tctaaattgg aaaatcctgg cttttgaagt atgtggattc 10150

taagggcgat ttggatctag ctggagcctc acactgacac ttccagccag 10200taagggcgat ttggatctag ctggagcctc acactgacac ttccagccag 10200

tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtagt tccctatgct 10250tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtagt tccctatgct 10250

ggacaccgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtagttc 10300ggacaccgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtagttc 10300

cctatgctgg acaccatgtg gcctttctgg acattagggt tttcctgtga 10350cctatgctgg acaccatgtg gcctttctgg acattagggt tttcctgtga 10350

ttgcctcaga gcagttcctg ttgaattcac tctgtgtcca caaaaggagc 10400ttgcctcaga gcagttcctg ttgaattcac tctgtgtcca caaaaggagc 10400

cttactgtgg ctctttcaac acccacctac ctttgccaag ttggtttaca 10450cttactgtgg ctctttcaac acccacctac ctttgccaag ttggtttaca 10450

gaaagtaaga acattctttc cttcttcctt gatatgtggc gctaaaccta 10500gaaagtaaga acattctttc cttcttcctt gatatgtggc gctaaaccta 10500

tagcatgggg caggctctgg ctttaaaaac ctgacttaaa aataatggtg 10550tagcatgggg caggctctgg ctttaaaaac ctgacttaaa aataatggtg 10550

ttgatcaaaa agtttgtgga tcagtttttg gaaacactgc atgtagccat 10600ttgatcaaaa agtttgtgga tcagtttttg gaaacactgc atgtagccat 10600

ccatagaaac ttatattctg ttgggctagc ctgggcgcct gatcatttaa 10650ccatagaaac ttatattctg ttgggctagc ctgggcgcct gatcatttaa 10650

ctcatgtgga tgaacttcta tgtaatagcc ctggtgtatg ggatccagaa 10700ctcatgtgga tgaacttcta tgtaatagcc ctggtgtatg ggatccagaa 10700

acagggccct aatgaagaaa ggcttttaaa ttatgttgga taaaaataag 10750acagggccct aatgaagaaa ggcttttaaa ttatgttgga taaaaataag 10750

ttgttacaat agcccaaagt ctgcaaatat gaattgccag ttctgtcctt 10800ttgttacaat agcccaaagt ctgcaaatat gaattgccag ttctgtcctt 10800

gtagtcatcc accatgtgcc tgcatctttt gtagactctt gtagattcag 10850gtagtcatcc accatgtgcc tgcatctttt gtagactctt gtagattcag 10850

aagcccactg aattgcataa atgatggaat gattttagac ttagtgattt 10900aagcccactg aattgcataa atgatggaat gattttagac ttagtgattt 10900

cagtgactaa aagtttacag atcctggccg ggcacagtgg ctcacacccg 10950cagtgactaa aagtttacag atcctggccg ggcacagtgg ctcacacccg 10950

tattcccagc actttgggag gccgaggtgg gtggatcacc tgaggtcagg 11000tattcccagc actttgggag gccgaggtgg gtggatcacc tgaggtcagg 11000

agtttgagac cagcctggcc aacatggtga aaccttgtct ctactaaaaa 11050agtttgagac cagcctggcc aacatggtga aaccttgtct ctactaaaaa 11050

tacaaaaatt agccgggtgt ggtggcatgc acctgttgtc ccagctactt 11100tacaaaaatt agccgggtgt ggtggcatgc acctgttgtc ccagctactt 11100

gggaggctga ggtgggagaa tggcttgaac ctgggaggcg gaggttgcag 11150gggaggctga ggtgggagaa tggcttgaac ctgggaggcg gaggttgcag 11150

tgagcccaca tcaggccact gcactccagc ctgggtgaca gagtgagact 11200tgagcccaca tcaggccact gcactccagc ctgggtgaca gagtgagact 11200

ctgtctccac ctcccccgcc ccccgaaaaa aaaaaaagtt tacagatcca 11250ctgtctccac ctcccccgcc ccccgaaaaa aaaaaaagtt tacagatcca 11250

gcagatgggg catattcaat ttgtgacagc cactcccttc accttatagc 11300gcagatgggg catattcaat ttgtgacagc cactcccttc accttatagc 11300

tatgtcatat gtcttcttct cctttgactg cattctgcag cagtcagttg 11350tatgtcatat gtcttcttct cctttgactg cattctgcag cagtcagttg 11350

tgacttaata tggcactctg ggcccactga attaggtcag agctgctagt 11400tgacttaata tggcactctg ggcccactga attaggtcag agctgctagt 11400

agtatattgt tcctagagac ctagggcaag attttcttac tacataaaat 11450agtatattgt tcctagagac ctagggcaag attttcttac tacataaaat 11450

gagggagata atttcttacc tcaagatgtt ggtaagagga gtgaatgagg 11500gagggagata atttcttacc tcaagatgtt ggtaagagga gtgaatgagg 11500

ttagttatat ggtaatatca gtactctgaa tgtcttttga tcaatgccta 11550ttagttatat ggtaatatca gtactctgaa tgtcttttga tcaatgccta 11550

actcatcttc ttgggcacaa aaggcataca gtcagcaccc ttaggccaca 11600actcatcttc ttgggcacaa aaggcataca gtcagcaccc ttaggccaca 11600

tataaaattc ctccaaatgc aggttttcat ctgccttggg gcagagtcaa 11650tataaaattc ctccaaatgc aggttttcat ctgccttggg gcagagtcaa 11650

gagaaagaag aggaagaggc gtgaggctct gaccacaact tagggacaga 11700gagaaagaag aggaagaggc gtgaggctct gaccacaact tagggacaga 11700

atatagccca aagcgagtac cccaggccac aaggagaagg ccgctatctt 11750atatagccca aagcgagtac cccaggccac aaggagaagg ccgctatctt 11750

gttgaatcca cagcactgga aacttggagt gtgtgttccc ctgtgtcagt 11800gttgaatcca cagcactgga aacttggagt gtgtgttccc ctgtgtcagt 11800

tacactggaa ttttatggct gctcacattc ttcccttcag gtggacgttg 11850tacactggaa ttttatggct gctcacattc ttcccttcag gtggacgttg 11850

ttcatcagta tcctgggcaa gaggccatca taaaccacag acagctgagt 11900ttcatcagta tcctgggcaa gaggccatca taaaccacag acagctgagt 11900

gattaggaag aggagctgaa gagggagcat tagatgtttg attgagtctt 11950gattaggaag aggagctgaa gagggagcat tagatgtttg attgagtctt 11950

aggtgagaaa gtatatcatt aaaacaaaaa gatagatgta ggcgggctca 12000aggtgagaaa gtatatcatt aaaacaaaaa gatagatgta ggcgggctca 12000

gtcttgtgtg cctggtgtgt tggtagaaaa actaaagcac aagcctgtag 12050gtcttgtgtg cctggtgtgt tggtagaaaa actaaagcac aagcctgtag 12050

ataacctgct ttattctacc tcggggctgg tgttggaatc caggatgcca 12100ataacctgct ttattctacc tcggggctgg tgttggaatc caggatgcca 12100

gaccctaaag tccagctctc tttccaacct actgaataat ccgagagaaa 12150gaccctaaag tccagctctc tttccaacct actgaataat ccgagagaaa 12150

tcatgttctc tctctgggcc tcagtttgcc catgtataaa atgagatgaa 12200tcatgttctc tctctgggcc tcagtttgcc catgtataaa atgagatgaa 12200

ggattggctg ggatgctctc cagagtctct tcctgcctgg agttctgacg 12250ggattggctg ggatgctctc cagagtctct tcctgcctgg agttctgacg 12250

tagccatgta ctcctgctca gcatcgctaa atggctttgt ggtaggacca 12300tagccatgta ctcctgctca gcatcgctaa atggctttgt ggtaggacca 12300

ttgagtgctg cctccattag ggccagctat gtaatgctgg ggtggctgtc 12350ttgagtgctg cctccattag ggccagctat gtaatgctgg ggtggctgtc 12350

actgggccct aagagccagg attggtctta ctggagaaat ccacatccac 12400actggggccct aagagccagg attggtctta ctggagaaat ccacatccac 12400

ctaaacttaa gacccagggg tgtccaatct tttggcttcc ccaggccaca 12450ctaaacttaa gacccagggg tgtccaatct tttggcttcc ccaggccaca 12450

ctggaagaag aattgtcttg gaccgcatat aaaatacact aattatagcc 12500ctggaagaag aattgtcttg gaccgcatat aaaatacact aattatagcc 12500

gatgaggtta aaaaaaaaaa actcaatatt ttaagagagt tcatgaattt 12550gatgaggtta aaaaaaaaaa actcaatatt ttaagagagt tcatgaattt 12550

gtgttgagct gcattcaaag ccatcctggc cgcatgtggc ccatgggcca 12600gtgttgagct gcattcaaag ccatcctggc cgcatgtggc ccatgggcca 12600

tcggttggac atgcttgctt tagacctccc agcaattcta gtctctaaac 12650tcggttggac atgcttgctt tagacctccc agcaattcta gtctctaaac 12650

aggaaatcaa aagtcaagat gaatagataa gttggtcagt gtgaaaaagt 12700aggaaatcaa aagtcaagat gaatagataa gttggtcagt gtgaaaaagt 12700

aattggtggg agccactgta gatgcagggt tctaggctcc atcaacaacc 12750aattggtggg agccactgta gatgcagggt tctaggctcc atcaacaacc 12750

acctacatca ctgaacgaaa gataatgctt gttcagcact tattacatgc 12800acctacatca ctgaacgaaa gataatgctt gttcagcact tattacatgc 12800

caaccatggt aaaaatactt cagatgcatt gttttcatga actctcacag 12850caaccatggt aaaaatactt cagatgcatt gttttcatga actctcacag 12850

cagctctttt tcttgcctaa atgccccgtt agaacctcca gtacaatgtt 12900cagctctttt tcttgcctaa atgccccgtt agaacctcca gtacaatgtt 12900

aaatagatat gctaagagac aacatatgtg tcttgttagg gggaaaatat 12950aaatagatat gctaagagac aacatatgtg tcttgttagg gggaaaatat 12950

ccagtctttg actattaaga atggtgttag cagtgggttt ttcctaggtg 13000ccagtctttg actattaaga atggtgttag cagtgggttt ttcctaggtg 13000

ccctttatca ggttgaggaa gttcctttct attcctggtt tgttgagtat 13050ccctttatca ggttgaggaa gttcctttct attcctggtt tgttgagtat 13050

ttttatcatg aaaaggtgat gggttttgtc aaatgctttt ctgtgtctgt 13100ttttatcatg aaaaggtgat gggttttgtc aaatgctttt ctgtgtctgt 13100

tgagatgatc atgttttttt gtcatttatt ctattgatat ggtatattat 13150tgagatgatc atgttttttt gtcatttatt ctattgatat ggtatattat 13150

acattgattt ttcagatatt aatcttgcat acctgggata aatcccactt 13200acattgattt ttcagatatt aatcttgcat acctgggata aatcccactt 13200

ggtcatggtg tataattctt tttatttgtt gctggattga gtttgctagt 13250ggtcatggtg tataattctt tttatttgtt gctggattga gtttgctagt 13250

attttgttga tttgtattca taacagatag tggtctgtag tctttccctc 13300attttgttga tttgtattca taacagatag tggtctgtag tctttccctc 13300

cctccctccc tccctccctc cctcccttcc ttccttcctc tctctctctc 13350cctccctccc tccctccctc cctcccttcc ttccttcctc tctctctctc 13350

tctctcccct cccctccctt cttttcccct cctctcccct ccccttccct 13400tctctcccct cccctccctt cttttcccct cctctcccct ccccttccct 13400

ttcttctctt tcatagttgt ttaccactgt cagaaaaggt ctgttcgttt 13450ttcttctctt tcatagttgt ttaccactgt cagaaaaggt ctgttcgttt 13450

tctttcgtcg tgagatcttt gtttggtttt ggtatcaggg taatactgcc 13500tctttcgtcg tgagatcttt gtttggtttt ggtatcaggg taatactgcc 13500

tcaaaaaatg agtagggaag tgttccttcc tcttctgtat tttgagagag 13550tcaaaaaatg agtagggaag tgttccttcc tcttctgtat tttgagagag 13550

tttgtggtcg gtttttatta attcttcttt aaatatctgg tagcgttcac 13600tttgtggtcg gtttttatta attcttcttt aaatatctgg tagcgttcac 13600

cagtaaagcc atctgggcct gatgttttct ttgtggaaaa ctttttgatt 13650cagtaaagcc atctgggcct gatgttttct ttgtggaaaa ctttttgatt 13650

cctaattcag tttctggtta taggtctatt cagaccttct attttttctt 13700cctaattcag tttctggtta taggtctatt cagaccttct attttttctt 13700

aagtcagttt tgatagtttg tgtcttccaa ggagtttgct tcatctaagt 13750aagtcagttt tgatagtttg tgtcttccaa ggagtttgct tcatctaagt 13750

catctaattt gttggcatac atttcatagt gattccttat gatccttttt 13800catctaattt gttggcatac atttcatagt gattccttat gatccttttt 13800

atttccgtta aagttggtgt agggatagtc cctctttcat tactgattat 13850atttccgtta aagttggtgt agggatagtc cctctttcat tactgattat 13850

aataatttga attttctttt tttcttagtc ttgccaaaag cttgtcattt 13900aataatttga attttctttt tttcttagtc ttgccaaaag cttgtcattt 13900

ttattgatct tttcagagga ccaactttga gttcattatt tgttctcttt 13950ttattgatct tttcagagga ccaactttga gttcattatt tgttctcttt 13950

gttcttattt ttctgcttca ttaacttctc taatctttat tctttcattc 14000gttcttattt ttctgcttca ttaacttctc taatctttat tctttcattc 14000

tgcttgcttt tggttaagtt tgctttttct ggtgtcttaa ggtagaaggt 14050tgcttgcttt tggttaagtt tgctttttct ggtgtcttaa ggtagaaggt 14050

taggttactg atttgagatt taaagatcat gctctttaaa cgttttgata 14100taggttactg atttgagatt taaagatcat gctctttaaa cgttttgata 14100

gatactgtca gtttgccctc tggctttttc tcattaacag tgtataggag 14150gatactgtca gtttgccctc tggctttttc tcattaacag tgtataggag 14150

tgcttattcc tcacactcat accagccctg ggtgttacta acctttatat 14200tgcttattcc tcacactcat accagccctg ggtgttacta acctttatat 14200

atttgccagt atcatattca gacatagtat cttgttttaa tatgtttctc 14250atttgccagt atcatattca gacatagtat cttgttttaa tatgtttctc 14250

tgattactga tgaagttaag caaattttca cgtgtttatt ggccatctgt 14300tgattactga tgaagttaag caaattttca cgtgtttatt ggccatctgt 14300

ctttcttttt tcatcctttc tttcaagatg ggagtctttg ccatgttgcc 14350ctttcttttt tcatcctttc tttcaagatg ggagtctttg ccatgttgcc 14350

caggctggac tcgaactcct gggctcaaat gatcttcctg cctcagcctc 14400caggctggac tcgaactcct gggctcaaat gatcttcctg cctcagcctc 14400

ctgagtagct gggactatag gcgtgagcca ccatggctgg cttgcccatt 14450ctgagtagct gggactatag gcgtgagcca ccatggctgg cttgcccatt 14450

tgtatttctt atgtgagtat tttttctttt tttttgaagt ggagtctcac 14500tgtatttctt atgtgagtat tttttctttt tttttgaagt ggagtctcac 14500

tccatccccc agagtggagt gcagttgtcc gatcttggct cactgcaacc 14550tccatccccc agagtggagt gcagttgtcc gatcttggct cactgcaacc 14550

accgcctccc aggttcaagt gattctcaca ccttagcctc ccaagtatct 14600accgcctccc aggttcaagt gattctcaca ccttagcctc ccaagtatct 14600

gggactatag gtgtgtgcca ccacacctgg ctaatatttg tatttttagc 14650gggactatag gtgtgtgcca ccacacctgg ctaatatttg tatttttagc 14650

agagatgggg tttcaccatg ttggccaggc tggtttcaaa ctggcctcaa 14700agagatgggg tttcaccatg ttggccaggc tggtttcaaa ctggcctcaa 14700

gtgattcacc tgcctcggcc tcccaaagtg ctgggattac aggtgtgagc 14750gtgattcacc tgcctcggcc tcccaaagtg ctgggattac aggtgtgagc 14750

cactgtgccc agctgacttt ttttttcttt tttttaaccc tttttttttt 14800cactgtgccc agctgacttt ttttttcttt tttttaaccc tttttttttt 14800

ttaccctttt tttggcccat ttttttttac cctttttctt ttaacccatt 14850ttaccctttt tttggcccat ttttttttac cctttttctt ttaacccatt 14850

tttctattag ttttaaaaat atgtttgcag gagcttttta tattgtggat 14900tttctattag ttttaaaaat atgtttgcag gagcttttta tattgtggat 14900

ttttcttgtt tattacatat catttgtaaa tatggtctct ccatctgtca 14950ttttcttgtt tattacatat catttgtaaa tatggtctct ccatctgtca 14950

ctcttcttta tctctggttt ctttagctat gtagaagttg ttatgttatg 15000ctcttcttta tctctggttt ctttagctat gtagaagttg ttatgttatg 15000

ttatgttatg ttatgttatg ttatgttatg ttatgttatg ttatgttatt 15050ttatgttatg ttatgttatg ttatgttatg ttatgttatg ttatgttatt 15050

ttttggagag ggagtcttgc tctgtcgccc aggctggagt gcagtggtga 15100ttttggagag ggagtcttgc tctgtcgccc aggctggagt gcagtggtga 15100

aatctcggct cactgcaacc tctgcctcct gggttcaagc gattctcctg 15150aatctcggct cactgcaacc tctgcctcct gggttcaagc gattctcctg 15150

cctcagcttc ccgagaagct gtgattacag gcacccgcca ccacacccag 15200cctcagcttc ccgagaagct gtgattacag gcacccgcca cccaccag 15200

ctaatttttg tgttttagta gagacggggt ttcactatgt aggtcaagct 15250ctaatttttg tgttttagta gagacggggt ttcactatgt aggtcaagct 15250

gatctcaaac tcctgatctc aaatgatcct cccaaagtgc tggggttaca 15300gatctcaaac tcctgatctc aaatgatcct cccaaagtgc tggggttaca 15300

ggcgtgagcc actgcactcg gccagaagtt ttgaattttt atgtgtttaa 15350ggcgtgagcc actgcactcg gccagaagtt ttgaattttt atgtgtttaa 15350

atctatgttt tcctttatga cttcaggttg ctttcatact taagcaggtc 15400atctatgttt tcctttatga cttcaggttg ctttcatact taagcaggtc 15400

ttcaccatcc caaaatgata aaatttttct cctgagtttt cttctaagtt 15450ttcaccatcc caaaatgata aaatttttct cctgagtttt cttctaagtt 15450

ggttctttag aagccaccaa cttggcttcg acagcaaaag atgaacagaa 15500ggttctttag aagccaccaa cttggcttcg acagcaaaag atgaacagaa 15500

tttctgttca actctcatgc tgcaagaagc tttatgtaat actccaggga 15550tttctgttca actctcatgc tgcaagaagc tttatgtaat actccaggga 15550

ccctttaagg tcccagagtt ttcctccaaa tctatcagtg attctagtgg 15600ccctttaagg tcccagagtt ttcctccaaa tctatcagtg attctagtgg 15600

ctaagagtag aaatgtgaaa atttagccat gtgtgctgat agagctgtag 15650ctaagagtag aaatgtgaaa atttagccat gtgtgctgat agagctgtag 15650

taatttgtaa gctctgaagt tctaaggagt caggggagaa gggaaagtaa 15700taatttgtaa gctctgaagt tctaaggagt caggggagaa gggaaagtaa 15700

catttattga acatctatta gctcaataag aacatgcgat aagtatgtat 15750catttattga acatctatta gctcaataag aacatgcgat aagtatgtat 15750

atgtattatt tcacttacat ctgaaaggaa ggcataatta tccccactcc 15800atgtattatt tcacttacat ctgaaaggaa ggcataatta tccccactcc 15800

ttagagaagg aaattggagc tggctacatt taaagtagtc ctgacaccag 15850ttagagaagg aaattggagc tggctacatt taaagtagtc ctgacaccag 15850

agagatattg ccaggagtac ttggctggct gagtgcccag atggcccata 15900agagatattg ccaggagtac ttggctggct gagtgcccag atggcccata 15900

ggagtagtgg gccctccaca gtccaaggtc tggttctagg tggagagaga 15950ggagtagtgg gccctccaca gtccaaggtc tggttctagg tggagagaga 15950

aggatgtgct cgtagtcagc accgcagctc cagaaaatct gctggggctc 16000aggatgtgct cgtagtcagc accgcagctc cagaaaatct gctggggctc 16000

caaaactgat tagaggggca gctgactcag taataaaact cccaggagac 16050caaaactgat tagaggggca gctgactcag taataaaact cccaggagac 16050

ttacttacat actggaatgc aaagttgcag ctttactggg aagattagaa 16100ttacttacat actggaatgc aaagttgcag ctttactggg aagattagaa 16100

ctgttattga gtagcttaga aatctctggc tgaattcact gcaagggaag 16150ctgttattga gtagcttaga aatctctggc tgaattcact gcaagggaag 16150

ccgcaggata agctaactgc tggtgagtca gcagtcagag cagggaagtg 16200ccgcaggata agctaactgc tggtgagtca gcagtcagag cagggaagtg 16200

aatttaacat tagatgggtc agtctctcgt ggctgatgaa ttcatcccca 16250aatttaacat tagatgggtc agtctctcgt ggctgatgaa ttcatcccca 16250

caatactgta cacctgcctt agggaccttt gtctggacta ggggttgggg 16300caatactgta cacctgcctt agggaccttt gtctggacta ggggttgggg 16300

tccccctcct ttgtacagcc ctggaaggac acatccagct ccatccgcca 16350tccccctcct ttgtacagcc ctggaaggac acatccagct ccatccgcca 16350

tctctccctt acttatttcc ttccttcctt ccttctttcc atccagccat 16400tctctccctt acttatttcc ttccttcctt ccttctttcc atccagccat 16400

caagcttcct ttcatggcca ataatcatca ttggggtcta ctcatggact 16450caagcttcct ttcatggcca ataatcatca ttggggtcta ctcatggact 16450

ctcttgcctc atgtatttgt tttattttgt cctcattccc acttctattt 16500ctcttgcctc atgtatttgt tttattttgt cctcattccc acttctattt 16500

cccaggtata tcacaggcaa ctattctaac gtatttatag tttgtgtatc 16550cccaggtata tcacaggcaa ctattctaac gtatttatag tttgtgtatc 16550

tgtttttgct cttgccaaaa tggaagccac tgctttatac atagatgtat 16600tgtttttgct cttgccaaaa tggaagccac tgctttatac atagatgtat 16600

tcttaacttt aaaaaaaatt tttttagatt aacctacaat aaaattggct 16650tcttaacttt aaaaaaaatt tttttagatt aacctacaat aaaattggct 16650

ttttggcata tagtctataa attttaacac atacatattt ttgtgtatct 16700ttttggcata tagtctataa attttaacac atacatattt ttgtgtatct 16700

accaccacaa tcaggataca gaacagttcc atcaccccaa aaaaatccct 16750accaccacaa tcaggataca gaacagttcc atcaccccaa aaaaatccct 16750

cttgtagtca cattctcctc ccacccttaa tcccaggcaa ccactgatct 16800cttgtagtca cattctcctc ccacccttaa tcccaggcaa ccactgatct 16800

attcttcatt actattgttt tgtctttttg aggatgtcac ataaatggag 16850attcttcatt actattgttt tgtctttttg aggatgtcac ataaatggag 16850

tcacacagta tatatacatt tttttaaaca tatgtaaatg gcattttata 16900tcacacagta tatatacatt tttttaaaca tatgtaaatg gcattttata 16900

gctcattttg attatatgtt tttcatccag ttctgttttt tttttttatt 16950gctcattttg attatatgtt tttcatccag ttctgttttt ttttttttatt 16950

tttaaaaagt ttgacataac ttcagactta cagaaaagtt gttagactaa 17000tttaaaaagt ttgacataac ttcagactta cagaaaagtt gttagactaa 17000

tacaaagaat tcctggatat cctttggagt ccctaaatgt taacatttta 17050tacaaagaat tcctggatat cctttggagt ccctaaatgt taacatttta 17050

ctatatttac tttttccttc tctctctctc tctctctcgc tctgtgtgtg 17100ctatatttac tttttccttc tctctctctc tctctctcgc tctgtgtgtg 17100

tgtgtgtgtg tgtgtgtgtg tgtgtatcta cctgtagata gatagatatt 17150tgtgtgtgtg tgtgtgtgtg tgtgtatcta cctgtagata gatagatatt 17150

aatataattt tagatagatg tatctagatc tctctctctc atatatatgt 17200aatataattt tagatagatg tatctagatc tctctctctc atatatatgt 17200

gtgtgtgtat atatctatat ctatatctat atatatctcc ttttaccctt 17250gtgtgtgtat atatctatat ctatatctat atatatctcc ttttaccctt 17250

aaatattcag tgtatatttc ctaacaacaa ggtgatttaa aaatatatat 17300aaatattcag tgtatatttc ctaacaacaa ggtgatttaa aaatatatat 17300

ataaacatag tataattaac aatcaggaca tcaacattga aacatttctg 17350ataaacatag tataattaac aatcaggaca tcaacattga aacatttctg 17350

ctatgtcatc tacaggcctt aggaagactt tgtcaggtgc cccaataata 17400ctatgtcatc tacaggcctt aggaagactt tgtcaggtgc cccaataata 17400

gccttgatgg tagaagaaaa ccatgtgttg tattcagttg tcatgtctct 17450gccttgatgg tagaagaaaa ccatgtgttg tattcagttg tcatgtctct 17450

tagtgtcttg taatctgaaa taattcccaa gccctttgga tttcatgaca 17500tagtgtcttg taatctgaaa taattcccaa gccctttgga tttcatgaca 17500

gtgacattgt tgaagagtac aggccagtta ttttgtagaa ggtctctcag 17550gtgacattgt tgaagagtac aggccagtta ttttgtagaa ggtctctcag 17550

tttaggtctg tctgatgttt cctcctgatc agattcaggt tattcacttt 17600tttaggtctg tctgatgttt cctcctgatc agattcaggt tattcacttt 17600

tgacaggaat accactgaaa tgatgctgag ttcttctcag tgtaacgaga 17650tgacaggaat accactgaaa tgatgctgag ttcttctcag tgtaacgaga 17650

tctagagaca cacactgtca gtttgttcct tattggcagt gtgaaccttg 17700tctagagaca cacactgtca gtttgttcct tattggcagt gtgaaccttg 17700

aggatttcat tgtagtggca tttggcatta ctccattata gttactattt 17750aggatttcat tgtagtggca tttggcatta ctccattata gttactattt 17750

taccatttta aattaaaact atctggccgg gcgtagtagc tcatgtctgt 17800taccatttta aattaaaact atctggccgg gcgtagtagc tcatgtctgt 17800

aatcccagca ctttaggagg ctgaggcggg caaattgctt gaggtcagaa 17850aatcccagca ctttaggagg ctgaggcggg caaattgctt gaggtcagaa 17850

gtttgaaacc atcctagcca acataacatg gtgaaacgcc atctctataa 17900gtttgaaacc atcctagcca acataacatg gtgaaacgcc atctctataa 17900

aaaatacaaa aaattagcct ggcgtggtgg cgcatttgta gttccagcta 17950aaaatacaaa aaattagcct ggcgtggtgg cgcatttgta gttccagcta 17950

ctcaggaggc tgaggcacaa ggcttgcttg agcctgggag gcggaggttg 18000ctcaggaggc tgaggcacaa ggcttgcttg agcctgggag gcggaggttg 18000

cagtgagctg aaatcacgcc actgcactct agccagggtg acagagtgag 18050cagtgagctg aaatcacgcc actgcactct agccagggtg acagagtgag 18050

actctgtctc aaaaaaaaaa agtaaataaa taaaaaaatt ttttaagtat 18100actctgtctc aaaaaaaaaa agtaaataaa taaaaaaatt ttttaagtat 18100

cttatgggca tatacttgtc ctgttactcc tcaaactttc atccactttt 18150cttatgggca tatacttgtc ctgttactcc tcaaactttc atccactttt 18150

ttttttttaa attttttttc ttacctttca tcgttttctt gatatccact 18200ttttttttaa attttttttc ttacctttca tcgttttctt gatatccact 18200

gggttttagc atctacaaat gattcttgcc tgaatcagtt attatggtag 18250gggttttagc atctacaaat gattcttgcc tgaatcagtt attatggtag 18250

ttgatggttt tctaattcca ttattccttc tatgtttgtt aattttggca 18300ttgatggttt tctaattcca ttattccttc tatgtttgtt aattttggca 18300

ttcttctata aggaagagct tacccttttt ccctattaat taattcatat 18350ttcttctata aggaagagct tacccttttt ccctattaat taattcatat 18350

attaatgcag acctatgcat tcttacttca ttaaatcata atcctttact 18400attaatgcag acctatgcat tcttacttca ttaaatcata atcctttact 18400

atcattatgt attctgatgt tcagactatc ccagatttag ccaataagat 18450atcattatgt attctgatgt tcagactatc ccagatttag ccaataagat 18450

ccccttcagg ggaatggtct ttgggattcc tctttagagg ttcctggttc 18500ccccttcagg ggaatggtct ttgggattcc tctttagagg ttcctggttc 18500

ctgttttctt ttgacatatc ctattactct ttgagcattt tttttttttt 18550ctgttttctt ttgacatatc ctattactct ttgagcattt tttttttttt 18550

ttttactttt aggcacagca agaagttcca tggtcctctt gttctttccc 18600ttttactttt aggcacagca agaagttcca tggtcctctt gttctttccc 18600

caactcagcc ctagagtcag tcacttctcc aatgagctct agttcctttt 18650caactcagcc ctagagtcag tcacttctcc aatgagctct agttcctttt 18650

agtagagaat cataattaga aaacaagaat cagtgccaag tgtgcacctt 18700agtagagaat cataattaga aaacaagaat cagtgccaag tgtgcacctt 18700

tgtttttaag gtccatccac gttgccgtgt atatgtccag catgttgatt 18750tgtttttaag gtccatccac gttgccgtgt atatgtccag catgttgatt 18750

ctaactgctg aataatacct catgattgtc atccatccca gtgtttcttt 18800ctaactgctg aataatacct catgattgtc atccatccca gtgtttcttt 18800

ttcccttctg taatgaggga ctcctggact gcctccagca ttaccttcac 18850ttcccttctg taatgaggga ctcctggact gcctccagca ttaccttcac 18850

aaatattgct gtgaggaaaa tccttaaacg tttcctttat gggcaacgtg 18900aaatattgct gtgaggaaaa tccttaaacg tttcctttat gggcaacgtg 18900

tgagcatgtt tatgttgatt caggggtgcc agacacagct ccagaatggc 18950tgagcatgtt tatgttgatt caggggtgcc agacacagct ccagaatggc 18950

tgcctcagtt tacatttcca ccagcagagc atgacaggct ctgtgtctcc 19000tgcctcagtt tacatttcca ccagcagagc atgacaggct ctgtgtctcc 19000

gtgaataatc agcattaacc agcttcctat tttttgccaa actaatagat 19050gtgaataatc agcattaacc agcttcctat tttttgccaa actaatagat 19050

gtgctaggat aactctttgt tttaacttgt ttttctctga ttaccaatga 19100gtgctaggat aactctttgt tttaacttgt ttttctctga ttaccaatga 19100

gctggagcat ttcttcatat gcctgatggt ctttgggatt cctcttaggt 19150gctggagcat ttcttcatat gcctgatggt ctttgggatt cctcttaggt 19150

aaattgctta ttcattataa tcctttgcct gtttttcact ggagttctta 19200aaattgctta ttcattataa tcctttgcct gtttttcact ggagttctta 19200

tatttttctt gaagatatgc aggaattcct tatacatcct agatattaat 19250tatttttctt gaagatatgc aggaattcct tatacatcct agatattaat 19250

cccttcctgg tctcagacat tgcagatatc ttctgaatct gttatttact 19300cccttcctgg tctcagacat tgcagatatc ttctgaatct gttatttact 19300

tatttattta caattttttt tttaagagtt ggggttttgc tctgtcaccc 19350tatttattta caattttttt tttaagagtt ggggttttgc tctgtcaccc 19350

agactggagt gcagtggtat gatcatgact cattgtggcc tcgcaatcct 19400agactggagt gcagtggtat gatcatgact cattgtggcc tcgcaatcct 19400

gggcttaagc gatcctccca cctcagcctc ctgagtagtt gggactacag 19450gggcttaagc gatcctccca cctcagcctc ctgagtagtt gggactacag 19450

gtatgcacca ccagacttgg ctaattttat tttatttttt agagatggaa 19500gtatgcacca ccagacttgg ctaattttat tttatttttt agagatggaa 19500

gtcttaatat gttgctcagg ccaatcttga actcctggcc tcaagcaatc 19550gtcttaatat gttgctcagg ccaatcttga actcctggcc tcaagcaatc 19550

tttccacctc agcctcctgc atctattata tatatgttca ctttgctcat 19600tttccacctc agcctcctgc atctattata tatatgttca ctttgctcat 19600

gctgtatttt gttgcaacat aaaactattt ttcccattgt tttgtgcagt 19650gctgtatttt gttgcaacat aaaactattt ttcccattgt tttgtgcagt 19650

ctctcaccag cactcttctt tttctgtaac tgtgttaatg ccctttgttc 19700ctctcaccag cactcttctt tttctgtaac tgtgttaatg ccctttgttc 19700

ttccatatgt taggtatgct ggtatagttg aactctgctg actctcctca 19750ttccatatgt taggtatgct ggtatagttg aactctgctg actctcctca 19750

gtaaacagtc tctttttatg acaccttatc ctctactgaa ttctctctat 19800gtaaacagtc tctttttatg acaccttatc ctctactgaa ttctctctat 19800

caagaatgac ttggccgggc atgggggctc atgcctgtaa tcccagcatt 19850caagaatgac ttggccgggc atggggggctc atgcctgtaa tcccagcatt 19850

ctgggaggcc gaggtgggca gatcacccga ggtcagaagt tcaagaccag 19900ctgggaggcc gaggtgggca gatcacccga ggtcagaagt tcaagaccag 19900

cccggccaac acggtgaaac cctgtctcta tgaaaataca aaaatcagct 19950cccggccaac acggtgaaac cctgtctcta tgaaaataca aaaatcagct 19950

gggcgtggtg gcaggtgcct gtaatcccag ctacttggga ggctgaggcg 20000gggcgtggtg gcaggtgcct gtaatcccag ctacttggga ggctgaggcg 20000

ggagaatcac ttgaacctga gggggaggtt gcagtaagcc gggatggcac 20050ggagaatcac ttgaacctga gggggaggtt gcagtaagcc gggatggcac 20050

attgcactcc agactgggtg atggagaaac tccatctcag ggggaaaaaa 20100attgcactcc agactgggtg atggagaaac tccatctcag ggggaaaaaa 20100

aaaaaaaaaa aaagaatgac ttgtcttcct cttagagtgt gaggtctaca 20150aaaaaaaaaa aaagaatgac ttgtcttcct cttagagtgt gaggtctaca 20150

tacaaatatt attcttgtat tcagcaaatg tatgtcatag gcctagtgtg 20200tacaaatatt attcttgtat tcagcaaatg tatgtcatag gcctagtgtg 20200

tgttaggaac tgtgctgtca ccaacaaagt ttagagaggt tataaaactt 20250tgttaggaac tgtgctgtca ccaacaaagt ttagagaggt tataaaactt 20250

gactgtagct ttttagaggt ggaggagtga tttgaaacct aggctgtaat 20300gactgtagct ttttagaggt ggaggagtga tttgaaacct aggctgtaat 20300

tccttcctcc tgtgattcct tcctactgtg ttgccttccc ttgaaaattg 20350tccttcctcc tgtgattcct tcctactgtg ttgccttccc ttgaaaattg 20350

catttggggg ccaggtgtgg tggctctcgc ctgtaatccc agcactttgg 20400catttggggg ccaggtgtgg tggctctcgc ctgtaatccc agcactttgg 20400

gaggctgagg cgggtggatc acctgaggtc aggagttcaa gaccagcctg 20450gaggctgagg cgggtggatc acctgaggtc aggagttcaa gaccagcctg 20450

gccaacatgg cgaaaccccg tctttactaa aaatacaaaa attagctgga 20500gccaacatgg cgaaaccccg tctttactaa aaatacaaaa attagctgga 20500

tgtggtgtgt ggtgacatgc acctatattc ccaggtactc agtaggctga 20550tgtggtgtgt ggtgacatgc acctatattc ccaggtactc agtaggctga 20550

ggcaagagaa tcacttgaac ccaggaggca gaggctgcag tgagctgaaa 20600ggcaagagaa tcacttgaac ccaggaggca gaggctgcag tgagctgaaa 20600

ttgcaccact gcactccagc ctgagtgaca gagtgagact ctgtctcaaa 20650ttgcaccact gcactccagc ctgagtgaca gagtgagact ctgtctcaaa 20650

aaaaaaaaaa agaaaagaaa gaaaattgca tttagttcct gtagactgtg 20700aaaaaaaaaa agaaaagaaa gaaaattgca tttagttcct gtagactgtg 20700

tgtcaaatgt ctaaatctct tctaacaaat ggcctaagga ggtgcaaagc 20750tgtcaaatgt ctaaatctct tctaacaaat ggcctaagga ggtgcaaagc 20750

gaagcatcct caccagcatc ctgacttggc agtgaggcat gggaccctgg 20800gaagcatcct caccagcatc ctgacttggc agtgaggcat gggaccctgg 20800

agggagtagt ggtaagtgtg actctggaat tcttcctggg ctacttgtca 20850agggagtagt ggtaagtgtg actctggaat tcttcctggg ctacttgtca 20850

gtgactggct ccagattgag aggagagccc agaggacaca ggtggctgcc 20900gtgactggct ccagattgag aggagagccc agaggacaca ggtggctgcc 20900

ccagcctgga ggtgaaagtc ttaaaataaa atgccagatg cctagaccat 20950ccagcctgga ggtgaaagtc ttaaaataaa atgccagatg cctagaccat 20950

tctaaacctt tctgagaagc tgaaatcatc ccttctggaa gcgctctagt 21000tctaaacctt tctgagaagc tgaaatcatc ccttctggaa gcgctctagt 21000

tctaaaagga cagatataca gcaagatctt cctggggcta atatggagtt 21050tctaaaagga cagatataca gcaagatctt cctggggcta atatggagtt 21050

tataggcaag taggcctcag aacctttccc tggtagtgat atctgtgggc 21100tataggcaag taggcctcag aacctttccc tggtagtgat atctgtgggc 21100

aggcacagtt tccacacttt ccagaaattc cagcggaagg agtgagaagg 21150aggcacagtt tccacacttt ccagaaattc cagcggaagg agtgagaagg 21150

aggaatctgc ccttgagtga ggaccaaaga aagcagaaat tcctcttggg 21200aggaatctgc ccttgagtga ggaccaaaga aagcagaaat tcctcttggg 21200

aatttttcct ccagagacca aacactactt gggagcttgt ttactgggct 21250aatttttcct ccagagacca aacactactt gggagcttgt ttactgggct 21250

ttaaaagctt gtgaccccca gtcactcttt cttgacccca aggctttgca 21300ttaaaagctt gtgaccccca gtcactcttt cttgacccca aggctttgca 21300

tttctgtggc ttccccactg gacagaagtg gaactgtcat gctgcctgtt 21350tttctgtggc ttccccactg gacagaagtg gaactgtcat gctgcctgtt 21350

ctggggtctc ccagaggttt ccccatgtcc tctccttgct tctactgccc 21400ctggggtctc ccagaggttt ccccatgtcc tctccttgct tctactgccc 21400

cacagaattg gggatctgtg accacatatg gtatagaatt aatgcttgag 21450cacagaattg gggatctgtg accacatatg gtatagaatt aatgcttgag 21450

aatggtttag ttcagtgatg tcaaataaga ttcactttta tgccacctcc 21500aatggtttag ttcagtgatg tcaaataaga ttcactttta tgccacctcc 21500

atcagttgaa ggcccccctg gcccctaaat tggaaaagat tctgagacag 21550atcagttgaa ggcccccctg gcccctaaat tggaaaagat tctgagacag 21550

aatccccgtg ggtacagcgc agggacagta aaggcacgtg tgctgtgatt 21600aatccccgtg ggtacagcgc agggacagta aaggcacgtg tgctgtgatt 21600

tgctatccac tgtgtggatg catccaggaa tatcagaacc ctggaagatt 21650tgctatccac tgtgtggatg catccaggaa tatcagaacc ctggaagatt 21650

atttaagggg aagttaggac agcttttttg ccaatccaag ggtgttcttg 21700atttaagggg aagttaggac agcttttttg ccaatccaag ggtgttcttg 21700

aggaagtctg tcttcctgta tggccttcag tttctttcct gtgtaaccat 21750aggaagtctg tcttcctgta tggccttcag tttctttcct gtgtaaccat 21750

ggggccaaca cataattccc acagctctat tggcccttgt ctgccaggat 21800ggggccaaca cataattccc acagctctat tggcccttgt ctgccaggat 21800

tctctagggt ctgattcgag gtggatcctg gccctttgag gtggcagaat 21850tctctagggt ctgattcgag gtggatcctg gccctttgag gtggcagaat 21850

ctgatcatgg tgctgtttcc ttagatttag gccttgatac ccttggcgag 21900ctgatcatgg tgctgtttcc ttagatttag gccttgatac ccttggcgag 21900

agcatcctgg gctgagtgac cacctgaggt ttttctggtg attttgtgac 21950agcatcctgg gctgagtgac cacctgaggt ttttctggtg attttgtgac 21950

ccatgtaaaa ctttgagctt tgggattatt ctctcaagga aatagtgaca 22000ccatgtaaaa ctttgagctt tgggattatt ctctcaagga aatagtgaca 22000

tttggtgaag agcctgtttg gtgtggctat gtgaggctta gccaagaaaa 22050tttggtgaag agcctgtttg gtgtggctat gtgaggctta gccaagaaaa 22050

tgcaccattt ttattaggag gttaggccat ccgttgccac aaagtgtcag 22100tgcaccattt ttattaggag gttaggccat ccgttgccac aaagtgtcag 22100

atgctaggcc tagagcctgg agaaaactta ttttaaaatt gatggggtgc 22150atgctaggcc tagagcctgg agaaaactta ttttaaaatt gatggggtgc 22150

tggaggggtt ggggggtggt ggctgtagct catgaatcag gtgctaaacc 22200tggaggggtt ggggggtggt ggctgtagct catgaatcag gtgctaaacc 22200

tagaaacaaa aggcctcatg tggcagactg tttctgagca cagatgaatg 22250tagaaacaaa aggcctcatg tggcagactg tttctgagca cagatgaatg 22250

gatgagcaac tggcgcaact ttgcccagtt ggtccagctt cccacttggc 22300gatgagcaac tggcgcaact ttgcccagtt ggtccagctt cccacttggc 22300

cacctaggct tgctgtgaag acctcgtctg gcagaaatga gagtgttttt 22350cacctaggct tgctgtgaag acctcgtctg gcagaaatga gagtgttttt 22350

gccccatctt gatcttaact gtaatttaag actaaaatct tagattctaa 22400gccccatctt gatcttaact gtaatttaag actaaaatct tagattctaa 22400

aacatcaaag gcaagatggc tcccagctct gtgagctcag cttctcacct 22450aacatcaaag gcaagatggc tcccagctct gtgagctcag cttctcacct 22450

cttagttgaa caagtgcagt gtgggtcaat acatgattgc tgctcttgct 22500cttagttgaa caagtgcagt gtgggtcaat acatgattgc tgctcttgct 22500

gccaggaact gtcccagcat agaaaggaat gggacacaat ccctgccgtc 22550gccaggaact gtcccagcat agaaaggaat gggacacaat ccctgccgtc 22550

aagattctaa gggaggaagc aggcaggtcg actggtgcct catctctgca 22600aagattctaa gggaggaagc aggcaggtcg actggtgcct catctctgca 22600

gggctccagc caaggtttgt gaaggatttt gcaggcatat ggagtgggga 22650gggctccagc caaggtttgt gaaggatttt gcaggcatat ggagtgggga 22650

ctgattgatc ccgagagggg actggggaaa gctctgaaga ggggatgaca 22700ctgattgatc ccgagagggg actggggaaa gctctgaaga ggggatgaca 22700

tttggtttga actccaaaaa atggttgctt tacctgtttc ctgaagtttt 22750tttggtttga actccaaaaa atggttgctt tacctgtttc ctgaagtttt 22750

tgaggtggct tataagaaca tataccataa aaaggaccaa tataaattta 22800tgaggtggct tataagaaca tataccataa aaaggaccaa tataaattta 22800

aaatcagaaa aagagaaaat gggctgggca tggtggctca tgcctgtaat 22850aaatcagaaa aagagaaaat gggctgggca tggtggctca tgcctgtaat 22850

cccagcactt tgggaggcca aggtgggtgg atcgtgaggt caggagatcg 22900cccagcactt tgggaggcca aggtgggtgg atcgtgaggt caggagatcg 22900

agaccatcct gcctggccaa catggtgaaa ccccggctct actaaaaata 22950agaccatcct gcctggccaa catggtgaaa ccccggctct actaaaaata 22950

caaaaaatta gctgggtgtg gtggcacatg cctgtagtcc cacctacttg 23000caaaaaatta gctgggtgtg gtggcacatg cctgtagtcc cacctacttg 23000

ggaggctgag gcaggagaat cgcttgaaac ctgggaggcg gaggttgcag 23050ggaggctgag gcaggagaat cgcttgaaac ctgggaggcg gaggttgcag 23050

tgagctgaga tcgcaccact gcactccagc ctgggcgaca gagtgagact 23100tgagctgaga tcgcaccact gcactccagc ctgggcgaca gagtgagact 23100

cctcctcaaa aataaataaa taaagagaaa atggaactta gaaaattaag 23150cctcctcaaa aataaataaa taaagagaaa atggaactta gaaaattaag 23150

aggaagagtg aaaaggtaga tatttagtca ggcacagtgg ctcatgcctg 23200aggaagagtg aaaaggtaga tatttagtca ggcacagtgg ctcatgcctg 23200

taatcccaac actttgggag gccaagacag gaaaatctct tgagaccagg 23250taatcccaac actttgggag gccaagacag gaaaatctct tgagaccagg 23250

agcttgagac ttgcctggca acatctcagg tgagacctta tctctacaaa 23300agcttgagac ttgcctggca acatctcagg tgagacctta tctctacaaa 23300

aaatttaaaa attagctgag ctgtgtggct cgtgactgtg atcccagcta 23350aaatttaaaa attagctgag ctgtgtggct cgtgactgtg atcccagcta 23350

ctcaggaggc cgagaccaca gcccaggagg atcgcttggg cccagcagtt 23400ctcaggaggc cgagaccaca gcccaggagg atcgcttggg cccagcagtt 23400

tgaggctgca gtgagctggc accactgcaa ttcagcctgg gctacagagc 23450tgaggctgca gtgagctggc accactgcaa ttcagcctgg gctacagagc 23450

aagacccagt ttaaaaaaaa aaaaaaagat attcaaacca tgggtcccaa 23500aagacccagt ttaaaaaaaa aaaaaaagat attcaaacca tgggtcccaa 23500

cgtagttatt atatttgacc atttgcaaaa gctgaaagca aaacatgtta 23550cgtagttatt atatttgacc atttgcaaaa gctgaaagca aaacatgtta 23550

cacattttca gagaggaaaa tacacagtag ttcctgagtg taagttgttt 23600cacattttca gagaggaaaa tacacagtag ttcctgagtg taagttgttt 23600

ttcttgacct cattcttaaa ttgcttcatg agggtgggag ggaagtggta 23650ttcttgacct cattcttaaa ttgcttcatg agggtggggag ggaagtggta 23650

gttaataagt gaacctgtaa accagcgttt ctcaaaatgt agtccaggga 23700gttaataagt gaacctgtaa accagcgttt ctcaaaatgt agtccaggga 23700

attgcatcaa aattgcagtt acctacagtg cttgttaaaa tgcagattcc 23750attgcatcaa aattgcagtt acctacagtg cttgttaaaa tgcagattcc 23750

tgggcccctg ccccaggctt atcaaatcaa tctggtgagt aggactcaag 23800tgggcccctg ccccaggctt atcaaatcaa tctggtgagt aggactcaag 23800

aacctgtaaa ttcacatact tctgcagatg attcttcttg cactgcacag 23850aacctgtaaa ttcacatact tctgcagatg attcttcttg cactgcacag 23850

catgaaagcc tctgcaatag acagaaagct accagcattg cgaaagcaac 23900catgaaagcc tctgcaatag acagaaagct accagcattg cgaaagcaac 23900

ttgagtgctt ggcctttgaa ggttgagtgg gactttaatg agggagagag 23950ttgagtgctt ggcctttgaa ggttgagtgg gactttaatg agggagagag 23950

taaggcatga gaaatggcag ttccactgag gtcagtcagt ggttcattgc 24000taaggcatga gaaatggcag ttccactgag gtcagtcagt ggttcattgc 24000

tgacgaagtc acttttaagt catgttttag aagaactacc aagtgtggca 24050tgacgaagtc acttttaagt catgttttag aagaactacc aagtgtggca 24050

ggtcaggcat gtggcaggac tgtttctgag cacagatgaa tggatgagca 24100ggtcaggcat gtggcaggac tgtttctgag cacagatgaa tggatgagca 24100

cctggcccca ctgtgcccag ttggtctagc ttcccacttg gccacctacg 24150cctggcccca ctgtgcccag ttggtctagc ttcccacttg gccacctacg 24150

gtctgctgtg tggaccttgt ctggcagtct cctttaattt attttttatt 24200gtctgctgtg tggaccttgt ctggcagtct cctttaattt attttttatt 24200

atttttttct ttttgagatg gagtcttgct ttgttgccca ggctagagtg 24250atttttttct ttttgagatg gagtcttgct ttgttgccca ggctagagtg 24250

cagtggcatg atctcggctc actgcagcct ccacttccca ggttccagcg 24300cagtggcatg atctcggctc actgcagcct ccacttccca ggttccagcg 24300

attctcctgc ctcagcctcc caggtagctg ggatcacagg caagtgccac 24350attctcctgc ctcagcctcc caggtagctg ggatcacagg caagtgccac 24350

cacgcccagc taatttttgt atttttaata gagacatggt tttaccatgt 24400cacgcccagc taatttttgt atttttaata gagacatggt tttaccatgt 24400

tggccaggct ggtctcgaac tcctgacctc aggtgatcca cccatctcag 24450tggccaggct ggtctcgaac tcctgacctc aggtgatcca cccatctcag 24450

cctcccaaaa tgctggaatt acaggtgtga gccaccgcac ctggcctatt 24500cctcccaaaa tgctggaatt acaggtgtga gccaccgcac ctggcctatt 24500

ttttttcagc aaattctttg tttttctctc tgttcccaaa tgcagggtac 24550ttttttcagc aaattctttg tttttctctc tgttcccaaa tgcagggtac 24550

tgagaccaca gatgtattct gtttcctgtt gaaaaaatgt ttctcactta 24600tgagaccaca gatgtattct gtttcctgtt gaaaaaatgt ttctcactta 24600

gctgggtgtg gtagcatgca ctgcagtccc acgggaggct gaggcgagag 24650gctgggtgtg gtagcatgca ctgcagtccc acgggaggct gaggcgagag 24650

gattgcttga gcccaggagt tcgataatca tgccattgca ctctggtctg 24700gattgcttga gcccaggagt tcgataatca tgccattgca ctctggtctg 24700

ggtaacagag cgagaaactg tctcttaaaa aaaagaaaaa gaaaaagagg 24750ggtaacagag cgagaaactg tctcttaaaa aaaagaaaaa gaaaaagagg 24750

tcctagggaa agaaacaaat agtggcttgg atggtgagtt ggtggaaaga 24800tcctagggaa agaaacaaat agtggcttgg atggtgagtt ggtggaaaga 24800

acagtgggtg ttgggggtgt tgaacttgtg tttgtgtgtg gtgtacccaa 24850acagtgggtg ttgggggtgt tgaacttgtg tttgtgtgtg gtgtacccaa 24850

gacatatcat gtcagcatta agaatagact attcctgttt tctggtcact 24900gacatatcat gtcagcatta agaatagact attcctgttt tctggtcact 24900

gagttgtatg ttttgacatc cttattttgg aagatacttc cttactagga 24950gagttgtatg ttttgacatc cttattttgg aagatacttc cttactagga 24950

atgggatagg gagggggtca cctttcccat ctgtgggtca tattttaaaa 25000atgggatagg gagggggtca cctttcccat ctgtgggtca tattttaaaa 25000

tatttattgt tcaagtttaa agatataacc aaaggtataa agaaaaatac 25050tatttattgt tcaagtttaa agatataacc aaaggtataa agaaaaatac 25050

cacaaacatc tgatttaaga aacaaaccag ccgagcgcgg tggctcgtgc 25100cacaaacatc tgatttaaga aacaaaccag ccgagcgcgg tggctcgtgc 25100

ctgtaatccc agcactgtgg gaggccgagg caggcagatc atgaggtcaa 25150ctgtaatccc agcactgtgg gaggccgagg caggcagatc atgaggtcaa 25150

gagatcgaga ccatcctggc caacatggtg aaaccccgtc tctactgaaa 25200gagatcgaga ccatcctggc caacatggtg aaaccccgtc tctactgaaa 25200

atacaaaaat taactggtca tggtggtgtg tgcctgtagt cccagctact 25250atacaaaaat taactggtca tggtggtgtg tgcctgtagt cccagctact 25250

cgggaggctg tggcaggaga atcgcttgaa cccaggaggc ggaggttgta 25300cgggaggctg tggcaggaga atcgcttgaa cccaggaggc ggaggttgta 25300

gtgagccaag attgtgccac tgcattctag cctggcgaca gagtgagact 25350gtgagccaag attgtgccac tgcattctag cctggcgaca gagtgagact 25350

ccgtctcaaa aagaaaaaaa aaagaaagaa atcatttcct acaccttcga 25400ccgtctcaaa aagaaaaaaa aaagaaagaa atcatttcct acaccttcga 25400

agccttcatg agttagattt tgaaacagtg caaaatgctt cacgtgagaa 25450agccttcatg agttagattt tgaaacagtg caaaatgctt cacgtgagaa 25450

tcgagagtcc cttctggtgg ctctccatcc cctgctcttc tgtcaggttt 25500tcgagagtcc cttctggtgg ctctccatcc cctgctcttc tgtcaggttt 25500

tcttgtaggt ttatggaaac ctttgttact tgtgcaggtg gcagagaagc 25550tcttgtaggt ttatggaaac ctttgttact tgtgcaggtg gcagagaagc 25550

agagaggata gctgcgcgcc acccacacag ctaggattta ttggcgtact 25600agagaggata gctgcgcgcc acccacacag ctaggattta ttggcgtact 25600

cccacgtgca tggcagccaa gtggacacaa ctctgtgatg aatcctccca 25650cccacgtgca tggcagccaa gtggacacaa ctctgtgatg aatcctccca 25650

agagaactga ggggccctga tggaggagct gcttctttgc aaagctttcc 25700agagaactga ggggccctga tggagggagct gcttctttgc aaagctttcc 25700

ttgactctct tcctgtcccc tagttgattc cccttctgtg ctagttttag 25750ttgactctct tcctgtcccc tagttgattc cccttctgtg ctagttttag 25750

cttattgttt gttacctgtc acacttagca gtactgttgg ctttgctggt 25800cttattgttt gttacctgtc acacttagca gtactgttgg ctttgctggt 25800

ctccttgact actgggggta aagacctttt gttgttgttg ttgagacaga 25850ctccttgact actgggggta aagacctttt gttgttgttg ttgagacaga 25850

gtcttgctct gtcgcccagg ctggagtgca atggcgtgat ttcggctcac 25900gtcttgctct gtcgcccagg ctggagtgca atggcgtgat ttcggctcac 25900

tgcaaccttc acctcccagg ttcaagagat tctcctgcct cagcctccta 25950tgcaaccttc acctcccagg ttcaagagat tctcctgcct cagcctccta 25950

agtagctggg attacagcta caccacaccc ggttaatttt tgtattttta 26000agtagctggg attacagcta caccacaccc ggttaatttt tgtattttta 26000

atagagatgg ggtttagtag agatggggtt tcaccatgtt ggccaggctg 26050atagagatgg ggtttagtag agatggggtt tcaccatgtt ggccaggctg 26050

gtctcaagcc cctgacctca aggtgacctg cctgtctcag cctcccaaag 26100gtctcaagcc cctgacctca aggtgacctg cctgtctcag cctcccaaag 26100

tgctgggatt acagacatga gccaccatgc ccagcctcaa agacctcttc 26150tgctgggatt acagacatga gccaccatgc ccagcctcaa agacctcttc 26150

tttacttgct caccctgccg cccactcccc taccaacccc tgcatgccct 26200tttacttgct caccctgccg cccactcccc taccaacccc tgcatgccct 26200

ataccacctg gcacatgata catactaact gggtacatgt ttgaatatga 26250ataccacctg gcacatgata catactaact gggtacatgt ttgaatatga 26250

atggatgtgg tgctgtgaat gcttagggga agtgggtgaa atgcttaaga 26300atggatgtgg tgctgtgaat gcttagggga agtgggtgaa atgcttaaga 26300

accaaccttg agtggtctgg gaaggcttcc tgggagggtg gtgtttgagc 26350accaaccttg agtggtctgg gaaggcttcc tggagaggtg gtgtttgagc 26350

taaggccagg cagctgttag atttgttaga ctgaagccct tgcagactta 26400taaggccagg cagctgttag atttgttaga ctgaagccct tgcagactta 26400

gagagcttgt gctcttccca gaatgacggg tgagccacgt acagtaaatg 26450gagagcttgt gctcttccca gaatgacggg tgagccacgt acagtaaatg 26450

gtgcttctca tttctagccc aaggggcctc aaggggcacc gtgatttcac 26500gtgcttctca tttctagccc aaggggcctc aaggggcacc gtgatttcac 26500

gagaatgctg caagcaaatc ttttctcaag ctggggaatt tggtggtaat 26550gagaatgctg caagcaaatc ttttctcaag ctggggaatt tggtggtaat 26550

gcctggctca gcttgcggtg cgcacctggc ctttggaaga ttggtacaga 26600gcctggctca gcttgcggtg cgcacctggc ctttggaaga ttggtacaga 26600

gagaagcggc ccatccacat gagcctgtgg aacagcactg gtgggggagc 26650gagaagcggc ccatccacat gagcctgtgg aacagcactg gtgggggagc 26650

tgatttgtga agaggggctg tgcagtgtac tgtcaggtct gagacccagg 26700tgatttgtga agaggggctg tgcagtgtac tgtcaggtct gagacccagg 26700

aagaaattcc agtatcccag ctctcagaat cacagagttc taggcactgc 26750aagaaattcc agtatcccag ctctcagaat cacagagttc taggcactgc 26750

ctagttccac gtgttcccaa atgtttcctg aatacttgga tttcctgtcc 26800ctagttccac gtgttcccaa atgtttcctg aatacttgga tttcctgtcc 26800

agagaatttt caaaacaaac ttagaggcct gacccatggc tgccaaggaa 26850agagaatttt caaaacaaac ttagaggcct gacccatggc tgccaaggaa 26850

ggattttttt tttaaattaa attttaaaaa tcagtccagc atgaaaatct 26900ggattttttt tttaaattaa attttaaaaa tcagtccagc atgaaaatct 26900

atgatgattt cataagagaa aggacatttt aatattcaaa gagtaagaag 26950atgatgattt cataagagaa aggacatttt aatattcaaa gagtaagaag 26950

cacttaatct tggaagaaag ggcattccta tactttgatt acctttagtt 27000cacttaatct tggaagaaag ggcattccta tactttgatt acctttagtt 27000

taattaaaaa acacctacat ggtctttact tctgtgattt cattcctggg 27050taattaaaaa acacctacat ggtctttact tctgtgattt cattcctggg 27050

ctagtgaaac attgtcacaa taaagcatca ggccaacgct tctttcgacc 27100ctagtgaaac attgtcacaa taaagcatca ggccaacgct tctttcgacc 27100

cactggccaa tcagttgaca aacagtgact agatgtttca gcctattttg 27150cactggccaa tcagttgaca aacagtgact agatgtttca gcctattttg 27150

ctgaggctaa aggattgaac tagtgcttca gccagcatga aaaccagtca 27200ctgaggctaa aggattgaac tagtgcttca gccagcatga aaaccagtca 27200

ggagtccgtg ctggtgttgg cttagattag cagggccttt gatggagggg 27250ggagtccgtg ctggtgttgg cttagattag cagggccttt gatggagggg 27250

catgtatgtg tttgggtttg ctgtgccagg caggggagca gtggaatttg 27300catgtatgtg tttgggtttg ctgtgccagg caggggagca gtggaatttg 27300

tctgaattga gctcacacat tgaagttatt gagcgactta catgcaaggc 27350tctgaattga gctcacacat tgaagttatt gagcgactta catgcaaggc 27350

catgacctgg actcccagcc gagaggccca cgtggcgggg cttgagctgg 27400catgacctgg actcccagcc gagaggccca cgtggcgggg cttgagctgg 27400

gggagccgag gacagcttac atctgctcat ctgcttacgt aaccctgcct 27450gggagccgag gacagcttac atctgctcat ctgcttacgt aaccctgcct 27450

cccagcttcc agagccaaga aaacacacaa gccagcccag cggggccgag 27500cccagcttcc agagccaaga aaacacacaa gccagcccag cggggccgag 27500

agcctgtggt agcacacgcc atgcgccgca cagcaagggc gccttggctc 27550agcctgtggt agcacacgcc atgcgccgca cagcaagggc gccttggctc 27550

ggcttgaggc ctgtcatgaa gccctcagcc ctctgcctcc tcccagagct 27600ggcttgaggc ctgtcatgaa gccctcagcc ctctgcctcc tccgagct 27600

tctccccacc accccaggca gtggctctga aacctggtcg caggtctgca 27650tctccccacc accccaggca gtggctctga aacctggtcg caggtctgca 27650

tgattctgaa cagaggtagt cgttgccttc ctggagtctg agctctctgg 27700tgattctgaa cagaggtagt cgttgccttc ctggagtctg agctctctgg 27700

agtttctcac tgggacagag ccaggtgtgt agcagagcat ggtccctgca 27750agtttctcac tgggacagag ccaggtgtgt agcagagcat ggtccctgca 27750

gtatggcagg aggtgtgcag ggcattcagg aggcctcctg gctggcactc 27800gtatggcagg aggtgtgcag ggcattcagg aggcctcctg gctggcactc 27800

gacccaatta gtcattcaac gccaggtctg gggctgctgt ctgttgtctc 27850gacccaatta gtcattcaac gccaggtctg gggctgctgt ctgttgtctc 27850

aaaggtgtga gctgcaagat ccttagagtt gtggagaaaa aattgccaga 27900aaaggtgtga gctgcaagat ccttagagtt gtggagaaaa aattgccaga 27900

ttggcaagaa gggcaggatt gggggtcaag gtgtctcagt gtgttggaag 27950ttggcaagaa gggcaggatt gggggtcaag gtgtctcagt gtgttggaag 27950

catgatgggg gttgtgcaag gggcacagcg agttcagaag ggagcaggag 28000catgatgggg gttgtgcaag gggcacagcg agttcagaag ggagcaggag 28000

agtgagaaga ggctgttcag tgataaagct ctgcacagag ccattggagg 28050agtgagaaga ggctgttcag tgataaagct ctgcacagag ccattggagg 28050

agcaagctcc ttgaccatcc ttaaaccagg gtaattttca tttaggttct 28100agcaagctcc ttgaccatcc ttaaaccagg gtaattttca tttaggttct 28100

gccacacgct cagcagggaa ctcctggaag gcaggatttg tcttgtccat 28150gccacacgct cagcagggaa ctcctggaag gcaggatttg tcttgtccat 28150

cctccctccc tacctcaacc cactcctcct tgggctggca cacagtaggt 28200cctccctccc tacctcaacc cactcctcct tgggctggca cacagtaggt 28200

acccagaaag tatcaattga aacaaattga aagtggtctt gatacatatc 28250acccagaaag tatcaattga aacaaattga aagtggtctt gatacatatc 28250

acagggcaag tttgcagtta acagacattt cagagtaaag actctctggc 28300acagggcaag tttgcagtta acagacattt cagagtaaag actctctggc 28300

ttggtgctcg atcggcttct gtgggttgtc agcatgctgt ggacagcccc 28350ttggtgctcg atcggcttct gtgggttgtc agcatgctgt ggacagcccc 28350

ggcatgggag cgagtgggcg tgtgtgtgtg tgtatgtgag ggtgagagag 28400ggcatgggag cgagtgggcg tgtgtgtgtg tgtatgtgag ggtgagagag 28400

cgttagtgtg tgtgttgggg ttggggagag aggaggggga atagaagatg 28450cgttagtgtg tgtgttgggg ttggggagag aggaggggga atagaagatg 28450

gaccacccgg gtatcagctt ctgccctggg gagatggtgg tgtcagttgc 28500gaccacccgg gtatcagctt ctgccctggg gagatggtgg tgtcagttgc 28500

tgagggaatc ctgagaagca ggtctggctg taggtggtga tggtggtggg 28550tgagggaatc ctgagaagca ggtctggctg taggtggtga tggtggtggg 28550

gttgcatgag aatccatttg gggcaggttg aatttgaggt gcccatgaca 28600gttgcatgag aatccattg gggcaggttg aatttgaggt gcccatgaca 28600

tatggctagc catgttctgt tggctgtgag gtcaggagag agacatgaga 28650tatggctagc catgttctgt tggctgtgag gtcaggagag agacatgaga 28650

tggaaacaga ggtttgggaa ctgtcatgtg cttaaaccaa agacctgggt 28700tggaaacaga ggtttgggaa ctgtcatgtg cttaaaccaa agacctgggt 28700

atagggagag tgagaagaga agggggcaaa gatggacatc caagaaagaa 28750atagggagag tgagaagaga agggggcaaa gatggacatc caagaaagaa 28750

gctgagaaag cctaggaatt tgaggtaaga ggagacgtag gtaaatgtga 28800gctgagaaag cctaggaatt tgaggtaaga gggacgtag gtaaatgtga 28800

cgcttggtga tcaaggcttc tttccacctc tcctatgctg gacactcacg 28850cgcttggtga tcaaggcttc tttccacctc tcctatgctg gacactcacg 28850

tctcctgtct gcttggaaat tcatgctgag ggcagggaag gtgggagcaa 28900tctcctgtct gcttggaaat tcatgctgag ggcagggaag gtgggagcaa 28900

ggatttgtct aaagatcttg ctttggatcc ctgcactcct cctggtttac 28950ggatttgtct aaagatcttg ctttggatcc ctgcactcct cctggtttac 28950

caagtgtcac tggacacgtc agggcgttct gagaccttag agagcatcca 29000caagtgtcac tggacacgtc agggcgttct gagaccttag agagcatcca 29000

gtcctgtccc tgcagtttac aaatgaggaa accagtaccc tgagagtggc 29050gtcctgtccc tgcagtttac aaatgaggaa accagtaccc tgagagtggc 29050

tgtactatcc actctcagga taccaaagat catctggaaa gtcactggtg 29100tgtactatcc actctcagga taccaaagat catctggaaa gtcactggtg 29100

gagctggacc ggggcccagg catctcttct cctgtccggg gctcttgact 29150gagctggacc ggggcccagg catctcttct cctgtccggg gctcttgact 29150

tcaggaccac ctttctgaaa cccatgatgg ggcaacacca ggacactttc 29200tcaggaccac ctttctgaaa cccatgatgg ggcaacacca ggacactttc 29200

cagcctgcag gtgtctgtcc cgcggaagcg agccaggcca catgtgaatt 29250cagcctgcag gtgtctgtcc cgcggaagcg agccaggcca catgtgaatt 29250

cctgttttct gggtgggttt cagaaggtac gagcaagtcg gcagggtgac 29300cctgttttct gggtgggttt cagaaggtac gagcaagtcg gcagggtgac 29300

agcccaggtg cttcttgggt tccccaaaac gcggttatgt ttagcagcat 29350agcccaggtg cttcttgggt tccccaaaac gcggttatgt ttagcagcat 29350

cctcagaacc aaaggtgggg tgggggctgc agatgttgtg ggggccctct 29400cctcagaacc aaaggtgggg tggggggctgc agatgttgtg ggggccctct 29400

gaagtgaaaa gagccctgtg acagatcttt tcttcatgtt tttcacaagt 29450gaagtgaaaa gagccctgtg acagatcttt tcttcatgtt tttcacaagt 29450

tcactgtgca gcagggcccc cccagtagcc tttgcccagg gttgggtgtt 29500tcactgtgca gcagggcccc cccagtagcc tttgcccagg gttgggtgtt 29500

gggcagccca ggcctggctg accttgtggg gaagggtgtg aatggtggga 29550gggcagccca ggcctggctg accttgtggg gaagggtgtg aatggtggga 29550

atccccgagg gccctctttg cccgaaagcc ctaagccttg acatcagatg 29600atccccgagg gccctctttg cccgaaagcc ctaagccttg acatcagatg 29600

cccatcagat ggtccatcgg agccctacta cccagcttgc ccagtgagaa 29650cccatcagat ggtccatcgg agccctacta cccagcttgc ccagtgagaa 29650

tcatctgggc tccttgttag gtagccattt aggtccttcc caaaatccac 29700tcatctgggc tccttgttag gtagccattt aggtccttcc caaaatccac 29700

agactctcta agggaagggc ccgagatgct gtacttgtac taacttcctc 29750agactctcta agggaagggc ccgagatgct gtacttgtac taacttcctc 29750

aagcaattct tgtgataggt ttgggaaaaa cttgtccagg gtgaccactg 29800aagcaattct tgtgataggt ttgggaaaaa cttgtccagg gtgaccactg 29800

actgagtcct ggtcttctct gaagagcaca gtgcctgctc actttagggc 29850actgagtcct ggtcttctct gaagagcaca gtgcctgctc actttagggc 29850

accctgggag gtgggagctg gctcagcagg cagtcttata agggactgag 29900accctgggag gtgggagctg gctcagcagg cagtcttata agggactgag 29900

cttcaaggcc tctgtccctc caggagggag gtgcatgacc agagagggag 29950cttcaaggcc tctgtccctc caggagggag gtgcatgacc agagagggag 29950

gcctgaggat cttcttccct gccccagagg gtctgctgcc tgagctctgt 30000gcctgaggat cttcttccct gccccagagg gtctgctgcc tgagctctgt 30000

gatagcgcag agagtaaaag gatcaagctt gattgaggcc tatctctcaa 30050gatagcgcag agagtaaaag gatcaagctt gattgaggcc tatctctcaa 30050

tgcgaaagtt tgctagttaa gaggagagtg ggaagggcat ttctggcaaa 30100tgcgaaagtt tgctagttaa gaggagtg ggaagggcat ttctggcaaa 30100

gagaaaagtg tggacaggca tggcttaagg gatggggagg gagacagaca 30150gagaaaagtg tggacaggca tggcttaagg gatggggagg gagacagaca 30150

gagctgaggg tgaagggcct tttgctcagc tgtgggcctt ggccttccct 30200gagctgaggg tgaagggcct tttgctcagc tgtgggcctt ggccttccct 30200

tgtgcaggga cacacagcct tagagccact ggaggtttta gtgggaaagt 30250tgtgcaggga cacacagcct tagagccact ggaggtttta gtgggaaagt 30250

aatatggtcg gggctgtatc tcagaagaaa acaaactaat gggaacaggt 30300aatatggtcg gggctgtatc tcagaagaaa acaaactaat gggaacaggt 30300

cctgtgatgg tggacctggg tcagctacgg agggagggaa gatgtgagat 30350cctgtgatgg tggacctggg tcagctacgg agggagggaa gatgtgagat 30350

gtgtactggg gaagggggtg gaagtggcag ctatctggtg agaggaagca 30400gtgtactggg gaagggggtg gaagtggcag ctatctggtg agaggaagca 30400

ggcccacagc tttttttctc aagctgttga attcagaagg gcgagtgatt 30450ggcccacagc tttttttctc aagctgttga attcagaagg gcgagtgatt 30450

ccgggagtag ggggtgcttg gagagccacg cgttattgat aaacagggca 30500ccggggagtag ggggtgcttg gagagccacg cgttattgat aaacagggca 30500

ggctgaagcc tgctcactgg ccctgggcgg gttctcacca gcatgtttca 30550ggctgaagcc tgctcactgg ccctgggcgg gttctcacca gcatgtttca 30550

ggttttgatc tgtgcttgtg gttggtgttc ctacctgttc tctaggttcc 30600ggttttgatc tgtgcttgtg gttggtgttc ctacctgttc tctaggttcc 30600

ttcctttgtt cttgtggctc atttgcttca caggtgaagc tggttacact 30650ttcctttgtt cttgtggctc atttgcttca caggtgaagc tggttacact 30650

agagtaacag ttcccaaagt gtgttccctg gaaaaatggt tctgtagcca 30700agagtaacag ttcccaaagt gtgttccctg gaaaaatggt tctgtagcca 30700

aataagcttg ggaaatggtg ggttaaatat aacgaagggg gtttttcgac 30750aataagcttg ggaaatggtg ggttaaatat aacgaagggg gtttttcgac 30750

tgcacaactt ctcagagcct ttggtgtgtg tcgtgacttt gcagaagcag 30800tgcacaactt ctcagagcct ttggtgtgtg tcgtgacttt gcagaagcag 30800

gatttaatac gcagcattcc cgttcttatt tgaccacgag acatgttttt 30850gatttaatac gcagcattcc cgttcttatt tgaccacgag acatgttttt 30850

ccattaagca tcttgctggg tctgatgttt tctggaaccc attttgaggc 30900ccattaagca tcttgctggg tctgatgttt tctggaaccc attttgaggc 30900

ggtctggtct gcagagagta tggggagcct gggttcaagc cttggctctt 30950ggtctggtct gcagagagta tggggagcct gggttcaagc cttggctctt 30950

gactctcagc agagccttga ttccctgtgt tgcctggact gcaccacgtg 31000gactctcagc agagccttga ttccctgtgt tgcctggact gcaccacgtg 31000

taccacatac ccggtatgtg acgttttcct catccctctt cccacctgcc 31050taccacatac ccggtatgtg acgttttcct catccctctt cccacctgcc 31050

gttacctcac aatccacaat ctgcacctca tccatttttc ttctgaggca 31100gttacctcac aatccacaat ctgcacctca tccatttttc ttctgaggca 31100

agcactctct tactaactta cttatctcat ctgcatccat gttcttctag 31150agcactctct tactaactta cttatctcat ctgcatccat gttcttctag 31150

gccagaaact tgggagtcat ccctccctct ttgttacttc ttcttcctct 31200gccagaaact tgggagtcat ccctccctct ttgttacttc ttcttcctct 31200

ttgttacttt atcccctctg ttactaaaca ttcttctgtg tttccagcta 31250ttgttacttt atcccctctg ttactaaaca ttcttctgtg tttccagcta 31250

tttcttttat tttccctcgg tctcctttgg ggtttctttg cctccatctc 31300tttcttttat tttccctcgg tctcctttgg ggtttctttg cctccatctc 31300

tcccagacct tggttcacct tccatcgagt cccttcctgg gacatgggca 31350tccgagacct tggttcacct tccatcgagt cccttcctgg gacatgggca 31350

ctcatgccac tcctgctacc ttccacttcg aagctaactc cctccacact 31400ctcatgccac tcctgctacc ttccacttcg aagctaactc cctccacact 31400

gacgtcccca acatgcatgc atacacacac acacacacac acacacatac 31450gacgtcccca acatgcatgc atacacacac acacacacac acacacatac 31450

acacacacac acacacactt ccccagttag gctagaatca gagagatgat 31500acacacacac acacacactt ccccagttag gctagaatca gagagatgat 31500

gtcagccatt tgtccaaggc cacgcagctg ggaggtcaca gagctaagtc 31550gtcagccatt tgtccaaggc cacgcagctg ggaggtcaca gagctaagtc 31550

tcaacctcag gggttttgag aaattgcctt ctcatccgtg atcactgatt 31600tcaacctcag gggttttgag aaattgcctt ctcatccgtg atcactgatt 31600

tctacaacag cctgtcagga agtctgggta gaaattactt ccattttaca 31650tctacaacag cctgtcagga agtctgggta gaaattactt ccattttaca 31650

gtggagtcag agcggggagg gtcctgggca ggcgagtgct tcacagagtg 31700gtggagtcag agcggggagg gtcctgggca ggcgagtgct tcacagagtg 31700

accaaccatc taggtttgcc ccacactgaa gggggtttct ggggatggtt 31750accaaccatc taggtttgcc ccacactgaa gggggtttct ggggatggtt 31750

ggtcacccta atgctggatg tggtgcctga tgctgggcag gagggccctc 31800ggtcacccta atgctggatg tggtgcctga tgctgggcag gagggccctc 31800

tccgtggcca cgttgcctcc caggaggaga catttcctct gcagctgcag 31850tccgtggcca cgttgcctcc caggaggaga catttcctct gcagctgcag 31850

ctgcagcctg gccatctgat gcagcctgtg gagcggtggc gagtcctgtg 31900ctgcagcctg gccatctgat gcagcctgtg gagcggtggc gagtcctgtg 31900

gcctgctaac ttctccctcc ctccacctct ctagtgggcc ccatgctgat 31950gcctgctaac ttctccctcc ctccacctct ctagtgggcc ccatgctgat 31950

tgagtttaac atgcctgtgg acctggagct cgtggcaaag cagaacccaa 32000tgagtttaac atgcctgtgg acctggagct cgtggcaaag cagaacccaa 32000

atgtgaagat gggcggccgc tatgccccca gggactgcgt ctctcctcac 32050atgtgaagat gggcggccgc tatgccccca gggactgcgt ctctcctcac 32050

aaggtggcca tcatcattcc attccgcaac cggcaggagc acctcaagta 32100aaggtggcca tcatcattcc attccgcaac cggcaggagc acctcaagta 32100

ctggctatat tatttgcacc cagtcctgca gcgccagcag ctggactatg 32150ctggctatat tatttgcacc cagtcctgca gcgccagcag ctggactatg 32150

gcatctatgt tatcaaccag gtgaggcctg ggaaggtgga atgagagagg 32200gcatctatgt tatcaaccag gtgaggcctg ggaaggtgga atgagagagg 32200

gtgtgtgtgc atgcagatgt gtatcagatg tgtgtgtaat gagggcaggg 32250gtgtgtgtgc atgcagatgt gtatcagatg tgtgtgtaat gagggcaggg 32250

gaaggggagt gatttcacag acacctggca cttacagcga ggaaccagcc 32300gaaggggagt gatttcacag acacctggca cttacagcga ggaaccagcc 32300

ccccagccac caccagtgca gatgaggtaa acgccaaaca gtgtgcttgc 32350ccccagccac caccagtgca gatgaggtaa acgccaaaca gtgtgcttgc 32350

ctattgctgt caactctata gccaagggaa atgctggagt gttttcgttg 32400ctattgctgt caactctata gccaagggaa atgctggagt gttttcgttg 32400

ttctgttttt gttttctgga agtagccttc cagcaagatt gggaaaaaag 32450ttctgttttt gttttctgga agtagccttc cagcaagatt gggaaaaaag 32450

acaaccctaa ttattccaaa gtacacactg attattccct ggctttgtgt 32500acaaccctaa ttattccaaa gtacacactg attattccct ggctttgtgt 32500

agctgtgtat tttcctttta aaaataaaac caccatttag atgtcagact 32550agctgtgtat tttcctttta aaaataaaac caccatttag atgtcagact 32550

tttaggtaac ttcaaagttt atccagtcag tcagagcgtg tctcctgggg 32600tttaggtaac ttcaaagttt atccagtcag tcagagcgtg tctcctgggg 32600

cacctggaga cagtgccctt agttcaggtc acatgcctac atgccagccc 32650cacctggaga cagtgccctt agttcaggtc acatgcctac atgccagccc 32650

ctggtgaaat atctggagaa gtctgattcg tgggccatct gagagttatg 32700ctggtgaaat atctggagaa gtctgattcg tgggccatct gagagttatg 32700

tggactgggc cgagtctgag aaaaagtttc tcactgctcg tctgatccat 32750tggactgggc cgagtctgag aaaaagtttc tcactgctcg tctgatccat 32750

atgtgttggg ctttagccct gcttaggaaa gtaatgctaa ggataggtca 32800atgtgttggg ctttagccct gcttaggaaa gtaatgctaa ggataggtca 32800

actttcatca ccatggcatg gagaatcaga ttgatctaag aggcatcttt 32850actttcatca ccatggcatg gagaatcaga ttgatctaag aggcatcttt 32850

attgaaataa atttttcagt ttatttgagg agcattattt tcccaagagt 32900attgaaataa atttttcagt ttatttgagg agcattattt tcccaagagt 32900

ataactttga tatttcaaga ttacccctaa cacttaaatt catgttttta 32950ataactttga tatttcaaga ttacccctaa cacttaaatt catgttttta 32950

gactataacc tcctaggtgc aatgacacat ctaacttatc taagcaccca 33000gactataacc tcctaggtgc aatgacacat ctaacttatc taagcaccca 33000

gtttcattga aattcatttg aagagtctga gtacgcccat ttctacaagg 33050gtttcattga aattcatttg aagagtctga gtacgcccat ttctacaagg 33050

cccaatgtcc atttcatttc gagataaact ctgctttagg taggaggatt 33100cccaatgtcc atttcatttc gagataaact ctgctttagg taggaggatt 33100

gttggcagtt tacggcttcc atcaaggtca aggaactctg tgcaccttcc 33150gttggcagtt tacggcttcc atcaaggtca aggaactctg tgcaccttcc 33150

ctatgacccc aggggaagca ctcgaggact gctgtggcat tgtgctgcat 33200ctatgacccc aggggaagca ctcgaggact gctgtggcat tgtgctgcat 33200

cacttgctgc agggagattc tgaagaagtg taaggtctca gtcctgccct 33250cacttgctgc agggagattc tgaagaagtg taaggtctca gtcctgccct 33250

gtcccgaagc ctccaaccca cttctggcaa gtgggacctt cccagggaac 33300gtcccgaagc ctccaaccca cttctggcaa gtgggacctt cccagggaac 33300

aatttgttaa cagacccaaa tatcctgtga ttggatggtg gctgccaaat 33350aatttgttaa cagacccaaa tatcctgtga ttggatggtg gctgccaaat 33350

gctttggaag ctcagaggaa ggagagagag caatggcttg gaagaaccag 33400gctttggaag ctcagaggaa ggagagagag caatggcttg gaagaaccag 33400

gatataaact aggttctaaa gtctgcaggg agatgggctt ctcagctggg 33450gatataaact aggttctaaa gtctgcaggg agatgggctt ctcagctggg 33450

gccagtgagc agggacctta aggcagaaag gagccttgca tgttcctgga 33500gccagtgagc agggacctta aggcagaaag gagccttgca tgttcctgga 33500

aattgagatg cccactgggg taggaaagca ccagaagctc tgggaccagg 33550aattgagatg cccactgggg taggaaagca ccagaagctc tgggaccagg 33550

tgtcagagtt aagcctgtga ggcaggagag agcagaacaa gccctgttac 33600tgtcagagtt aagcctgtga ggcaggagag agcagaacaa gccctgttac 33600

aaggaaactg aagcaggaga gcaggtggtg ggcaaacccc ttgaggctgt 33650aaggaaactg aagcaggaga gcaggtggtg ggcaaacccc ttgaggctgt 33650

ttgaattctt cggccaagtg aggtacagac cagggcccta tgaacacctg 33700ttgaattctt cggccaagtg aggtacagac cagggcccta tgaacacctg 33700

caagcaagac agccacgcag ttgtgggtca ccttggaaga atattggaga 33750caagcaagac agccacgcag ttgtgggtca ccttggaaga atattggaga 33750

atgcaagaga gaacaggtaa atgtcctgca aaatgcgggt cactttaacc 33800atgcaagaga gaacaggtaa atgtcctgca aaatgcgggt cactttaacc 33800

caacacatat tcatttaaga aaagctctgt gattgagaaa catttgtctg 33850caacacatat tcatttaaga aaagctctgt gattgagaaa catttgtctg 33850

atgccagtta gcacatacca atgacggcaa gattcaggag cctgttatta 33900atgccagtta gcacatacca atgacggcaa gattcaggag cctgttatta 33900

aagcagtggc agcgagcacc tggaagaggc ggccaccatc accaggagcc 33950aagcagtggc agcgagcacc tggaagaggc ggccaccatc accaggagcc 33950

agcagggatg actaataagc cgtgccagct gcatctcgtt tctctcttga 34000agcagggatg actaataagc cgtgccagct gcatctcgtt tctctcttga 34000

cagttgctat gccagtagat gagggatgta ctgtggatac aatgctgtca 34050cagttgctat gccagtagat gagggatgta ctgtggatac aatgctgtca 34050

tatcttattc agcagggcat ctgatagcat cccacaaatc tgcctgagta 34100tatcttattc agcagggcat ctgatagcat cccacaaatc tgcctgagta 34100

gaagacagac agctgtggtc tgggtgccat ataggtaggt taaaatatat 34150gaagacagac agctgtggtc tgggtgccat ataggtaggt taaaatatat 34150

atttgggcct aggcgcagtg gctcatgcct gtaatcccag cactttggga 34200atttgggcct aggcgcagtg gctcatgcct gtaatcccag cactttggga 34200

ggccaaggca ggcggatcac ttgaagtcag gagttcaaga ccagcctggc 34250ggccaaggca ggcggatcac ttgaagtcag gagttcaaga ccagcctggc 34250

caacatggcg aaaccccgtc tctactaaaa atacaaaaat tagctggaca 34300caacatggcg aaaccccgtc tctactaaaa atacaaaaat tagctggaca 34300

tagtggtggg cggctgtaat cccagctact cgggaggctg aggcaggaga 34350tagtggtggg cggctgtaat cccagctact cgggaggctg aggcaggaga 34350

atctcttgaa cccaggaggc agaggttgca gtgagccgag atcatgccac 34400atctcttgaa cccaggaggc agaggttgca gtgagccgag atcatgccac 34400

tgcactccag cctgggcaac agagtgagac tctgtctcaa aaaaataaaa 34450tgcactccag cctgggcaac agagtgagac tctgtctcaa aaaaataaaa 34450

taaataaata aataaataaa atatatactt gggtaaagag gataaaagag 34500taaataaata aataaataaa atatatactt gggtaaagag gataaaagag 34500

ttagcgatga tgctgaattt ttgaactgag gtggctgttt tcaaggaaga 34550ttagcgatga tgctgaattt ttgaactgag gtggctgttt tcaaggaaga 34550

ctggagggtg ggatgctacg tctagatatg ttgcagttta ggtgaatgtg 34600ctggagggtg ggatgctacg tctagatatg ttgcagttta ggtgaatgtg 34600

agacttccct gttttgaagt caaatattgg accagtaaaa tctagccatc 34650agacttccct gttttgaagt caaatattgg accagtaaaa tctagccatc 34650

agcttaaatt cctatgatac aatttacata ctccccaggc tcaacacagt 34700agcttaaatt cctatgatac aatttacata ctccccaggc tcaacacagt 34700

agatttctga atgtcctctg ccagctacat gctcctgccc acctcaatcc 34750agatttctga atgtcctctg ccagctacat gctcctgccc acctcaatcc 34750

gagtagatgg aacaactaac caagccagct cagaccggtg gcacagctgt 34800gagtagatgg aacaactaac caagccagct cagaccggtg gcacagctgt 34800

gctggctaac actgggcacc acctaagaga gtgcttctcc aaaagtgtgc 34850gctggctaac actgggcacc acctaagaga gtgcttctcc aaaagtgtgc 34850

ttccccaaat ggagcgaaat acgcttgagg aatgttgggt tgaaccatgt 34900ttccccaaat ggagcgaaat acgcttgagg aatgttgggt tgaaccatgt 34900

aaagcaggtc tcattcccgc agagcctttg gtaccccggt gtacactgta 34950aaagcaggtc tcattcccgc agagcctttg gtaccccggt gtacactgta 34950

accccagaag tgtttcctga gcttgcctga cgagacaact tttccaagaa 35000accccagaag tgtttcctga gcttgcctga cgagacaact tttccaagaa 35000

ccgtctcaag tgatgagtgt tttgtgagtc acactttggg gaaagcgggc 35050ccgtctcaag tgatgagtgt tttgtgagtc acactttggg gaaagcgggc 35050

ctaagttagc atctcctccc agctgcctcc ctgctttccc tggaacacta 35100ctaagttagc atctcctccc agctgcctcc ctgctttccc tggaacacta 35100

ggaactgccc gtcctccctc cctccctcct cttcccactt cacaacttag 35150ggaactgccc gtcctccctc cctccctcct cttcccactt cacaacttag 35150

catcaggaat attttagttt tggtttttca aacatatata cctccttttt 35200catcaggaat attttagttt tggtttttca aacatatata cctccttttt 35200

tcttatcttg tcaatatcat cttttttttt tctttgcttt tcctcatact 35250tcttatcttg tcaatatcat cttttttttt tctttgcttt tcctcatact 35250

tttttttctc ttcatccttt ccttctccaa gggttaactt tccaccttag 35300tttttttctc ttcatccttt ccttctccaa gggttaactt tccaccttag 35300

gagaatcttt tctgcttttt ctcccacttc cccagctact ctcttatcat 35350gagaatcttt tctgcttttt ctcccacttc cccagctact ctcttatcat 35350

ctgctccaat ctcaccctaa ttgatcattt tgggaaaata tggtcagagt 35400ctgctccaat ctcaccctaa ttgatcattt tgggaaaata tggtcagagt 35400

ccagataact aagttgagaa atgcttaaac tctgccatac ctttccagta 35450cgataact aagttgagaa atgcttaaac tctgccatac ctttccagta 35450

aagaatatta cctaataaat aataaaatgg taatgggaaa cctgaaccct 35500aagaatatta cctaataaat aataaaatgg taatgggaaa cctgaaccct 35500

gaaaaaaaag aggtggaagg agaaacattt ggagcacatc ctgtctacaa 35550gaaaaaaaag aggtggaagg agaaacattt ggagcacatc ctgtctacaa 35550

attaggaact gcctgtgtta tctgttttat ggttatattc tagaagaaga 35600attaggaact gcctgtgtta tctgttttat ggttatattc tagaagaaga 35600

aagggatttt gtagcacctg gttttgacct ttctgcactg tttgttgagc 35650aagggatttt gtagcacctg gttttgacct ttctgcactg tttgttgagc 35650

aaataaacct tatgggctgt tagccctctt tatagcctct cagcttatcc 35700aaataaacct tatgggctgt tagccctctt tatagcctct cagcttatcc 35700

ctggcccaga caccctgctg tcattttgac ttttcattcc cacacacaca 35750ctggcccaga caccctgctg tcattttgac ttttcattcc cacacacaca 35750

tacacatgca cacacatgta cacacacaca cataccattt aagattagac 35800tacacatgca cacacatgta cacacacaca cataccattt aagattagac 35800

agaagtaatg ctcaaaatgg agtggcttct gagacattta gtccaagggt 35850agaagtaatg ctcaaaatgg agtggcttct gagacattta gtccaagggt 35850

tcccaaacag gcttttcagt atcagatttc tttctgcccc attgaaatgc 35900tcccaaacag gcttttcagt atcagatttc tttctgcccc attgaaatgc 35900

tacacaacct tccgcttaca gcaggtcaca agggtttcat tctacttgaa 35950tacacaacct tccgcttaca gcaggtcaca agggtttcat tctacttgaa 35950

gtaggggcca tgtcccattt ccacttcctt ggcttcccat tcagtcactg 36000gtaggggcca tgtcccattt ccacttcctt ggcttcccat tcagtcactg 36000

ctaggatttg cctagacccc tgaggccaga caatgtagaa acttctgctc 36050ctaggatttg cctagacccc tgaggccaga caatgtagaa acttctgctc 36050

catgtcacag gtgaggaaac aggctcagag agggacaggc tccgaaagtc 36100catgtcacag gtgaggaaac aggctcagag agggacaggc tccgaaagtc 36100

acatagacaa cagtagggct gcggctcaaa ccccagcgtc tgactccagg 36150acatagacaa cagtagggct gcggctcaaa ccccagcgtc tgactccagg 36150

tttagtgcct tctcagggca tcagtgacac tcctcatggc cagggtgccc 36200tttagtgcct tctcagggca tcagtgacac tcctcatggc cagggtgccc 36200

ccagtgttgc tcacagtctg gtatccaggg ctgagagtgt gctgtgtgct 36250ccagtgttgc tcacagtctg gtatccaggg ctgagagtgt gctgtgtgct 36250

cagactgcct gggttcagtc ctggcactgc cactttacag tcagtgacct 36300cagactgcct gggttcagtc ctggcactgc cactttacag tcagtgacct 36300

caggcaggtt acttaagctc tgcaggcctc agtttcctcc ttggtgggga 36350caggcaggtt acttaagctc tgcaggcctc agtttcctcc ttggtgggga 36350

gggttatgag gcatccttct catggtaaac cttcagtaaa taccagccgt 36400gggttatgag gcatccttct catggtaaac cttcagtaaa taccagccgt 36400

tactaggagg gtccactcct gcctctccac tctccattca tcctgcctgt 36450tactaggagg gtccactcct gcctctccac tctccattca tcctgcctgt 36450

ttcctctgcc tgcttcctct gcctgcttct gtggtggtga attcttcatg 36500ttcctctgcc tgcttcctct gcctgcttct gtggtggtga attcttcatg 36500

gctcccaccg cctcctgctg cacccccact cagggcccgc atcaggaccc 36550gctcccaccg cctcctgctg cacccccact cagggcccgc atcaggaccc 36550

ttcctcctat tggtttgaac tccttggagt cagagggtaa tggatagtgg 36600ttcctcctat tggtttgaac tccttggagt cagagggtaa tggatagtgg 36600

agtgagccag gtggcagaat ctcagaggcc atcccgggcc tataagcctc 36650agtgagccag gtggcagaat ctcagaggcc atcccggggcc tataagcctc 36650

ttcaaaatag ggccacgtat caagctttac acacaggagt gaactttcac 36700ttcaaaatag ggccacgtat caagctttac acacaggagt gaactttcac 36700

aagttgttat gactcatact ctgtctatag taagctgtta accactccca 36750aagttgttat gactcatact ctgtctatag taagctgtta accactccca 36750

tttggcttat gcctctgtaa ttattgtact aacttatatc ttaaaataag 36800tttggcttat gcctctgtaa ttattgtact aacttatatc ttaaaataag 36800

gatattgaag gaatgagccg ggagaggctt tcctggttga gatatagaag 36850gatattgaag gaatgagccg ggagaggctt tcctggttga gatatagaag 36850

aacaagagtt gctctttttc cttaaggtct ctcctcccac ccctgacctt 36900aacaagagtt gctctttttc cttaaggtct ctcctcccac ccctgacctt 36900

agctcaccag catgggagaa tactatttga ctccttgtac tctgagacgt 36950agctcaccag catgggagaa tactatttga ctccttgtac tctgagacgt 36950

ggatttcaag atatagcatt ccaacttcaa cggcagcaag aaaagaagca 37000ggatttcaag atatagcatt ccaacttcaa cggcagcaag aaaagaagca 37000

acagaaggag aagacatcat agcaaacagg gatgcatgct gcatttccta 37050acagaaggag aagacatcat agcaaacagg gatgcatgct gcatttccta 37050

atactcaaac ccggaaacga gacttcactc aaggtgaagg gagggcaggt 37100atactcaaac ccggaaacga gacttcactc aaggtgaagg gagggcaggt 37100

caccacctgg tagcactagc cctaaattaa ggaatgcaga atgtttgtgg 37150caccacctgg tagcactagc cctaaattaa ggaatgcaga atgtttgtgg 37150

gattgcccat cataaaaatt acaaaatgag taaggaatgc aggcacagct 37200gattgcccat cataaaaatt acaaaatgag taaggaatgc aggcacagct 37200

ggccaggtgg gtttgtcaca accatggcag ccctttgccc cacagccagt 37250ggccaggtgg gtttgtcaca accatggcag ccctttgccc cacagccagt 37250

acacagaact ggtctctcca attccgattg catatcttct ggcacctctg 37300acacagaact ggtctctcca attccgattg catatcttct ggcacctctg 37300

ttcctctccc tcagctgccc aggatttttc tggttctgac catgttactt 37350ttcctctccc tcagctgccc aggatttttc tggttctgac catgttactt 37350

cctcttttaa acctgttagc atttcacgac tgcctacagg caacggtcta 37400cctcttttaa acctgttagc atttcacgac tgcctacagg caacggtcta 37400

aatggtcgga aggcccaagc ttagcatccg agaccctgac ctacctccag 37450aatggtcgga aggcccaagc ttagcatccg agaccctgac ctacctccag 37450

ccacttcctc ctcctctcca cttcactgga ctccccatct ccacccagac 37500ccacttcctc ctcctctcca cttcactgga ctccccatct ccacccagac 37500

acctctgttc tcccctctgt gtgcctttgc ttatgctgtc ccctgtgttc 37550acctctgttc tcccctctgt gtgcctttgc ttatgctgtc ccctgtgttc 37550

ctagtgtgtc tctggctatc ttttaagctt ccctccccaa cctcattagt 37600ctagtgtgtc tctggctatc ttttaagctt ccctccccaa cctcattagt 37600

tctgtggagc ccctggaata gagctgactt ctccttccct gctgctccca 37650tctgtggagc ccctggaata gagctgactt ctccttccct gctgctccca 37650

ggctgctcag aactttctgg aaagggatga ttatctgagt tccagcctca 37700ggctgctcag aactttctgg aaagggatga ttatctgagt tccagcctca 37700

ccccagcccc cggactctga gtccctcatg tctgcctccc ttctttctct 37750ccccagcccc cggactctga gtccctcatg tctgcctccc ttctttctct 37750

ctgaccacac agctggtaca tagtcagtac agacgcagtc agtgagtgga 37800ctgaccacac agctggtaca tagtcagtac agacgcagtc agtgagtgga 37800

gcacggggct tctctccagg attcctgccc ctttgtttat ccctagtctc 37850gcacggggct tctctccagg attcctgccc ctttgtttat ccctagtctc 37850

aggactccct actcctggtc ttctgcctaa atctgtgcct cttggaagtg 37900aggactccct actcctggtc ttctgcctaa atctgtgcct cttggaagtg 37900

aagcctccgt tcccagtggg gccaggtcct gacccttggg aacttgcagg 37950aagcctccgt tcccagtggg gccaggtcct gacccttggg aacttgcagg 37950

atccctccct tgggcctctc cccgaagctt ccagctcaat gctgaccaga 38000atccctccct tgggcctctc cccgaagctt ccagctcaat gctgaccaga 38000

gcacaggctg cctgtgacag tccttggggt gacctccctt atcaggaaaa 38050gcacaggctg cctgtgacag tccttggggt gacctccctt atcaggaaaa 38050

atgcagaaaa cctattaata ccttagcctt gtgattgtta atggtcacaa 38100atgcagaaaa cctattaata ccttagcctt gtgattgtta atggtcacaa 38100

aactccttta gggtcctttg gactcagcac ctttatggtc tcactttgaa 38150aactccttta gggtcctttg gactcagcac ctttatggtc tcactttgaa 38150

ttttgaacct cccacctccc cccatccccc agagtaaggc aaatggtctt 38200ttttgaacct cccacctccc cccaccccc agagtaaggc aaatggtctt 38200

ctgattgttc ctgcagaggg aaggctccac aggtaagcac acgatggcca 38250ctgattgttc ctgcagagg aaggctccac aggtaagcac acgatggcca 38250

ggaagcagag ctggagcctg cctgaaaggc tgtggagaaa tggagggagg 38300ggaagcagag ctggagcctg cctgaaaggc tgtggagaaa tggagggagg 38300

gctgccctga ggactctgtc tggctttgaa gttttctact gtttcctttt 38350gctgccctga ggactctgtc tggctttgaa gttttctact gtttcctttt 38350

cttctgtgca ctgttttagg atgatggggt gatagttcca ggctggttga 38400cttctgtgca ctgttttagg atgatggggt gatagttcca ggctggttga 38400

ggatggattt ggagacagtc ctttgtaccc tcagtgagca agagtatctg 38450ggatggattt ggagacagtc ctttgtaccc tcagtgagca agagtatctg 38450

tcaccctacc tcagcagttg tctctgtcac tggtccaagc agctggttcc 38500tcaccctacc tcagcagttg tctctgtcac tggtccaagc agctggttcc 38500

tacacaaggt caagatcaac tggggagaag cagactcctg ggtctatccc 38550tacacaaggt caagatcaac tggggagaag cagactcctg ggtctatccc 38550

attagtgagg acagctgcct gggcttatgg cctcattggt ttggtttcta 38600attagtgagg acagctgcct gggcttatgg cctcattggt ttggtttcta 38600

tcttgatcat ctctaccatc cccccatccc ggccttccat tttctacctc 38650tcttgatcat ctctaccatc cccccatccc ggccttccat tttctacctc 38650

agctgtcagt gcacagattg atgtgtgtgg gaacggagct tgggaggagt 38700agctgtcagt gcacagattg atgtgtgtgg gaacggagct tgggaggagt 38700

ggggtagggc tggtcctgtc ctgtagcctc cccttccttc gggcacttgg 38750ggggtagggc tggtcctgtc ctgtagcctc cccttccttc gggcacttgg 38750

accctttgga gcttgccggg gtggggaatg ggagtgggaa ggccagggag 38800accctttgga gcttgccggg gtggggaatg ggagtgggaa ggccagggag 38800

tgtctctgca ccatcactgt ttgagtgttg cccctttgct gtgtgcccca 38850tgtctctgca ccatcactgt ttgagtgttg cccctttgct gtgtgcccca 38850

cctagtctat gtgtgtctct gttctctggg gactcaattt gctggtgaat 38900cctagtctat gtgtgtctct gttctctggg gactcaattt gctggtgaat 38900

tgcttccatg gacattgttc tgggaaatgc cattttttct gctcacccat 38950tgcttccatg gacattgttc tgggaaatgc cattttttct gctcacccat 38950

gactctgtga caaggaatga cagcttatta ggaatttgtt tttgcattgg 39000gactctgtga caaggaatga cagcttatta ggaatttgtt tttgcattgg 39000

aacagtggtc atcagaatgg gccccttttc ccttgcagct ttgacatttg 39050aacagtggtc atcagaatgg gccccttttc ccttgcagct ttgacatttg 39050

cctctctttt cctcacctct ctcccttgca tccacccttt tctctttttc 39100cctctctttt cctcacctct ctcccttgca tccacccttt tctctttttc 39100

ttcttttttg ttttccttct agcaggggcc ttttaccttt acttgttaat 39150ttcttttttg ttttccttct agcaggggcc ttttaccttt acttgttaat 39150

cctgtttgta gcaaagcaag tggaaggagg agttcctctc tgatctgctt 39200cctgtttgta gcaaagcaag tggaaggagg agttcctctc tgatctgctt 39200

cttattctcc acctaccttc tcttctgtac tttccgcctc ctagagagag 39250cttattctcc acctaccttc tcttctgtac tttccgcctc ctagagagag 39250

agagagagag aggaatgccg acctaactac cgctgccact gctgctgcca 39300agagagagag aggaatgccg acctaactac cgctgccact gctgctgcca 39300

ccaccgctgc caccaccacc ctggtaatgt tcacatgtcc tcaaatcaac 39350ccaccgctgc caccaccacc ctggtaatgt tcacatgtcc tcaaatcaac 39350

ccagagccag ggccctgctg gtcaggggga ggctatgtaa ataatcccat 39400ccagagccag ggccctgctg gtcaggggga ggctatgtaa ataatcccat 39400

gagtgtgcca tcctcaggcc ctggggtctc ctaggcaaga ccagggcctc 39450gagtgtgcca tcctcaggcc ctggggtctc ctaggcaaga cccaggcctc 39450

tgtgggctct ctcggaaatg ctgaggttgc tggaagccag cccgtcatac 39500tgtgggctct ctcggaaatg ctgaggttgc tggaagccag cccgtcatac 39500

agggtctgag agtttaactt cttttaaatt aaaccacagt tgagctcatg 39550agggtctgag agtttaactt cttttaaatt aaaccacagt tgagctcatg 39550

ctgtgtgtgt ataaactttt gtatcctgct ttttccttaa attctttatc 39600ctgtgtgtgt ataaactttt gtatcctgct ttttccttaa attctttatc 39600

atcagcatct tcccatgtta tttcatagtc ttcatcatca tcactttcca 39650atcagcatct tcccatgtta tttcatagtc ttcatcatca tcactttcca 39650

taccttcata gtagttgatc gtagaattcc atcataatta acttgtcttt 39700taccttcata gtagttgatc gtagaattcc atcataatta acttgtcttt 39700

tctctcttag aagtccctta ggtaatgtcc aattttccgt gagtgtaagt 39750tctctcttag aagtccctta ggtaatgtcc aattttccgt gagtgtaagt 39750

aataccataa tgaacatctt ggagtctgaa gtttattctg tgttggtttg 39800aataccataa tgaacatctt ggagtctgaa gtttattctg tgttggtttg 39800

ttccacattt aggatcattt tcccaggcta gattttcaga tgtgggatta 39850ttccacattt aggatcattt tcccaggcta gattttcaga tgtgggatta 39850

tgggttcaga tatggtttac acatttttat agttcttaat acagatggcc 39900tgggttcaga tatggtttac acatttttat agttcttaat acagatggcc 39900

aaattgcttt ctgaaagaga agcttttctt aagtattttt ctccaacttg 39950aaattgcttt ctgaaagaga agcttttctt aagtattttt ctccaacttg 39950

tatcttaaac atcctgaaca tgcttagcac cactgtcttg atatatctgc 40000tatcttaaac atcctgaaca tgcttagcac cactgtcttg atatatctgc 40000

ggaaagccac gtctccactt ttcagtgtgt cgggccctgg gagaggcagg 40050ggaaagccac gtctccactt ttcagtgtgt cgggccctgg gagaggcagg 40050

catcctgcgc tggctccttg gagctgggtt taaaattgtc tcctctggct 40100catcctgcgc tggctccttg gagctgggtt taaaattgtc tcctctggct 40100

gggcgtggtg gctcacacct gtaatcccag tactttggga ggccgaggtg 40150gggcgtggtg gctcacacct gtaatcccag tactttggga ggccgaggtg 40150

ggcggatcac taggtcagga gatcgagacc atcctggcta acatggtgaa 40200ggcggatcac taggtcagga gatcgagacc atcctggcta acatggtgaa 40200

accccgtctc tactaaaaat acaaaaaatt agccgggcgt ggtggcgggc 40250accccgtctc tactaaaaat acaaaaaatt agccgggcgt ggtggcgggc 40250

acttgaaaag tcccagctac tcgggaggct gaggcaggag aatgatatga 40300acttgaaaag tcccagctac tcgggaggct gaggcaggag aatgatatga 40300

acccgggagg cggagcttgc agtgagccga gatcgcgcca ctgcactcca 40350acccgggagg cggagcttgc agtgagccga gatcgcgcca ctgcactcca 40350

gcctgggcga cagagtgaga ctccatttta aaaaaacaaa caaacaaaac 40400gcctgggcga cagagtgaga ctccatttta aaaaaacaaa caaacaaaac 40400

aaaaaaacaa acaaacaaaa actgtctctt ctgtgctcac ttcacccaga 40450aaaaaaacaa acaaacaaaa actngtctctt ctgtgctcac ttcacccaga 40450

atccctgttg ggctcttcaa ggagctcagt tctctctgaa agcaacttta 40500atccctgttg ggctcttcaa ggagctcagt tctctctgaa agcaacttta 40500

tagcctcagt ccagtctgtg ttcctgtgtg gcaggggtca agggtatgct 40550tagcctcagt ccagtctgtg ttcctgtgtg gcaggggtca agggtatgct 40550

cactcttgag agtggtgtct ttggttgacc aagaaccact cccatagcct 40600cactcttgag agtggtgtct ttggttgacc aagaaccact cccatagcct 40600

ggtccctaac ccttgaaggc ccatctctct cactcactgg ggtgaagagt 40650ggtccctaac ccttgaaggc ccatctctct cactcactgg ggtgaagagt 40650

ttaaatctca gatccaagtt ttgttgagag ctctgagcta ccatattgct 40700ttaaatctca gatccaagtt ttgttgagag ctctgagcta ccatattgct 40700

atggttaaca atagttaaca atgttaacaa tggttaacta tggttaacaa 40750atggttaaca atagttaaca atgttaacaa tggttaacta tggttaacaa 40750

tagttaacaa tgtttaacaa ctagagccca gctgggtgtg gtggcatgtg 40800tagttaacaa tgtttaacaa ctagagccca gctgggtgtg gtggcatgtg 40800

ctaacagtcc cagcttctca agaggctgag gtgagaagat tgctggagtc 40850ctaacagtcc cagcttctca agaggctgag gtgagaagat tgctggagtc 40850

caggagctca aggccagcct gggcaacatg gcgagaccct gtctcccctg 40900caggagctca aggccagcct gggcaacatg gcgagaccct gtctcccctg 40900

caaaaaaaca acaacaacaa aagcaaaact agagcccaac tgctgtgaac 40950caaaaaaaca acaacaacaa aagcaaaact agagcccaac tgctgtgaac 40950

tcatggctga gtagatatta ttagccctcc acaaactcag catttgtata 41000tcatggctga gtagatatta ttagccctcc acaaactcag catttgtata 41000

atcccaggct gtttccagta attctctggg gatcatctcc cagcctgtcc 41050atcccaggct gtttccagta attctctggg gatcatctcc cagcctgtcc 41050

actgttccag gatccacact taggcctata ggaatgcccc gtcagagctt 41100actgttccag gatccacact taggcctata ggaatgcccc gtcagagctt 41100

ctgctgccgc tgatctgtta ctgtttcatg caacccactc ggcctagttc 41150ctgctgccgc tgatctgtta ctgtttcatg caacccactc ggcctagttc 41150

cttcctctta ctgtctcagt gggcacagaa aagcatacag agggtgtttc 41200cttcctctta ctgtctcagt gggcacagaa aagcatacag agggtgtttc 41200

agcaaacatt gccactggct gcagacctgc ccccggatct gtcctgttga 41250agcaaacatt gccactggct gcagacctgc ccccggatct gtcctgttga 41250

gagcttagtg ctgcgttctt gcatggtggg gaggggtgtg gctctgtgat 41300gagcttagtg ctgcgttctt gcatggtggg gaggggtgtg gctctgtgat 41300

gagccagggc atgtgtatag gagcaacagt gtctctctta tcacgtagaa 41350gagccagggc atgtgtatag gagcaacagt gtctctctta tcacgtagaa 41350

gttctgactc attgcgagtc ttggctttgg gttaatggtt ccagccatgt 41400gttctgactc attgcgagtc ttggctttgg gttaatggtt ccagccatgt 41400

tgctgctgtg tcttttggtg caggagaggc tgggcacagt tggtccctaa 41450tgctgctgtg tcttttggtg caggagaggc tgggcacagt tggtccctaa 41450

gccattatgg ataagggatg tgtctgctga tatacacaca tggacctgac 41500gccattatgg ataagggatg tgtctgctga tatacacaca tggacctgac 41500

atccagggaa ggcagggtga ttggacagaa cagttcttcc agaagctgtt 41550atccagggaa ggcaggtga ttggacagaa cagttcttcc agaagctgtt 41550

ggaacttgga caagagtggc ccttggcttt ctgtagttgg tcatctgtcc 41600ggaacttgga caagagtggc ccttggcttt ctgtagttgg tcatctgtcc 41600

cctgttgcaa tcaggggaag gccacacttg ccttccttaa ccacagttag 41650cctgttgcaa tcaggggaag gccacacttg ccttccttaa ccacagttag 41650

gattttcttg gggattagac cagattctag cacctgtcct gaacctctcg 41700gattttcttg gggattagac cagattctag cacctgtcct gaacctctcg 41700

ccccgcccct acaaaggctg cttgcaagtg tagtgcacat acacagggag 41750ccccgcccct acaaaggctg cttgcaagtg tagtgcacat acacagggag 41750

caggtggggc atggaagtgg aagtggagcc cctgcctttg gcccttgggg 41800caggtggggc atggaagtgg aagtggagcc cctgcctttg gcccttgggg 41800

gaggcactgt ctgcttaccc acggttgttg cctcatagga atcatacaac 41850gaggcactgt ctgcttaccc acggttgttg cctcatagga atcatacaac 41850

agcttcctaa ctggtctcct tgccttcagt tggattgggg cacaaatccc 41900agcttcctaa ctggtctcct tgccttcagt tggattgggg cacaaatccc 41900

tccttgacat ataaaccatg gtttaaggct ccctgtggcc taaataaaga 41950tccttgacat ataaaccatg gtttaaggct ccctgtggcc taaataaaga 41950

taaagcttaa gtatcttaac aagcacctaa cccttctccc cagcctcggt 42000taaagcttaa gtatcttaac aagcacctaa cccttctccc cagcctcggt 42000

gatttggctc atcgctgcct tcatgtttca ttctggcttc actcattcgg 42050gatttggctc atcgctgcct tcatgtttca ttctggcttc actcattcgg 42050

aatttcttgt agttccttgg ctgttctctt ttccttaccg cctttacaaa 42100aatttcttgt agttccttgg ctgttctctt ttccttaccg cctttacaaa 42100

tgctctcacc atgcatgctt ttctctgctc ctacagatgc cttctctccc 42150tgctctcacc atgcatgctt ttctctgctc ctacagatgc cttctctccc 42150

agcaccgcct ccagagtcta tgtctggtcg attctgtctg ctgtctccag 42200agcaccgcct cgagtcta tgtctggtcg attctgtctg ctgtctccag 42200

tccccatctt gtggcagtct ctgctcaatc atttggggat tttatatgtt 42250tccccatctt gtggcagtct ctgctcaatc atttggggat tttatatgtt 42250

ttctggcctt tcttttgggg gcctgtcttc tccttctaaa agcagccagt 42300ttctggcctt tcttttgggg gcctgtcttc tccttctaaa agcagccagt 42300

tgacctagaa ggaagggata actgtaactc ttgtctacca acataagatt 42350tgacctagaa ggaagggata actgtaactc ttgtctacca acataagatt 42350

aggcccaccc tttaaaagct gcgtctttga aagggacacc tgcacccagc 42400aggcccaccc tttaaaagct gcgtctttga aagggacacc tgcacccagc 42400

atgctggctt ctcttcacca agcgtgactt cctacgcatt tcacaggcct 42450atgctggctt ctcttcacca agcgtgactt cctacgcatt tcacaggcct 42450

ccagaggtcc ccctgactct cttctgctgt gagaaactct aatcatgtaa 42500ccagaggtcc ccctgactct cttctgctgt gagaaactct aatcatgtaa 42500

gccacaggct aattcccttg agccttaaat gtttttagta atttcccatt 42550gccacaggct aattcccttg agccttaaat gtttttagta atttcccatt 42550

catcagagaa gcaggatttg ggaggaattt tgaagcaaac actacagaag 42600catcagagaa gcaggatttg ggaggaattt tgaagcaaac actacagaag 42600

gcagagtctc caggtaggat atctaagaga catttggaat ggtctgactg 42650gcagagtctc caggtaggat atctaagaga catttggaat ggtctgactg 42650

ttcaagatgg atgggaaagc ctcttcctgt aatgatagta gccaacattt 42700ttcaagatgg atgggaaagc ctcttcctgt aatgatagta gccaacattt 42700

gttgtcaggc agtggggccc catttttgag atggggtctc tgtcacccag 42750gttgtcaggc agtggggccc catttttgag atggggtctc tgtcacccag 42750

gttggagtgc ggtggtgctg tcatggctca ctgcaacctc agcctccccg 42800gttggagtgc ggtggtgctg tcatggctca ctgcaacctc agcctccccg 42800

ggctgggtct tcttaattct gaaaaaccca gcttttaaag ggtggaccta 42850ggctgggtct tcttaattct gaaaaaccca gcttttaaag ggtggaccta 42850

atcttatgtt ggtagacaat gttgtctcat ttaatacaat gcacatgctc 42900atcttatgtt ggtagacaat gttgtctcat ttaatacaat gcacatgctc 42900

tccccataac acaaaagagg gaactgaggc ctggaggtgt gatgtacccc 42950tccccataac acaaaagagg gaactgaggc ctggaggtgt gatgtacccc 42950

aagtcacata gctaataaat aaagaagcca gcattcctgg gattaaaaat 43000aagtcacata gctaataaat aaagaagcca gcattcctgg gattaaaaat 43000

gcatgtgtct gtcactgtgg tgtatttggt gcttgatcaa tgtttacttg 43050gcatgtgtct gtcactgtgg tgtatttggt gcttgatcaa tgtttacttg 43050

agcaaatgga ggggcagagg taccgatgag tgtgctcagt gaggagggca 43100agcaaatgga ggggcagagg taccgatgag tgtgctcagt gagggagggca 43100

ggagtgaagc tgggcgtctt cccgcctctt gtgagtggtg gggcttggtg 43150ggagtgaagc tgggcgtctt cccgcctctt gtgagtggtg gggcttggtg 43150

agcttgccag ggcctgtctt tcttatcaaa gaaggtgtgt gccccagtgt 43200agcttgccag ggcctgtctt tcttatcaaa gaaggtgtgt gccccagtgt 43200

tacagcattt cacccaaagc agcctagaaa atgcttgact tttctgtcat 43250tacagcattt cacccaaagc agcctagaaa atgcttgact tttctgtcat 43250

tccggggagg acactttcct cctccactgt tctgctggcc tggtgtaccc 43300tccggggagg acactttcct cctccactgt tctgctggcc tggtgtaccc 43300

acggcccctg atagatgata gcacctgcta aagtgcacca tgcccttccg 43350acggcccctg atagatgata gcacctgcta aagtgcacca tgcccttccg 43350

tctcactgca tcccacagat gaggccaggc tgggatgagg gagaaaggga 43400tctcactgca tcccacagat gaggccaggc tgggatgagg gagaaaggga 43400

gggatatata gttcaggtta ttttggaaaa ctgcctgacc aattttaagt 43450gggatatata gttcaggtta ttttggaaaa ctgcctgacc aattttaagt 43450

ctgggccgga cactggggca tctcaccacg ttgaaagggc cgtggcaccc 43500ctgggccgga cactggggca tctcaccacg ttgaaagggc cgtggcaccc 43500

cgggcggtga aaggggctgg aaccaggtct gcttcttggg cttctcctcc 43550cgggcggtga aaggggctgg aaccaggtct gcttcttggg cttctcctcc 43550

agggtgccat tgctcatggg ccttggctgc agaggtgctc attcgtggtt 43600agggtgccat tgctcatggg ccttggctgc agaggtgctc attcgtggtt 43600

ccaaaattcc aattcctggg agaggaaaaa tgcttagttc agtctcagtt 43650ccaaaattcc aattcctggg agaggaaaaa tgcttagttc agtctcagtt 43650

aggcctctgc ttagatcaaa cagccaaggc cagtaggccc agtcctatgg 43700aggcctctgc ttagatcaaa cagccaaggc cagtaggccc agtcctatgg 43700

tagagacatg gcctcaaaga gccctctgct gcagttgttg gggagtgtac 43750tagagacatg gcctcaaaga gccctctgct gcagttgttg gggagtgtac 43750

caagagaagg gagcattgtc ctgggctggg cagccctggg ggtctagtgc 43800caagagaagg gagcattgtc ctgggctggg cagccctggg ggtctagtgc 43800

atagatgtag aaaggctctg ttggtatacc tccctttgct tgttggaaag 43850atagatgtag aaaggctctg ttggtatacc tccctttgct tgttggaaag 43850

tgctcaacgg ggctgaattg tgtttgacag tgtaagtctg ggctggggtg 43900tgctcaacgg ggctgaattg tgtttgacag tgtaagtctg ggctggggtg 43900

agggttgtta caagattgtc aagatgatta aatgaaatgc catttgaaac 43950agggttgtta caagattgtc aagatgatta aatgaaatgc catttgaaac 43950

acttatccat gccttgtgta tggtatcccc accagtgaat attcacagta 44000acttatccat gccttgtgta tggtatcccc accagtgaat attcacagta 44000

tattataata attccaacaa cttcataatt ttcatatgca atttctaaac 44050tattataata attccaacaa cttcataatt ttcatatgca atttctaaac 44050

tttgaacttt tttttttttt tttttttttt tgagacagtg tctcgctctg 44100tttgaacttt tttttttttt tttttttttt tgagacagtg tctcgctctg 44100

ttgcccaggc tggagtgcag tggcgcaatc ttggctcact gcaacctcca 44150ttgcccaggc tggagtgcag tggcgcaatc ttggctcact gcaacctcca 44150

cctcccggct tcaagtgatt ctcctgcctc agcctcctga gtagctagga 44200cctcccggct tcaagtgatt ctcctgcctc agcctcctga gtagctagga 44200

atccaggcgc ccgccaccac acccagctaa tttttgtatt tttagtagag 44250atccaggcgc ccgccaccac acccagctaa tttttgtatt tttagtagag 44250

acgggctttc gccatgttgg ccaggctggt ctcaaactcc tgacctgagg 44300acgggctttc gccatgttgg ccaggctggt ctcaaactcc tgacctgagg 44300

tgatccaccg ccttggcctt ccaaagtgct aggattacat acgtgagcca 44350tgatccaccg ccttggcctt ccaaagtgct aggattacat acgtgagcca 44350

ctgtgcccgg caattttttg tgtttttagt agagatgggg tttcaccatg 44400ctgtgcccgg caattttttg tgtttttagt agagatgggg tttcaccatg 44400

ttggccaggc tggtctcgaa ctcctgacct caagtgatct gcccgcctca 44450ttggccaggc tggtctcgaa ctcctgacct caagtgatct gcccgcctca 44450

gcctccctaa tgctgggatt acaggtgtga gccaccacgc ccagcctaaa 44500gcctccctaa tgctgggatt acaggtgtga gccaccacgc ccagcctaaa 44500

ctttgaattt ctttgaaccc atgacttaca cagaattagc tgaacgcaga 44550ctttgaattt ctttgaaccc atgacttaca cagaattagc tgaacgcaga 44550

attccaaatc aactcagcct gtgggacagc caaaaaacac agtgtgcctt 44600attccaaatc aactcagcct gtgggacagc caaaaaacac agtgtgcctt 44600

tgggctcctt cactcaccac gcggggttag aaaactttgt cagaggcttt 44650tgggctcctt cactcaccac gcggggttag aaaactttgt cagaggcttt 44650

aaaaaaggag ctcttgtgtg taaaatgttt ccttgattct ctttctggtg 44700aaaaaaggag ctcttgtgtg taaaatgttt ccttgattct ctttctggtg 44700

cctctctttc tctaagtggt ttgcttcccc aagttcccca cctgagtctg 44750cctctctttc tctaagtggt ttgcttcccc aagttcccca cctgagtctg 44750

ggtggctgtg gcacatctgt gcattctgta cgcacacagg cagccttttg 44800ggtggctgtg gcacatctgt gcattctgta cgcacacagg cagccttttg 44800

gagtgccagt ttccaggtct tggttttatt tatttattta tttatttttt 44850gagtgccagt ttccaggtct tggttttatt tatttattta tttatttttt 44850

tgagatgggg gtctcactct gccgcccagg ctggagtgca gtggtgccgt 44900tgagatgggg gtctcactct gccgcccagg ctggagtgca gtggtgccgt 44900

catggctcac tgcaacctca acctccctgg gatcagttga gcctcctacc 44950catggctcac tgcaacctca acctccctgg gatcagttga gcctcctacc 44950

tcagcctcca gagtactagg gaccaccatg cctggcaaat ttttgtaatt 45000tcagcctcca gagtactagg gaccaccatg cctggcaaat ttttgtaatt 45000

ttttgtagag gcagagtctc accatgttgc tcaggctggt ctcgagctcc 45050ttttgtagag gcagagtctc accatgttgc tcaggctggt ctcgagctcc 45050

tagactcaag tgatctgccc accttggcct cccaagtgtt aggattacaa 45100tagactcaag tgatctgccc accttggcct cccaagtgtt aggattacaa 45100

gtgtgagcca ccatgcccag cccaggtcat cttttgaggg catggagaga 45150gtgtgagcca ccatgcccag cccaggtcat cttttgaggg catggagaga 45150

agactttgag catcccactt ttgagattgt gtaccagtcg caagccccta 45200agactttgag catcccactt ttgagattgt gtaccagtcg caagccccta 45200

tgacacactt tttccccaaa gtagagggct ctgactatgt tgatcccaag 45250tgacacactt tttccccaaa gtagagggct ctgactatgt tgatcccaag 45250

agagatggga aagagcattg aatgaggatt ccaaagtatt gggccttagt 45300agagatggga aagagcattg aatgaggatt ccaaagtatt gggccttagt 45300

tcgtttcctc atgttggtgt tgtgaagatt ctggttagga taacagcatg 45350tcgtttcctc atgttggtgt tgtgaagatt ctggttagga taacagcatg 45350

tgtgcaggag gctttgtgaa ctgctgagag tgaggcgtgg caatgtcagt 45400tgtgcaggag gctttgtgaa ctgctgagag tgaggcgtgg caatgtcagt 45400

gctaggtttg tccttactaa cctggggcca tgggaattga taagaccaga 45450gctaggtttg tccttactaa cctggggcca tgggaattga taagaccaga 45450

ttcccaactc taccccacaa tgtgatccct gtggtgaccc ctcacagggc 45500ttcccaactc taccccacaa tgtgatccct gtggtgaccc ctcacagggc 45500

tctttggtcg agcttcccag aagggatcac catctgccat tgtatgttga 45550tctttggtcg agcttcccag aagggatcac catctgccat tgtatgttga 45550

accccattca ttcattcatt cattcagcca accagcaact atttgttgag 45600accccattca ttcattcatt cattcagcca accagcaact atttgttgag 45600

ctcttattgt gtgagaagca gtcttcaagg aactgggtga ataaaaaaaa 45650ctcttattgt gtgagaagca gtcttcaagg aactgggtga ataaaaaaaa 45650

caaaacatcc taaccttcat tgagcttaca ttcttactga aagaaaacaa 45700caaaacatcc taaccttcat tgagcttaca ttcttactga aagaaaacaa 45700

ataaaacata catgtaatcc tagcactttg ggaggccaag gcaggcggat 45750ataaaacata catgtaatcc tagcactttg ggaggccaag gcaggcggat 45750

cacttgaggt caggaatttg aaaccagcct ggccaacgtg aaacccatct 45800cacttgaggt caggaatttg aaaccagcct ggccaacgtg aaacccatct 45800

ctactgaaaa ttaaaaaaaa aaaaaaaaaa aagccgggca tggtggcaca 45850ctactgaaaa ttaaaaaaaa aaaaaaaaaa aagccggggca tggtggcaca 45850

tgcctgtaat cccagctact cgcgaggcta aggcaggaga atcgcttgaa 45900tgcctgtaat cccagctact cgcgaggcta aggcaggaga atcgcttgaa 45900

tcctggaggc agaggttgca gtgagccaag atcataccat tatactccag 45950tcctggaggc agaggttgca gtgagccaag atcataccat tatactccag 45950

cctcagtgat gaagcaagac tccatctcaa aaataaaaaa taaaaataaa 46000cctcagtgat gaagcaagac tccatctcaa aaataaaaaa taaaaataaa 46000

aatatgcatt ccctttgcac cagcacactt ggtgcctggg gacctcgtgg 46050aatatgcatt ccctttgcac cagcacactt ggtgcctggg gacctcgtgg 46050

ttggcaccct gaagcaggtg tccctcttct gtcttgcaca ccttgcttct 46100ttggcaccct gaagcaggtg tccctcttct gtcttgcaca ccttgcttct 46100

gtcctggtgt gtatggcatg gccttctgcc ctccatggtg agcactgtga 46150gtcctggtgt gtatggcatg gccttctgcc ctccatggtg agcactgtga 46150

gggcagaggt tgagttgggt ttgctgtatt tctcaggtgc ctaggtttgt 46200gggcagaggt tgagttgggt ttgctgtatt tctcaggtgc ctaggtttgt 46200

gcttgacagg tagatggaag gcacacaatg tggtcatcaa acctcagtca 46250gcttgacagg tagatggaag gcacacaatg tggtcatcaa acctcagtca 46250

accatataag gaaggtagaa gtgaaaagtc ccataggtac ccaactaatg 46300accatataag gaaggtagaa gtgaaaagtc ccataggtac ccaactaatg 46300

tcaccagttt cctggatacc tttcctggag tttatttata gtgtgtataa 46350tcaccagttt cctggatacc tttcctggag tttatttata gtgtgtataa 46350

ataaatgatg tatgtgttta aatgcctttt tcacctttcc ttttagagct 46400ataaatgatg tatgtgttta aatgcctttt tcacctttcc ttttagagct 46400

gcctcttttt aacagttcca ttccattgta tggatgtact atgatttatt 46450gcctcttttt aacagttcca ttccattgta tggatgtact atgatttatt 46450

gaaccagttc cctactgatt attctgtttt ttgcagtctt ttgttatgat 46500gaaccagttc cctactgatt attctgtttt ttgcagtctt ttgttatgat 46500

gaacattcca cagtgacaat gttgttcata gtcattcaca cacatgcaag 46550gaacattcca cagtgacaat gttgttcata gtcattcaca cacatgcaag 46550

tccttctgca ggatatattt ctagagggga attgctgact cagaggtttt 46600tccttctgca ggatatattt ctagagggga attgctgact cagaggtttt 46600

ggtactctgt gttgattgta gagtgacggc agaaaagtga ggcccaagag 46650ggtactctgt gttgattgta gagtgacggc agaaaagtga ggcccaagag 46650

tttcctagtg accatgtgta gtggacaagt caccagtccc tgtgagtgtt 46700tttcctagtg accatgtgta gtggacaagt caccagtccc tgtgagtgtt 46700

tggcccaaag gctttaaggc atttgatatc actgtttttg tttctgcacc 46750tggcccaaag gctttaaggc atttgatatc actgtttttg tttctgcacc 46750

aggcgggaga cactatattc aatcgtgcta agctcctcaa tgttggcttt 46800aggcgggaga cactatattc aatcgtgcta agctcctcaa tgttggcttt 46800

caagaagcct tgaaggacta tgactacacc tgctttgtgt ttagtgacgt 46850caagaagcct tgaaggacta tgactacacc tgctttgtgt ttagtgacgt 46850

ggacctcatt ccaatgaatg accataatgc gtacaggtgt ttttcacagc 46900ggacctcatt ccaatgaatg accataatgc gtacaggtgt ttttcacagc 46900

cacggcacat ttccgttgca atggataagt ttggattcag gtaagagata 46950cacggcacat ttccgttgca atggataagt ttggattcag gtaagagata 46950

ctcagtcaga atctgtggta aacatgtctc tctcatgtgt tgactaggaa 47000ctcagtcaga atctgtggta aacatgtctc tctcatgtgt tgactaggaa 47000

atgcagtcct ggcagctcaa gagtgcctct ttaagctctg gagcagaatg 47050atgcagtcct ggcagctcaa gagtgcctct ttaagctctg gagcagaatg 47050

cctcctctga gaaatgggtg ctttgtatta gttgagatgg aaagaagaga 47100cctcctctga gaaatgggtg ctttgtatta gttgagatgg aaagaagaga 47100

ccagaaatgc ctgtagtctc tgcacatcca gacaaaaaca aattttcccc 47150ccagaaatgc ctgtagtctc tgcacatcca gacaaaaaca aattttcccc 47150

cctttttttt ttttgtttgt tttttgagac agggtctggc tctgtcaccc 47200cctttttttt ttttgtttgt tttttgagac agggtctggc tctgtcaccc 47200

aggctggagt gcagtgccgt gatcttggct caccgcaacc tctgcctccc 47250aggctggagt gcagtgccgt gatcttggct caccgcaacc tctgcctccc 47250

gggttcatgc catcctgtca cctcagcctc ctgagtagct gggactacaa 47300gggttcatgc catcctgtca cctcagcctc ctgagtagct gggactacaa 47300

acacttgcca ccatgcgcag ctaatttttg tatattttgt agagatgggg 47350acacttgcca ccatgcgcag ctaatttttg tatattttgt agagatgggg 47350

ttttgctgta ttgcccagtc tggtctcgaa ctcctgagct caagcaatcc 47400ttttgctgta ttgcccagtc tggtctcgaa ctcctgagct caagcaatcc 47400

atctgccttg gcctctcgaa gtgctggatt ataggcatgt ggcaccatgc 47450atctgccttg gcctctcgaa gtgctggatt ataggcatgt ggcaccatgc 47450

ctggcctaag aacagttttt agcatttggg aggggctctc atctttaagc 47500ctggcctaag aacagttttt agcatttggg aggggctctc atctttaagc 47500

tccaaatgat actgtatttt cttgcttttt tctttctctt gccccacaag 47550tccaaatgat actgtatttt cttgcttttt tctttctctt gccccacaag 47550

ttttggaaag taaattggaa tagttttccc ccactgaatt atttagcttg 47600ttttggaaag taaattggaa tagttttccc ccactgaatt atttagcttg 47600

tatacctcag cagatgttcc ttggcctgtt ttgttttgtt tttgagacag 47650tatacctcag cagatgttcc ttggcctgtt ttgttttgtt tttgagacag 47650

ggtcttgctc tgtcacccag gctggagtgc agtgacacaa tcatggctca 47700ggtcttgctc tgtcacccag gctggagtgc agtgacacaa tcatggctca 47700

ctgcagcctt gactgcctgg gctcaatcca tcctgcagcc tcagcctcct 47750ctgcagcctt gactgcctgg gctcaatcca tcctgcagcc tcagcctcct 47750

gagtagttgg gactacaggc atgagccagc atgtccagct aattttttat 47800gagtagttgg gactacaggc atgagccagc atgtccagct aattttttat 47800

ttttagtgga gatgaggtct ggctatgttg cccaagctgg gcttgaactc 47850ttttagtgga gatgaggtct ggctatgttg cccaagctgg gcttgaactc 47850

ttgggctcaa gtgatcctct cacctcagcc ttccaaagca ttgggattac 47900ttgggctcaa gtgatcctct cacctcagcc ttccaaagca ttgggattac 47900

aggtgtgaac cactgctccc gcccttggcc ctataagaag gaatgtgatt 47950aggtgtgaac cactgctccc gcccttggcc ctataagaag gaatgtgatt 47950

ctgttttcca gcagggcaca aacttctgct taaatacaaa gcccaaattt 48000ctgttttcca gcagggcaca aacttctgct taaatacaaa gcccaaattt 48000

ttccaccaaa atgcccctag tgaagtggcc agcccagatg cccgactagc 48050ttccaccaaa atgcccctag tgaagtggcc agcccagatg cccgactagc 48050

gtattatcca aagcatattg tcattggtgg aaaatggcct tatagtccat 48100gtattatcca aagcatattg tcattggtgg aaaatggcct tatagtccat 48100

tgttttgtct taaaagtaaa tatataaata aacttgtata ttgtttccta 48150tgttttgtct taaaagtaaa tatataaata aacttgtata ttgtttccta 48150

attccgtgtt tatattaaca taaaagtgtt ttaaattacc tgtcagtggc 48200attccgtgtt tatattaaca taaaagtgtt ttaaattacc tgtcagtggc 48200

caggtgcagt ggctcgtgcc tgtaatcgca gcactttggg aggccgaggc 48250caggtgcagt ggctcgtgcc tgtaatcgca gcactttggg aggccgaggc 48250

gggcagatca cctgaggtca ggagttcgag accagcctga ccagcatggt 48300gggcagatca cctgaggtca ggagttcgag accagcctga ccagcatggt 48300

gaaaccctgt ctctactaaa aatacaaaaa ttagccaggt gtggtggcag 48350gaaaccctgt ctctactaaa aatacaaaaa ttagccaggt gtggtggcag 48350

gtgcctgtaa tcccagctac tcgggaagct gaggcaggag aattgcttga 48400gtgcctgtaa tcccagctac tcgggaagct gaggcaggag aattgcttga 48400

acccgggagg cagaggttgc agtgagttga gatcgcgcca ttgaacttca 48450acccgggagg cagaggttgc agtgagttga gatcgcgcca ttgaacttca 48450

acttgggcaa cagagcaaga ctctgtctca gagaaagaaa aaaaaaaacc 48500acttgggcaa cagagcaaga ctctgtctca gagaaagaaa aaaaaaaacc 48500

tatcagttga ataacaaaac cctttccttc cttgctttaa gtgaatctga 48550tatcagttga ataacaaaac cctttccttc cttgctttaa gtgaatctga 48550

agatccagga gctgtgctgc aggtaccctc tatgttgggt acccctggtt 48600agatccagga gctgtgctgc aggtaccctc tatgttgggt acccctggtt 48600

taggctgact agtacagtgt ggttggctca tgtagacagc agacccttta 48650taggctgact agtacagtgt ggttggctca tgtagacagc agacccttta 48650

ttttagatac aacttttttt ctttttcttt tatttttttt gagacagagt 48700ttttagatac aacttttttt ctttttcttt tatttttttt gagacagagt 48700

cttgcttgtc acccagcctg gagtgcagtg gcgtgatcat ggctcactat 48750cttgcttgtc acccagcctg gagtgcagtg gcgtgatcat ggctcactat 48750

agccttaaac tccctggctc aagtgatcct ctcacctcgg ctttcctagt 48800agccttaaac tccctggctc aagtgatcct ctcacctcgg ctttcctagt 48800

agctgggacc acaggtgtgg gccagcaccc ctggctgatt taaaaaaaaa 48850agctgggacc acaggtgtgg gccagcaccc ctggctgatt taaaaaaaaa 48850

aaaatttttt tttttagaga tgtctcacta tgttacccag gctggtcttg 48900aaaatttttt tttttagaga tgtctcacta tgttacccag gctggtcttg 48900

aactcctggg ggctcaagca atcctcctgc tttgacctcc caaagtgctg 48950aactcctggg ggctcaagca atcctcctgc tttgacctcc caaagtgctg 48950

ggatgacagg catgaactac tgcacctgct gagatgcaac agctttctgt 49000ggatgacagg catgaactac tgcacctgct gagatgcaac agctttctgt 49000

cagactcatt ttattctcat catttcttcc tgtcctccct tgctgggagc 49050cagactcatt ttattctcat catttcttcc tgtcctccct tgctgggagc 49050

atgagagctg tgatgggaat ataggaatgt atgaagtcct tctcccagat 49100atgagagctg tgatgggaat ataggaatgt atgaagtcct tctcccagat 49100

caaaaatcct aacttcttgt cttaaaggga ggaaaatttg aatgtaacct 49150caaaaatcct aacttcttgt cttaaaggga ggaaaatttg aatgtaacct 49150

tacttttaga ctcttcagaa atccttctat acccttccgt ccccgctttc 49200tacttttaga ctcttcagaa atccttctat acccttccgt ccccgctttc 49200

acccttcctc cctctccgtg tgtgtatctt cttctcttga aacacacagg 49250acccttcctc cctctccgtg tgtgtatctt cttctcttga aacacacagg 49250

tttataccct gacccctctt gattcatccc ttgaagcaca gtggtgaaca 49300tttataccct gacccctctt gattcatccc ttgaagcaca gtggtgaaca 49300

aggaaggggc ccgtgatgcc ctaattcttt gccacagcac catgtttgtt 49350aggaaggggc ccgtgatgcc ctaattcttt gccacagcac catgtttgtt 49350

tcacaaggag cctggcaggt ttgggcttgg ggcagatagg ggagagaaag 49400tcacaaggag cctggcaggt ttgggcttgg ggcagatagg ggagagaaag 49400

cagcagagac agcaaaacca aatcatgtca gcttggcatg tacttccctc 49450cagcagagac agcaaaacca aatcatgtca gcttggcatg tacttccctc 49450

tgaaatagct aagaatccat ttctgtaaaa gcactgatta tcagaaaacc 49500tgaaatagct aagaatccat ttctgtaaaa gcactgatta tcagaaaacc 49500

ttattggcct ggccaccttt ggttcaaacc ctcacattaa taatgtggac 49550ttattggcct ggccaccttt ggttcaaacc ctcacattaa taatgtggac 49550

agtagtatga ggtgtgccaa aggtggatga ctcagcacct aagtgatgac 49600agtagtatga ggtgtgccaa aggtggatga ctcagcacct aagtgatgac 49600

acctaattac gaataggttc attaaagcag accccctggg gacctttgct 49650acctaattac gaataggttc attaaagcag accccctggg gacctttgct 49650

tgaggatcct tacagtcaga attcctgaat atatttgaaa ataataattg 49700tgaggatcct tacagtcaga attcctgaat atatttgaaa aataataattg 49700

catctttatt ttcatatgtt ctgtatggtt tggctgactt ccccctcaaa 49750catctttatt ttcatatgtt ctgtatggtt tggctgactt ccccctcaaa 49750

gtctgagtta gagttttcct taatttatgt gatgggtttg gtctttttgg 49800gtctgagtta gagttttcct taatttatgt gatgggtttg gtctttttgg 49800

attccagaaa gagctgggtg tggtttggag ctgcactcag agtcacacaa 49850attccagaaa gagctgggtg tggtttggag ctgcactcag agtcacacaa 49850

aaccacagcc tttagagaac ccacaggaag gctttggggc acgtcctgat 49900aaccacagcc tttagagaac ccacaggaag gctttggggc acgtcctgat 49900

tcttgacatt tctcatcagt gctgactttg tatcccttag gagttcacaa 49950tcttgacatt tctcatcagt gctgactttg tatcccttag gagttcacaa 49950

ttcataacca ctgaaatatt aaaatacaaa aagttttgga aggatgagag 50000ttcataacca ctgaaatatt aaaatacaaa aagttttgga aggatgagag 50000

cccagatgct ctactacttg aaaatatgtt aaaacataag ttcatcatta 50050cccagatgct ctactacttg aaaatatgtt aaaacataag ttcatcatta 50050

tacattttgc taaatcagga taaagtctga agtttcaaag aagttttatt 50100tacattttgc taaatcagga taaagtctga agtttcaaag aagttttatt 50100

ttagcaaatt ttcagaaaca ctgcctcaac tgttagggcc agtgttctag 50150ttagcaaatt ttcagaaaca ctgcctcaac tgttagggcc agtgttctag 50150

tcagtatgcc tttggaagca tgaaagctgg attggtcgat aggatgggtg 50200tcagtatgcc tttggaagca tgaaagctgg attggtcgat aggatgggtg 50200

tggaaggggg gctgtgactg ggtgggtaca gagaggctct gaaacaatct 50250tggaaggggg gctgtgactg ggtgggtaca gagaggctct gaaacaatct 50250

cagattccag gagttcctgg ataaggactt catgtgcggg aacagagcac 50300cagattccag gagttcctgg ataaggactt catgtgcggg aacagagcac 50300

aggagaagca gattcctgag ccactcagga agaactgggc ctaggcctgc 50350aggagaagca gattcctgag ccactcagga agaactgggc ctaggcctgc 50350

tcttgtcact gactggcttt ctacataacc acagaaacag cactgtgttg 50400tcttgtcact gactggcttt ctacataacc acagaaacag cactgtgttg 50400

tagaaagagg aagatcatac tttttgatat ctgtgtctaa tttaaggtca 50450tagaaagagg aagatcatac tttttgatat ctgtgtctaa tttaaggtca 50450

tctgagccct gatagaaaag caaaacagac aaaacccttg taactgctcc 50500tctgagccct gatagaaaag caaaacagac aaaacccttg taactgctcc 50500

ctcccacccc acccaccatc aaaaaagctt tagagaggct ggacatggtg 50550ctcccacccc acccaccatc aaaaaagctt tagagaggct ggacatggtg 50550

gctcttgcct gtgatcccag cactttggga ggctaaggtg ggtggatcac 50600gctcttgcct gtgatcccag cactttggga ggctaaggtg ggtggatcac 50600

ctgaggtcag gagttcgaga ccagcctgac caatatggtg aaaccccatc 50650ctgaggtcag gagttcgaga ccagcctgac caatatggtg aaaccccatc 50650

tgtactaaaa atacaaaaat tagccaggtg tggtggcaca cgcctgtagt 50700tgtactaaaa atacaaaaat tagccaggtg tggtggcaca cgcctgtagt 50700

cccagctact tgggaggctg agacaggaga attacttgaa aacctgggag 50750cccagctact tgggaggctg agacaggaga attacttgaa aacctgggag 50750

gcggaggttg cagtgagccg agatcacgcc attgtactcc agcctgggct 50800gcggaggttg cagtgagccg agatcacgcc attgtactcc agcctgggct 50800

acagagcgag actccttcaa aaaaaaaaaa aaaaaaagat ccggtttggt 50850acagagcgag actccttcaa aaaaaaaaaa aaaaaaagat ccggtttggt 50850

gtcttacaac tgtaatccca gcactttggg aggccgaggc cggtggatca 50900gtcttacaac tgtaatccca gcactttggg aggccgaggc cggtggatca 50900

cgaggttaag agatcaagac catcctgacc aacatggtga aaccctgtct 50950cgaggttaag agatcaagac catcctgacc aacatggtga aaccctgtct 50950

ctactaaaaa ttagctgggc gtggtggcag gcgcctgtag tcccagctcc 51000ctactaaaaa ttagctgggc gtggtggcag gcgcctgtag tcccagctcc 51000

tcaggaggct gaggcagaag aatcgcttga acccgggagg cggaagttgc 51050tcaggaggct gaggcagaag aatcgcttga acccgggagg cggaagttgc 51050

agtgagccta gatcgcgccc ctgcactcca gcctggcaac agagcaagac 51100agtgagccta gatcgcgccc ctgcactcca gcctggcaac agagcaagac 51100

tacgtctcaa aaaaaaaata aataaaaact ctagagaagc aaaaagaata 51150tacgtctcaa aaaaaaaata aataaaaact ctagagaagc aaaaagaata 51150

actttaaaag tgtttatgtt ctcagcaagc tttattttgg ggatgtcaga 51200actttaaaag tgtttatgtt ctcagcaagc tttattttgg ggatgtcaga 51200

acttaactaa ccactgctcc ttctgtgtgt atgtttttcc tccagcctac 51250acttaactaa ccactgctcc ttctgtgtgt atgtttttcc tccagcctac 51250

cttatgttca gtattttgga ggtgtctctg ctctaagtaa acaacagttt 51300cttatgttca gtattttgga ggtgtctctg ctctaagtaa acaacagttt 51300

ctaaccatca atggatttcc taataattat tggggctggg gaggagaaga 51350ctaaccatca atggatttcc taataattat tggggctggg gaggagaaga 51350

tgatgacatt tttaacaggt aatggtcata acttagatat ctttctcctc 51400tgatgacatt tttaacaggt aatggtcata acttagatat ctttctcctc 51400

tgtcaacctt cacttccagt tttttaacca atgcttggtt gttccccaag 51450tgtcaacctt cacttccagt tttttaacca atgcttggtt gttccccaag 51450

gactgaccct cagatgggat gcacccctag tcagcccaca ttcttaggtg 51500gactgaccct cagatgggat gcacccctag tcagcccaca ttcttaggtg 51500

tggcttccta caggtcctgc aggtgctaaa agggatctgt aggaaaatga 51550tggcttccta caggtcctgc aggtgctaaa agggatctgt aggaaaatga 51550

gtttctgaga tttttgtatt ggcctggaaa aatgtcaaat gggaaccaag 51600gtttctgaga tttttgtatt ggcctggaaa aatgtcaaat gggaaccaag 51600

tgacggggca agtttacttt gacttgctgc atgccgtttt gtactcaagg 51650tgacggggca agtttacttt gacttgctgc atgccgtttt gtactcaagg 51650

agtaaaccaa tgtcctttgt aaaaatccct cctttcatta tggtcccctt 51700agtaaaccaa tgtcctttgt aaaaatccct cctttcatta tggtcccctt 51700

tcactgtgaa acaagtttcc ttgagcagaa tcctaactgt cttcacagaa 51750tcactgtgaa acaagtttcc ttgagcagaa tcctaactgt cttcacagaa 51750

gctttgtgtt atatttttat tttggagtat tttcacatat acaaaagaga 51800gctttgtgtt atatttttat tttggagtat tttcacatat acaaaagaga 51800

tactgtagta taataaacct ttgaggacct atccagcccc agcaaccatt 51850tactgtagta taataaacct ttgaggacct atccagcccc agcaaccatt 51850

atggcctggt cagttctgtc ccatccacat cctggggctc tttttaagct 51900atggcctggt cagttctgtc ccatccacat cctggggctc tttttaagct 51900

ggtaaatcat tatgatgtgg gttgtcattt acagtggtaa aaaacatcta 51950ggtaaatcat tatgatgtgg gttgtcattt acagtggtaa aaaacatcta 51950

tcagtagcat ttgaaagaac attctgctca gtcctctggc tgtagaggct 52000tcagtagcat ttgaaagaac attctgctca gtcctctggc tgtagaggct 52000

tcaaccccac cagccaccga tgagcacctt ctccctccag gagccagtct 52050tcaaccccac cagccaccga tgagcacctt ctccctccag gagccagtct 52050

gagctcatta ctgagtttaa tatcagaata caccctggtg cagcctttct 52100gagctcatta ctgagtttaa tatcagaata caccctggtg cagcctttct 52100

aaattgcagt accagttaac agaaggtgtc tgtcagagca acacccaagt 52150aaattgcagt accagttaac agaaggtgtc tgtcagagca acacccaagt 52150

cattcaagtt accattgtgt gcaaacttaa cagagaccca cgtcttcaat 52200cattcaagtt accattgtgt gcaaacttaa cagagaccca cgtcttcaat 52200

ataagccttg aaggaaactc cagttttagt atgtagatgg ggtatcaagt 52250ataagccttg aaggaaactc cagttttagt atgtagatgg ggtatcaagt 52250

gtgtgcacat tgaacatctg ctgcatacag agcactgtgc caggcaggcc 52300gtgtgcacat tgaacatctg ctgcatacag agcactgtgc caggcaggcc 52300

caggacactg aaaacctgga catagggtcc agacagaagc aagcctgctt 52350caggacactg aaaacctgga catagggtcc agacagaagc aagcctgctt 52350

ccacagaggc actcctgggc agacactctg gactgatatg acagtgtgca 52400ccacagaggc actcctgggc agacactctg gactgatatg acagtgtgca 52400

gggccgacag gataccacag gtctgaatgg tcagaacagc tggggaggga 52450gggccgacag gataccacag gtctgaatgg tcagaacagc tggggaggga 52450

gggagcatcc gcaggcatct agtcccatgc taacgcagtg gcactagaag 52500gggagcatcc gcaggcatct agtcccatgc taacgcagtg gcactagaag 52500

gatgggtggt gtgtggagca actttcttga aagataaagg acctaacact 52550gatgggtggt gtgtggagca actttcttga aagataaagg acctaacact 52550

ttctatgcac cacttactgt gtgccaggca aggccaggaa tgtttaagtg 52600ttctatgcac cacttactgt gtgccaggca aggccaggaa tgtttaagtg 52600

gtctgggatc agccagttct gcctcttaac taactttgct gtcctgctct 52650gtctgggatc agccagttct gcctcttaac taactttgct gtcctgctct 52650

ccaggctttc attttggtcc tcattccttt tccttggacc aacacagaat 52700ccaggctttc attttggtcc tcattccttt tccttggacc aacacagaat 52700

cctccaccct gttctggctg cctctagtct tgttctcagc cctccatttg 52750cctccaccct gttctggctg cctctagtct tgttctcagc cctccattg 52750

tttttttctg ccttttccca catgttctga agccctccat tcgtatacta 52800tttttttctg ccttttccca catgttctga agccctccat tcgtatacta 52800

ctttccagag acttccccat ggctaaaagc attttggaaa tactgtatat 52850ctttccagag acttccccat ggctaaaagc attttggaaa tactgtatat 52850

taggcccctt tcagatactg gcaaccgttt gtgggatgct ctgagaaggc 52900taggcccctt tcagatactg gcaaccgttt gtgggatgct ctgagaaggc 52900

ctctgtgact tagcctggcc cttttcagcc catcacctgc cacgtcctac 52950ctctgtgact tagcctggcc cttttcagcc catcacctgc cacgtcctac 52950

cccagaccct tgtcaccagt ccccaggagc ttacgttgct ccctgagggc 53000cccagaccct tgtcaccagt ccccaggagc ttacgttgct ccctgagggc 53000

actaggcttg ctctcacttc catgcctttg cctgtgccat cctggctgcc 53050actaggcttg ctctcacttc catgcctttg cctgtgccat cctggctgcc 53050

caaaatgcta tggcagatac ctgttcatcc tcaactgggc tctgcctagg 53100caaaatgcta tggcagatac ctgttcatcc tcaactgggc tctgcctagg 53100

cttgctccag cagaggttac aaactctatg cttcttcctc tgtgtctcca 53150cttgctccag cagaggttac aaactctatg cttcttcctc tgtgtctcca 53150

acctcatctt cctcttctca cctccatcct ggccctaaag gccctatgtt 53200acctcatctt cctcttctca cctccatcct ggccctaaag gccctatgtt 53200

tgaagcattc acactgtata ttctgtgggg cacacggccc cagtgtctgg 53250tgaagcattc acactgtata ttctgtgggg cacacggccc cagtgtctgg 53250

cacatggtag tcaacaccac aaaccgcaga accagttgta aaaggacatg 53300cacatggtag tcaacaccac aaaccgcaga accagttgta aaaggacatg 53300

gagtcggaat gtgagtttta accagggtca tgctgggctg ggttctggca 53350gagtcggaat gtgagtttta accagggtca tgctgggctg ggttctggca 53350

tgatgctggg ttgtgggctg agtgagaaca gcaagggtga tggtggatgg 53400tgatgctggg ttgtgggctg agtgagaaca gcaagggtga tggtggatgg 53400

agcaacagtc ttgcagccgg ggctctcagg ccaagtgtat ggcagctctg 53450agcaacagtc ttgcagccgg ggctctcagg ccaagtgtat ggcagctctg 53450

tgataatgac tttcccttta ctctttgcag attagttttt agaggcatgt 53500tgataatgac tttcccttta ctctttgcag attagttttt agaggcatgt 53500

ctatatctcg cccaaatgct gtggtcggga ggtgtcgcat gatccgccac 53550ctatatctcg cccaaatgct gtggtcggga ggtgtcgcat gatccgccac 53550

tcaagagaca agaaaaatga acccagtcct cagaggtgca ttctttgttt 53600tcaagagaca agaaaaatga acccagtcct cagaggtgca ttctttgttt 53600

attcatactc cttccccctt taggatgagg taggctgcag gtccgaggct 53650attcatactc cttccccctt taggatgagg taggctgcag gtccgaggct 53650

ctgggcctag agggaaattg aggtggtcag gttacagtgg agagggagga 53700ctgggcctag agggaaattg aggtggtcag gttacagtgg agagggagga 53700

ggaagtacgt gtgatgattt cttcttaaga tttttgtttt aagacaatct 53750ggaagtacgt gtgatgattt cttcttaaga tttttgtttt aagacaatct 53750

ccttgtgctc ttttccttgt aggtttgacc gaattgcaca cacaaaggag 53800ccttgtgctc ttttccttgt aggtttgacc gaattgcaca cacaaaggag 53800

acaatgctct ctgatggttt gaactcactc acctaccagg tgctggatgt 53850acaatgctct ctgatggttt gaactcactc acctaccagg tgctggatgt 53850

acagagatac ccattgtata cccaaatcac agtggacatc gggacaccga 53900acagagatac ccattgtata cccaaatcac agtggacatc gggacaccga 53900

gctagcgttt tggtacacgg ataagagacc tgaaattagc cagggacctc 53950gctagcgttt tggtacacgg ataagagacc tgaaattagc cagggacctc 53950

tgctgtgtgt ctctgccaat ctgctgggct ggtccctctc atttttacca 54000tgctgtgtgt ctctgccaat ctgctgggct ggtccctctc atttttacca 54000

gtctgagtga caggtcccct tcgctcatca ttcagatggc tttccagatg 54050gtctgagtga caggtcccct tcgctcatca ttcagatggc tttccagatg 54050

accaggacga gtgggatatt ttgcccccaa cttggctcgg catgtgaatt 54100accaggacga gtgggatatt ttgcccccaa cttggctcgg catgtgaatt 54100

cttagctctg caaggtgttt atgcctttgc gggtttcttg atgtgttcgc 54150cttagctctg caaggtgttt atgcctttgc gggtttcttg atgtgttcgc 54150

agtgtcaccc cagagtcaga actgtacaca tcccaaaatt tggtggccgt 54200agtgtcaccc cagagtcaga actgtacaca tcccaaaatt tggtggccgt 54200

ggaacacatt cccggtgata gaattgctaa attgtcgtga aataggttag 54250ggaacacatt cccggtgata gaattgctaa attgtcgtga aataggttag 54250

aatttttctt taaattatgg ttttcttatt cgtgaaaatt cggagagtgc 54300aatttttctt taaattatgg ttttcttatt cgtgaaaatt cggagagtgc 54300

tgctaaaatt ggattggtgt gatctttttg gtagttgtaa tttaacagaa 54350tgctaaaatt ggattggtgt gatctttttg gtagttgtaa tttaacagaa 54350

aaacacaaaa tttcaaccat tcttaatgtt acgtcctccc cccaccccct 54400aaacacaaaa tttcaaccat tcttaatgtt acgtcctccc cccaccccct 54400

tctttcagtg gtatgcaacc actgcaatca ctgtgcatat gtcttttctt 54450tctttcagtg gtatgcaacc actgcaatca ctgtgcatat gtcttttctt 54450

agcaaaagga ttttaaaact tgagccctgg accttttgtc ctatgtgtgt 54500agcaaaagga ttttaaaact tgagccctgg accttttgtc ctatgtgtgt 54500

ggattccagg gcaactctag catcagagca aaagccttgg gtttctcgca 54550ggattccagg gcaactctag catcagagca aaagccttgg gtttctcgca 54550

ttcagtggcc tatctccaga ttgtctgatt tctgaatgta aagttgttgt 54600ttcagtggcc tatctccaga ttgtctgatt tctgaatgta aagttgttgt 54600

gttttttttt aaatagtagt ttgtagtatt ttaaagaaag aacagatcga 54650gttttttttt aaatagtagt ttgtagtatt ttaaagaaag aacagatcga 54650

gttctaatta tgatctagct tgattttgtg ttgatccaaa tttgcatagc 54700gttctaatta tgatctagct tgattttgtg ttgatccaaa tttgcatagc 54700

tgtttaatgt taagtcatga caatttattt ttcttggcat gctatgtaaa 54750tgtttaatgt taagtcatga caatttattt ttcttggcat gctatgtaaa 54750

cttgaatttc ctatgtattt ttattgtggt gttttaaata tggggagggg 54800cttgaatttc ctatgtattt ttattgtggt gttttaaata tggggagggg 54800

tattgagcat tttttaggga gaaaaataaa tatatgctgt agtggccaca 54850tattgagcat tttttaggga gaaaaataaa tatatgctgt agtggccaca 54850

aataggccta tgatttagct ggcaggccag gttttctcaa gagcaaaatc 54900aataggccta tgatttagct ggcaggccag gttttctcaa gagcaaaatc 54900

accctctggc cccttggcag gtaaggcctc ccggtcagca ttatcctgcc 54950accctctggc cccttggcag gtaaggcctc ccggtcagca ttatcctgcc 54950

agacctcggg gaggatacct gggagacaga agcctctgca cctactgtgc 55000agacctcggg gaggatacct gggagacaga agcctctgca cctactgtgc 55000

agaactctcc acttccccaa ccctccccag gtgggcaggg cggagggagc 55050agaactctcc acttccccaa ccctccccag gtgggcaggg cggagggagc 55050

ctcagcctcc ttagactgac ccctcaggcc cctaggctgg ggggttgtaa 55100ctcagcctcc ttagactgac ccctcaggcc cctaggctgg ggggttgtaa 55100

ataacagcag tcaggttgtt taccagccct ttgcacctcc ccaggcagag 55150ataacagcag tcaggttgtt taccagccct ttgcacctcc ccaggcagag 55150

ggagcctctg ttctggtggg ggccacctcc ctcagaggct ctgctagcca 55200ggagcctctg ttctggtggg ggccacctcc ctcagaggct ctgctagcca 55200

cactccgtgg cccacccttt gttaccagtt cttcctcctt cctcttttcc 55250cactccgtgg cccacccttt gttaccagtt cttcctcctt cctcttttcc 55250

cctgcctttc tcattccttc cttcgtctcc ctttttgttc ctttgcctct 55300cctgcctttc tcattccttc cttcgtctcc ctttttgttc ctttgcctct 55300

tgcctgtccc ctaaaacttg actgtggcac tcagggtcaa acagactatc 55350tgcctgtccc ctaaaacttg actgtggcac tcaggtcaa acagactatc 55350

cattccccag catgaatgtg ccttttaatt agtgatctag aaagaagttc 55400cattccccag catgaatgtg ccttttaatt agtgatctag aaagaagttc 55400

agccgaaccc acaccccaac tccctcccaa gaacttcggt gcctaaagcc 55450agccgaaccc acaccccaac tccctcccaa gaacttcggt gcctaaagcc 55450

tcctgttcca cctcaggttt tcacaggtgc tcccacccca gttgaggctc 55500tcctgttcca cctcaggttt tcacaggtgc tcccacccca gttgaggctc 55500

ccacccacag ggctgtctgt cacaaaccca cctctgttgg gagctattga 55550ccacccacag ggctgtctgt cacaaaccca cctctgttgg gagctattga 55550

gccacctggg atgagatgac acaaggcact cctaccactg agcgcctttg 55600gccacctggg atgagatgac acaaggcact cctaccactg agcgcctttg 55600

ccaggtccag cctgggctca ggttccaaga ctcagctgcc taatcccagg 55650ccaggtccag cctgggctca ggttccaaga ctcagctgcc taatcccagg 55650

gttgagcctt gtgctcgtgg cggaccccaa accactgccc tcctgggtac 55700gttgagcctt gtgctcgtgg cggaccccaa accactgccc tcctgggtac 55700

cagccctcag tgtggaggct gagctggtgc ctggccccag tcttatctgt 55750cagccctcag tgtggaggct gagctggtgc ctggccccag tcttatctgt 55750

gcctttactg ctttgcgcat ctcagatgct aacttggttc tttttccaga 55800gcctttactg ctttgcgcat ctcagatgct aacttggttc tttttccaga 55800

agcctttgta ttggttaaaa attattttcc attgcagaag cagctggact 55850agcctttgta ttggttaaaa attattttcc attgcagaag cagctggact 55850

atgcaaaaag tatttctctg tcagttcccc actctatacc aaggatatta 55900atgcaaaaag tatttctctg tcagttcccc actctatacc aaggatatta 55900

ttaaaactag aaatgactgc attgagaggg agttgtggga aataagaaga 55950ttaaaactag aaatgactgc attgagaggg agttgtggga aataagaaga 55950

atgaaagcct ctctttctgt ccgcagatcc tgacttttcc aaagtgcctt 56000atgaaagcct ctctttctgt ccgcagatcc tgacttttcc aaagtgcctt 56000

aaaagaaatc agacaaatgc cctgagtggt aacttctgtg ttattttact 56050aaaagaaatc agacaaatgc cctgagtggt aacttctgtg ttattttact 56050

cttaaaacca aactctacct tttcttgttg tttttttttt tttttttttt 56100cttaaaacca aactctacct tttcttgttg tttttttttt tttttttttt 56100

ttttttttgg ttaccttctc attcatgtca agtatgtggt tcattcttag 56150ttttttttgg ttaccttctc attcatgtca agtatgtggt tcattcttag 56150

aaccaaggga aatactgctc cccccatttg ctgacgtagt gctctcatgg 56200aaccaaggga aatactgctc cccccatttg ctgacgtagt gctctcatgg 56200

gctcacctgg gcccaaggca cagccagggc acagttaggc ctggatgttt 56250gctcacctgg gcccaaggca cagccagggc acagttaggc ctggatgttt 56250

gcctggtccg tgagatgccg cgggtcctgt ttccttactg gggatttcag 56300gcctggtccg tgagatgccg cgggtcctgt ttccttactg gggatttcag 56300

ggctgggggt tcagggagca tttccttttc ctgggagtta tgaccgcgaa 56350ggctggggggt tcagggagca tttccttttc ctgggagtta tgaccgcgaa 56350

gttgtcatgt gccgtgccct tttctgtttc tgtgtatcct attgctggtg 56400gttgtcatgt gccgtgccct tttctgtttc tgtgtatcct attgctggtg 56400

actctgtgtg aactggcctt tgggaaagat cagagagggc agaggtggca 56450actctgtgtg aactggcctt tgggaaagat cagagagggc agaggtggca 56450

caggacagta aaggagatgc tgtgctggcc ttcagcctgg acagggtctc 56500caggacagta aaggatgc tgtgctggcc ttcagcctgg acagggtctc 56500

tgctgactgc caggggcggg ggctctgcat agccaggatg acggctttca 56550tgctgactgc caggggcggg ggctctgcat agccaggatg acggctttca 56550

tgtcccagag acctgttgtg ctgtgtattt tgatttcctg tgtatgcaaa 56600tgtcccagag acctgttgtg ctgtgtattt tgatttcctg tgtatgcaaa 56600

tgtgtgtatt taccattgtg tagggggctg tgtctgatct tggtgttcaa 56650tgtgtgtatt taccattgtg tagggggctg tgtctgatct tggtgttcaa 56650

aacagaactg tatttttgcc tttaaaatta aataatataa cgtgaataaa 56700aacagaactg tatttttgcc tttaaaatta aataatataa cgtgaataaa 56700

tgaccctatc tttgtaac 56718tgaccctatc tttgtaac 56718

<210> 3<210> 3

<211> 4214<211> 4214

<212> ДНК<212> DNA

<213> Homo sapien<213> Homo sapien

<220><220>

<223> последовательность мРНК B4GALT1 дикого типа<223> wild-type B4GALT1 mRNA sequence

<400> 3<400> 3

gcgccucggg cggcuucucg ccgcucccag gucuggcugg cuggaggagu 50gcgccucggg cggcuucucg ccgcucccag gucuggcugg cuggaggagu 50

cucagcucuc agccgcucgc ccgcccccgc uccgggcccu ccccuagucg 100cucagcucuc agccgcucgc ccgcccccgc uccgggcccu ccccuagucg 100

ccgcuguggg gcagcgccug gcgggcggcc cgcgggcggg ucgccucccc 150ccgcuguggg gcagcgccug gcgggcggcc cgcgggcggg ucgccucccc 150

uccuguagcc cacacccuuc uuaaagcggc ggcgggaaga ugaggcuucg 200uccuguagcc cacacccuuc uuaaagcggc ggcgggaaga ugaggcuucg 200

ggagccgcuc cugagcggca gcgccgcgau gccaggcgcg ucccuacagc 250ggagccgcuc cugagcggca gcgccgcgau gccaggcgcg ucccuacagc 250

gggccugccg ccugcucgug gccgucugcg cucugcaccu uggcgucacc 300gggccugccg ccugcucgug gccgucugcg cucugcaccu uggcgucacc 300

cucguuuacu accuggcugg ccgcgaccug agccgccugc cccaacuggu 350cucguuuacu accuggcugg ccgcgaccug agccgccugc cccaacuggu 350

cggagucucc acaccgcugc agggcggcuc gaacagugcc gccgccaucg 400cggagucucc acaccgcugc agggcggcuc gaacagugcc gccgccaucg 400

ggcaguccuc cggggagcuc cggaccggag gggcccggcc gccgccuccu 450ggcaguccuc cggggagcuc cggaccggag gggcccggcc gccgccuccu 450

cuaggcgccu ccucccagcc gcgcccgggu ggcgacucca gcccagucgu 500cuaggcgccu ccucccagcc gcgcccgggu ggcgacucca gcccagucgu 500

ggauucuggc ccuggccccg cuagcaacuu gaccucgguc ccagugcccc 550ggauucuggc ccuggccccg cuagcaacuu gaccucgguc ccagugcccc 550

acaccaccgc acugucgcug cccgccugcc cugaggaguc cccgcugcuu 600acaccaccgc acugucgcug cccgccugcc cugaggaguc cccgcugcuu 600

gugggcccca ugcugauuga guuuaacaug ccuguggacc uggagcucgu 650gugggcccca ugcugauuga guuuaacaug ccuguggacc uggagcucgu 650

ggcaaagcag aacccaaaug ugaagauggg cggccgcuau gcccccaggg 700ggcaaagcag aacccaaaug ugaagauggg cggccgcuau gccccccagg 700

acugcgucuc uccucacaag guggccauca ucauuccauu ccgcaaccgg 750acugcgucuc uccucacaag guggccauca ucauuccauu ccgcaaccgg 750

caggagcacc ucaaguacug gcuauauuau uugcacccag uccugcagcg 800caggagcacc ucaaguacug gcuauauuau uugcacccag uccugcagcg 800

ccagcagcug gacuauggca ucuauguuau caaccaggcg ggagacacua 850ccagcagcug gacuauggca ucuauguuau caaccaggcg ggagacacua 850

uauucaaucg ugcuaagcuc cucaauguug gcuuucaaga agccuugaag 900uauucaaucg ugcuaagcuc cucaauguug gcuuucaaga agccuugaag 900

gacuaugacu acaccugcuu uguguuuagu gacguggacc ucauuccaau 950gacuaugacu acaccugcuu uguguuuagu gacguggacc ucauuccaau 950

gaaugaccau aaugcguaca gguguuuuuc acagccacgg cacauuuccg 1000gaaugaccau aaugcguaca gguguuuuuc acagccacgg cacauuuccg 1000

uugcaaugga uaaguuugga uucagccuac cuuauguuca guauuuugga 1050uugcaaugga uaaguuugga uucagccuac cuuauguuca guauuuugga 1050

ggugucucug cucuaaguaa acaacaguuu cuaaccauca auggauuucc 1100ggugucucug cucuaaguaa acaacaguuu cuaaccauca auggauuucc 1100

uaauaauuau uggggcuggg gaggagaaga ugaugacauu uuuaacagau 1150uaauaauuau uggggcuggg gaggagaaga ugaugacauu uuuaacagau 1150

uaguuuuuag aggcaugucu auaucucgcc caaaugcugu ggucgggagg 1200uaguuuuuag aggcaugucu auaucucgcc caaaugcugu ggucgggagg 1200

ugucgcauga uccgccacuc aagagacaag aaaaaugaac ccaauccuca 1250ugucgcauga uccgccacuc aagagacaag aaaaaugaac ccaauccuca 1250

gagguuugac cgaauugcac acacaaagga gacaaugcuc ucugaugguu 1300gagguuugac cgaauugcac acacaaagga gacaaugcuc ucugaugguu 1300

ugaacucacu caccuaccag gugcuggaug uacagagaua cccauuguau 1350ugaacucacu caccuaccag gugcuggaug uacagagaua cccauuguau 1350

acccaaauca caguggacau cgggacaccg agcuagcguu uugguacacg 1400acccaaauca caguggacau cgggacaccg agcuagcguu uugguacacg 1400

gauaagagac cugaaauuag ccagggaccu cugcugugug ucucugccaa 1450gauaagagac cugaaauuag cccaggaccu cugcugugug ucucugccaa 1450

ucugcugggc uggucccucu cauuuuuacc agucugagug acaggucccc 1500ucugcugggc uggucccucu cauuuuuacc agucugagug acaggucccc 1500

uucgcucauc auucagaugg cuuuccagau gaccaggacg agugggauau 1550uucgcucauc auucagaugg cuuuccagau gaccaggacg agugggauau 1550

uuugccccca acuuggcucg gcaugugaau ucuuagcucu gcaagguguu 1600uuugccccca acuuggcucg gcaugugaau ucuuagcucu gcaagguguu 1600

uaugccuuug cggguuucuu gauguguucg cagugucacc ccagagucag 1650uaugccuuug cggguuucuu gauguguucg cagugucacc ccagagucag 1650

aacuguacac aucccaaaau uugguggccg uggaacacau ucccggugau 1700aacuguacac aucccaaaau uugguggccg uggaacacau ucccggugau 1700

agaauugcua aauugucgug aaauagguua gaauuuuucu uuaaauuaug 1750agaauugcua aauugucgug aaauagguua gaauuuuucu uuaaauuaug 1750

guuuucuuau ucgugaaaau ucggagagug cugcuaaaau uggauuggug 1800guuuucuuau ucgugaaaau ucggagagug cugcuaaaau uggauuggug 1800

ugaucuuuuu gguaguugua auuuaacaga aaaacacaaa auuucaacca 1850ugaucuuuuu gguaguugua auuuaacaga aaaacacaaa auuucaacca 1850

uucuuaaugu uacguccucc ccccaccccc uucuuucagu gguaugcaac 1900uucuuaaugu uacguccucc ccccaccccc uucuuucagu gguaugcaac 1900

cacugcaauc acugugcaua ugucuuuucu uagcaaaagg auuuuaaaac 1950cacugcaauc acugugcaua ugucuuuucu uagcaaaagg auuuuaaaac 1950

uugagcccug gaccuuuugu ccuaugugug uggauuccag ggcaacucua 2000uugagcccug gaccuuuugu ccuaugugug uggauuccag ggcaacucua 2000

gcaucagagc aaaagccuug gguuucucgc auucaguggc cuaucuccag 2050gcaucagagc aaaagccuug gguuucucgc auucaguggc cuaucuccag 2050

auugucugau uucugaaugu aaaguuguug uguuuuuuuu uaaauaguag 2100auugucugau uucugaaugu aaaguuguug uguuuuuuuu uaaauaguag 2100

uuuguaguau uuuaaagaaa gaacagaucg aguucuaauu augaucuagc 2150uuuguaguau uuuaaagaaa gaacagaucg aguucuaauu augaucuagc 2150

uugauuuugu guugauccaa auuugcauag cuguuuaaug uuaagucaug 2200uugauuuugu guugauccaa auuugcauag cuguuuaaug uuaagucaug 2200

acaauuuauu uuucuuggca ugcuauguaa acuugaauuu ccuauguauu 2250acaauuuauu uuucuuggca ugcuauguaa acuugaauuu ccuauguauu 2250

uuuauugugg uguuuuaaau auggggaggg guauugagca uuuuuuaggg 2300uuuauugugg uguuuuaaau auggggaggg guauugagca uuuuuuaggg 2300

agaaaaauaa auauaugcug uaguggccac aaauaggccu augauuuagc 2350agaaaaauaa auauaugcug uaguggccac aaauaggccu augauuuagc 2350

uggcaggcca gguuuucuca agagcaaaau cacccucugg ccccuuggca 2400uggcaggcca gguuuucuca agagcaaaau cacccucugg ccccuuggca 2400

gguaaggccu cccggucagc auuauccugc cagaccucgg ggaggauacc 2450gguaaggccu cccggucagc auuauccugc cagaccucgg ggaggauacc 2450

ugggagacag aagccucugc accuacugug cagaacucuc cacuucccca 2500ugggagacag aagccucugc accuacugug cagaacucuc cacuucccca 2500

acccucccca ggugggcagg gcggagggag ccucagccuc cuuagacuga 2550acccucccca ggugggcagg gcggagggag ccucagccuc cuuagacuga 2550

ccccucaggc cccuaggcug ggggguugua aauaacagca gucagguugu 2600ccccucaggc cccuaggcug ggggguugua aauaacagca gucagguugu 2600

uuaccagccc uuugcaccuc cccaggcaga gggagccucu guucuggugg 2650uuaccagccc uuugcaccuc cccaggcaga gggagccucu guucuggugg 2650

gggccaccuc ccucagaggc ucugcuagcc acacuccgug gcccacccuu 2700gggccaccuc ccucagaggc ucugcuagcc acacuccgug gcccacccuu 2700

uguuaccagu ucuuccuccu uccucuuuuc cccugccuuu cucauuccuu 2750uguuaccagu ucuuccuccu uccucuuuuc cccugccuuu cucauuccuu 2750

ccuucgucuc ccuuuuuguu ccuuugccuc uugccugucc ccuaaaacuu 2800ccuucgucuc ccuuuuuguu ccuuugccuc uugccugucc ccuaaaacuu 2800

gacuguggca cucaggguca aacagacuau ccauucccca gcaugaaugu 2850gacuguggca cucagggguca aacagacuau ccauucccca gcaugaaugu 2850

gccuuuuaau uagugaucua gaaagaaguu cagccgaacc cacaccccaa 2900gccuuuuaau uagugaucua gaaagaaguu cagccgaacc cacaccccaa 2900

cucccuccca agaacuucgg ugccuaaagc cuccuguucc accucagguu 2950cucccuccca agaacuucgg ugccuaaagc cuccuguucc accuagguu 2950

uucacaggug cucccacccc aguugaggcu cccacccaca gggcugucug 3000uucacaggug cucccacccc aguugaggcu cccacccaca gggcugucug 3000

ucacaaaccc accucuguug ggagcuauug agccaccugg gaugagauga 3050ucacaaaccc accucuguug ggagcuauug agccaccugg gaugagauga 3050

cacaaggcac uccuaccacu gagcgccuuu gccaggucca gccugggcuc 3100cacaaggcac uccuaccacu gagcgccuuu gccaggucca gccugggcuc 3100

agguuccaag acucagcugc cuaaucccag gguugagccu ugugcucgug 3150agguuccaag acucagcugc cuaaucccag gguugagccu ugugcucgug 3150

gcggacccca aaccacugcc cuccugggua ccagcccuca guguggaggc 3200gcggacccca aaccacugcc cuccugggua ccagcccuca guguggaggc 3200

ugagcuggug ccuggcccca gucuuaucug ugccuuuacu gcuuugcgca 3250ugagcuggug ccuggcccca gucuuaucug ugccuuuacu gcuuugcgca 3250

ucucagaugc uaacuugguu cuuuuuccag aagccuuugu auugguuaaa 3300ucucagaugc uaacuugguu cuuuuuccag aagccuuugu auugguuaaa 3300

aauuauuuuc cauugcagaa gcagcuggac uaugcaaaaa guauuucucu 3350aauuauuuuc cauugcagaa gcagcuggac uaugcaaaaa guauuucucu 3350

gucaguuccc cacucuauac caaggauauu auuaaaacua gaaaugacug 3400gucaguuccc cacucuauac caaggauauu auuaaaacua gaaaugacug 3400

cauugagagg gaguuguggg aaauaagaag aaugaaagcc ucucuuucug 3450cauugagagg gaguuguggg aaauaagaag aaugaaagcc ucucuuucug 3450

uccgcagauc cugacuuuuc caaagugccu uaaaagaaau cagacaaaug 3500uccgcagauc cugacuuuuc caaagugccu uaaaagaaau cagacaaaug 3500

cccugagugg uaacuucugu guuauuuuac ucuuaaaacc aaacucuacc 3550cccugagugg uaacuucugu guuauuuuac ucuuaaaacc aaacucuacc 3550

uuuucuuguu guuuuuuuuu uuuuuuuuuu uuuuuuuuug guuaccuucu 3600uuuucuuguu guuuuuuuuu uuuuuuuuuu uuuuuuuuug guuaccuucu 3600

cauucauguc aaguaugugg uucauucuua gaaccaaggg aaauacugcu 3650cauucauguc aaguaugugg uucauucuua gaaccaaggg aaauacugcu 3650

ccccccauuu gcugacguag ugcucucaug ggcucaccug ggcccaaggc 3700ccccccauuu gcugacguag ugcucucaug ggcucaccug ggcccaaggc 3700

acagccaggg cacaguuagg ccuggauguu ugccuggucc gugagaugcc 3750acagccaggg cacaguuagg ccuggauguu ugccuggucc gugagaugcc 3750

gcggguccug uuuccuuacu ggggauuuca gggcuggggg uucagggagc 3800gcggguccug uuuccuuacu ggggauuuca gggcuggggg uucagggagc 3800

auuuccuuuu ccugggaguu augaccgcga aguugucaug ugccgugccc 3850auuuccuuuu ccugggaguu augaccgcga aguugucaug ugccgugccc 3850

uuuucuguuu cuguguaucc uauugcuggu gacucugugu gaacuggccu 3900uuuucuguuu cuguguaucc uauugcuggu gacucugugu gaacuggccu 3900

uugggaaaga ucagagaggg cagagguggc acaggacagu aaaggagaug 3950uugggaaaga ucagagaggg cagagguggc acaggacagu aaaggagaug 3950

cugugcuggc cuucagccug gacagggucu cugcugacug ccaggggcgg 4000cugugcuggc cuucagccug gacagggucu cugcugacug ccaggggcgg 4000

gggcucugca uagccaggau gacggcuuuc augucccaga gaccuguugu 4050gggcucugca uagccaggau gacggcuuuc augucccaga gaccuguugu 4050

gcuguguauu uugauuuccu guguaugcaa auguguguau uuaccauugu 4100gcuguguauu uugauuuccu guguaugcaa auguguguau uuaccauugu 4100

guagggggcu gugucugauc uugguguuca aaacagaacu guauuuuugc 4150guagggggcu gugucugauc uugguguuca aaacagaacu guauuuuugc 4150

cuuuaaaauu aaauaauaua acgugaauaa augacccuau cuuuguaaca 4200cuuuaaaauu aaauaauaua acgugaauaa augacccuau cuuuguaaca 4200

aaaaaaaaaa aaaa 4214aaaaaaaaaa aaaa 4214

<210> 4<210> 4

<211> 4214<211> 4214

<212> ДНК<212> DNA

<213> Homo sapien<213> Homo sapien

<220><220>

<223> последовательность мРНК варианта B4GALT1<223> mRNA sequence of the B4GALT1 variant

<400> 4<400> 4

gcgccucggg cggcuucucg ccgcucccag gucuggcugg cuggaggagu 50gcgccucggg cggcuucucg ccgcucccag gucuggcugg cuggaggagu 50

cucagcucuc agccgcucgc ccgcccccgc uccgggcccu ccccuagucg 100cucagcucuc agccgcucgc ccgcccccgc uccgggcccu ccccuagucg 100

ccgcuguggg gcagcgccug gcgggcggcc cgcgggcggg ucgccucccc 150ccgcuguggg gcagcgccug gcgggcggcc cgcgggcggg ucgccucccc 150

uccuguagcc cacacccuuc uuaaagcggc ggcgggaaga ugaggcuucg 200uccuguagcc cacacccuuc uuaaagcggc ggcgggaaga ugaggcuucg 200

ggagccgcuc cugagcggca gcgccgcgau gccaggcgcg ucccuacagc 250ggagccgcuc cugagcggca gcgccgcgau gccaggcgcg ucccuacagc 250

gggccugccg ccugcucgug gccgucugcg cucugcaccu uggcgucacc 300gggccugccg ccugcucgug gccgucugcg cucugcaccu uggcgucacc 300

cucguuuacu accuggcugg ccgcgaccug agccgccugc cccaacuggu 350cucguuuacu accuggcugg ccgcgaccug agccgccugc cccaacuggu 350

cggagucucc acaccgcugc agggcggcuc gaacagugcc gccgccaucg 400cggagucucc acaccgcugc agggcggcuc gaacagugcc gccgccaucg 400

ggcaguccuc cggggagcuc cggaccggag gggcccggcc gccgccuccu 450ggcaguccuc cggggagcuc cggaccggag gggcccggcc gccgccuccu 450

cuaggcgccu ccucccagcc gcgcccgggu ggcgacucca gcccagucgu 500cuaggcgccu ccucccagcc gcgcccgggu ggcgacucca gcccagucgu 500

ggauucuggc ccuggccccg cuagcaacuu gaccucgguc ccagugcccc 550ggauucuggc ccuggccccg cuagcaacuu gaccucgguc ccagugcccc 550

acaccaccgc acugucgcug cccgccugcc cugaggaguc cccgcugcuu 600acaccaccgc acugucgcug cccgccugcc cugaggaguc cccgcugcuu 600

gugggcccca ugcugauuga guuuaacaug ccuguggacc uggagcucgu 650gugggcccca ugcugauuga guuuaacaug ccuguggacc uggagcucgu 650

ggcaaagcag aacccaaaug ugaagauggg cggccgcuau gcccccaggg 700ggcaaagcag aacccaaaug ugaagauggg cggccgcuau gccccccagg 700

acugcgucuc uccucacaag guggccauca ucauuccauu ccgcaaccgg 750acugcgucuc uccucacaag guggccauca ucauuccauu ccgcaaccgg 750

caggagcacc ucaaguacug gcuauauuau uugcacccag uccugcagcg 800caggagcacc ucaaguacug gcuauauuau uugcacccag uccugcagcg 800

ccagcagcug gacuauggca ucuauguuau caaccaggcg ggagacacua 850ccagcagcug gacuauggca ucuauguuau caaccaggcg ggagacacua 850

uauucaaucg ugcuaagcuc cucaauguug gcuuucaaga agccuugaag 900uauucaaucg ugcuaagcuc cucaauguug gcuuucaaga agccuugaag 900

gacuaugacu acaccugcuu uguguuuagu gacguggacc ucauuccaau 950gacuaugacu acaccugcuu uguguuuagu gacguggacc ucauuccaau 950

gaaugaccau aaugcguaca gguguuuuuc acagccacgg cacauuuccg 1000gaaugaccau aaugcguaca gguguuuuuc acagccacgg cacauuuccg 1000

uugcaaugga uaaguuugga uucagccuac cuuauguuca guauuuugga 1050uugcaaugga uaaguuugga uucagccuac cuuauguuca guauuuugga 1050

ggugucucug cucuaaguaa acaacaguuu cuaaccauca auggauuucc 1100ggugucucug cucuaaguaa acaacaguuu cuaaccauca auggauuucc 1100

uaauaauuau uggggcuggg gaggagaaga ugaugacauu uuuaacagau 1150uaauaauuau uggggcuggg gaggagaaga ugaugacauu uuuaacagau 1150

uaguuuuuag aggcaugucu auaucucgcc caaaugcugu ggucgggagg 1200uaguuuuuag aggcaugucu auaucucgcc caaaugcugu ggucgggagg 1200

ugucgcauga uccgccacuc aagagacaag aaaaaugaac ccaguccuca 1250ugucgcauga uccgccacuc aagagacaag aaaaaugaac ccaguccuca 1250

gagguuugac cgaauugcac acacaaagga gacaaugcuc ucugaugguu 1300gagguuugac cgaauugcac acacaaagga gacaaugcuc ucugaugguu 1300

ugaacucacu caccuaccag gugcuggaug uacagagaua cccauuguau 1350ugaacucacu caccuaccag gugcuggaug uacagagaua cccauuguau 1350

acccaaauca caguggacau cgggacaccg agcuagcguu uugguacacg 1400acccaaauca caguggacau cgggacaccg agcuagcguu uugguacacg 1400

gauaagagac cugaaauuag ccagggaccu cugcugugug ucucugccaa 1450gauaagagac cugaaauuag cccaggaccu cugcugugug ucucugccaa 1450

ucugcugggc uggucccucu cauuuuuacc agucugagug acaggucccc 1500ucugcugggc uggucccucu cauuuuuacc agucugagug acaggucccc 1500

uucgcucauc auucagaugg cuuuccagau gaccaggacg agugggauau 1550uucgcucauc auucagaugg cuuuccagau gaccaggacg agugggauau 1550

uuugccccca acuuggcucg gcaugugaau ucuuagcucu gcaagguguu 1600uuugccccca acuuggcucg gcaugugaau ucuuagcucu gcaagguguu 1600

uaugccuuug cggguuucuu gauguguucg cagugucacc ccagagucag 1650uaugccuuug cggguuucuu gauguguucg cagugucacc ccagagucag 1650

aacuguacac aucccaaaau uugguggccg uggaacacau ucccggugau 1700aacuguacac aucccaaaau uugguggccg uggaacacau ucccggugau 1700

agaauugcua aauugucgug aaauagguua gaauuuuucu uuaaauuaug 1750agaauugcua aauugucgug aaauagguua gaauuuuucu uuaaauuaug 1750

guuuucuuau ucgugaaaau ucggagagug cugcuaaaau uggauuggug 1800guuuucuuau ucgugaaaau ucggagagug cugcuaaaau uggauuggug 1800

ugaucuuuuu gguaguugua auuuaacaga aaaacacaaa auuucaacca 1850ugaucuuuuu gguaguugua auuuaacaga aaaacacaaa auuucaacca 1850

uucuuaaugu uacguccucc ccccaccccc uucuuucagu gguaugcaac 1900uucuuaaugu uacguccucc ccccaccccc uucuuucagu gguaugcaac 1900

cacugcaauc acugugcaua ugucuuuucu uagcaaaagg auuuuaaaac 1950cacugcaauc acugugcaua ugucuuuucu uagcaaaagg auuuuaaaac 1950

uugagcccug gaccuuuugu ccuaugugug uggauuccag ggcaacucua 2000uugagcccug gaccuuuugu ccuaugugug uggauuccag ggcaacucua 2000

gcaucagagc aaaagccuug gguuucucgc auucaguggc cuaucuccag 2050gcaucagagc aaaagccuug gguuucucgc auucaguggc cuaucuccag 2050

auugucugau uucugaaugu aaaguuguug uguuuuuuuu uaaauaguag 2100auugucugau uucugaaugu aaaguuguug uguuuuuuuu uaaauaguag 2100

uuuguaguau uuuaaagaaa gaacagaucg aguucuaauu augaucuagc 2150uuuguaguau uuuaaagaaa gaacagaucg aguucuaauu augaucuagc 2150

uugauuuugu guugauccaa auuugcauag cuguuuaaug uuaagucaug 2200uugauuuugu guugauccaa auuugcauag cuguuuaaug uuaagucaug 2200

acaauuuauu uuucuuggca ugcuauguaa acuugaauuu ccuauguauu 2250acaauuuauu uuucuuggca ugcuauguaa acuugaauuu ccuauguauu 2250

uuuauugugg uguuuuaaau auggggaggg guauugagca uuuuuuaggg 2300uuuauugugg uguuuuaaau auggggaggg guauugagca uuuuuuaggg 2300

agaaaaauaa auauaugcug uaguggccac aaauaggccu augauuuagc 2350agaaaaauaa auauaugcug uaguggccac aaauaggccu augauuuagc 2350

uggcaggcca gguuuucuca agagcaaaau cacccucugg ccccuuggca 2400uggcaggcca gguuuucuca agagcaaaau cacccucugg ccccuuggca 2400

gguaaggccu cccggucagc auuauccugc cagaccucgg ggaggauacc 2450gguaaggccu cccggucagc auuauccugc cagaccucgg ggaggauacc 2450

ugggagacag aagccucugc accuacugug cagaacucuc cacuucccca 2500ugggagacag aagccucugc accuacugug cagaacucuc cacuucccca 2500

acccucccca ggugggcagg gcggagggag ccucagccuc cuuagacuga 2550acccucccca ggugggcagg gcggagggag ccucagccuc cuuagacuga 2550

ccccucaggc cccuaggcug ggggguugua aauaacagca gucagguugu 2600ccccucaggc cccuaggcug ggggguugua aauaacagca gucagguugu 2600

uuaccagccc uuugcaccuc cccaggcaga gggagccucu guucuggugg 2650uuaccagccc uuugcaccuc cccaggcaga gggagccucu guucuggugg 2650

gggccaccuc ccucagaggc ucugcuagcc acacuccgug gcccacccuu 2700gggccaccuc ccucagaggc ucugcuagcc acacuccgug gcccacccuu 2700

uguuaccagu ucuuccuccu uccucuuuuc cccugccuuu cucauuccuu 2750uguuaccagu ucuuccuccu uccucuuuuc cccugccuuu cucauuccuu 2750

ccuucgucuc ccuuuuuguu ccuuugccuc uugccugucc ccuaaaacuu 2800ccuucgucuc ccuuuuuguu ccuuugccuc uugccugucc ccuaaaacuu 2800

gacuguggca cucaggguca aacagacuau ccauucccca gcaugaaugu 2850gacuguggca cucagggguca aacagacuau ccauucccca gcaugaaugu 2850

gccuuuuaau uagugaucua gaaagaaguu cagccgaacc cacaccccaa 2900gccuuuuaau uagugaucua gaaagaaguu cagccgaacc cacaccccaa 2900

cucccuccca agaacuucgg ugccuaaagc cuccuguucc accucagguu 2950cucccuccca agaacuucgg ugccuaaagc cuccuguucc accuagguu 2950

uucacaggug cucccacccc aguugaggcu cccacccaca gggcugucug 3000uucacaggug cucccacccc aguugaggcu cccacccaca gggcugucug 3000

ucacaaaccc accucuguug ggagcuauug agccaccugg gaugagauga 3050ucacaaaccc accucuguug ggagcuauug agccaccugg gaugagauga 3050

cacaaggcac uccuaccacu gagcgccuuu gccaggucca gccugggcuc 3100cacaaggcac uccuaccacu gagcgccuuu gccaggucca gccugggcuc 3100

agguuccaag acucagcugc cuaaucccag gguugagccu ugugcucgug 3150agguuccaag acucagcugc cuaaucccag gguugagccu ugugcucgug 3150

gcggacccca aaccacugcc cuccugggua ccagcccuca guguggaggc 3200gcggacccca aaccacugcc cuccugggua ccagcccuca guguggaggc 3200

ugagcuggug ccuggcccca gucuuaucug ugccuuuacu gcuuugcgca 3250ugagcuggug ccuggcccca gucuuaucug ugccuuuacu gcuuugcgca 3250

ucucagaugc uaacuugguu cuuuuuccag aagccuuugu auugguuaaa 3300ucucagaugc uaacuugguu cuuuuuccag aagccuuugu auugguuaaa 3300

aauuauuuuc cauugcagaa gcagcuggac uaugcaaaaa guauuucucu 3350aauuauuuuc cauugcagaa gcagcuggac uaugcaaaaa guauuucucu 3350

gucaguuccc cacucuauac caaggauauu auuaaaacua gaaaugacug 3400gucaguuccc cacucuauac caaggauauu auuaaaacua gaaaugacug 3400

cauugagagg gaguuguggg aaauaagaag aaugaaagcc ucucuuucug 3450cauugagagg gaguuguggg aaauaagaag aaugaaagcc ucucuuucug 3450

uccgcagauc cugacuuuuc caaagugccu uaaaagaaau cagacaaaug 3500uccgcagauc cugacuuuuc caaagugccu uaaaagaaau cagacaaaug 3500

cccugagugg uaacuucugu guuauuuuac ucuuaaaacc aaacucuacc 3550cccugagugg uaacuucugu guuauuuuac ucuuaaaacc aaacucuacc 3550

uuuucuuguu guuuuuuuuu uuuuuuuuuu uuuuuuuuug guuaccuucu 3600uuuucuuguu guuuuuuuuu uuuuuuuuuu uuuuuuuuug guuaccuucu 3600

cauucauguc aaguaugugg uucauucuua gaaccaaggg aaauacugcu 3650cauucauguc aaguaugugg uucauucuua gaaccaaggg aaauacugcu 3650

ccccccauuu gcugacguag ugcucucaug ggcucaccug ggcccaaggc 3700ccccccauuu gcugacguag ugcucucaug ggcucaccug ggcccaaggc 3700

acagccaggg cacaguuagg ccuggauguu ugccuggucc gugagaugcc 3750acagccaggg cacaguuagg ccuggauguu ugccuggucc gugagaugcc 3750

gcggguccug uuuccuuacu ggggauuuca gggcuggggg uucagggagc 3800gcggguccug uuuccuuacu ggggauuuca gggcuggggg uucagggagc 3800

auuuccuuuu ccugggaguu augaccgcga aguugucaug ugccgugccc 3850auuuccuuuu ccugggaguu augaccgcga aguugucaug ugccgugccc 3850

uuuucuguuu cuguguaucc uauugcuggu gacucugugu gaacuggccu 3900uuuucuguuu cuguguaucc uauugcuggu gacucugugu gaacuggccu 3900

uugggaaaga ucagagaggg cagagguggc acaggacagu aaaggagaug 3950uugggaaaga ucagagaggg cagagguggc acaggacagu aaaggagaug 3950

cugugcuggc cuucagccug gacagggucu cugcugacug ccaggggcgg 4000cugugcuggc cuucagccug gacagggucu cugcugacug ccaggggcgg 4000

gggcucugca uagccaggau gacggcuuuc augucccaga gaccuguugu 4050gggcucugca uagccaggau gacggcuuuc augucccaga gaccuguugu 4050

gcuguguauu uugauuuccu guguaugcaa auguguguau uuaccauugu 4100gcuguguauu uugauuuccu guguaugcaa auguguguau uuaccauugu 4100

guagggggcu gugucugauc uugguguuca aaacagaacu guauuuuugc 4150guagggggcu gugucugauc uugguguuca aaacagaacu guauuuuugc 4150

cuuuaaaauu aaauaauaua acgugaauaa augacccuau cuuuguaaca 4200cuuuaaaauu aaauaauaua acgugaauaa augacccuau cuuuguaaca 4200

aaaaaaaaaa aaaa 4214aaaaaaaaaa aaaa 4214

<210> 5<210> 5

<211> 1197<211> 1197

<212> ДНК<212> DNA

<213> Homo sapien<213> Homo sapien

<220><220>

<223> последовательность кДНК B4GALT1 дикого типа<223> wild-type B4GALT1 cDNA sequence

<400> 5<400> 5

atgaggcttc gggagccgct cctgagcggc agcgccgcga tgccaggcgc 50atgaggcttc gggagccgct cctgagcggc agcgccgcga tgccaggcgc 50

gtccctacag cgggcctgcc gcctgctcgt ggccgtctgc gctctgcacc 100gtccctacag cgggcctgcc gcctgctcgt ggccgtctgc gctctgcacc 100

ttggcgtcac cctcgtttac tacctggctg gccgcgacct gagccgcctg 150ttggcgtcac cctcgtttac tacctggctg gccgcgacct gagccgcctg 150

ccccaactgg tcggagtctc cacaccgctg cagggcggct cgaacagtgc 200ccccaactgg tcggagtctc cacaccgctg cagggcggct cgaacagtgc 200

cgccgccatc gggcagtcct ccggggagct ccggaccgga ggggcccggc 250cgccgccatc gggcagtcct ccggggagct ccggaccgga ggggcccggc 250

cgccgcctcc tctaggcgcc tcctcccagc cgcgcccggg tggcgactcc 300cgccgcctcc tctaggcgcc tcctcccagc cgcgcccggg tggcgactcc 300

agcccagtcg tggattctgg ccctggcccc gctagcaact tgacctcggt 350agcccagtcg tggattctgg ccctggcccc gctagcaact tgacctcggt 350

cccagtgccc cacaccaccg cactgtcgct gcccgcctgc cctgaggagt 400cccagtgccc cacaccaccg cactgtcgct gcccgcctgc cctgaggagt 400

ccccgctgct tgtgggcccc atgctgattg agtttaacat gcctgtggac 450ccccgctgct tgtgggcccc atgctgattg agtttaacat gcctgtggac 450

ctggagctcg tggcaaagca gaacccaaat gtgaagatgg gcggccgcta 500ctggagctcg tggcaaagca gaacccaaat gtgaagatgg gcggccgcta 500

tgcccccagg gactgcgtct ctcctcacaa ggtggccatc atcattccat 550tgcccccagg gactgcgtct ctcctcacaa ggtggccatc atcattccat 550

tccgcaaccg gcaggagcac ctcaagtact ggctatatta tttgcaccca 600tccgcaaccg gcaggagcac ctcaagtact ggctatatta tttgcaccca 600

gtcctgcagc gccagcagct ggactatggc atctatgtta tcaaccaggc 650gtcctgcagc gccagcagct ggactatggc atctatgtta tcaaccaggc 650

gggagacact atattcaatc gtgctaagct cctcaatgtt ggctttcaag 700ggggagacact atattcaatc gtgctaagct cctcaatgtt ggctttcaag 700

aagccttgaa ggactatgac tacacctgct ttgtgtttag tgacgtggac 750aagccttgaa ggactatgac tacacctgct ttgtgtttag tgacgtggac 750

ctcattccaa tgaatgacca taatgcgtac aggtgttttt cacagccacg 800ctcattccaa tgaatgacca taatgcgtac aggtgttttt cacagccacg 800

gcacatttcc gttgcaatgg ataagtttgg attcagccta ccttatgttc 850gcacatttcc gttgcaatgg ataagtttgg attcagccta ccttatgttc 850

agtattttgg aggtgtctct gctctaagta aacaacagtt tctaaccatc 900agtattttgg aggtgtctct gctctaagta aacaacagtt tctaaccatc 900

aatggatttc ctaataatta ttggggctgg ggaggagaag atgatgacat 950aatggatttc ctaataatta ttggggctgg ggaggagaag atgatgacat 950

ttttaacaga ttagttttta gaggcatgtc tatatctcgc ccaaatgctg 1000ttttaacaga ttagttttta gaggcatgtc tatatctcgc ccaaatgctg 1000

tggtcgggag gtgtcgcatg atccgccact caagagacaa gaaaaatgaa 1050tggtcgggag gtgtcgcatg atccgccact caagagacaa gaaaaatgaa 1050

cccaatcctc agaggtttga ccgaattgca cacacaaagg agacaatgct 1100cccaatcctc agaggtttga ccgaattgca cacacaaagg agacaatgct 1100

ctctgatggt ttgaactcac tcacctacca ggtgctggat gtacagagat 1150ctctgatggt ttgaactcac tcacctacca ggtgctggat gtacagagat 1150

acccattgta tacccaaatc acagtggaca tcgggacacc gagctag 1197acccattgta tacccaaatc acagtggaca tcgggacacc gagctag 1197

<210> 6<210> 6

<211> 1197<211> 1197

<212> ДНК<212> DNA

<213> Homo sapien<213> Homo sapien

<220><220>

<223> последовательность кДНК варианта B4GALT1<223> cDNA sequence of the B4GALT1 variant

<400> 6<400> 6

atgaggcttc gggagccgct cctgagcggc agcgccgcga tgccaggcgc 50atgaggcttc gggagccgct cctgagcggc agcgccgcga tgccaggcgc 50

gtccctacag cgggcctgcc gcctgctcgt ggccgtctgc gctctgcacc 100gtccctacag cgggcctgcc gcctgctcgt ggccgtctgc gctctgcacc 100

ttggcgtcac cctcgtttac tacctggctg gccgcgacct gagccgcctg 150ttggcgtcac cctcgtttac tacctggctg gccgcgacct gagccgcctg 150

ccccaactgg tcggagtctc cacaccgctg cagggcggct cgaacagtgc 200ccccaactgg tcggagtctc cacaccgctg cagggcggct cgaacagtgc 200

cgccgccatc gggcagtcct ccggggagct ccggaccgga ggggcccggc 250cgccgccatc gggcagtcct ccggggagct ccggaccgga ggggcccggc 250

cgccgcctcc tctaggcgcc tcctcccagc cgcgcccggg tggcgactcc 300cgccgcctcc tctaggcgcc tcctcccagc cgcgcccggg tggcgactcc 300

agcccagtcg tggattctgg ccctggcccc gctagcaact tgacctcggt 350agcccagtcg tggattctgg ccctggcccc gctagcaact tgacctcggt 350

cccagtgccc cacaccaccg cactgtcgct gcccgcctgc cctgaggagt 400cccagtgccc cacaccaccg cactgtcgct gcccgcctgc cctgaggagt 400

ccccgctgct tgtgggcccc atgctgattg agtttaacat gcctgtggac 450ccccgctgct tgtgggcccc atgctgattg agtttaacat gcctgtggac 450

ctggagctcg tggcaaagca gaacccaaat gtgaagatgg gcggccgcta 500ctggagctcg tggcaaagca gaacccaaat gtgaagatgg gcggccgcta 500

tgcccccagg gactgcgtct ctcctcacaa ggtggccatc atcattccat 550tgcccccagg gactgcgtct ctcctcacaa ggtggccatc atcattccat 550

tccgcaaccg gcaggagcac ctcaagtact ggctatatta tttgcaccca 600tccgcaaccg gcaggagcac ctcaagtact ggctatatta tttgcaccca 600

gtcctgcagc gccagcagct ggactatggc atctatgtta tcaaccaggc 650gtcctgcagc gccagcagct ggactatggc atctatgtta tcaaccaggc 650

gggagacact atattcaatc gtgctaagct cctcaatgtt ggctttcaag 700ggggagacact atattcaatc gtgctaagct cctcaatgtt ggctttcaag 700

aagccttgaa ggactatgac tacacctgct ttgtgtttag tgacgtggac 750aagccttgaa ggactatgac tacacctgct ttgtgtttag tgacgtggac 750

ctcattccaa tgaatgacca taatgcgtac aggtgttttt cacagccacg 800ctcattccaa tgaatgacca taatgcgtac aggtgttttt cacagccacg 800

gcacatttcc gttgcaatgg ataagtttgg attcagccta ccttatgttc 850gcacatttcc gttgcaatgg ataagtttgg attcagccta ccttatgttc 850

agtattttgg aggtgtctct gctctaagta aacaacagtt tctaaccatc 900agtattttgg aggtgtctct gctctaagta aacaacagtt tctaaccatc 900

aatggatttc ctaataatta ttggggctgg ggaggagaag atgatgacat 950aatggatttc ctaataatta ttggggctgg ggaggagaag atgatgacat 950

ttttaacaga ttagttttta gaggcatgtc tatatctcgc ccaaatgctg 1000ttttaacaga ttagttttta gaggcatgtc tatatctcgc ccaaatgctg 1000

tggtcgggag gtgtcgcatg atccgccact caagagacaa gaaaaatgaa 1050tggtcgggag gtgtcgcatg atccgccact caagagacaa gaaaaatgaa 1050

cccagtcctc agaggtttga ccgaattgca cacacaaagg agacaatgct 1100cccagtcctc agaggtttga ccgaattgca cacacaaagg agacaatgct 1100

ctctgatggt ttgaactcac tcacctacca ggtgctggat gtacagagat 1150ctctgatggt ttgaactcac tcacctacca ggtgctggat gtacagagat 1150

acccattgta tacccaaatc acagtggaca tcgggacacc gagctag 1197acccattgta tacccaaatc acagtggaca tcgggacacc gagctag 1197

<210> 7<210> 7

<211> 398<211> 398

<212> БЕЛОК<212> PROTEIN

<213> Homo sapien<213> Homo sapien

<220><220>

<223> последовательность B4GALT1 дикого типа<223> wild type B4GALT1 sequence

<400> 7<400> 7

Met Arg Leu Arg Glu Pro Leu Leu Ser Gly Ser Ala Ala Met Pro GlyMet Arg Leu Arg Glu Pro Leu Leu Ser Gly Ser Ala Ala Met Pro Gly

1 5 10 151 5 10 15

Ala Ser Leu Gln Arg Ala Cys Arg Leu Leu Val Ala Val Cys Ala LeuAla Ser Leu Gln Arg Ala Cys Arg Leu Leu Val Ala Val Cys Ala Leu

20 25 3020 25 30

His Leu Gly Val Thr Leu Val Tyr Tyr Leu Ala Gly Arg Asp Leu SerHis Leu Gly Val Thr Leu Val Tyr Tyr Leu Ala Gly Arg Asp Leu Ser

35 40 4535 40 45

Arg Leu Pro Gln Leu Val Gly Val Ser Thr Pro Leu Gln Gly Gly SerArg Leu Pro Gln Leu Val Gly Val Ser Thr Pro Leu Gln Gly Gly Ser

50 55 6050 55 60

Asn Ser Ala Ala Ala Ile Gly Gln Ser Ser Gly Glu Leu Arg Thr GlyAsn Ser Ala Ala Ala Ile Gly Gln Ser Ser Gly Glu Leu Arg Thr Gly

65 70 75 8065 70 75 80

Gly Ala Arg Pro Pro Pro Pro Leu Gly Ala Ser Ser Gln Pro Arg ProGly Ala Arg Pro Pro Pro Pro Leu Gly Ala Ser Ser Gln Pro Arg Pro

85 90 9585 90 95

Gly Gly Asp Ser Ser Pro Val Val Asp Ser Gly Pro Gly Pro Ala SerGly Gly Asp Ser Ser Pro Val Val Asp Ser Gly Pro Gly Pro Ala Ser

100 105 110100 105 110

Asn Leu Thr Ser Val Pro Val Pro His Thr Thr Ala Leu Ser Leu ProAsn Leu Thr Ser Val Pro Val Pro His Thr Thr Ala Leu Ser Leu Pro

115 120 125115 120 125

Ala Cys Pro Glu Glu Ser Pro Leu Leu Val Gly Pro Met Leu Ile GluAla Cys Pro Glu Glu Ser Pro Leu Leu Val Gly Pro Met Leu Ile Glu

130 135 140130 135 140

Phe Asn Met Pro Val Asp Leu Glu Leu Val Ala Lys Gln Asn Pro AsnPhe Asn Met Pro Val Asp Leu Glu Leu Val Ala Lys Gln Asn Pro Asn

145 150 155 160145 150 155 160

Val Lys Met Gly Gly Arg Tyr Ala Pro Arg Asp Cys Val Ser Pro HisVal Lys Met Gly Gly Arg Tyr Ala Pro Arg Asp Cys Val Ser Pro His

165 170 175165 170 175

Lys Val Ala Ile Ile Ile Pro Phe Arg Asn Arg Gln Glu His Leu LysLys Val Ala Ile Ile Ile Pro Phe Arg Asn Arg Gln Glu His Leu Lys

180 185 190180 185 190

Tyr Trp Leu Tyr Tyr Leu His Pro Val Leu Gln Arg Gln Gln Leu AspTyr Trp Leu Tyr Tyr Leu His Pro Val Leu Gln Arg Gln Gln Leu Asp

195 200 205195 200 205

Tyr Gly Ile Tyr Val Ile Asn Gln Ala Gly Asp Thr Ile Phe Asn ArgTyr Gly Ile Tyr Val Ile Asn Gln Ala Gly Asp Thr Ile Phe Asn Arg

210 215 220210 215 220

Ala Lys Leu Leu Asn Val Gly Phe Gln Glu Ala Leu Lys Asp Tyr AspAla Lys Leu Leu Asn Val Gly Phe Gln Glu Ala Leu Lys Asp Tyr Asp

225 230 235 240225 230 235 240

Tyr Thr Cys Phe Val Phe Ser Asp Val Asp Leu Ile Pro Met Asn AspTyr Thr Cys Phe Val Phe Ser Asp Val Asp Leu Ile Pro Met Asn Asp

245 250 255245 250 255

His Asn Ala Tyr Arg Cys Phe Ser Gln Pro Arg His Ile Ser Val AlaHis Asn Ala Tyr Arg Cys Phe Ser Gln Pro Arg His Ile Ser Val Ala

260 265 270260 265 270

Met Asp Lys Phe Gly Phe Ser Leu Pro Tyr Val Gln Tyr Phe Gly GlyMet Asp Lys Phe Gly Phe Ser Leu Pro Tyr Val Gln Tyr Phe Gly Gly

275 280 285275 280 285

Val Ser Ala Leu Ser Lys Gln Gln Phe Leu Thr Ile Asn Gly Phe ProVal Ser Ala Leu Ser Lys Gln Gln Phe Leu Thr Ile Asn Gly Phe Pro

290 295 300290 295 300

Asn Asn Tyr Trp Gly Trp Gly Gly Glu Asp Asp Asp Ile Phe Asn ArgAsn Asn Tyr Trp Gly Trp Gly Gly Glu Asp Asp Asp Ile Phe Asn Arg

305 310 315 320305 310 315 320

Leu Val Phe Arg Gly Met Ser Ile Ser Arg Pro Asn Ala Val Val GlyLeu Val Phe Arg Gly Met Ser Ile Ser Arg Pro Asn Ala Val Val Gly

325 330 335325 330 335

Arg Cys Arg Met Ile Arg His Ser Arg Asp Lys Lys Asn Glu Pro AsnArg Cys Arg Met Ile Arg His Ser Arg Asp Lys Lys Asn Glu Pro Asn

340 345 350340 345 350

Pro Gln Arg Phe Asp Arg Ile Ala His Thr Lys Glu Thr Met Leu SerPro Gln Arg Phe Asp Arg Ile Ala His Thr Lys Glu Thr Met Leu Ser

355 360 365355 360 365

Asp Gly Leu Asn Ser Leu Thr Tyr Gln Val Leu Asp Val Gln Arg TyrAsp Gly Leu Asn Ser Leu Thr Tyr Gln Val Leu Asp Val Gln Arg Tyr

370 375 380370 375 380

Pro Leu Tyr Thr Gln Ile Thr Val Asp Ile Gly Thr Pro SerPro Leu Tyr Thr Gln Ile Thr Val Asp Ile Gly Thr Pro Ser

385 390 395385 390 395

<210> 8<210> 8

<211> 398<211> 398

<212> БЕЛОК<212> PROTEIN

<213> Homo sapien<213> Homo sapien

<220><220>

<223> последовательность варианта B4GALT1<223> B4GALT1 variant sequence

<400> 8<400> 8

Met Arg Leu Arg Glu Pro Leu Leu Ser Gly Ser Ala Ala Met Pro GlyMet Arg Leu Arg Glu Pro Leu Leu Ser Gly Ser Ala Ala Met Pro Gly

1 5 10 151 5 10 15

Ala Ser Leu Gln Arg Ala Cys Arg Leu Leu Val Ala Val Cys Ala LeuAla Ser Leu Gln Arg Ala Cys Arg Leu Leu Val Ala Val Cys Ala Leu

20 25 3020 25 30

His Leu Gly Val Thr Leu Val Tyr Tyr Leu Ala Gly Arg Asp Leu SerHis Leu Gly Val Thr Leu Val Tyr Tyr Leu Ala Gly Arg Asp Leu Ser

35 40 4535 40 45

Arg Leu Pro Gln Leu Val Gly Val Ser Thr Pro Leu Gln Gly Gly SerArg Leu Pro Gln Leu Val Gly Val Ser Thr Pro Leu Gln Gly Gly Ser

50 55 6050 55 60

Asn Ser Ala Ala Ala Ile Gly Gln Ser Ser Gly Glu Leu Arg Thr GlyAsn Ser Ala Ala Ala Ile Gly Gln Ser Ser Gly Glu Leu Arg Thr Gly

65 70 75 8065 70 75 80

Gly Ala Arg Pro Pro Pro Pro Leu Gly Ala Ser Ser Gln Pro Arg ProGly Ala Arg Pro Pro Pro Pro Leu Gly Ala Ser Ser Gln Pro Arg Pro

85 90 9585 90 95

Gly Gly Asp Ser Ser Pro Val Val Asp Ser Gly Pro Gly Pro Ala SerGly Gly Asp Ser Ser Pro Val Val Asp Ser Gly Pro Gly Pro Ala Ser

100 105 110100 105 110

Asn Leu Thr Ser Val Pro Val Pro His Thr Thr Ala Leu Ser Leu ProAsn Leu Thr Ser Val Pro Val Pro His Thr Thr Ala Leu Ser Leu Pro

115 120 125115 120 125

Ala Cys Pro Glu Glu Ser Pro Leu Leu Val Gly Pro Met Leu Ile GluAla Cys Pro Glu Glu Ser Pro Leu Leu Val Gly Pro Met Leu Ile Glu

130 135 140130 135 140

Phe Asn Met Pro Val Asp Leu Glu Leu Val Ala Lys Gln Asn Pro AsnPhe Asn Met Pro Val Asp Leu Glu Leu Val Ala Lys Gln Asn Pro Asn

145 150 155 160145 150 155 160

Val Lys Met Gly Gly Arg Tyr Ala Pro Arg Asp Cys Val Ser Pro HisVal Lys Met Gly Gly Arg Tyr Ala Pro Arg Asp Cys Val Ser Pro His

165 170 175165 170 175

Lys Val Ala Ile Ile Ile Pro Phe Arg Asn Arg Gln Glu His Leu LysLys Val Ala Ile Ile Ile Pro Phe Arg Asn Arg Gln Glu His Leu Lys

180 185 190180 185 190

Tyr Trp Leu Tyr Tyr Leu His Pro Val Leu Gln Arg Gln Gln Leu AspTyr Trp Leu Tyr Tyr Leu His Pro Val Leu Gln Arg Gln Gln Leu Asp

195 200 205195 200 205

Tyr Gly Ile Tyr Val Ile Asn Gln Ala Gly Asp Thr Ile Phe Asn ArgTyr Gly Ile Tyr Val Ile Asn Gln Ala Gly Asp Thr Ile Phe Asn Arg

210 215 220210 215 220

Ala Lys Leu Leu Asn Val Gly Phe Gln Glu Ala Leu Lys Asp Tyr AspAla Lys Leu Leu Asn Val Gly Phe Gln Glu Ala Leu Lys Asp Tyr Asp

225 230 235 240225 230 235 240

Tyr Thr Cys Phe Val Phe Ser Asp Val Asp Leu Ile Pro Met Asn AspTyr Thr Cys Phe Val Phe Ser Asp Val Asp Leu Ile Pro Met Asn Asp

245 250 255245 250 255

His Asn Ala Tyr Arg Cys Phe Ser Gln Pro Arg His Ile Ser Val AlaHis Asn Ala Tyr Arg Cys Phe Ser Gln Pro Arg His Ile Ser Val Ala

260 265 270260 265 270

Met Asp Lys Phe Gly Phe Ser Leu Pro Tyr Val Gln Tyr Phe Gly GlyMet Asp Lys Phe Gly Phe Ser Leu Pro Tyr Val Gln Tyr Phe Gly Gly

275 280 285275 280 285

Val Ser Ala Leu Ser Lys Gln Gln Phe Leu Thr Ile Asn Gly Phe ProVal Ser Ala Leu Ser Lys Gln Gln Phe Leu Thr Ile Asn Gly Phe Pro

290 295 300290 295 300

Asn Asn Tyr Trp Gly Trp Gly Gly Glu Asp Asp Asp Ile Phe Asn ArgAsn Asn Tyr Trp Gly Trp Gly Gly Glu Asp Asp Asp Ile Phe Asn Arg

305 310 315 320305 310 315 320

Leu Val Phe Arg Gly Met Ser Ile Ser Arg Pro Asn Ala Val Val GlyLeu Val Phe Arg Gly Met Ser Ile Ser Arg Pro Asn Ala Val Val Gly

325 330 335325 330 335

Arg Cys Arg Met Ile Arg His Ser Arg Asp Lys Lys Asn Glu Pro SerArg Cys Arg Met Ile Arg His Ser Arg Asp Lys Lys Asn Glu Pro Ser

340 345 350340 345 350

Pro Gln Arg Phe Asp Arg Ile Ala His Thr Lys Glu Thr Met Leu SerPro Gln Arg Phe Asp Arg Ile Ala His Thr Lys Glu Thr Met Leu Ser

355 360 365355 360 365

Asp Gly Leu Asn Ser Leu Thr Tyr Gln Val Leu Asp Val Gln Arg TyrAsp Gly Leu Asn Ser Leu Thr Tyr Gln Val Leu Asp Val Gln Arg Tyr

370 375 380370 375 380

Pro Leu Tyr Thr Gln Ile Thr Val Asp Ile Gly Thr Pro SerPro Leu Tyr Thr Gln Ile Thr Val Asp Ile Gly Thr Pro Ser

385 390 395385 390 395

<210> 9<210> 9

<211> 20<211> 20

<212> ДНК<212> DNA

<213> Искусственная Последовательность<213> Artificial Sequence

<220><220>

<223> последовательности распознавания направляющей РНК<223> guide RNA recognition sequences

<400> 9<400> 9

attagttttt agaggcatgt 20attagttttt agaggcatgt 20

<210> 10<210> 10

<211> 20<211> 20

<212> ДНК<212> DNA

<213> Искусственная Последовательность<213> Artificial Sequence

<220><220>

<223> последовательности распознавания направляющей РНК<223> guide RNA recognition sequences

<400> 10<400> 10

ggctctcagg ccaagtgtat 20ggctctcagg ccaagtgtat 20

<210> 11<210> 11

<211> 20<211> 20

<212> ДНК<212> DNA

<213> Искусственная Последовательность<213> Artificial Sequence

<220><220>

<223> последовательности распознавания направляющей РНК<223> guide RNA recognition sequences

<400> 11<400> 11

tactccttcc ccctttagga 20tactccttcc ccctttagga 20

<210> 12<210> 12

<211> 20<211> 20

<212> ДНК<212> DNA

<213> Искусственная Последовательность<213> Artificial Sequence

<220><220>

<223> последовательности распознавания направляющей РНК<223> guide RNA recognition sequences

<400> 12<400> 12

gtccgaggct ctgggcctag 20gtccgaggct ctggggcctag 20

<210> 13<210> 13

<211> 6<211> 6

<212> ДНК<212> DNA

<213> Искусственная Последовательность<213> Artificial Sequence

<220><220>

<223> PAM для Cas9 из S. aureus<223> PAM for Cas9 from S. aureus

<220><220>

<221> n представляет собой A, G, C, или T<221> n is A, G, C, or T

<222> (1) .. (2)<222> (1) .. (2)

<220><220>

<221> r представляет собой A или G<221> r represents A or G

<222> (4) .. (5)<222> (4) .. (5)

<400> 13<400> 13

nngrrt 6nngrrt 6

<210> 14<210> 14

<211> 5<211> 5

<212> ДНК<212> DNA

<213> Искусственная Последовательность<213> Artificial Sequence

<220><220>

<223> PAM для Cas9 из S. aureus<223> PAM for Cas9 from S. aureus

<220><220>

<221> n представляет собой A, G, C, или T<221> n is A, G, C, or T

<222> (1) .. (2)<222> (1) .. (2)

<220><220>

<221> r представляет собой A или G<221> r represents A or G

<222> (4) .. (5)<222> (4) .. (5)

<400> 14<400> 14

nngrr 5nngrr 5

<210> 15<210> 15

<211> 23<211> 23

<212> ДНК<212> DNA

<213> Искусственная Последовательность<213> Artificial Sequence

<220><220>

<223> целевой мотив предшествующий NGG узнаваемый белком Cas9<223> target motif preceding NGG recognized by the Cas9 protein

<220><220>

<221> n представляет собой A, G, C, или T<221> n is A, G, C, or T

<222> (2) .. (21)<222> (2) .. (21)

<400> 15<400> 15

gnnnnnnnnn nnnnnnnnnn ngg 23gnnnnnnnnn nnnnnnnnnn ngg 23

<210> 16<210> 16

<211> 23<211> 23

<212> ДНК<212> DNA

<213> Искусственная Последовательность<213> Artificial Sequence

<220><220>

<223> целевой мотив предшествующий NGG узнаваемый белком Cas9<223> target motif preceding NGG recognized by the Cas9 protein

<220><220>

<221> n представляет собой A, G, C, или T<221> n is A, G, C, or T

<222> (1) .. (21)<222> (1) .. (21)

<400> 16<400> 16

nnnnnnnnnn nnnnnnnnnn ngg 23nnnnnnnnnn nnnnnnnnnn ngg 23

<210> 17<210> 17

<211> 25<211> 25

<212> ДНК<212> DNA

<213> Искусственная Последовательность<213> Artificial Sequence

<220><220>

<223> последовательность распознавания РНК<223> RNA recognition sequence

<220><220>

<221> n представляет собой A, G, C, или T<221> n is A, G, C, or T

<222> (3) .. (23)<222> (3) .. (23)

<400> 17<400> 17

ggnnnnnnnn nnnnnnnnnn nnngg 25ggnnnnnnnn nnnnnnnnnn nnngg 25

<---<---

Claims (52)

1. Выделенная молекула нуклеиновой кислоты, кодирующая полипептид варианта бета-1,4-галактозилтрансферазы 1 (B4GALT1), содержащая последовательность нуклеиновой кислоты, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную SEQ ID NO: 1, при условии, что указанная последовательность нуклеиновой кислоты содержит кодон, соответствующий положениям 53575-53577 SEQ ID NO: 1, который кодирует серин, или его комплемент.1. An isolated nucleic acid molecule encoding a beta-1,4-galactosyltransferase variant 1 (B4GALT1) polypeptide comprising at least about 90%, at least about 95%, at least about 98% nucleic acid sequence or at least about 99% identical to SEQ ID NO: 1, provided that said nucleic acid sequence contains a codon corresponding to positions 53575-53577 of SEQ ID NO: 1, which encodes a serine, or its complement. 2. Выделенная молекула нуклеиновой кислоты по п. 1, где указанная последовательность нуклеиновой кислоты содержит нуклеотиды, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2.2. The isolated nucleic acid molecule according to claim 1, wherein said nucleic acid sequence contains nucleotides corresponding to positions 53575 to 53577 of SEQ ID NO: 2. 3. Выделенная молекула нуклеиновой кислоты по п. 1 или 2, где указанная последовательность нуклеиновой кислоты по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или, по меньшей мере на около 99% идентична части SEQ ID NO:2, содержащей экзоны с 1 по 6 гена B4GALT1.3. The isolated nucleic acid molecule of claim 1 or 2, wherein said nucleic acid sequence is at least about 90%, at least about 95%, at least about 98%, or at least about 99% identical to the portion of SEQ ID NO:2 containing exons 1 to 6 of the B4GALT1 gene. 4. Выделенная молекула нуклеиновой кислоты по п. 1 или 2, где указанная последовательность нуклеиновой кислоты включает SEQ ID NO: 2.4. The isolated nucleic acid molecule of claim 1 or 2, wherein said nucleic acid sequence comprises SEQ ID NO: 2. 5. Выделенная молекула нуклеиновой кислоты, кодирующая полипептид варианта B4GALT1, содержащая последовательность нуклеиновой кислоты, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или, по меньшей мере на около 99%, идентичную SEQ ID NO: 4, при условии, что указанная последовательность нуклеиновой кислоты содержит кодон, кодирующий серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или его комплемент.5. An isolated nucleic acid molecule encoding a B4GALT1 variant polypeptide comprising at least about 90%, at least about 95%, at least about 98%, or at least about 99% nucleic acid sequence, identical to SEQ ID NO: 4, provided that the specified nucleic acid sequence contains a codon encoding a serine at a position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide, or its complement. 6. Выделенная молекула нуклеиновой кислоты по п. 5, где указанная последовательность нуклеиновой кислоты по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или, по меньшей мере на около 99% идентична части SEQ ID NO: 4, содержащей экзоны с 1 по 6 гена B4GALT1.6. The isolated nucleic acid molecule of claim 5, wherein said nucleic acid sequence is at least about 90%, at least about 95%, at least about 98%, or at least about 99% identical to part SEQ ID NO: 4, containing exons 1 to 6 of the B4GALT1 gene. 7. Выделенная молекула нуклеиновой кислоты по п. 5 или 6, где указанная последовательность нуклеиновой кислоты содержит SEQ ID NO: 4.7. The isolated nucleic acid molecule according to claim 5 or 6, wherein said nucleic acid sequence comprises SEQ ID NO: 4. 8. Выделенная молекула нуклеиновой кислоты, кодирующая полипептид варианта B4GALT1, содержащая последовательность нуклеиновой кислоты, кодирующую полипептид, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичный SEQ ID NO: 8, при условии, что полипептид содержит серин в положении 352, или ее комплемент.8. An isolated nucleic acid molecule encoding a B4GALT1 variant polypeptide, comprising a nucleic acid sequence encoding the polypeptide that is at least about 90%, at least about 95%, at least about 98%, or at least about 99 % identical to SEQ ID NO: 8, provided that the polypeptide contains serine at position 352, or its complement. 9. Выделенная молекула нуклеиновой кислоты по п. 8, где указанная последовательность нуклеиновой кислоты кодирует полипептидную последовательность SEQ ID NO: 8.9. The isolated nucleic acid molecule of claim 8, wherein said nucleic acid sequence encodes the polypeptide sequence of SEQ ID NO: 8. 10. кДНК, кодирующая белок бета-1,4-галактозилтрансферазы 1 человека (B4GALT1), содержащий последовательность нуклеиновой кислоты, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную SEQ ID NO: 6, при условии, что указанная последовательность нуклеиновой кислоты кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или ее комплемент.10. cDNA encoding human beta-1,4-galactosyltransferase 1 protein ( B4GALT1 ) containing at least about 90%, at least about 95%, at least about 98%, or at least about 98% nucleic acid sequence at least about 99% identical to SEQ ID NO: 6, provided that the specified nucleic acid sequence encodes a serine at a position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide, or its complement. 11. кДНК по п. 10, где указанная последовательность нуклеиновой кислоты содержит SEQ ID NO: 6.11. The cDNA of claim 10, wherein said nucleic acid sequence comprises SEQ ID NO: 6. 12. Выделенный полипептид варианта B4GALT1 для диагностики риска развития сердечно-сосудистых заболеваний у пациента, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид связан с пониженными уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина или фибриногена и eGFR или повышенным уровнем аспартаттрансаминазы (AST).12. An isolated B4GALT1 variant polypeptide for diagnosing the risk of developing cardiovascular disease in a patient, comprising an amino acid sequence of at least about 90%, at least about 95%, at least about 98%, or at least about 99% identical to the B4GALT1 variant polypeptide containing SEQ ID NO: 8, provided that the polypeptide contains a serine corresponding to position 352 of SEQ ID NO: 8, where the polypeptide is associated with reduced levels of low-density lipoprotein (LDL) cholesterol, total cholesterol or fibrinogen and eGFR or elevated aspartate transaminase (AST). 13. Выделенный полипептид варианта B4GALT1 для определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид связан с пониженными уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина или фибриногена и eGFR или повышенным уровнем аспартаттрансаминазы (AST).13. An isolated B4GALT1 variant polypeptide for determining the susceptibility of a human subject to the development of cardiovascular disease, comprising an amino acid sequence of at least about 90%, at least about 95%, at least about 98%, or at least about 99% identical to the B4GALT1 variant polypeptide containing SEQ ID NO: 8, provided that said polypeptide contains a serine corresponding to position 352 of SEQ ID NO: 8, where the polypeptide is associated with reduced levels of low-density lipoprotein (LDL) cholesterol, total cholesterol or fibrinogen and eGFR or elevated aspartate transaminase (AST) levels. 14. Полипептид по п. 12 или 13, где указанный вариантный полипептид B4GALT1 содержит SEQ ID NO: 8.14. The polypeptide of claim 12 or 13, wherein said B4GALT1 variant polypeptide comprises SEQ ID NO: 8. 15. Выделенный слитый полипептид варианта B4GALT1 для диагностики риска развития сердечно-сосудистых заболеваний у пациента, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид варианта связан с гетерологичным полипептидом или содержит гетерологичную метку.15. An isolated B4GALT1 variant fusion polypeptide for diagnosing the risk of developing cardiovascular disease in a patient, comprising an amino acid sequence of at least about 90%, at least about 95%, at least about 98%, or at least about 99% identical to the B4GALT1 variant polypeptide containing SEQ ID NO: 8, provided that the polypeptide contains a serine corresponding to position 352 of SEQ ID NO: 8, where the variant polypeptide is linked to a heterologous polypeptide or contains a heterologous tag. 16. Выделенный слитый полипептид варианта B4GALT1 для определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид варианта связан с гетерологичным полипептидом или содержит гетерологичную метку.16. An isolated B4GALT1 variant fusion polypeptide for determining the susceptibility of a human subject to developing cardiovascular disease, comprising an amino acid sequence of at least about 90%, at least about 95%, at least about 98%, or at least at least about 99% identical to the B4GALT1 variant polypeptide containing SEQ ID NO: 8, provided that the polypeptide contains a serine corresponding to position 352 of SEQ ID NO: 8, where the variant polypeptide is linked to a heterologous polypeptide or contains a heterologous tag. 17. Полипептид по п. 15 или 16, где указанный гетерологичный полипептид содержит Fc-домен иммуноглобулина, пептидный тэг, флуоресцентный белок или домен трансдукции.17. The polypeptide of claim 15 or 16, wherein said heterologous polypeptide comprises an immunoglobulin Fc domain, a peptide tag, a fluorescent protein, or a transduction domain. 18. Способ обнаружения варианта молекулы нуклеиновой кислоты B4GALT1, кодирующей серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, у субъекта-человека, включающий анализ образца, полученного от субъекта, для определения того, содержит ли молекула нуклеиновой кислоты в образце последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. 18. A method for detecting a variant of a B4GALT1 nucleic acid molecule encoding a serine at position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide in a human subject, comprising analyzing a sample obtained from the subject to determine whether the nucleic acid molecule in the sample contains the nucleic acid sequence acid, which encodes a serine at position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide. 19. Способ по п. 18, где указанный анализ включает:19. The method according to claim 18, where said analysis includes: секвенирование части молекулы нуклеиновой кислоты геномной последовательности B4GALT1 в образце, при этом секвенированная часть включает в себя положения, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2;sequencing a portion of the nucleic acid molecule of the genomic sequence of B4GALT1 in the sample, wherein the sequenced portion includes positions corresponding to positions 53575 to 53577 of SEQ ID NO: 2; секвенирование части молекулы нуклеиновой кислоты последовательности мРНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 SEQ ID NO: 4; или жеsequencing a portion of the nucleic acid molecule of the B4GALT1 mRNA sequence in the sample, wherein the sequenced portion includes positions corresponding to positions 1243 to 1245 of SEQ ID NO: 4; or секвенирование части молекулы нуклеиновой кислоты последовательности кДНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 SEQ ID NO: 6.sequencing a portion of the nucleic acid molecule of the B4GALT1 cDNA sequence in the sample, wherein the sequenced portion includes positions corresponding to positions 1054 to 1056 of SEQ ID NO: 6. 20. Способ по п. 18, где указанный анализ включает:20. The method according to claim 18, where said analysis includes: а) приведение образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая находится вблизи положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577 SEQ ID NO: 2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 SEQ ID NO: 4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO: 6;a) contacting the sample with a primer that hybridizes to: i) a portion of the B4GALT1 genomic sequence that is proximal to the position of the B4GALT1 genomic sequence corresponding to positions 53575 to 53577 of SEQ ID NO: 2; ii) a portion of the B4GALT1 mRNA sequence that is adjacent to the position of the B4GALT1 mRNA corresponding to positions 1243 to 1245 of SEQ ID NO: 4; or iii) a portion of the B4GALT1 cDNA sequence that is adjacent to a position of the B4GALT1 cDNA corresponding to SEQ ID NO: 6 positions 1054-1056; b) удлинение праймера, по меньшей мере, далее: i) положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577; ii) положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245; или iii) положения кДНК B4GALT1, соответствующего положениям с 1054 по 1056; а такжеb) extending the primer to at least further: i) a position of the B4GALT1 genomic sequence corresponding to positions 53575 to 53577; ii) the position of B4GALT1 mRNA corresponding to positions 1243 to 1245; or iii) the position of the B4GALT1 cDNA corresponding to positions 1054 to 1056; and c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i) соответствующих положениям с 53575 по 53577 геномной последовательности B4GALT1; ii) соответствующие положениям 1243-1245 мРНК B4GALT1; или iii) соответствующие положениям с 1054 по 1056 кДНК B4GALT1; которые кодируют серин в положении 352 SEQ ID NO: 8.c) determining whether the primer extension product contains nucleotides at positions: i) corresponding to positions 53575 to 53577 of the B4GALT1 genomic sequence; ii) corresponding to positions 1243-1245 of B4GALT1 mRNA; or iii) corresponding to positions 1054 to 1056 of the B4GALT1 cDNA; which encode serine at position 352 of SEQ ID NO: 8. 21. Способ по п. 18, где указанный анализ включает контакт образца с праймером или зондом, который специфически гибридизуется с геномной последовательностью, последовательностью мРНК или последовательностью кДНК варианта B4GALT1, а не с соответствующей последовательностью дикого типа B4GALT1 в строгих условиях гибридизации и определение того, произошла ли гибридизация.21. The method of claim 18, wherein the assay comprises contacting the sample with a primer or probe that specifically hybridizes to a genomic sequence, an mRNA sequence, or a cDNA sequence of a B4GALT1 variant rather than the corresponding wild-type B4GALT1 sequence under stringent hybridization conditions, and determining whether whether hybridization has occurred. 22. Способ обнаружения присутствия Asn352Ser B4GALT1 у человека, включающий выполнение анализа образца, полученного от человека, для определения того, содержит ли белок B4GALT1 в образце остаток серина в положении 352.22. A method for detecting the presence of B4GALT1 Asn352Ser in a human, comprising performing an assay on a sample obtained from the human to determine whether the B4GALT1 protein in the sample contains a serine residue at position 352. 23. Способ определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает:23. A method for determining the susceptibility of a human subject to the development of cardiovascular disease in the subject, wherein the cardiovascular disease includes elevated low-density lipoprotein (LDL) cholesterol, elevated total cholesterol, elevated fibrinogen, elevated estimated glomerular filtration rate (eGFR), or decreased aspartate transaminase (AST), wherein the specified method includes: а) анализ образца, полученного от субъекта, для определения того, содержит ли молекула нуклеиновой кислоты в образце последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1; а такжеa) analyzing a sample obtained from the subject to determine whether the nucleic acid molecule in the sample contains a nucleic acid sequence that encodes a serine at a position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide; and b) классификация субъекта-человека, как подверженного пониженному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или классификацию субъекта-человека, как подверженного повышенному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты не содержит последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.b) classifying a human subject as being at reduced risk of developing cardiovascular disease if the nucleic acid molecule contains a nucleic acid sequence that encodes a serine at a position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide, or classifying the human subject as being at increased risk risk of developing cardiovascular disease if the nucleic acid molecule does not contain a nucleic acid sequence that encodes a serine at a position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide. 24. Способ по п. 23, где указанный анализ включает:24. The method according to claim 23, where said analysis includes: секвенирование части молекулы нуклеиновой кислоты геномной последовательности B4GALT1 в образце, при этом секвенированная часть включает в себя положения, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2;sequencing a portion of a nucleic acid molecule of the genomic sequence of B4GALT1 in the sample, wherein the sequenced portion includes positions corresponding to positions 53575 to 53577 of SEQ ID NO: 2; секвенирование части молекулы нуклеиновой кислоты последовательности мРНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 SEQ ID NO: 4; илиsequencing a portion of the nucleic acid molecule of the B4GALT1 mRNA sequence in the sample, wherein the sequenced portion includes positions corresponding to positions 1243 to 1245 of SEQ ID NO: 4; or секвенирование части молекулы нуклеиновой кислоты последовательности кДНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 последовательности SEQ ID NO: 6.sequencing a portion of the nucleic acid molecule of the B4GALT1 cDNA sequence in the sample, wherein the sequenced portion includes positions corresponding to positions 1054 to 1056 of SEQ ID NO: 6. 25. Способ по п. 23, где указанный анализ включает:25. The method according to claim 23, where said analysis includes: а) приведение образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая находится вблизи положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577 SEQ ID NO: 2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 SEQ ID NO: 4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO: 6;a) contacting the sample with a primer that hybridizes to: i) a portion of the B4GALT1 genomic sequence that is proximal to the position of the B4GALT1 genomic sequence corresponding to positions 53575 to 53577 of SEQ ID NO: 2; ii) a portion of the B4GALT1 mRNA sequence that is adjacent to the position of the B4GALT1 mRNA corresponding to positions 1243 to 1245 of SEQ ID NO: 4; or iii) a portion of the B4GALT1 cDNA sequence that is adjacent to a position of the B4GALT1 cDNA corresponding to SEQ ID NO: 6 positions 1054-1056; b) удлинение праймера, по меньшей мере, далее: i) положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577; ii) положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245; или iii) положения кДНК B4GALT1, соответствующего положениям с 1054 по 1056; а такжеb) extending the primer to at least further: i) a position of the B4GALT1 genomic sequence corresponding to positions 53575 to 53577; ii) the position of B4GALT1 mRNA corresponding to positions 1243 to 1245; or iii) the position of the B4GALT1 cDNA corresponding to positions 1054 to 1056; and c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i) соответствующих положениям с 53575 по 53577 геномной последовательности B4GALT1; ii) соответствующих положениям 1243-1245 мРНК B4GALT1; или iii) соответствующих положениям с 1054 по 1056 кДНК B4GALT1; которые кодируют серин в положении 352 SEQ ID NO: 8.c) determining whether the primer extension product contains nucleotides at positions: i) corresponding to positions 53575 to 53577 of the B4GALT1 genomic sequence; ii) corresponding to positions 1243-1245 of B4GALT1 mRNA; or iii) corresponding to positions 1054 to 1056 of the B4GALT1 cDNA; which encode serine at position 352 of SEQ ID NO: 8. 26. Способ по п. 23, где указанный анализ включает контакт образца с праймером или зондом, который специфически гибридизуется с геномной последовательностью, последовательностью мРНК или последовательностью кДНК варианта B4GALT1, а не с соответствующей последовательностью B4GALT1 дикого типа в строгих условиях гибридизации и определение того, произошла ли гибридизация.26. The method of claim 23, wherein said assay comprises contacting the sample with a primer or probe that specifically hybridizes to a genomic sequence , an mRNA sequence, or a cDNA sequence of a B4GALT1 variant rather than the corresponding wild-type B4GALT1 sequence under stringent hybridization conditions, and determining whether whether hybridization has occurred. 27. Способ определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает:27. A method for determining the susceptibility of a human subject to the development of cardiovascular disease in the subject, wherein the cardiovascular disease includes elevated low-density lipoprotein (LDL) cholesterol, elevated total cholesterol, elevated fibrinogen, elevated estimated glomerular filtration rate (eGFR), or decreased aspartate transaminase (AST), wherein the specified method includes: а) проведение анализа образца, полученного от субъекта-человека, для определения того, содержит ли белок B4GALT1 в образце остаток серина в положении 352; а такжеa) analyzing a sample obtained from a human subject to determine whether the B4GALT1 protein in the sample contains a serine residue at position 352; and b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если полипептид B4GALT1 содержит серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или классификацию субъекта-человека как подверженного повышенному риску развития сердечно-сосудистого заболевания, если полипептид B4GALT1 не содержит серина в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.b) classifying a human subject as being at reduced risk of developing cardiovascular disease if the B4GALT1 polypeptide contains a serine at position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide, or classifying the human subject as being at increased risk of developing cardiovascular disease if the polypeptide B4GALT1 does not contain a serine at position corresponding to position 352 of the full-length/mature B4GALT1 polypeptide. 28. Способ модификации клетки, включающий введение вектора экспрессии в клетку, при этом указанный вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую серин, вставленный в положения, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2.28. A method of modifying a cell, comprising introducing an expression vector into a cell, wherein said expression vector contains a recombinant B4GALT1 gene containing a nucleotide sequence encoding a serine inserted at positions corresponding to positions 53575 to 53577 of SEQ ID NO: 2. 29. Способ по п. 28, где указанный рекомбинантный ген B4GALT1 представляет собой миниген B4GALT1, в котором один или более несущественных сегментов гена были удалены по отношению к соответствующему гену B4GALT1 дикого типа.29. The method of claim 28, wherein said recombinant B4GALT1 gene is a B4GALT1 minigene in which one or more nonessential gene segments have been deleted relative to the corresponding wild-type B4GALT1 gene. 30. Способ модификации клетки, включающий введение вектора экспрессии в клетку, при этом вектор экспрессии содержит молекулу нуклеиновой кислоты, кодирующую полипептид B4GALT1, который по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 8 и содержит серин в положении 352, соответствующем SEQ ID NO: 8.30. A method of modifying a cell, comprising introducing an expression vector into a cell, wherein the expression vector contains a nucleic acid molecule encoding a B4GALT1 polypeptide that is at least about 90%, at least about 95%, at least about 98% or is at least about 99% identical to SEQ ID NO: 8 and contains a serine at position 352 corresponding to SEQ ID NO: 8. 31. Способ модификации клетки, включающий введение полипептида B4GALT1 или его фрагмента в клетку, при этом полипептид B4GALT1 по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 8 и содержит серин в положении 352, соответствующем SEQ ID NO: 8, где полипептид связан с пониженными уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина или фибриногена и eGFR или повышенным уровнем аспартаттрансаминазы (AST).31. A method of modifying a cell, comprising introducing a B4GALT1 polypeptide or a fragment thereof into a cell, wherein the B4GALT1 polypeptide is at least about 90%, at least about 95%, at least about 98%, or at least about 99 % identical to SEQ ID NO: 8 and contains a serine at position 352 corresponding to SEQ ID NO: 8, where the polypeptide is associated with reduced levels of low-density lipoprotein (LDL) cholesterol, total cholesterol or fibrinogen and eGFR or increased levels of aspartate transaminase (AST). 32. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен риску развития сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение вектора экспрессии субъекту, при этом вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую серин в положениях, соответствующих положениям с 53575 по 53577 SEQ ID NO: 2, при этом указанный вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке субъекта.32. A method of treating a subject who is not a carrier of the B4GALT1 variant and has or is at risk of developing cardiovascular disease in the subject, wherein the cardiovascular disease includes increased low-density lipoprotein (LDL) cholesterol, increased total cholesterol, increased fibrinogen, increased estimated rate glomerular filtration rate (eGFR) or reduced aspartate transaminase (AST), wherein the method comprises administering an expression vector to a subject, wherein the expression vector comprises a recombinant B4GALT1 gene containing a nucleotide sequence encoding a serine at positions corresponding to positions 53575 to 53577 of SEQ ID NO: 2, wherein said expression vector expresses the recombinant B4GALT1 gene in a cell of the subject. 33. Способ по п. 32, где указанный рекомбинантный ген B4GALT1 по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 2.33. The method of claim 32, wherein said recombinant B4GALT1 gene is at least about 90%, at least about 95%, at least about 98%, or at least about 99% identical to SEQ ID NO: 2 . 34. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение вектора экспрессии указанному субъекту, при этом указанный вектор экспрессии содержит нуклеиновую кислоту, кодирующую полипептид B4GALT1, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную SEQ ID NO: 8, при этом указанный вектор экспрессии экспрессирует нуклеиновую кислоту, кодирующую полипептид B4GALT1 в клетке у субъекта.34. A method of treating a subject who is not a carrier of the B4GALT1 variant and has or is susceptible to developing cardiovascular disease in the subject, wherein the cardiovascular disease includes increased low-density lipoprotein (LDL) cholesterol, increased total cholesterol, increased fibrinogen, increased estimated glomerular velocity filtration (eGFR) or reduced aspartate transaminase (AST), wherein the method comprises administering an expression vector to a specified subject, wherein the expression vector contains a nucleic acid encoding a B4GALT1 polypeptide of at least about 90%, at least about 95% , at least about 98% or at least about 99% identical to SEQ ID NO: 8, wherein the expression vector expresses a nucleic acid encoding a B4GALT1 polypeptide in a cell in the subject. 35. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен риску развития сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение мРНК субъекту, при этом мРНК кодирует полипептид B4GALT1, который по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере, на около 99% идентичен SEQ ID NO:8, при этом указанная мРНК экспрессирует полипептид B4GALT1 в клетке субъекта.35. A method of treating a subject who is not a carrier of the B4GALT1 variant and has or is at risk of developing cardiovascular disease in the subject, wherein the cardiovascular disease includes increased low-density lipoprotein (LDL) cholesterol, increased total cholesterol, increased fibrinogen, increased estimated rate glomerular filtration rate (eGFR) or reduced aspartate transaminase (AST), the method comprising administering mRNA to a subject, wherein the mRNA encodes a B4GALT1 polypeptide that is at least about 90%, at least about 95%, at least about 98% or at least about 99% identical to SEQ ID NO:8, wherein said mRNA expresses the B4GALT1 polypeptide in a cell of the subject. 36. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение белка Asn352Ser B4GALT1 или его фрагмента субъекту, при этом указанный полипептид B4GALT1 по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 8, при условии, что полипептид содержит серин, соответствующий позиции 352 SEQ ID NO: 8.36. A method of treating a subject who is not a carrier of the B4GALT1 variant and has or is susceptible to developing cardiovascular disease in the subject, wherein the cardiovascular disease includes increased low-density lipoprotein (LDL) cholesterol, increased total cholesterol, increased fibrinogen, increased estimated glomerular velocity filtration (eGFR) or reduced aspartate transaminase (AST), wherein the method comprises administering the Asn352Ser B4GALT1 protein or a fragment thereof to a subject, wherein said B4GALT1 polypeptide is at least about 90%, at least about 95%, at least about 98%, or at least about 99% identical to SEQ ID NO: 8, provided that the polypeptide contains a serine corresponding to position 352 of SEQ ID NO: 8.
RU2019144018A 2017-06-05 2018-06-04 B4galt1 options and their applications RU2805557C2 (en)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201762515140P 2017-06-05 2017-06-05
US62/515,140 2017-06-05
US201762550161P 2017-08-25 2017-08-25
US62/550,161 2017-08-25
US201862659344P 2018-04-18 2018-04-18
US62/659,344 2018-04-18
PCT/US2018/035806 WO2018226560A1 (en) 2017-06-05 2018-06-04 B4galt1 variants and uses thereof

Publications (3)

Publication Number Publication Date
RU2019144018A RU2019144018A (en) 2021-07-09
RU2019144018A3 RU2019144018A3 (en) 2022-03-04
RU2805557C2 true RU2805557C2 (en) 2023-10-19

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009025645A1 (en) * 2007-08-22 2009-02-26 Government Of The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Beta 1,4-galactosyltransferases with altered donor and acceptor specificities, compositions and methods of use
RU2444378C1 (en) * 2010-09-06 2012-03-10 Олег Германович Макеев Method of treating coronary insufficiency in simulated myocardial ischemia

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009025645A1 (en) * 2007-08-22 2009-02-26 Government Of The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Beta 1,4-galactosyltransferases with altered donor and acceptor specificities, compositions and methods of use
RU2444378C1 (en) * 2010-09-06 2012-03-10 Олег Германович Макеев Method of treating coronary insufficiency in simulated myocardial ischemia

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ROBERT E. HUMPHREYS et al., Isolation and immunologic characterization of a human. B-lymphocyte-specific, cell surface antigen, J Exp Med, 1976, 144(1), pp.98-112. База данных: NCBI Reference Sequence: NM_001497.3 от 06.10.2016. *

Similar Documents

Publication Publication Date Title
KR102619197B1 (en) HSD17B13 variant and its uses
KR101374304B1 (en) Genetic variants in the TCF7L2 gene as diagnostic markers for risk of type 2 diabetes mellitus
CN101641451A (en) Cancer susceptibility variants on the chr8q24.21
RU2749715C2 (en) Rodents characterized by the humanized tmprss gene
RU2768285C1 (en) Oligonucleotides for tau protein expression modulation
KR20110036608A (en) Genetic variants for breast cancer risk assessment
KR20150023904A (en) Use of markers in the diagnosis and treatment of prostate cancer
JP2023113657A (en) B4GALT1 variants and uses thereof
KR20210136038A (en) Piezoelectric mechanosensitive ion channel component 1 (PIEZO1) variants and uses thereof
KR20070085406A (en) Methods and compositions for predicting drug responses
US6566061B1 (en) Identification of polymorphisms in the PCTG4 region of Xq13
RU2805557C2 (en) B4galt1 options and their applications
CA2433869C (en) Gene for identifying individuals with familial dysautonomia
US20060141462A1 (en) Human type II diabetes gene-slit-3 located on chromosome 5q35
WO2006022633A1 (en) Methods for identifying a risk of type ii diabetes and treatments thereof
WO2006022638A1 (en) Methods for identifying risk of type ii diabetes and treatments thereof
US20040197777A1 (en) Polymorphisms of the OCTN1 and OCTN2 cation transporters associated with inflammatory bowel disorders
CA2826522A1 (en) Genetic polymorphism in pnlpa3 associated with liver fibrosis methods of detection and uses thereof
KR20240043753A (en) Treatment of reduced bone mineral density using Wnt family member 5B (WNT5B) inhibitors
KR20200062224A (en) SLC14A1 variant and its use
CN117396499A (en) Treatment of cerebrovascular diseases with neurogenic site Notch cognate protein 3 (Notch 3) agents
WO2004041193A2 (en) HUMAN TYPE II DIABETES GENE-Kv CHANNEL-INTERACTING PROTEIN (KChIP1) LOCATED ON CHROMOSOME 5
CN113825839A (en) Treatment of elevated lipid levels with sterol regulatory element binding protein cleavage activator protein (SCAP) inhibitors