RU2754884C2 - Определение фенотипа на основе неполных генетических данных - Google Patents
Определение фенотипа на основе неполных генетических данных Download PDFInfo
- Publication number
- RU2754884C2 RU2754884C2 RU2020104947A RU2020104947A RU2754884C2 RU 2754884 C2 RU2754884 C2 RU 2754884C2 RU 2020104947 A RU2020104947 A RU 2020104947A RU 2020104947 A RU2020104947 A RU 2020104947A RU 2754884 C2 RU2754884 C2 RU 2754884C2
- Authority
- RU
- Russia
- Prior art keywords
- phenotype
- user
- diplotypes
- determining
- diplotype
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Organic Chemistry (AREA)
- Immunology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Zoology (AREA)
- Hematology (AREA)
- Evolutionary Biology (AREA)
- Microbiology (AREA)
- Urology & Nephrology (AREA)
- Medical Informatics (AREA)
- Wood Science & Technology (AREA)
- Biochemistry (AREA)
- Food Science & Technology (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Cell Biology (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Предложенная группа изобретений относится к области медицины. Предложен компьютерно-реализуемый способ определения фенотипа пользователя в условиях отсутствия полной генетической информации, выполняемый при помощи по крайней мере одного процессора. Предложена система для определения фенотипа пользователя в условиях отсутствия полной генетической информации с помощью вышеуказанного компьютерно-реализуемого способа. Предложен машиночитаемый носитель данных, который выполнен с возможностью считывания посредством устройства обработки данных и хранящий подлежащие исполнению инструкции для определения фенотипа пользователя в вышеуказанной системе. Предложенная группа изобретений обеспечивает точное определение фенотипа пользователя на основе его неполных генетических данных. 3 н. и 17 з.п. ф-лы, 10 ил., 11 табл., 2 пр.
Description
[0001] Настоящее изобретение в целом относится к вычислительным системам, а также к их применению в генетике, а в частности к системам и способам определения фенотипа пользователя с использованием генетической информации.
УРОВЕНЬ ТЕХНИКИ
[0002] Понятие генотип включает в себя совокупность всех генов организма, унаследованных от родителей, которые непосредственно влияют на проявление фенотипа, т.е. развитие тех или иных внешних и внутренних особенностей (признаков) организма. Также данный термин часто используется в узком смысле, в этом случае генотип означает комбинацию аллелей гена, контролирующих проявление признака.
[0003] Вариация нуклеотидной последовательности ДНК представляет собой разнообразие вариантов для участка последовательности ДНК, которые представлены в популяции. Различия могут быть внесены, например, заменой одного нуклеотида на другой (SNV, англ. single nucleotide variation), изменением порядка нуклеотидов, вставкой или выпадением одного или нескольких нуклеотидов (INDEL, англ. insertion-deletion variation), изменения числа повторяющихся фрагментов ДНК, и т.д.
[0004] Вариация нуклеотидной последовательности в участке молекулы ДНК, кодирующем ген, может внести изменения в кодируемый белок, например, за счет изменения одной или более аминокислот, что в свою очередь может отразиться на структуре и/или функции данного белка. Вариация нуклеотидной последовательности в участке молекулы ДНК, регулирующем активность генов, может изменить количество производимого белка, не меняя при этом его свойств, что также может повлиять на фенотип. Важно и то, что для одного гена может быть известно несколько сотен возможных вариаций, и соответственно тысячи возможных сочетаний этих вариаций для диплоидного набора хромосом, поэтому необходимы специальные алгоритмы для автоматического анализа данных генотипирования.
[0005] Существует несколько алгоритмов восстановления гаплотипов по генотипам, которые были разработаны и реализованы за последние 30 лет. Значительное совершенствование технологий секвенирования позволило предложить принципиально новые подходы для определения индивидуальных гаплотипов из данных секвенирования следующего поколения. Однако, большинство известных алгоритмов нацелены на восстановление гаплотипа всего генома или на обработку больших последовательностей, когда основной задачей является оптимизация вычислений. Подобные алгоритмы используют эвристические или графовые подходы для данных сырых прочтений, причем в границы каждого прочтения может попадать более чем одна вариация нуклеотидной последовательности, (пример обзора: Rhee, J. K., Li, Н., Joung, J.G., Hwang, K.В., Zhang, В.Т., & Shin, S.Y. (2016) Survey of computational haplotype determination methods for single individual. Genes & Genomics, 38(1), 1-12).
[0006] Такие алгоритмы не подходят для определения гаплотипов, когда речь идет об отдельном гене или совокупности генов. Определение гаплотипов для гена основано на однонуклеотидных вариациях (SNVs) и инсерциях-делециях (INDELs), и требует принципиально других подходов.
СУЩНОСТЬ ТЕХНИЧЕСКОГО РЕШЕНИЯ
[0007] Заявленное изобретение предоставляет возможность решить ряд задач, связанных с определением фенотипа пользователя, и предоставить ему соответствующие персональные рекомендации, как это в деталях будет описано ниже.
[0008] Таким образом, техническим результатом, на достижение которого направлено настоящее изобретение, является обеспечение возможности точного определения фенотипа пользователя на основе его неполных генетических данных, выраженных в отсутствии информации о генотипе для по меньшей мере одной из позиций и предоставление пользователю персональных рекомендаций с учетом определенного фенотипа пользователя.
[0009] Указанный выше технический результат достигается настоящим изобретением благодаря тому, что в одном из альтернативных вариантов заявленное изобретение представляет собой способ определения фенотипа пользователя в условиях отсутствия полной генетической информации, согласно которому с помощью обрабатывающего данные устройства получают генетическую информацию пользователя с генетическими вариациями в виде пар позиция-генотип и/или идентификатор-генотип, а неполнота генетической информации пользователя выражается в отсутствии генотипа для по меньшей мере одной из позиций и/или идентификатора генетической вариации, выбирают из генетической информации пользователя генетические вариации, которые соответствуют данным об известных гаплотипах по меньшей мере одного гена, содержащихся в хранилище данных, при этом получая по меньшей мере одно множество генетических вариаций U из генетической информации пользователя, получают все возможные диплотипы из известных гаплотипов для указанного одного или более гена, оценивают каждый полученный диплотип на соответствие полученной генетической информации пользователя, вычислением количества несовпадений между диплотипом и множеством вариаций U, формируют по меньшей мере одно множество выбранных диплотипов D на основе вычисленного общего количества несовпадений, получают отображение по меньшей мере одного из возможных диплотипов для указанного одного или более гена в фенотип из указанного хранилища данных, и определяют фенотип пользователя, используя множество D, на основании полученного отображения диплотипов в фенотипы.
[0010] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором в хранилище данных дополнительно хранится информация о вероятности известных гаплотипов и/или известных диплотипов.
[0011] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором в хранилище данных хранится описание молекулярных последствий каждого известного гаплотипа для указанного одного или более гена.
[0012] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором выполняется определение молекулярных последствий по меньшей мере одного диплотипа для указанного одного или более гена на основе описания молекулярных последствий по меньшей мере одного гаплотипа, составляющего данный диплотип, и отображение по меньшей мере одного диплотипа в фенотип вычисляется на основе описания молекулярных последствий данного диплотипа.
[0013] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором при оценке каждого полученного диплотипа, если не найдено ни одного варианта диплотипа с полным совпадением со множеством вариаций U, для вывода могут быть использованы все возможные диплотипы при формировании множества D.
[0014] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором при оценке каждого полученного диплотипа применяется по меньшей мере одно пороговое значение для количества несовпадений, которое исключает один или более диплотип из дальнейшего рассмотрения.
[0015] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором в качестве порогового значения может быть выбрано значение медианы распределения количества несовпадений.
[0016] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором пороговое значение может быть определено посредством сложения минимального количества несовпадений из вычисленного множества несовпадений и рассчитанного количества генетических вариаций с неопределенным генотипом в генетической информации пользователя.
[0017] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором вероятность диплотипа рассчитывается на основе данных о вероятности его гаплотипов, которое для гомозиготных диплотипов и фазированных гетерозиготных диплотипов представляет собой произведение вероятностей гаплотипов, составляющих диплотип, для нефазированных гетерозиготных диплотипов представляет собой удвоенное произведение вероятностей гаплотипов, составляющих диплотип, и для гемизиготных диплотипов представляет собой значение вероятности входящего в состав гаплотипа.
[0018] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, включающий добавление генетических вариаций известных гаплотипов по меньшей мере одного гена, для которых отсутствует генетическая информация пользователя, к указанному по меньшей мере одному множеству вариаций U генетической информации пользователя.
[0019] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, включающий вычисление вероятности каждого фенотипа для пользователя.
[0020] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором в качестве отображения используется по меньшей мере одно сюръективное отображение, которое полностью отображает большее множество диплотипов в меньшее множество фенотипов, при этом вероятность каждого фенотипа для пользователя может вычисляться как сумма вероятностей диплотипов из множества D, соответствующих данному фенотипу.
[0021] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, включающий формирование одной или более рекомендации для пользователя с учетом определенного фенотипа.
[0022] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором формирование одной или более рекомендации для пользователя включает по меньшей мере одно из: рекомендации по изменению дозировки лекарственного вещества, или рекомендацию отказаться от приема лекарственного вещества, основываясь на неэффективности и/или токсичности указанного лекарственного вещества для определенного ранее фенотипа пользователя, или рекомендацию использования альтернативных лекарственных веществ более эффективных и/или безопасных для пользователя, или рекомендацию по дозированию согласно инструкции к лекарственному веществу с учетом определенного фенотипа.
[0023] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором по меньшей мере один ген относится к группе генов ферментов, метаболизирующих лекарственные вещества, или генов переносчиков лекарственных веществ, или генов человеческого лейкоцитарного антигена, или генов мишеней лекарственных веществ.
[0024] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором, при вычислении количества несовпадений между диплотипом и множеством вариаций U, определенное количество несовпадений является нулевым и подразумевает полное совпадение между ними.
[0025] Еще в одном альтернативном варианте изобретение представляет собой способ определения фенотипа пользователя, в котором получают все возможные диплотипы посредством извлечения данных об указанных диплотипах из хранилища данных.
[0026] Указанный выше результат также достигается благодаря тому, что в ином альтернативном варианте заявленное изобретение представляет собой систему для определения фенотипа пользователя в условиях отсутствия полной генетической информации, содержащая обрабатывающее данные устройство и функционально взаимосвязанную с обрабатывающим устройством память, при этом система настроена на получение генетической информации пользователя с генетическими вариациями в виде пар позиция-генотип и/или идентификатор-генотип, а неполнота генетической информации пользователя выражается в отсутствии генотипа для по меньшей мере одной из позиций и/или идентификатора генетической вариации, выбор из генетической информации пользователя генетических вариаций, которые соответствуют данным об известных гаплотипах по меньшей мере одного гена, содержащихся в хранилище данных, при этом получая по меньшей мере одно множество генетических вариаций U из генетической информации пользователя, получение всех возможных диплотипов из известных гаплотипов для указанного одного или более гена, оценку каждого полученного диплотипа на соответствие полученной генетической информации пользователя вычислением количества несовпадений между диплотипом и множеством вариаций U, формирование по меньшей мере одного множества выбранных диплотипов D на основе вычисленного общего количества несовпадений, получение отображения по меньшей мере одного из возможных диплотипов для указанного одного или более гена в фенотип из указанного хранилища данных, и определение фенотипа пользователя, используя множество D, на основании полученного отображения диплотипов в фенотипы.
[0027] Указанный выше результат также достигается благодаря тому, что в ином альтернативном варианте настоящее изобретение представляет собой машиночитаемый носитель данных, который выполнен с возможностью считывания посредством устройства обработки данных и хранящий подлежащие исполнению посредством устройства обработки данных инструкции для определения фенотипа пользователя в условиях отсутствия полной генетической информации, при этом указанные инструкции при их исполнении устройством обработки данных побуждают его выполнять получение генетической информации пользователя с генетическими вариациями в виде пар позиция-генотип и/или идентификатор-генотип, а неполнота генетической информации пользователя выражается в отсутствии генотипа для по меньшей мере одной из позиций и/или идентификатора генетической вариации, выбор из генетической информации пользователя генетических вариаций, которые соответствуют данным об известных гаплотипах по меньшей мере одного гена, содержащихся в хранилище данных, при этом получая по меньшей мере одно множество генетических вариаций U из генетической информации пользователя, получение всех возможных диплотипов из известных гаплотипов для указанного одного или более гена, оценку каждого полученного диплотипа на соответствие полученной генетической информации пользователя вычислением количества несовпадений между диплотипом и множеством вариаций U, формирование по меньшей мере одного множества выбранных диплотипов D на основе вычисленного общего количества несовпадений, получение отображения по меньшей мере одного из возможных диплотипов для указанного одного или более гена в фенотип из указанного хранилища данных, и определение фенотипа пользователя, используя множество D, на основании полученного отображения диплотипов в фенотипы.
[0028] Специалисту должно быть очевидно, что заявленное изобретение не ограничивается лишь указанными выше вариантами, как это подробно описано ниже в описании.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0029] Признаки и преимущества настоящего технического решения станут очевидными из приведенного ниже подробного описания и прилагаемых чертежей, на которых:
[0030] Рис. 1 представляет собой пример реализации способа определения фенотипа в условиях отсутствия полной генетической информации пользователя в виде блок-схемы.
[0031] Рис. 2 представляет собой схему получения всех возможных диплотипов и вычисление общего количества несовпадений между вариантами диплотипов и индивидуальными данными генотипирования.
[0032] Рис. 3 представляет собой схему вычисления нормализованного значения вероятности диплотипов.
[0033] Рис. 4А схематично показывает определение фенотипа пользователя с помощью заданного сюръективного отображения, при условии полных данных о его генотипах.
[0034] Рис. 4В схематично показывает определение фенотипа пользователя с помощью заданного сюръективного отображения, путем вычисления значений вероятности наличия того или иного диплотипа.
[0035] Рис. 4С схематично показывает определение фенотипа пользователя с помощью композиции сюръективных отображений, путем промежуточного отображения диплотипов в молекулярные последствия.
[0036] Рис. 5 представляет собой схему иллюстрирующую предлагаемый способ определения фенотипа с использованием композиции сюръективных отображений на примере метаболизма клопидогрела. Пунктиром изображены элементы области значений, в которые не произошло отображение для данных генотипов.
[0037] Рис. 6А представляет собой схему иллюстрирующую предлагаемый способ определения фенотипа и формирования рекомендации с использованием композиции сюръективных отображений на примере уровня витамина D в крови.
[0038] Рис. 6В представляет собой схему иллюстрирующую предлагаемый способ определения фенотипа и формирования рекомендации с использованием композиции сюръективных отображений на примере уровня витамина D в крови для другого набора генотипов.
[0039] Рис. 7 представляет собой схему компонентов примера вычислительной системы, которая может использоваться для реализации описанного в настоящем документе способа определения фенотипа пользователя в условиях отсутствия полной генетической информации.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
[0040] Описываемое ниже техническое решение может быть реализовано на компьютере или другом устройстве обработки данных, в виде автоматизированной системы или машиночитаемого носителя, содержащего инструкции для выполнения вышеупомянутого способа.
[0041] Описываемое ниже техническое решение может быть реализовано в виде распределенной компьютерной системы, компоненты которой являются облачными или локальными серверами.
[0042] Некоторые части описываемого здесь технического решения представлены в терминах алгоритмов и других представлений операций с битами данных или двоичными цифровыми сигналами в компьютерной памяти. Следует принимать во внимание, что определения или выводы, упомянутые в данном описании, могут быть реализованы с использованием методов искусственного интеллекта. Более конкретно, термины «обработка», «вычисление», «определение», «установление», «анализ», «идентификация», «проверка» или т.п. могут относиться к операциям и/или процессам компьютера, вычислительной платформы, компьютерной системы или другому электронному устройству, которые манипулируют и/или преобразуют данные, представленные в виде физических (например, электронных) величин в регистрах и/или запоминающих устройствах компьютера, в другие данные, аналогично представляемые в виде физических величин в пределах регистров и/или запоминающих устройств компьютера или другого носителя информации, который может хранить инструкции для выполнения способов, операций и/или процессов, упомянутых ниже.
[0043] Ниже будут подробно рассмотрены термины и их определения, используемые в описании технического решения.
[0044] В настоящем описании под системой подразумевается компьютерная система или автоматизированная система (АС), ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированная система управления, мобильное устройство и любые другие устройства, способные выполнять заданную, четко определенную последовательность вычислительных операций (действий, инструкций).
[0045] Под устройством обработки команд подразумевается электронный блок либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы). Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройства хранения данных. В роли устройства хранения данных могут выступать, но, не ограничиваясь, жесткие диски (HDD), флеш-память, карты памяти, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы, облачные хранилища данных.
[0046] Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд.
[0047] Секвенирование ДНК - определение последовательности нуклеотидов в молекуле ДНК. Под этим может подразумеваться как ампликонное секвенирование (прочтение последовательностей выделенных фрагментов ДНК, полученных в результате ПЦР реакции), так и полногеномное секвенирование (прочтение последовательностей всей ДНК, присутствующей в образце).
[0048] Аллели - различные варианты (значения) одного и того же гена или одной и той же позиции (локуса), расположенные в одинаковых участках (локусах) гомологичных хромосом.
[0049] Гаплотип - это совокупность аллелей, находящихся на одной хромосоме и обычно соответствующих определенному гену. Как правило, в популяции встречается несколько устойчивых сочетаний генетических вариантов, расположенных на одной хромосоме друг с другом, т.е. гаплотипов.
[0050] Диплотип - пара гаплотипов, где на каждой хромосоме из одной пары гомологичных хромосом находится по одному гаплотипу (иначе говоря, один гаплотип достался от одного родителя, а второй - от другого).
[0051] Фазированный диплотип - диплотип, для которого определено, какой из гаплотипов был унаследован от одного родителя, а какой от другого.
[0052] Нефазированный диплотип - диплотип, для которого не определено, какой из гаплотипов был унаследован от одного родителя, а какой от другого.
[0053] Гомозиготный диплотип - это такой диплотип, при котором аллели в определенных локусах идентичны друг другу на гомологичных хромосомах, что соответствует паре идентичных гаплотипов.
[0054] Гетерозиготный диплотип - это такой диплотип, при котором аллели в определенных локусах отличаются друг от друга на гомологичных хромосомах, что соответствует паре разных гаплотипов.
[0055] Гемизиготный диплотип - это диплотип, в котором отсутствует гомологичный аллель, то есть хромосома, в которой находится определенный локус, не имеет гомологичной пары, такой диплотип представлен только одним гаплотипом.
[0056] Задачей настоящего изобретения является определение фенотипа пользователя в условиях отсутствия полной генетической информации.
[0057] Предлагается способ определения фенотипа, который основан на том, что количество возможных фенотипов и/или наблюдаемых вариантов молекулярных последствий для всевозможных диплотипов данного гена и/или генов сильно ограничено по сравнению с количеством диплотипов. Данное изобретение может применяться в различных областях генетики, изучающих связь тех или иных фенотипов с определенными вариациями нуклеотидных последовательностей, включая фармакогенетику и нутригенетику.
[0058] Одним из вариантов проявления молекулярных последствий, зависящих от диплотипа одного или более генов, является скорость метаболизма определенного вещества или типа веществ, которая определяется активностью того или иного фермента, иными словами - это активность (статус) метаболизатора. В этом случае фенотипом может быть наблюдаемый эффект от употребления данного вещества (изменение наблюдаемых показателей, концентрация вещества в крови, терапевтический эффект, аллергическая реакция, и т.д.) Определение активности некоторого фермента пользователя является актуальной задачей в рамках фармакогенетики. Хотя данное изобретение относится к определению любого фенотипа (и соответствующих молекулярных последствий) в условиях неполных генетических данных, для удобства изложения сути изобретения в качестве примера будем использовать фенотип, относящийся к метаболизму некоторого лекарственного вещества, а статус метаболизатора - в качестве примера молекулярных последствий.
[0059] Другими вариантами проявления фенотипа могут быть различные биохимические проявления, такие как уровень определенного микроэлемента и/или метаболита в крови (например, витамина), непереносимость определенного вещества (например, лактозы), генетический риск некоторых заболеваний (например, сахарный диабет 2 типа) и т.п. Определение фенотипа пользователя позволяет формировать индивидуальные рекомендации по питанию, спорту, предотвращению развития отдельных заболеваний, здоровому образу жизни и т.п.
[0060] Если молекулярные последствия являются непрерывным, как в случае со скоростью метаболизма, то их область значений можно разделить на интервалы, группы или категории, получив множество дискретных значений, соответствующих определенному молекулярному последствию (как статус метаболизатора в данном примере). Аналогично можно поступить с областью значений непрерывного фенотипа. Также в случае дискретной области значений фенотипа и/или молекулярных последствий некоторые значения могут быть объединены в группы (категории, кластеры) более высокого уровня.
[0061] В одном из вариантов реализации может быть выделено несколько статусов метаболизатора, которые обусловлены вариантами нуклеотидной последовательности генов, кодирующих ферменты. Например, могут быть выделены следующие статусы: медленные, промежуточные, нормальные, быстрые, сверхбыстрые метаболизаторы. В некоторых случаях могут использоваться дополнительные статусы, или их количество может быть уменьшено (например, до двух: медленные и нормальные метаболизаторы).
[0062] Медленные метаболизаторы (англ. poor metabolizer) отличаются очень низкой активностью (или отсутствием активности) данного фермента, для этого статуса характерно нарушение функции соответствующего фермента.
[0063] Для промежуточных метаболизаторов (англ. intermediate metabolizer) характерна активность фермента ниже средней.
[0064] Нормальным метаболизаторам (англ. normal/extensive metabolizer) свойствена нормальная/средняя активность некоторого фермента, которая обычно является самой распространенной.
[0065] Быстрые метаболизаторы (англ. rapid metabolizer) отличаются повышенной активностью фермента.
[0066] Сверхбыстрые метаболизаторы (англ. ultrarapid metabolizer) отличаются очень высокой активностью фермента.
[0067] Дополнительно можно использовать статус "неопределенный метаболизатор" (англ. unknown metabolizer) в случаях, когда активность фермента неизвестна для известного диплотипа.
[0068] Для обозначения некоторого гаплотипа гена может быть использован знак звездочки с числом и/или буквенным обозначением. Гаплотипы генов могут быть обозначены, например, как *1 или *2А. Тогда диплотип будет обозначаться как пара гаплотипов, разделенная косой чертой, например, *1/*1 - один из вариантов обозначения для гомозиготного диплотипа и *5А/*17 - для гетерозиготного диплотипа.
[0069] Некоторые гены могут находиться на хромосомах, у которых нет гомологичной пары, тогда диплотип будет гемизиготным и может обозначаться как пара гаплотипов, разделенная косой чертой, где второй гаплотип отсутствует, например, *3/- или *1/0, либо так же как гаплотип, образующий данный диплотип, например, *1. Гемизиготное состояние характерно для генов, находящихся на X- или Y-хромосоме у субъектов мужского пола или для случаев моносомии, например, синдром Тернера у субъектов женского пола.
[0070] Гаплотип и/или диплотип пользователя можно определить на основе генетической информации пользователя, которая может быть получена предварительно путем генотипирования или секвенирования образца биоматериала пользователя (110). Генотипирование образца может осуществляться любым из известных методов, например, с помощью ДНК-микрочипов и сканера микрочипов, или с помощью ПЦР. Секвенирование образца может осуществляться с помощью Сэнгеровского секвенирования или с помощью секвенирования следующего поколения (NGS) или с помощью нанопорного секвенирования или других методов, в результате использования которых осуществляется чтение нуклеотидной последовательности ДНК.
[0071] Затем из образца пользователя посредством генотипирования или секвенирования получают данные о генотипах, например, в виде однонуклеотидных вариаций (SNV).
[0072] Индивидуальная генетическая информация пользователя может быть представлена в виде пар позиция-генотип и/или идентификатор-генотип. При этом обозначение позиции и/или идентификатора генетической вариации может включать в себя указание локуса, хромосомы, а также иметь указания на соответствующий биологический вид и версию сборки генома.
[0073] Например, можно использовать обозначение rsID генетической вариации с указанием генотипа, где rsID представляет собой уникальный идентификатор генетической вариации в базе нуклеотидных вариаций dbSNP, курируемой Национальным центром биотехнологической информации США. Гаплотип и диплотип в этом случае будет представлен множеством соответствующих генетических вариаций.
[0074] Альтернативно могут использоваться идентификаторы генетических вариаций, использующие информацию о расположении вариации в геноме. Такие идентификаторы могут включать в себя обозначение хромосомы и позиции на этой хромосоме (например, 7:24926827 - хромосома 7, позиция 24926827) или использующие нотацию HGVS (Human Genome Variation Society) с идентификаторами хромосом, версиями сборок генома, позициями и нуклеотидными изменениями (NC_000007.14:g.24926827C>A - замена нуклеотида С на А в позиции 24926827 на 7 хромосоме сборки генома GRCh38).
[0075] Для обозначения позиции и/или идентификатора генетической вариации могут использоваться любые другие номенклатуры без ограничения. Неполнота генетических данных, при этом может выражаться в отсутствии информации о генотипе пользователя для одной или более генетической вариации.
[0076] Информация об известных гаплотипах того или иного гена может храниться в базе данных или любом другом электронном хранилище данных, включая распределенные хранилища данных. Дополнительно в хранилище данных может храниться информация с описанием молекулярных последствий каждого гаплотипа (включая категориальное обозначение эффективности работы данного гена и/или описание других эффектов, влияющих на фенотип), а также информация о вероятностях известных гаплотипов. Вероятности гаплотипов могут быть заранее вычислены, либо представлены частотой встречаемости этих гаплотипов, в том числе популяционной частотой или частотой в определенной группе субъектов, например, среди субъектов мужского пола, среди субъектов с определенным диагнозом и т.д. В некоторых вариантах реализации изобретения информация о частоте встречаемости может включать популяцию всего земного шара.
[0077] В одном из вариантов реализации предварительно может быть создана таблица с описанием гаплотипов определенных генов, содержащая информацию о наборе специфичных аллелей для каждого гаплотипа гена (аллели могут быть указаны по номенклатуре ИЮПАК). Например, в реализации данного способа могут использоваться гены ферментов, метаболизирующих лекарственные вещества, например, CYP2C9, CYP2D6, CYP2C19, CYP3A5, ТРМТ и UGT1A1, гены переносчиков лекарственных веществ, например, SLCO1B1, АВСВ1 и ABCG2, гены человеческого лейкоцитарного антигена, например, HLA-A и HLA-B, гены мишеней лекарственных веществ, например, VKORC1 и CFTR, и т.п.
[0078] Информация об известных гаплотипах того или иного гена может содержать специфичные аллели, находящиеся вне транслируемого региона гена, если эти аллели имеют клиническую значимость. Такие аллели могут располагаться в интронах гена, нарушая сплайсинг его РНК, энхансерных и сайленсерных областях ДНК, изменяя эффективность транскрипции гена, к которому они специфичны, а также в регионах гена, транскрибируемых в 3'- и 5'-нетранслируемые области РНК, имеющие существенное влияние на эффективность ее трансляции и стабильность, или в других областях ДНК, функция которых в настоящий момент не выяснена.
[0079] На примере гена CYP3A5 (cytochrome Р450 3А5) информация об известных гаплотипах может выглядеть следующим образом:
[0080] Информация о вероятностях известных гаплотипов, которая в данном и последующих примерах определяется популяционной частоты встречаемости, может быть представлена в следующем виде:
[0081] Описание молекулярных последствий каждого гаплотипа может храниться в следующей форме:
[0082] Из индивидуальной генетической информации пользователя выбираются специфичные генетические вариации, которые сравниваются с известными гаплотипами определенного гена и/или совокупности генов, производится поиск совпадающих аллелей (120). Из множества вариаций, которые присутствуют в индивидуальных данных генотипирования пользователя, выбираются вариации специфичные для гаплотипов данного гена, таким образом может быть получено некоторое множество вариаций U из генетической информации пользователя.
[0083] Далее формируются все возможные диплотипы пользователя для данного гена и/или генов (130), как схематично показано на Рис. 2 для гена CYP3A5. Диплотип представляет собой пару гаплотипов для генов, находящихся на парных хромосомах, или синглетон из гаплотипа для генов, находящихся на непарных хромосомах. Таким образом, если известных гаплотипов N, то возможных диплотипов может быть значительно больше - от N до N2. В одном из вариантов реализации в хранилище данных также может быть сохранена информация о всевозможных диплотипах, которые могут быть образованы из известных гаплотипов того или иного гена.
[0084] Затем каждый полученный вариант диплотипа оценивается на соответствие индивидуальным данным генотипирования пользователя. Для этого выполняется вычисление общего количества несовпадений mi (англ. mismatches) генотипов между i-ой вариацией диплотипа и множеством вариаций U (140), например, как показано на Рис. 2, причем нулевое количество несовпадений подразумевает полное совпадение между последовательностями.
[0085] В одном варианте реализации, если идентифицирован по меньшей мере один диплотип с нулевым количеством несовпадений (mi=O), то все остальные диплотипы с ненулевым числом несовпадений могут быть исключены из дальнейшего рассмотрения. При этом из-за неполноты генетических данных может быть идентифицировано несколько вариантов диплотипов с нулевым количеством несовпадений. Выбранные варианты диплотипов образуют множество D.
[0086] В случае, когда не найдено ни одного варианта диплотипа с полным совпадением, для вывода могут быть использованы все возможные диплотипы.
[0087] Альтернативно может применяться некоторое пороговое значение, которое исключает один или более диплотип из дальнейшего рассмотрения. Например, пороговое значение можно задать для допустимого количества несовпадений, такое пороговое значение можно вычислить как значение медианы распределения количества несовпадений mi или другим удобным способом. Диплотипы с количеством несовпадений, удовлетворяющим пороговому значению, образуют множество выбранных вариантов диплотипов D (150).
[0088] В другом варианте реализации по результатам сравнения индивидуальной последовательности из множества вариаций U и возможных вариантов диплотипов можно определить минимальное количество несовпадений mmin из вычисленного множества несовпадений, а также может быть посчитано количество специфичных генетических вариаций k с неопределенным генотипом в индивидуальных данных. Тогда пороговое значение для допустимого количества несовпадений может быть задано как сумма mmin и k.
[0089] Для каждого диплотипа из выбранного множества вариантов D рассчитывается значение вероятности на основе данных о частоте встречаемости его гаплотипов, которая может храниться в хранилище данных. В одном из вариантов реализации значение вероятности может быть рассчитано на основе нормализованного значения частоты встречаемости данных диплотипов.
[0090] В одном из вариантов реализации, можно использовать уравнение Харди-Вайнберга для вычисления вероятности каждого диплотипа исходя из вероятностей его гаплотипов (например, частот встречаемости гаплотипов). Вероятность гомозиготных диплотипов, а также фазированных гетерозиготных диплотипов представляет собой произведение вероятностей гаплотипов, составляющих диплотип, в то время как для нефазированных гетерозиготных диплотипов это значение представляет собой удвоенное произведение вероятностей соответствующих гаплотипов. Вероятность гемизиготного диплотипа будет соответствовать значению вероятности гаплотипа, которым он представлен. В данном и последующих иллюстративных примерах, будем использовать нефазированные диплотипы, однако, для специалиста в данной области техники будет очевидно, что изложенный способ может быть реализован и при использовании фазированных диплотипов.
[0091] В одном из вариантов реализации могут использоваться нормализованные значения вероятности, которые рассчитываются из вероятности некоторого диплотипа из множества Д нормализованной на сумму вероятностей всех выбранных диплотипов из множества D (Рис. 3). Вероятность некоторого диплотипа может соответствовать частоте встречаемости в популяции данного диплотипа, частоте встречаемости диплотипа среди субъектов определенного пола или с определенным диагнозом и т.п. Вероятности известных диплотипов могут храниться в хранилище данных.
[0092] Далее, на основе описания молекулярных последствий, соответствующих тому или иному гаплотипу (из хранилища данных), можно определить фенотип каждого диплотипа из множества вариантов D (например, описываемый категориально).
[0093] В одном из вариантов реализации на основе описания молекулярных последствий гаплотипов можно определить молекулярные последствия каждого диплотипа из множества вариантов Д а затем, исходя из молекулярных последствий диплотипов, определить фенотип, соответствующий каждому диплотипу.
[0094] Для некоторых вариантов диплотипов определенного гена (или совокупности генов) молекулярные последствия могут быть известны (например, активность фермента, кодируемого/регулируемого данным геном и/или генами). При этом какие-то диплотипы данного гена могут иметь неизвестные молекулярные последствия. Для таких диплотипов можно явно указать отсутствие информации и, таким образом, формально определить неизвестное значение, например, как "неопределенный метаболизатор". В результате, молекулярные последствия можно считать известными для каждого варианта диплотипа. Для всех известных диплотипов определенного гена и/или генов информация о соответствующих им фенотипах и/или молекулярных последствиях может храниться в хранилище данных.
[0095] Кроме того, число вариантов молекулярных последствий значительно меньше числа всевозможных диплотипов данного гена (например, менее десяти вариантов молекулярных последствий, в то время как диплотипов некоторого гена может быть несколько сотен), а число фенотипов не превышает и обычно меньше, чем число молекулярных последствий. При этом, может быть задано по меньшей мере одно отображение, которое отображает диплотипы в соответствующие им фенотипы (160). В том числе может быть вычислена вероятность каждого фенотипа для пользователя на основе вероятностей соответствующих диплотипов. Альтернативно, может быть задано отображение диплотипов в молекулярные последствия, а затем отображение молекулярных последствий в фенотипы. В одном из вариантов реализации указанные отображения, могут быть сюръективными или биективными, при этом отображения могут быть заданы посредством функции, таблицы соответствия или другим удобным способом. Заданное отображение может быть получено из хранилища данных.
[0096] В описываемом примере осуществления изобретения отображение задается сюръективной функцией (англ. Surjective function), которая полностью отображает большее множество диплотипов в меньшее множество фенотипов. Итоговая вероятность каждого фенотипа может вычисляться как сумма популяционных частот, вероятностей или нормализованных вероятностей диплотипов с данным фенотипом из множества вариантов D.
[0097] На Рис. 4А схематично показано, как с помощью заданного сюръективного отображения можно определить фенотип пользователя при условии полных данных о его генотипе. Наличие полной информации позволяет однозначно установить диплотип пользователя и соответствующий ему фенотип. Однако довольно часто полные генетические данные пользователя недоступны. Кроме того, даже при наличии полной информации о генотипах может встретиться такое сочетание аллелей, которое не соответствует ни одному из известных диплотипов. В этих случаях вычисление значений фенотипа будет вероятностным. Предлагаемое изобретение позволяет достичь наиболее точного определения фенотипа пользователя в условиях неполной информации о его генотипах.
[0098] В иллюстративном примере осуществления изобретения рассматривается случай, когда число возможных гаплотипов для пользователя сужено недостаточно. В этом случае уверенно определить диплотип пользователя нельзя, и каждый из выбранных диплотипов будет иметь некоторую вероятность. Однако можно определить возможный фенотип, основываясь на сюръективной природе отображения диплотипа в фенотип. Сюръективное отображение полностью отображает область определения в область значений меньшего размера, то есть в каждый элемент из области значений может отобразиться один или более элементов из области определения.
[0099] Рис. 4В схематично показывает, как в условиях неполной генетической информации пользователя решается задача определения фенотипа, основываясь на вычислении вероятности наличия того или иного диплотипа с помощью заданного сюръективного отображения, в соответствии с одним из вариантов реализации изобретения. Также в некоторых случаях может сложиться ситуация, когда множество выбранных диплотипов D пользователя отображается в один фенотип. Рис. 4В схематично показывает, как в условиях неполной генетической информации пользователя выполняется определение фенотипа пользователя с помощью последовательности (композиции) сюръективных отображений, путем промежуточного отображения диплотипов в молекулярные последствия, а затем молекулярных последствий в фенотипы. После определения фенотипа пользователя может дополнительно использоваться отображение фенотипов в рекомендации.
[00100] В некоторых вариантах реализации отображение фенотипов в рекомендации и/или по меньшей мере одно отображение из композиции отображений из диплотипов в фенотипы может быть биективным. Биективное отображение переводит каждый элемент из области определения в один элемент области значений.
[00101] В одном из вариантов осуществления можно выбрать фенотип со значением вероятности выше некоторого порогового значения, при условии, что вероятность любого другого из возможных фенотипов не может превышать указанное пороговое значение. В случае, когда ни один из фенотипов не удовлетворяет указанному условию, может использоваться искусственно заданное значение, обозначающее неопределенный фенотип.
[00102] Когда фенотип пользователя определен, для него может быть сформирована персональная рекомендация, например, клинически значимая рекомендация, рекомендация по питанию, спорту и т.п. В одном из вариантов реализации для формирования рекомендаций по фенотипу пользователя может использоваться еще одно отображение фенотипа в рекомендацию, которое также может быть сюръективным или биективным.
[00103] В области фармакогенетики определение фенотипа пользователя позволит сформировать рекомендации касательно применения определенного лекарственного вещества на основе анализа информации о генах, влияющих на метаболизм, транспорт, участвующих в иммунном ответе, и т.д. для данного лекарственного вещества. Подобные рекомендации могут включать в себя рекомендации по дозировке лекарственного вещества, или рекомендацию по дозированию согласно инструкции к лекарственному веществу, или рекомендацию отказаться от приема данного лекарственного вещества, основываясь на неэффективности и/или токсичности лекарственного вещества для пользователя, или рекомендацию подобрать альтернативные лекарственного вещества, которые будут более эффективны и/или безопасны для пользователя с учетом определенного фенотипа. Указанные рекомендации, например, могут быть использованы врачами при назначении лечения и/или при персонализированном подборе лекарственных веществ.
[00104] Формирование рекомендации по лекарственному веществу может выполняться на основе известных клинических рекомендаций для разных статусов метаболизатора, которые возможно найти в публичном доступе. В одном из вариантов реализации для формирования клинически значимых рекомендаций могут использоваться руководства (англ. guidelines), выпущенные различными международными медицинскими организациями, по фармакогенетике лекарственных веществ. Такие руководства выпускаются на основе проведенных научных исследований и содержат рекомендации для каждого диплотипа в соответствии с его молекулярными последствиями (в данном случае, статусом метаболизатора).
[00105] Таким образом, на примере метаболизатора некоторого вещества, описанный подход позволяет по неполным генетическим данным достаточно точно определять уровень активности соответствующего фермента пользователя и/или вероятность проявления каждого уровня активности, из уровня активности фермента определить фенотип пользователя и сформировать персональные рекомендации для пользователя.
[00106] Аналогично, в области нутригенетики определение фенотипа пользователя позволит сформировать персонализированные рекомендации по питанию с учетом индивидуальных особенностей метаболизма определенных веществ и/или предрасположенности к некоторым заболеваниям, таким как сердечно-сосудистые заболевания, ожирение, сахарный диабет 2 типа, и т.п. Ниже разобраны примеры, иллюстрирующие применимость изложенного способа определения фенотипа для решения технических задач.
[00107] Что касается систем и способов по настоящему изобретению, направленных на определение фенотипа на основе неполных генетических данных, то такие способы и системы могут быть интегрированы в, либо являться обособленными "системами управления взаимоотношениями с клиентами" (CRM, Customer Relationship Management), в частности таким, как, например, медицинские CRM.
[00108] Общими словами можно сказать, что такого рода системы представляют собой комплекс аппаратных и программных средств, включающих, например, серверные решения, оконечные пользовательские устройства (например, как, персональный компьютер, портативное устройство, подключенное к сети интернет и др.). Данные, относящиеся к пользователям (исходные), могут загружаться в/выгружаться из такого рода системы, например, по сети интернет, что обеспечивает непосредственное начало их автоматизированной обработки/выгрузку, например, рекомендаций пользователя, например, касающихся его фенотипа согласно целевому назначению выгрузки.
[00109] В зависимости от модификаций системы и задачи такие данные могут быть, например, загружены/выгружены непосредственно субъектом/пользователем и/или клиническим специалистом(у) и/или сохранены в базе данных (хранилище, например, облачном хранилище данных) совместно с другими данными пользователя, например, его идентификатор в базе данных (user ID), иная информация, например, возраст, пол пользователя и др. Применение настоящего изобретения не ограничено разовостью для пользователя, так, например, с помощью тех же средств, раскрытых в настоящем описании, возможно сравнивать различные данные для пользователя, полученные с заданной разницей во времени (например, неделя, год, месяц и др.) и далее формировать рекомендации для пользователя, в том числе, с учетом уже хранящихся данных пользователя, и выгружать такие данные, например, по запросу пользователя или, например, клинического специалиста для отслеживания динамики успешности полученных ранее рекомендаций.
[00110] Такого рода система, например, может быть реализована на одном или более серверах разного типа, являться распределенной облачной системой (cloud computing). Доступ к такой системе для ее пользователей может быть организован, например, посредством создания пользовательского профиля, например, администратором системы, генерации данных пользовательского профиля (user account), например, связка логин-пароль, либо предоставляться посредством считывания пользовательской биометрической информации (например, отпечаток пальца пользователя, считываемый специализированными криптографическим приложением на пользовательском терминале/портативном устройстве), либо, например, посредством смарт-карты, цифрового сертификата, ЭЦП (Электронная Цифровая Подпись) и др.
[00111] Как правило, такие системы, как, например, медицинские CRM, содержат в себе такие компоненты, как фронтальная часть, которая призвана обеспечить обслуживание конечных пользователей системы, таких как врач, пациент, сотрудник клиники, медицинского или оздоровительного центра, медицинской лаборатории, поддерживающую автономную, распределенную или централизованную обработку данных, как например, данные субъектов (пользователей) в контексте настоящего изобретения; операционная часть, обеспечивающая авторизацию операций и оперативную отчетность; хранилище данных (например, локальное, облачное хранилище данных), обладающее распределенной (централизованной/децентрализованной структурой); аналитическая подсистема (например, подсистема, в контексте настоящего изобретения настроенную на автоматизированную обработку загружаемых в такую подсистему данных и формирование рекомендаций для пользователей по фенотипу); распределенная система поддержки, организующая репликацию данных на оконечных точках.
[00112] При этом такого рода система может иметь распределенный характер и не иметь какой-то конкретной локации, что позволяет снять пространственные ограничения между ее пользователями.
[00113] Иллюстративные примеры возможного использования предлагаемого способа представлены ниже. Данные варианты являются описательными и не предназначены для ограничения объема прав, изложенного в формуле изобретения.
[00114] В частности, в качестве примера использования предлагаемого способа в области фармакогенетики, описан иллюстративный пример определения фенотипа и формирования рекомендаций для пользователя с помощью нескольких сюръективных отображений на примере метаболизма клопидогрела.
[00115] Некоторые лекарственные вещества метаболизируется ферментами печени - цитохромами. Первичная структура белков цитохромов закодирована в генах ядерной ДНК. Зная о состоянии некоторых функциональных аллелей в гене конкретного цитохрома у конкретного пользователя, можно установить оптимальную дозировку лекарственного вещества, вероятность развития побочных эффектов или необходимость замены на другое лекарственное вещество у данного пользователя.
[00116] Одним из широко применяемых лекарственных веществ является клопидогрел, снижающий свертываемость крови и используемый для профилактики тромбозов, а также при лечении острого инфаркта миокарда. Активным веществом является метаболит клопидогрела, который образуется в печени под действием цитохрома 2С19, первичная структура которого закодирована в гене CYP2C19. Нормальная и высокая активность цитохрома обеспечивает желаемый терапевтический эффект клопидогрела, в то время как низкая или отсутствующая активность цитохрома приводит к неэффективности терапии клопидогрелом и требует подбора другого лекарственного вещества, не зависящего от цитохрома 2С19. Учитывая серьезность заболеваний, при лечении которых используется клопидогрел, незнание активности цитохрома 2С19 может привести к фатальным последствиям из-за отсутствия терапевтического эффекта.
[00117] Активность цитохрома 2С19 и соответственно фенотип по нему можно определить по наличию определенных форм гена CYP2C19 у пользователя. Скорость метаболизма клопидогрела (статус метаболизатора по клопидогрелу) в данном примере можно рассматривать как молекулярные последствия. Ген CYP2C19 расположен на 10-й хромосоме, и у человека с нормальным кариотипом имеется в двух экземплярах, один из которых унаследован от матери, а другой - от отца, поэтому один экземпляр может отличаться от другого. Например, один экземпляр гена может кодировать фермент с нормальной активностью, а второй экземпляр - с высокой. Всего описано 4 вида активности цитохрома 2С19:
1. Высокая;
2. Нормальная;
3. Отсутствующая;
4. Неопределенная.
[00118] Разные сочетания активности цитохрома от каждой хромосомы соответствуют разным статусам метаболизатора, которых можно выделить 6 видов:
1. Ультрабыстрый метаболизатор (УБМ) - высокая + высокая;
2. Быстрый метаболизатор (БМ) - высокая + нормальная;
3. Нормальный метаболизатор (НМ) - нормальная + нормальная;
4. Промежуточный метаболизатор (ПМ) - нормальная + отсутствующая или высокая + отсутствующая;
5. Медленный метаболизатор (ММ) - отсутствующая + отсутствующая;
6. Неопределенный метаболизатор (?М) - хотя бы одна неопределенная.
[00119] При использовании клопидогрела благоприятными являются ультрабыстрый, быстрый и нормальный статусы метаболизатора. В случаях, когда выявлен промежуточный или медленный статус метаболизатора, врачом может быть принято решение о подборе другого лекарственного вещества для замены клопидогрела из-за высокой вероятности неэффективности терапии.
[00120] Активность цитохрома, а значит и статус метаболизатора определяется по тому, какое сочетание аллелей имеется у данного пользователя в гене CYP2C19. У каждого гена могут быть известны различные устойчивые гаплотипы, например характерные для некоторой популяции, или встречающиеся при выполнении других условий. Ниже в Таблице 2 приведены гаплотипы гена CYP2C19, наиболее часто встречающиеся в европейской популяции, а также состояния аллелей, которые соответствуют этим гаплотипам. Например, вариация g.85186A>G означает, что в соответствующей позиции в референсном геноме человека находится аллель А, при этом в данной позиции у людей из популяции встречается аллель G, то есть произошла замена референсного аллеля А на альтернативный аллель G, что обозначается как A>G.
[00121] В Таблице 3 показано, какой вид активности цитохрома 2С19 соответствует каждому гаплотипу, а также частота встречаемости гаплотипов в европейской популяции:
[00122] Например, гаплотипу, обозначаемому как *1, соответствует следующее сочетание состояний аллелей в гене CYP2C19:
[00123] Если приведенное сочетание встретится у какого-либо человека на одной из его 10-х хромосом, можно сказать, что на этой хромосоме у него находится форма гена CYP2C19 под названием *1.
[00124] Паре экземпляров гена CYP2C19 соответствует диплотип (пара гаплотипов), который обозначается как *1/*1 для случаев, когда оба экземпляра гена соответствуют форме *1. Диплотип *1/*1, соответствующий статусу метаболизатора НМ, будет наблюдаться у человека со следующим набором генотипов:
[00125] Используя Таблицу 2, можно для любой пары гаплотипов определить соответствующие ей сочетание генотипов. В Таблице 4 приведено несколько примеров диплотипов и соответствующих им генотипов:
[00126] Для определения диплотипа, а в дальнейшем и статуса метаболизатора необходимо секвенирование гена CYP2C19 или генотипирование его ключевых генетических вариаций. Этот процесс хотя и точен, но не всегда проходит успешно, и информация о генотипах в некоторых позициях гена может отсутствовать. Обычным алгоритмам для определения диплотипа требуется информация о каждой позиции гена (например, если используется "жадный" алгоритм), в таком случае дальнейшая интерпретация будет невозможна ввиду неполноты входных данных. Общими словами можно сказать, что "жадный" алгоритм заключается в принятии локально оптимальных решений на каждом этапе, допуская, что конечное решение также окажется оптимальным (например, алгоритмы Хаффмана; Крускала; Прима и др.).
[00127] Данное техническое решение позволяет при наличии неполной генетической информации в некоторых случаях получить однозначную интерпретацию. Если в наборе данных (генотипов) на место отсутствующей единицы информации (отсутствующего генотипа) подставить все возможные ее значения (суперпозицию), то можно получить все потенциально возможные варианты интерпретации. Возможные значения для той или иной генетической вариации можно взять из Таблицы 2. Далее показано, как отсутствие информации о генотипе только в одной позиции увеличивает число возможных диплотипов:
[00128] Чем большего числа единиц информации нет в наборе данных, тем больше число возможных диплотипов может соответствовать данному набору информации. В качестве иллюстративного примера применения описанного выше способа определения фенотипа по неполной генетической информации рассмотрим некоторого пользователя, в наборе генотипов которого отсутствует информация в трех значимых позициях:
[00129] Если рассмотреть все возможные значения отсутствующих генотипов, то получившиеся сочетания (27 возможных сочетаний) можно отобразить в следующие диплотипы согласно соответствиям из Таблицы 2:
• *1/*1
• *1/*13
• *1/*15
• *1/*17
• *13/*13
• *13/*15
• *13/*17
• *15/*15
• *15/*17
• *17/*17
[00130] Выбранные диплотипы полностью совпадают с известными генотипами, то есть количество несовпадений для данных вариантов нулевое. Каждый диплотип может отображаться в один из 6 статусов метаболизатора и имеет определенную частоту встречаемости. В одном из вариантов реализации частоту встречаемости каждого диплотипа можно вычислить из частоты встречаемости его гаплотипов, используя, например, уравнение Харди-Вайнберга. Либо частота встречаемости (вероятность диплотипа) может быть извлечена из хранилища данных напрямую. Также можно вычислить нормализованные значения вероятности данных диплотипов, как было изложено ранее. При этом возможные диплотипы пользователя, полученные выше, отображаются в 3 статуса метаболизатора из 6 возможных статусов: Нормальный (77,96%), Быстрый (20,67%) и Ультрабыстрый (1,37%), как показано в Таблице 8.
[00131] Для клопидогрела все три варианта являются благоприятными, что с вероятностью 100% позволяет определить фенотип, выражающийся в желаемом терапевтическом эффекте клопидогрела, и сформировать рекомендацию употреблять данное лекарственное вещество согласно инструкции.
[00132] Таким образом, имея даже неполную генетическую информацию пользователя, можно сделать однозначный вывод о терапевтическом эффекте лекарственного вещества. Это возможно благодаря последовательному сюръективному отображению генотипов в рекомендацию. В одном из вариантов реализации последовательное сюръективное отображение может осуществляться посредством одной или более сюръективных функций, сужающих большее множество диплотипов в меньшее множество фенотипов, а затем рекомендаций:
1. 27 возможных комбинаций генотипов отображаются в 10 возможных диплотипов;
2. 10 диплотипов - в 3 возможных статуса метаболизатора;
3. 3 статуса метаболизатора - в 1 возможную рекомендацию по назначению клопидогрела.
[00133] На Рис. 5 изображена схема, иллюстрирующая предлагаемый способ сюръективного отображения на примере метаболизма клопидогрела. Схема изображает композицию из двух сюръективных отображений, последовательно отображающих диплотипы в статусы метаболизатора (т.е. молекулярные последствия), а затем статусы метаболизатора - в фенотип. Пунктиром изображены элементы области значений, в которые не произошло отображение для данных генотипов. Троеточием обозначено несколько групп элементов из области значений, которые находятся между ближайшими указанными на изображении значениями - это обозначение введено для упрощения схемы.
[00134] Дополнительно может использоваться еще одно отображение фенотипа в рекомендации. Это отображение может быть биективным, когда для каждого фенотипа существует соответствующая ему рекомендация, либо сюръективным, если нескольким фенотипам может соответствовать одна рекомендация.
[00135] В качестве другого примера реализации, также не ограничивающего объем притязаний предлагаемого изобретения и иллюстрирующего применение данного изобретения в области нутригенетики, представлено последовательное сюръективное отображение, позволяющее определить фенотип пользователя и соответствующие рекомендаций по уровню витамина D. В общем виде данный пример иллюстрирует принципиально другое использование описываемого подхода для определения фенотипа. В случае, когда фенотип зависит от нескольких генов, каждый из которых вносит не равнозначный вклад, то можно определить их суммарное влияние, используя весовые коэффициенты. Весовые коэффициенты могут подбираться предварительно, например, в ходе исследования, либо определяться на основе научных публикаций. В условиях неполных генетических данных можно оценить диапазон возможных значений для взвешенной суммы, при этом различные значения взвешенной суммы могут отображаться в один фенотип, поскольку количество фенотипов по некоторому фактору сильно ограничено.
[00136] Уровень витамина D в крови - это сложный признак, который зависит от множества факторов, среди которых большой вклад вносят генетические факторы. Белки-переносчики, ферменты, которые отвечают за всасывание витамина D из кишечника в кровь и его метаболизм в активные формы, специфические рецепторы, через которые активные формы витамина D действуют на клетки, - все эти белковые молекулы закодированы в генах человека. К основным генам относятся:
• GC - кодирует белок-переносчик, циркулирующий в плазме крови, межклеточной, спинномозговой жидкостях и транспортирующий витамин D и его метаболиты к клеткам и тканям;
• CYP2R1 - кодирует печеночный фермент системы цитохрома Р450, который катализирует реакцию превращения витамина D в его активный метаболит, который является лигандом к рецепторам витамина D;
• VDR - кодирует рецептор к активной форме витамина D и опосредует действие витамина на клетки человека.
[00137] Различные варианты нуклеотидной последовательности этих генов могут влиять на функции кодируемых белков: менять сродство рецептора или переносчика к витамину D или менять активность фермента. Из-за наличия в популяции разных вариантов этих генов у разных людей отличается скорость всасывания и метаболизма витамина D, что в конечном итоге отражается на его концентрации в крови. Зная то, какие именно генетические вариации связаны с уровнем витамина D, можно оценивать его уровень по генетическим данным человека.
[00138] В настоящее время однозначно известно, что конкретные аллели связаны с уровнем витамина D в крови, причем в разной степени (см., например, [1] Jiang, X. et al., "Genome-wide association study in 79,366 European-ancestry individuals informs the genetic architecture of 25-hydroxyvitamin D levels", Nature Communications, 9, (2018); [2] Dastani, Z. et al., "Genetic Regulation of Vitamin D Levels", Calcified Tissue International, 92, 2, (2012)). В Таблице 8 показана степень влияния связанных генетических вариантов.
[00139] Уровень витамина D в крови можно рассматривать как один из вариантов фенотипа в контексте настоящего изобретения. Одна из возможных моделей для предсказания уровня витамина D по представленным данным - это взвешенная сумма эффекторных аллелей пользователя в совокупности с одним или несколькими порогами, с которыми эта сумма сравнивается, при этом пользователь классифицируется как обладатель одного из трех фенотипов - высокий, средний или низкий уровень витамина D. Взвешенная сумма может вычисляться по следующей формуле: w=0,23⋅x+(-0,39)⋅у+(-0,12)⋅z, где х - число аллелей G в генотипе пользователя по генетической вариации g.66840G>T; у - число аллелей Т в генотипе пользователя по генетической вариации g.3874T>C; z - число аллелей А в генотипе пользователя по генетической вариации g.30920Т>А. Для удобства изложения сути изобретения рассмотрим пример, когда заданы 2 пороговых значения: -0,12 и 0,12. Тогда критерии классификации будут следующие:
• если взвешенная сумма w < -0,12, то пользователь будет отнесен к фенотипу "Низкий уровень витамина D",
• если -0,12 ≤ w < 0,12, то к фенотипу "Средний уровень витамина D", и
• если w ≥ 0,12, то к фенотипу "Высокий уровень витамина D".
[00140] В зависимости от фенотипа пользователя, могут выдаваться разные рекомендации. Для низкого уровня может быть рекомендовано включить в рацион продукты, богатые витамином D, в то время как для двух других фенотипов рекомендации может не быть.
[00141] Например, для представленной модели пользователь со следующими генотипами, как показано в Таблице 9, будет иметь взвешенную сумму равную 0,07 и попадет в группу "Средний уровень витамина D" и не получит рекомендацию по изменению рациона:
[00142] При наличии данных о генотипах всех необходимых генетических вариаций выдача интерпретации и рекомендации пользователю является тривиальной задачей. Предлагаемый способ определения фенотипа позволяет интерпретировать генетическую информацию пользователя даже в случае отсутствия некоторых генотипов и добиться того же результата.
[00143] В примере ниже у пользователя неизвестен генотип вариации g.66840G>T. Если на его место подставить все возможные значения, то можно вычислить взвешенную сумму:
[00144] Все три возможных значения взвешенной суммы не попадают в группу "Низкий уровень витамина D", поэтому даже при отсутствии значения варианта g.66840G>T данному пользователю можно однозначно не выдавать рекомендацию по изменению рациона питания. На Рис. 6А изображена схема, иллюстрирующая предлагаемый способ сюръективного отображения на примере уровня витамина D.
[00145] Получить однозначный результат можно и в некоторых случаях отсутствия большего числа данных. Например, у следующего пользователя отсутствует информация о генотипах двух генетических вариаций:
[00146] В данном случае для любых комбинаций возможных генотипов значение взвешенной суммы будет ниже первого порогового значения (-0,12) и однозначно попадает в группу "Низкий уровень витамина D", и данный пользователь получит рекомендацию включить в рацион питания продукты, богатые витамином D. На Рис. 6В изображена схема, иллюстрирующая данный пример.
[00147] Таким образом, изложенный способ определения фенотипа основан на использовании свойства сюръективного отображения полностью отображать область определения некоторого размера на область значений меньшего размера. Это позволяет в ряде случаев с помощью одного или более сюръективных отображений получить отображение нескольких вариантов в единственное значение, например, в случаях, если на входе поступает суперпозиция из нескольких возможных генотипов (все возможные комбинации состояний с учетом недостающих единиц информации).
[00148] Кроме описанного выше способа, предлагаемое изобретение направлено на компьютерную систему, позволяющую осуществлять предлагаемый способ, а также машиночитаемый носитель. Также заявляется компьютерная система для обеспечения обработки в вычислительном окружении, содержащая память и взаимодействующий с памятью процессор, и выполненная для осуществления предлагаемого способа определения фенотипа пользователя в условиях отсутствия полной генетической информации. Аналогично изобретение относится к машиночитаемому информационному носителю, который выполнен с возможностью считывания посредством устройства обработки данных и который сохраняет подлежащие выполнению посредством устройства обработки данных команды для осуществления предлагаемого способа определения фенотипа пользователя в условиях отсутствия полной генетической информации.
[00149] На Рис. 7 представлена схема компонентов примера вычислительной системы, которая может использоваться для реализации описанного в настоящем документе способа определения фенотипа пользователя в условиях отсутствия полной генетической информации. Вычислительная система 700 может быть соединена с другой вычислительной системой по локальной сети, корпоративной сети, сети экстранет или сети Интернет. Вычислительная система 700 может работать в качестве сервера или клиента в сетевой среде «клиент / сервер», или в качестве однорангового вычислительного устройства в одноранговой (или распределенной) сетевой среде. Вычислительная система 700 может быть представлена персональным компьютером (ПК), планшетным ПК, телевизионной приставкой (STB), карманным ПК (PDA), сотовым телефоном или любой вычислительной системой, способной выполнять набор команд (последовательно или иным образом), определяющих операции, которые должны быть выполнены этой вычислительной системой. Кроме того, несмотря на то что показана только одна вычислительная система, термин «вычислительная система» также может включать любую совокупность вычислительных систем, которые отдельно или совместно выполняют набор (или несколько наборов) команд для выполнения одной или более методик, обсуждаемых в настоящем документе.
[00150] Пример вычислительной системы 700 включает процессор 702, основное запоминающее устройство 704 (например, постоянное запоминающее устройство (ПЗУ) или динамическое оперативное запоминающее устройство (ДОЗУ)) и устройство хранения данных 718, которые взаимодействуют друг с другом по шине 730.
[00151] Процессор 702 может быть представлен одним или более универсальными вычислительными устройствами, такими как микропроцессор, центральный процессор и т.п. В частности, процессор 702 может представлять собой микропроцессор с полным набором команд (CISC), микропроцессор с сокращенным набором команд (RISC), микропроцессор со сверхдлинным командным словом (VLIW) или процессор, в котором реализованы другие наборы команд, или процессоры, в которых реализована комбинация наборов команд. Процессор 702 также может представлять собой одно или более вычислительных устройств специального назначения, например, заказную интегральную микросхему (ASIC), программируемую пользователем вентильную матрицу (FPGA), процессор цифровых сигналов (DSP), сетевой процессор и т.п. Процессор 702 реализован с возможностью выполнения команд 726 для осуществления рассмотренных в настоящем документе способов.
[00152] Вычислительная система 700 может дополнительно включать устройство сетевого интерфейса 722, устройство визуального отображения 710, устройство ввода символов 712 (например, клавиатуру) и устройство ввода в виде сенсорного экрана 714.
[00153] Устройство хранения данных 718 может включать машиночитаемый носитель данных 724, в котором хранится один или более наборов команд 726, в которых реализован один или более методов, или функций, описанных в данном варианте реализации изобретения. Инструкции 726 во время выполнения их в вычислительной системе 700 также могут находиться полностью или по меньшей мере частично в основном запоминающем устройстве 704 и (или) в процессоре 702, при этом основное запоминающее устройство 704 и процессор 702 также представляет собой машиночитаемый носитель данных. Команды 726 также могут передаваться или приниматься по сети 716 через устройство сетевого интерфейса 722.
[00154] В некоторых вариантах реализации инструкции 726 могут включать инструкции способа определения фенотипа пользователя в условиях отсутствия полной генетической информации, в соответствии с одним или более вариантами реализации настоящего изобретения. Хотя машиночитаемый носитель данных 724, показанный в примере на Рис. 7, является единым носителем, термин «машиночитаемый носитель» может включать один или более носителей (например, централизованную или распределенную базу данных и (или) соответствующие кэши и серверы), в которых хранится один или более наборов команд. Термин «машиночитаемый носитель данных» также может включать любой носитель, который может хранить, кодировать или содержать набор команд для выполнения машиной и который обеспечивает выполнение машиной любой одной или более методик настоящего изобретения. Поэтому термин «машиночитаемый носитель данных» относится, помимо прочего, к твердотельным запоминающим устройствам, а также к оптическим и магнитным носителям.
[00155] Способы, компоненты и функции, описанные в этом документе, могут быть реализованы с помощью дискретных компонентов оборудования либо они могут быть встроены в функции других компонентов оборудования, например, ASICS (специализированная заказная интегральная схема), FPGA (программируемая логическая интегральная схема), DSP (цифровой сигнальный процессор) или аналогичных устройств. Кроме того, способы, компоненты и функции могут быть реализованы с помощью модулей встроенного программного обеспечения или функциональных схем аппаратного обеспечения. Способы, компоненты и функции также могут быть реализованы с помощью любой комбинации аппаратного обеспечения и программных компонентов либо исключительно с помощью программного обеспечения.
[00156] В приведенном выше описании изложены многочисленные детали. Однако любому специалисту в этой области техники, ознакомившемуся с этим описанием, должно быть очевидно, что настоящее изобретение может быть осуществлено на практике без этих конкретных деталей. В некоторых случаях хорошо известные структуры и устройства показаны в виде блок-схем без детализации, чтобы не усложнять описание настоящего изобретения.
[00157] Некоторые части описания предпочтительных вариантов реализации изобретения представлены в виде алгоритмов и символического представления операций с битами данных в запоминающем устройстве компьютера. Такие описания и представления алгоритмов представляют собой средства, используемые специалистами в области обработки данных, что обеспечивает наиболее эффективную передачу сущности работы другим специалистам в данной области. В контексте настоящего описания, как это и принято, алгоритмом называется логически непротиворечивая последовательность операций, приводящих к желаемому результату. Операции подразумевают действия, требующие физических манипуляций с физическими величинами. Обычно, хотя и необязательно, эти величины принимают форму электрических или магнитных сигналов, которые можно хранить, передавать, комбинировать, сравнивать и выполнять с ними другие манипуляции. Иногда удобно, прежде всего для обычного использования, описывать эти сигналы в виде битов, значений, элементов, символов, терминов, цифр и т.д.
[00158] Однако следует иметь в виду, что все эти и подобные термины должны быть связаны с соответствующими физическими величинами и что они являются лишь удобными обозначениями, применяемыми к этим величинам. Если не указано дополнительно, принимается, что в последующем описании термины «определение», «вычисление», «расчет», «получение», «установление», «изменение» и т.п. относятся к действиям и процессам вычислительной системы или аналогичной электронной вычислительной системы, которая использует и преобразует данные, представленные в виде физических (например, электронных) величин в реестрах и запоминающих устройствах вычислительной системы, в другие данные, аналогично представленные в виде физических величин в запоминающих устройствах или реестрах вычислительной системы или иных устройствах хранения, передачи или отображения такой информации.
[00159] Настоящее изобретение также относится к устройству для выполнения операций, описанных в настоящем документе. Такое устройство может быть специально сконструировано для требуемых целей, либо оно может представлять собой универсальный компьютер, который избирательно приводится в действие или дополнительно настраивается с помощью программы, хранящейся в памяти компьютера. Такая компьютерная программа может храниться на машиночитаемом носителе данных, например, помимо прочего, на диске любого типа, включая дискеты, оптические диски, CD-ROM и магнитно-оптические диски, постоянные запоминающие устройства (ПЗУ), оперативные запоминающие устройства (ОЗУ), СППЗУ, ЭППЗУ, магнитные или оптические карты и носители любого типа, подходящие для хранения электронной информации.
[00160] Компьютерный программный код одной или более компьютерной программы для выполнения операций для реализации шагов (этапов реализации) настоящего технического решения может быть написан на любом языке программирования или комбинаций языков программирования, включая объектно-ориентированный язык программирования, например Python, R, Java, Smalltalk, С++ и так далее, и обычные процедурные языки программирования, например язык программирования «С», функциональные языки программирования, например, такие как Haskell, Agda, F#, Formality, или аналогичные языки программирования, не ограничиваясь комбинациями языков для множества различных частей программного кода. Программный код может выполняться на компьютере пользователя полностью, частично, или же как отдельный пакет программного обеспечения, частично на компьютере пользователя и частично на удаленном компьютере, или же полностью на удаленном компьютере, сервере либо другой компьютерном устройстве, содержащем процессор и память взаимосвязанные между собой. В последнем случае, удаленный компьютер может быть соединен с компьютером пользователя через сеть любого типа, включая локальную сеть (LAN), глобальную сеть (WAN) или соединение с внешним компьютером (например, через Интернет с помощью Интернет-провайдеров).
[00161] Следует понимать, что приведенное выше описание призвано иллюстрировать, а не ограничивать сущность изобретения. Специалистам в данной области техники после прочтения и уяснения приведенного выше описания.
Claims (43)
1. Компьютерно-реализуемый способ определения фенотипа пользователя в условиях отсутствия полной генетической информации, выполняемый при помощи по крайней мере одного процессора, содержит следующие этапы, на которых:
получают генетическую информацию пользователя с генетическими вариациями в виде пар позиция-генотип и/или идентификатор-генотип посредством генотипирования и/или секвенирования образца биоматериала пользователя, при этом неполнота генетической информации пользователя выражается в отсутствии генотипа для по меньшей мере одной из позиций и/или идентификатора генетической вариации,
выбирают из генетической информации пользователя множество генетических вариаций, включая по крайней мере одну вариацию с неизвестным генотипом, которые специфичны для известных гаплотипов по меньшей мере одного гена, связанного с определяемым фенотипом, при этом информация об известных гаплотипах получается из хранилища данных,
получают все возможные диплотипы, сформированные из известных гаплотипов, для указанного по меньшей мере одного гена, связанного с определяемым фенотипом,
подставляют все возможные значения из хранилища данных для по меньшей мере одной вариации с неизвестным генотипом из указанного множества генетических вариаций,
оценивают каждый полученный диплотип на соответствие полученной генетической информации пользователя путем вычисления количества несовпадений между оцениваемым диплотипом и множеством выбранных генетических вариаций,
формируют по меньшей мере одно множество диплотипов D для указанного по меньшей мере одного гена, связанного с определяемым фенотипом, на основе вычисленного количества несовпадений, и
определяют фенотип пользователя, используя множество диплотипов D и отображение диплотипов указанного по меньшей мере одного гена в фенотипы, получаемого из хранилища данных.
2. Способ определения фенотипа пользователя по п. 1, отличающийся тем, что в указанном хранилище данных дополнительно хранится информация о вероятности известных гаплотипов и/или диплотипов.
3. Способ определения фенотипа пользователя по п. 1, отличающийся тем, что в указанном хранилище данных дополнительно хранится описание молекулярных последствий каждого известного гаплотипа для указанного по меньшей мере одного гена, связанного с определяемым фенотипом.
4. Способ определения фенотипа пользователя по п. 3, дополнительно включающий
определение молекулярных последствий по меньшей мере одного диплотипа для указанного по меньшей мере одного гена, связанного с определяемым фенотипом, на основе описания молекулярных последствий по меньшей мере одного гаплотипа, составляющего данный диплотип, и
отображение по меньшей мере одного диплотипа в фенотип вычисляется на основе описания молекулярных последствий данного диплотипа.
5. Способ определения фенотипа пользователя по п. 1, отличающийся тем, что при оценке каждого полученного диплотипа, если не найдено ни одного варианта диплотипа с полным совпадением со множеством выбранных генетических вариаций, множество диплотипов D может быть сформировано из всех возможных диплотипов.
6. Способ определения фенотипа пользователя по п. 1, отличающийся тем, что при оценке каждого полученного диплотипа применяется по меньшей мере одно пороговое значение для количества несовпадений, которое исключает один или более диплотип из дальнейшего рассмотрения.
7. Способ определения фенотипа пользователя по п. 6, отличающийся тем, что в качестве указанного порогового значения может быть выбрано значение медианы распределения количества несовпадений.
8. Способ определения фенотипа пользователя по п. 6, отличающийся тем, что указанное пороговое значение может быть определено посредством сложения минимального количества несовпадений из вычисленного множества несовпадений и рассчитанного количества генетических вариаций с неопределенным генотипом в генетической информации пользователя.
9. Способ определения фенотипа пользователя по п. 2, отличающийся тем, что вероятность диплотипа рассчитывается на основе данных о вероятности его гаплотипов, которое для гомозиготных диплотипов и фазированных гетерозиготных диплотипов представляет собой произведение вероятностей гаплотипов, составляющих диплотип, для нефазированных гетерозиготных диплотипов представляет собой удвоенное произведение вероятностей гаплотипов, составляющих диплотип, и для гемизиготных диплотипов представляет собой значение вероятности входящего в состав гаплотипа.
10. Способ определения фенотипа пользователя по п. 1, отличающийся тем, что генотипирование и/или секвенирование образца биоматериала пользователя осуществляется с помощью по меньшей мере одного из: ДНК-микрочипов, сканера микрочипов, ПЦР, секвенирования следующего поколения (NGS), нанопорного секвенирования, Сэнгеровского секвенирования.
11. Способ определения фенотипа пользователя по п. 1, дополнительно включающий вычисление вероятности каждого значения фенотипа для пользователя.
12. Способ определения фенотипа пользователя по п. 11, отличающийся тем, что в качестве указанного отображения используется по меньшей мере одно сюръективное отображение, которое полностью отображает большее множество диплотипов в меньшее множество фенотипов, при этом вероятность каждого фенотипа для пользователя может вычисляться как сумма вероятностей диплотипов из множества D, соответствующих данному фенотипу.
13. Способ определения фенотипа пользователя по п. 1, дополнительно включающий формирование одной или более рекомендации для пользователя с учетом определенного фенотипа.
14. Способ определения фенотипа пользователя по п. 13, где формирование одной или более рекомендации для пользователя включает по меньшей мере одно из: рекомендации по изменению дозировки лекарственного вещества, или рекомендацию отказаться от приема лекарственного вещества, основываясь на неэффективности и/или токсичности указанного лекарственного вещества для определенного ранее фенотипа пользователя, или рекомендацию использования альтернативных лекарственных веществ более эффективных и/или безопасных для пользователя, или рекомендацию по дозированию согласно инструкции к лекарственному веществу, с учетом определенного фенотипа.
15. Способ определения фенотипа пользователя по п. 1, отличающийся тем, что по меньшей мере один ген, связанный с определяемым фенотипом, относится к группе генов ферментов, метаболизирующих лекарственные вещества, или генов переносчиков лекарственных веществ, или генов человеческого лейкоцитарного антигена, или генов мишеней лекарственных веществ.
16. Способ определения фенотипа пользователя по п. 1, в котором при вычислении количества несовпадений между диплотипом и множеством выбранных генетических вариаций найденное количество несовпадений является нулевым и подразумевает полное совпадение между ними.
17. Способ определения фенотипа пользователя по п. 1, отличающийся тем, что получают все возможные диплотипы посредством извлечения данных об указанных диплотипах из хранилища данных.
18. Система для определения фенотипа пользователя в условиях отсутствия полной генетической информации с помощью компьютерно-реализуемого способа по п. 1, содержащая обрабатывающее данные устройство и функционально взаимосвязанную с обрабатывающим устройством память, при этом система настроена на выполнение следующих инструкций:
получают генетическую информацию пользователя с генетическими вариациями в виде пар позиция-генотип и/или идентификатор-генотип, а неполнота генетической информации пользователя выражается в отсутствии генотипа для по меньшей мере одной из позиций и/или идентификатора генетической вариации,
выбирают из генетической информации пользователя множество генетических вариаций, включая по крайней мере одну вариацию с неизвестным генотипом, которые специфичны для известных гаплотипов по меньшей мере одного гена, связанного с определяемым фенотипом, при этом информация об известных гаплотипах получается из хранилища данных,
получают все возможные диплотипы, сформированные из известных гаплотипов, для указанного по меньшей мере одного гена, связанного с определяемым фенотипом,
подставляют все возможные значения из хранилища данных для по меньшей мере одной вариации с неизвестным генотипом из указанного множества генетических вариаций,
оценивают каждый полученный диплотип на соответствие полученной генетической информации пользователя путем вычисления количества несовпадений между оцениваемым диплотипом и множеством выбранных генетических вариаций,
формируют по меньшей мере одно множество диплотипов D для указанного по меньшей мере одного гена, связанного с определяемым фенотипом, на основе вычисленного количества несовпадений, и
определяют фенотип пользователя, используя множество диплотипов D и отображение диплотипов указанного по меньшей мере одного гена в фенотипы, получаемого из хранилища данных.
19. Система для определения фенотипа пользователя по п. 18, дополнительно настроенная на формирование одной или более рекомендации для пользователя с учетом определенного фенотипа.
20. Машиночитаемый носитель данных, который выполнен с возможностью считывания посредством устройства обработки данных и хранящий подлежащие исполнению посредством устройства обработки данных инструкции для определения фенотипа пользователя в системе по п. 18 в условиях отсутствия полной генетической информации, при этом указанные инструкции при их исполнении устройством обработки данных побуждают его выполнять следующие инструкции:
получают генетическую информацию пользователя с генетическими вариациями в виде пар позиция-генотип и/или идентификатор-генотип, а неполнота генетической информации пользователя выражается в отсутствии генотипа для по меньшей мере одной из позиций и/или идентификатора генетической вариации,
выбирают из генетической информации пользователя множество генетических вариаций, включая по крайней мере одну вариацию с неизвестным генотипом, которые специфичны для известных гаплотипов по меньшей мере одного гена, связанного с определяемым фенотипом, при этом информация об известных гаплотипах получается из хранилища данных,
получают все возможные диплотипы, сформированные из известных гаплотипов, для указанного по меньшей мере одного гена, связанного с определяемым фенотипом,
подставляют все возможные значения из хранилища данных для по меньшей мере одной вариации с неизвестным генотипом из указанного множества генетических вариаций,
оценивают каждый полученный диплотип на соответствие полученной генетической информации пользователя путем вычисления количества несовпадений между оцениваемым диплотипом и множеством выбранных генетических вариаций,
формируют по меньшей мере одно множество диплотипов D для указанного по меньшей мере одного гена, связанного с определяемым фенотипом, на основе вычисленного количества несовпадений, и
определяют фенотип пользователя, используя множество диплотипов D и отображение диплотипов указанного по меньшей мере одного гена в фенотипы, получаемого из хранилища данных.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020104947A RU2754884C2 (ru) | 2020-02-03 | 2020-02-03 | Определение фенотипа на основе неполных генетических данных |
EP21154780.7A EP3859739A1 (en) | 2020-02-03 | 2021-02-02 | Phenotype inference based on incomplete genetic data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020104947A RU2754884C2 (ru) | 2020-02-03 | 2020-02-03 | Определение фенотипа на основе неполных генетических данных |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2020104947A3 RU2020104947A3 (ru) | 2021-08-03 |
RU2020104947A RU2020104947A (ru) | 2021-08-03 |
RU2754884C2 true RU2754884C2 (ru) | 2021-09-08 |
Family
ID=74505109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2020104947A RU2754884C2 (ru) | 2020-02-03 | 2020-02-03 | Определение фенотипа на основе неполных генетических данных |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP3859739A1 (ru) |
RU (1) | RU2754884C2 (ru) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114300044B (zh) * | 2021-12-31 | 2023-04-18 | 深圳华大医学检验实验室 | 基因评估方法、装置、存储介质及计算机设备 |
CN118072819B (zh) * | 2024-04-22 | 2024-09-20 | 阿里巴巴达摩院(杭州)科技有限公司 | 生物对象的信息处理方法、系统、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013067001A1 (en) * | 2011-10-31 | 2013-05-10 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
RU2601197C2 (ru) * | 2010-04-07 | 2016-10-27 | Новадискавери | Компьютерная система для прогнозирования результатов лечения |
WO2017120556A1 (en) * | 2016-01-07 | 2017-07-13 | The Children's Mercy Hospital | A system for determining diplotypes |
US20170286594A1 (en) * | 2016-03-29 | 2017-10-05 | Regeneron Pharmaceuticals, Inc. | Genetic Variant-Phenotype Analysis System And Methods Of Use |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100557A1 (en) * | 2005-10-24 | 2007-05-03 | Yi Zhang | Selection of genotyped transfusion donors by cross-matching to genotyped recipients |
US20090299645A1 (en) * | 2008-03-19 | 2009-12-03 | Brandon Colby | Genetic analysis |
-
2020
- 2020-02-03 RU RU2020104947A patent/RU2754884C2/ru active
-
2021
- 2021-02-02 EP EP21154780.7A patent/EP3859739A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2601197C2 (ru) * | 2010-04-07 | 2016-10-27 | Новадискавери | Компьютерная система для прогнозирования результатов лечения |
WO2013067001A1 (en) * | 2011-10-31 | 2013-05-10 | The Scripps Research Institute | Systems and methods for genomic annotation and distributed variant interpretation |
WO2017120556A1 (en) * | 2016-01-07 | 2017-07-13 | The Children's Mercy Hospital | A system for determining diplotypes |
US20170286594A1 (en) * | 2016-03-29 | 2017-10-05 | Regeneron Pharmaceuticals, Inc. | Genetic Variant-Phenotype Analysis System And Methods Of Use |
Non-Patent Citations (1)
Title |
---|
D'ONOFRIO D. J. et al. A comparative approach for the investigation of biological information processing: An examination of the structure and function of computer hard drives and DNA. Theor Biol Med Model. 2010; 7: 3. * |
Also Published As
Publication number | Publication date |
---|---|
RU2020104947A3 (ru) | 2021-08-03 |
RU2020104947A (ru) | 2021-08-03 |
EP3859739A1 (en) | 2021-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Privé et al. | Portability of 245 polygenic scores when derived from the UK Biobank and applied to 9 ancestry groups from the same cohort | |
Li et al. | Decoding the genomics of abdominal aortic aneurysm | |
Ramsay et al. | H3Africa AWI-Gen Collaborative Centre: a resource to study the interplay between genomic and environmental risk factors for cardiometabolic diseases in four sub-Saharan African countries | |
US20160098519A1 (en) | Systems and methods for scalable unsupervised multisource analysis | |
Van der Loos et al. | The molecular genetic architecture of self-employment | |
Denny et al. | The influence of big (clinical) data and genomics on precision medicine and drug development | |
Shang et al. | Medical records-based chronic kidney disease phenotype for clinical care and “big data” observational and genetic studies | |
WO2021243094A1 (en) | Machine learning platform for generating risk models | |
US20220044761A1 (en) | Machine learning platform for generating risk models | |
KR20090105921A (ko) | 유전자 분석 시스템 및 방법 | |
Agrawal et al. | Selection of 51 predictors from 13,782 candidate multimodal features using machine learning improves coronary artery disease prediction | |
Verma et al. | Diversity and scale: genetic architecture of 2,068 traits in the VA Million Veteran Program | |
WO2022087478A1 (en) | Machine learning platform for generating risk models | |
Barbeira et al. | Widespread dose-dependent effects of RNA expression and splicing on complex diseases and traits | |
RU2754884C2 (ru) | Определение фенотипа на основе неполных генетических данных | |
Song et al. | QRank: a novel quantile regression tool for eQTL discovery | |
Kaur et al. | Big data in nephrology | |
Glusman et al. | Ultrafast comparison of personal genomes via precomputed genome fingerprints | |
Mariño-Ramírez et al. | Effects of genetic ancestry and socioeconomic deprivation on ethnic differences in serum creatinine | |
Koch et al. | How real-world data can facilitate the development of precision medicine treatment in psychiatry | |
Shin et al. | Lifestyle modifies the diabetes-related metabolic risk, conditional on individual genetic differences | |
Polewko-Klim et al. | Integration of multiple types of genetic markers for neuroblastoma may contribute to improved prediction of the overall survival | |
Warmerdam et al. | Idéfix: identifying accidental sample mix-ups in biobanks using polygenic scores | |
Zobeck et al. | Novel risk factors for glucarpidase use in pediatric acute lymphoblastic leukemia: Hispanic ethnicity, age, and the ABCC4 gene | |
Liao et al. | The statistical practice of the GTEx project: from single to multiple tissues |