RU2249044C2 - Компьютерный способ идентификации сохраненных консервативных пептидных мотивов - Google Patents

Компьютерный способ идентификации сохраненных консервативных пептидных мотивов Download PDF

Info

Publication number
RU2249044C2
RU2249044C2 RU2002103467/15A RU2002103467A RU2249044C2 RU 2249044 C2 RU2249044 C2 RU 2249044C2 RU 2002103467/15 A RU2002103467/15 A RU 2002103467/15A RU 2002103467 A RU2002103467 A RU 2002103467A RU 2249044 C2 RU2249044 C2 RU 2249044C2
Authority
RU
Russia
Prior art keywords
peptides
protein
peptide
computer
sequences
Prior art date
Application number
RU2002103467/15A
Other languages
English (en)
Other versions
RU2002103467A (ru
Inventor
Кумар Самир БРАХМАЧАРИ (IN)
Кумар Самир БРАХМАЧАРИ
Дебасис ДАШ (IN)
Дебасис ДАШ
Original Assignee
Каунсил Оф Сайентифик Энд Индастриал Рисерч
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Каунсил Оф Сайентифик Энд Индастриал Рисерч filed Critical Каунсил Оф Сайентифик Энд Индастриал Рисерч
Publication of RU2002103467A publication Critical patent/RU2002103467A/ru
Application granted granted Critical
Publication of RU2249044C2 publication Critical patent/RU2249044C2/ru

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K1/00General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Genetics & Genomics (AREA)
  • Medicinal Chemistry (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Peptides Or Proteins (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

Изобретение относится к компьютерному способу идентификации пептидов, пригодных для использования в качестве мишеней для лекарственных средств. Сущность способа заключается в том, что создают библиотеки пептидов из белковых последовательностей различных организмов и осуществляют последующее сравнение для идентификации сохраненных консервативных пептидных мотивов, которые идентифицируют с помощью прямого сравнения последовательностей для различных бактериальных организмов и геномов хозяев без каких-либо предположений. Способ пригоден для идентификации возможных мишеней для лекарственных средств и может служить для скрининга антибактериальных лекарственных средств широкого спектра, а также для специфического диагноза инфекций, и в дополнение, для приписывания функций белкам с еще неизвестными функциями с помощью характеристик инвариантных пептидных мотивов. Преимущество изобретения заключается в ускорении способа идентификации пептидных мотивов. 3 с. и 8 з.п. ф-лы, 4 ил.

Description

Область техники
Настоящее изобретение относится к компьютерному способу идентификации пептидов, пригодных для использования в качестве мишеней для лекарственных средств. Более конкретно настоящее изобретение относится к компьютерному способу идентификации инвариантных пептидных мотивов в данных о белковых последовательностях различных организмов, пригодных для использования в качестве возможных мишеней для лекарственных средств. Кроме того, настоящее изобретение предусматривает способ приписывания функции гипотетическим открытым фреймам (белкам) с неизвестной функцией с помощью точной характеристики аминокислотной последовательности.
Настоящее изобретение предусматривает новый подход к идентификации структурных и функциональных характеристик, сохраняющихся инвариантных последовательностей аминокислот белков, которые могут служить в качестве возможных кандидатов в мишени для лекарственных средств. Возможность неожиданного появления штаммов, устойчивых к лекарственным средствам, вызывает необходимость в разработке новых лекарственных средств и мишеней для лекарственных средств. Уникальные инвариантные пептидные мотивы, которые присутствуют в белках патогенного микроорганизма, но отсутствуют в белках хозяина, указывают потенциальные мишени для лекарственных средств. Настоящее изобретение также предусматривает способ для сравнения, подобно геному, большого количества белковых последовательностей одновременно. Еще одним аспектом изобретения является идентификация белковых последовательностей, пригодных для использования в специфической диагностике инфекций.
Предшествующий уровень техники
Известно, что большинство лекарственных средств, которые доступны в настоящее время для лечения инфекций, связываются с конкретными молекулами-мишенями белков в клетке вызывающего болезнь организма, например, некоторые антибиотики, как известно, нарушают функцию рибосом, т.е. воздействуют на трансляцию белков. В этих случаях лекарственные средства связываются либо непосредственно с рибосомальной РНК, либо с комплексами РНК и белков (Wimberly et al., 1999). Эксперименты с химическими зондами показали, что лекарственное средство связывается с определенными нуклеотидными последовательностями рибосомальной РНК, которые являются 'инвариантными' в структурно-аналогичных областях различных организмов (Porse and Garrett, 1999). Другой класс лекарственных средств служит для блокировки других функций, таких как транскрипция (Cutler et al., 1999) или синтез жирных кислот в бактериальной клетке (McCafferty et al., 1999).
В последнее время неожиданно появились несколько устойчивых к лекарственным средствам штаммов (Ghannoum and Rice, 1999) патогенных бактерий, что делает современные способы лечения неэффективными при лечении инфекций, вызываемых бактериальными микроорганизмами. Это вызывает необходимость разработки новых мишеней для лекарственных средств и соответствующих новых лекарственных средств. Доступность полных геномных последовательностей различных микробов дает возможность анализировать все белки, закодированные в данном геноме. Поскольку большинство лекарственных средств, известных в настоящее время, взаимодействует с белками, вероятно, что анализ всех белков в данной бактерии может привести к получению новых работающих мишеней для лекарственных средств.
Информация о новых сохраняющихся инвариантных последовательностях в белке может быть полезной для понимания определенных особенностей архитектуры белков, таких как расположение сегмента в объеме или на поверхности белковой глобулы или присутствие специфических вторичных структурных элементов (Rooman and Wodak, 1988, Presnell et al., 1992). Функциональная роль белка является наиболее важным аспектом сохраняющихся инвариантных последовательностей. Способы обычного анализа последовательностей включают BLAST (Altschul et al., 1990) и FASTA (Wilbur and Lipman, 1983). Эти способы выдают размещение последовательности, качество которой оценивается с помощью матрицы замещения аминокислот. Осуществляются статистические вычисления, и результаты выводятся ранжированным образом, при этом последовательность с наилучшим подобием оценивается как первая. Однако эти способы не создавались для проведения одновременного сравнения, подобно геному, для идентификации пептидных мотивов инвариантных последовательностей, которые особенно важны в этой работе.
В порядке сравнения каждого белка одного организма со всеми другими белками нескольких других организмов либо необходимо использовать BLAST для каждого сравнения, либо должна быть использована BLAST в загрузочном режиме, что требует очень много времени, и поэтому практически неосуществимо. Даже если это сделать, в конце задачи необходимо получить общее подобие множества гомологичных белков и размещений.
Проблема с совмещением множества последовательностей заключается в том, что она переходит на выбор белков. Только белки, которые являются функционально родственными, будут давать четкую картину какого-либо взаимного соответствия между выбранными белками. Такие процедуры являются трудоемкими, занимают много времени и приводят к получению результатов, которые требуют дальнейшей обработки и фильтрации. Однако с помощью этих способов невозможно сравнивать все белки нескольких организмов и получать сохраняющиеся инвариантные пептиды.
Настоящее изобретение предусматривает разработку нового компьютерного способа для поиска пептидного мотива инвариантной последовательности, которая будет иметь разнообразное использование, как указано выше, и устранит недостатки, указанные выше.
Подход авторов основывается на той концепции, что пептидные мотивы последовательностей, инвариантных между различными бактериальными белками, должны быть ответственны за важную роль в структуре и функции белка. Из различных путей, с помощью которых могут быть идентифицированы мишени для лекарственных средств, выбран подход, основывающийся на сравнительной и структурной геномике. В этом случае пептидные мотивы инвариантных последовательностей могут быть вовлечены либо прямо, либо косвенно в функционирование исследуемой молекулы белка. Это является следствием концепции, что пептидные мотивы инвариантных последовательностей, которые остаются неизменными для родственных бактерий либо в близкой, либо в далекой степени, должны быть вовлечены в уникальную структурную характеристику, которая не может быть изменена. Консервативные замещения также не допускаются в этих пептидных мотивах инвариантных последовательностей. В этом случае можно идентифицировать несколько инвариантных пептидных мотивов путем прямого сравнения последовательностей для различных бактериальных геномов без каких-либо предположений "a priori". Этот полностью объективный и лишенный предположений путь изучения последовательностей позволяет получать неидентифицированные свойства последовательностей в различных геномах.
Поскольку пептидные мотивы инвариантных последовательностей могут быть важны для функционирования рассматриваемой белковой молекулы, необходимо разрабатывать эти пептидные мотивы в качестве потенциальных мишеней для антибактериальных лекарственных средств широкого спектра. Вероятно, что маленькая молекула, которая может специфически связываться с инвариантными последовательностями, может вызвать нарушение функционирования рассматриваемой белковой молекулы. Предполагается, что подход "in silico" обеспечит новые пути для экспериментальной оценки с целью установления функций белковых последовательностей, существующих в доступных базах данных.
Краткое изложение существа изобретения
В основу настоящего изобретения поставлена задача создания способа сравнения геномоподобных белковых последовательностей нескольких организмов и идентификации сохраненных инвариантных пептидных мотивов.
Другой задачей настоящего изобретения является создание компьютерного способа сравнения геномоподобных различных организмов путем создания библиотек (хранилищ) пептидов из белковых последовательностей нескольких организмов и последующего сравнения, ведущего к идентификации сохраненных инвариантных пептидных мотивов.
Еще одной задачей настоящего изобретения является создание способа идентификации возможных мишеней для лекарственных средств, и может служить для скрининга лекарственных средств для антибактериальных средств широкого спектра, а также для специфического диагноза инфекций.
Еще одной задачей настоящего изобретения является приписывание соответствующей функции белкам с еще неизвестными функциями.
Еще одной задачей является создание компьютерного способа, использующего инвариантные пептиды или их аналоги для идентификации возможных мишеней для лекарственных средств.
Предложен способ для идентификации инвариантных пептидных мотивов, полученных из миллионов пептидов, присутствующих в белковых последовательностях множества организмов, которые выдержали природную селекцию. Эти последовательности являются структурными детерминантами белков, которые могут быть мишенями или могут быть использованы при скрининге в качестве мишени для нахождения лекарственного средства. Специальные инвариантные характеристики пептидов связаны с конкретным функциональным классом белков.
Настоящий способ позволяет предсказать токсичность, изменение мишени в клетке-хозяине для лекарственного средства, нацеленного против конкретного пептидного мотива патогенного организма, или любого целевого белка, ответственного за болезненный процесс. Настоящий способ может быть расширен на большое количество белков, а также применен для эукариотов и многоклеточных организмов.
Другие аспекты, особенности и преимущества настоящего изобретения станут ясны из нижеследующего описания предпочтительных вариантов воплощений.
Краткое описание компьютерных программ
1. PEPLIB
Цель: Для создания библиотек пептидов организмов из файлов их белков в формате FASTA. Генерируются перекрывающиеся пептиды с длиной, определенной пользователем, а затем только пептиды, удовлетворяющие заданным требованиям, располагаются в алфавитном порядке в выходном файле.
Язык программирования: PERL на платформе IRIX.
2. PEPLIMP
Цель: Эта программа сравнивает библиотеки пептидов организмов, выбранных пользователем, и возвращает последовательности пептидов, которые являются общими среди геномов.
Язык программирования: PERL на платформе IRIX.
3. PEPXTRACT
Цель: Эта программа берет файл с пептидами в качестве входного, осуществляет поиск в файлах белков в формате FASTA (pep файлы) и возвращает подробности относительно пептидов. Подробности включают PID, расположение пептидов в белке, наименование организма и т.п.
Язык программирования: PERL на платформе IRIX.
4. PEPSTITCH
Цель: Эта программа объединяет пептиды в зависимости от определенных критериев (два пептида должны иметь один и тот же PID и должны соседствовать), удаляет перекрывания и сообщает обо всех сохраняющихся инвариантных пептидах.
Язык программирования: PERL на платформе IRIX.
Подробное описание предпочтительных вариантов воплощения изобретения
Теоретически возможно большое количество комбинаций на уровне аминокислот для формирования пептида определенной длины, но в биологических системах наблюдается только ограниченное количество комбинаций. Вне этой ограниченной доли только несколько пептидов остаются инвариантными в геномах различных организмов. В этой заявке рассматривается природа пептидов, которые являются инвариантными среди всех патогенных и непатогенных бактериальных геномов.
В настоящем изобретении показано, что распространенность сохранения аминокислот в белках различных организмов может обеспечить точное различие между различными классами белков. Как правило, эти белки идентифицируются в качестве белков, имеющих фундаментальное значение в выживании организма.
Белковые последовательности нескольких организмов получают с помощью компьютера из существующих баз данных (NCBI, genbank/genomes/bacteria). Затем они разрезаются с помощью компьютера на пептидные фрагменты из 'N' аминокислотных остатков с помощью специально разработанной компьютерной программы PEPLIB. Библиотека пептидов длиной 'N' создается для всех белков каждого организма путем перемещения окна длиной 'N' вдоль последовательности на один остаток за один раз. Полученные с помощью компьютера пептиды сортируются в алфавитном порядке с помощью кода аминокислоты из одной буквы, ненужные данные удаляются путем стирания дублирующихся пептидов. Затем библиотеки пептидов различных организмов сравниваются с помощью компьютера для нахождения общих пептидов. Сравнение осуществляется с использованием специально разработанной компьютерной программы, названной PEPLIMP. Общие пептиды размещаются с помощью компьютера в исходных белках с использованием программы PEPXTRACT и затем метятся с их белками по происхождению и положению. Эти общие пептиды повторно сшиваются с помощью компьютера с получением длинной цепи из общих пептидов. Это делается с использованием программы PEPSTITCH.
Фрагменты из общих пептидов определяются как инвариантные пептиды, поскольку они происходят из белков с сохраняющимися функциями. Все сохраняющиеся инвариантные пептиды, получаемые из одного и того же белка, затем собирают в одну группу. Вторичная структура этих пептидов проверяется с помощью базы данных по кристаллическим структурам белков, а именно, Protein Data Bank (PDB).
В соответствии с настоящим изобретением, предложен компьютерный способ идентификации инвариантных пептидных мотивов для использования в качестве мишеней для лекарственных средств, заключающийся в том, что
i) генерируют с помощью компьютера библиотеки перекрывающихся пептидов из всех белковых последовательностей выбранных организмов, доступных на сайте http://www.ncbi.nlm.nih.gov,
ii) сортируют в алфавитном порядке с помощью компьютера пептиды длиной 'N', полученные как описано выше, согласно коду аминокислоты из одной буквы,
iii) выделяют с помощью компьютера общие пептидные последовательности выбранных бактерий,
iv) размещают с помощью компьютера общие пептиды в исходных белках, а затем метят по их происхождению и положению,
v) соединяют с помощью компьютера перекрывающиеся общие пептиды с получением длинной цепи инвариантных пептидных последовательностей,
vi) проверяют вторичную структуру сохраняющихся пептидов с помощью базы данных по кристаллической структуре,
vii) сравнивают геномы патогенных штаммов с геномами непатогенных штаммов и выбирают последовательности, которые не сохраняются вместе в этих двух группах,
viii) проверяют с помощью компьютера пептидные мотивы инвариантных последовательностей в качестве возможной последовательности - мишени для лекарственных средств путем поиска данных сохраняющихся последовательностей в геноме хозяина и отбрасывают те из них, которые присутствуют в геноме хозяина.
В одном из вариантов воплощения настоящего изобретения длина скользящего окна длиной 'N' может изменяться в пределах от 4 до любой длины аминокислотных остатков.
В одном из вариантов воплощения настоящего изобретения данные о последовательностях белков могут быть взяты от любого организма, но ограничиваются микробами, такими как Mycoplasma pneumoniae, Helicobacter pylori, Hemophillus influenzae, Mycobacterium tuberculosis, Mycoplasma genitalium, Bacillus subtillis, Escherichia coli.
В дополнительном варианте воплощения сохраненный пептидный мотив содержит
1. AAQSIGEPGTQLT
2. AGDGTTTAT
3. AGRHGNKG
4. AHIDAGKTTT
5. CPBETPEG
6. DEPSIGLH
7. DEPISALD
8. DEPTTALDVT
9. DHAGIATQ
10. DHFHGGGEG
11. DLGGGTFD
12. DVLDTWFSS
13. ERERGITI
14. ERGITITSAAT
15. ESRRIDNQLRGR
16. ESGGQRQR
17. GEPGVGKTA
18. GFDYLRDN
19. GHNLQEHS
20. GIDLGTTNS
21. GINLLREGLD
22. GIVGLPNVGKS
23. GKSSLLNA
24. GLTGRKUVDTYG
25. GPPGTGKTLLA
26. GPPGVGKT
27. GSGKTTLL
28. GTRIFGPV
29. IDTPGHVDFT
30. IIAHIDHGKSTL
31. INGFGRIGR
32. IREGGRTVG
33. IVGESGSGKS
34. KFSTYATWWI
35. KMSKSKGN
36. KMSKSLGN
37. KNMITGAAQMDGAILVV
38. KPNSALRK
39. LFGGAGVGKTV
40. LGPSGCGK
41. LHAGGKFD
42. LIDEARTPLnSG
43. LLNRAPTLH
44. LPDKAIDLIDE
45. LPGKLADC
46. LSGGQQQR
47. MGHVDHGKT
48. NADFDGDQMAVH
49. NGAGKSTL
50. NLLGKRVD
51. NTDAEGRL
52. PSAVGYQPTLA
53. QRVAIARA
54. QRYKGLGEM
55. RDGLKPVHRR
56. SALDVSIQA
57. SGGLHGVG
58. SGSGKSSL
59. SGSGKSTL
60. SVFAGVGERTREGND
61. TGRTHQIRVH
62. TGVSGSGKS
63. TLSGGEAQRI
64. TNKYAEGYP
65. TPRSNPATY
66. VEGDSAGG
67. VRKRPGMYIG
В еще одном варианте воплощения настоящего изобретения количество инвариантных пептидных мотивов может изменяться в зависимости от степени родства между организмами и количества организмов, которые сравниваются.
В еще одном варианте воплощения инвариантные последовательности могут принадлежать следующим белкам согласно базе данных http://www.ncbi.nlm.nih.gov, где список белков содержит
I DNA DIRECTED RNA POLYMERASE BETA CHAIN
II EXCINUCLEASE ABC SUBUNIT A
III EXCINUCLEASE ABC SUBUNIT В
IV DNA GYRASE SUBUNIT В
V ATP SYNTHASE BETA CHAIN
VI S-ADENOSYLMETIONINE SYNTHETASE
VII GLYCERALDEHYDE3-PHOSPHATEDEHYDROGENASE
VIII ELONGATION FACTOR G(EF-G)
IX ELONGATION FACTOR TU(EF-TU)
X 30S RIBOSOMAL PROTEIN S12
XI 50S RIBOSOMAL PROTEIN L12
XII 50S RIBOSOMAL PROTEIN
XIII VALYL tRNA SYNTHETASE (VALRS)
XIV CELL DIVISON PROTEIN FtSH HOMOLOG
XV DnaK PROTEIN (HSP70)
XVI GTP BINDING PROTEIN LepA
XVII TRANSPORTER
XVIII OLIGOPEPTIDE TRANSPORT ATP BINDING PROTEIN OPPF
В еще одном варианте воплощения настоящего изобретения указанный способ сравнения библиотек пептидов, как указано на стадии (iii) способа, осуществляется по стадиям, приведенным на фиг.1.
В еще одном варианте воплощения настоящего изобретения указанный способ размещения общих пептидов в исходных белковых последовательностях, как указано на стадии (iv) способа осуществляется по стадиям, приведенным на фиг.2.
В другом варианте воплощения способ создания общего пептида переменной длины после удаления перекрываний, как указано на стадии (v) способа, осуществляется по стадиям, приведенным на фиг.3.
В еще одном варианте воплощения изобретения система на основе микропроцессора для осуществления способа согласно настоящему изобретению содержит
i) средство для определения окна последовательности аминокислот для создания библиотеки пептидов и последующей сортировки,
ii) средство сравнения библиотеки пептидов,
iii) компьютер для размещения этих общих пептидов в исходных белках и их последующее мечение по происхождению и положению, и
iv) соединение с помощью компьютера перекрывающихся общих пептидов с получением длинной цепи инвариантных пептидных последовательностей.
В другом варианте воплощения изобретения компьютерная система для осуществления способа согласно настоящему изобретению содержит блок центрального процессора, выполняющего программу формирования библиотеки пептидов (PEPLIB), программу сравнения библиотек пептидов (PEPLIMP), программу сшивки пептидов (PEPSTITCH), программу извлечения пептидов (PEPXTRACT), причем все указанные программы хранятся в устройстве памяти, которое доступно для блока центрального процессора, соединенного с дисплеем, на котором блок центрального процессора отображает интерфейсы указанных выше программ в ответ на вводимые пользователем команды с помощью интерфейса.
В еще одном варианте воплощения изобретения способ присвоения функций белку с неизвестными функциями, проявляющему слабую гомологию или ее отсутствие с другими белковыми последовательностями в доступной для всех базе данных (SWISSPROT) может быть осуществлен следующим образом
I. генерируют с помощью компьютера библиотеку перекрывающихся пептидов из белковых последовательностей с неизвестными функциями,
II. сортируют с помощью компьютера пептиды длины 'N' (N представляет собой длину скользящего окна из аминокислот), полученные как указано выше в алфавитном порядке, согласно коду аминокислоты из одной буквы,
III. сравнивают с помощью компьютера эту библиотеку с библиотекой пептидов всех белков с известными функциями для получения общих пептидов,
IV. размещают с помощью компьютера общие пептиды в исходных белках и осуществляют мечение по их происхождению и положению,
V. соединяют с помощью компьютера перекрывающиеся общие пептиды и получают длинную цепь инвариантных пептидных последовательностей,
VI. приписывают функцию неизвестному белку на основе функций белка с максимальной длиной пептидной последовательности, идентичность которой обнаружена, причем чем больше количество соответствий с белками, имеющими подобные функции, тем выше вероятность правильного приписывания функций.
Конкретные параметры организмов, например их наименование, штамм, номер доступа и другие подробности приведены ниже.
Figure 00000002
Краткое описание чертежей
В дальнейшем изобретение поясняется описанием предпочтительных вариантов его воплощения со ссылками на прилагаемые чертежи, на которых:
фиг.1 изображает блок-схему алгоритма программы сравнения библиотек пептидов согласно изобретению,
фиг.2 - блок-схему алгоритма программы извлечения пептидов согласно изобретению,
фиг.3 - блок-схему алгоритма программы сшивания пептидов согласно изобретению,
фиг.4 - кристаллические структуры трех инвариантных пептидов (VRKRPGMYIG, LHAGGKFD и SGGLHGVG) из белка ДНК гиразы В согласно изобретению.
Ниже приведены примеры воплощения изобретения, которые не должны рассматриваться как ограничивающие рамки настоящего изобретения.
Пример 1
Программа создания библиотеки пептидов (PEPLIB)
Целью программы является создание библиотеки неизбыточных пептидов с заданным пользователем окном длины 'N' из данного генома путем перемещения окна на одну аминокислоту за один раз.
Программа работает следующим образом:
Выгруженные из Интернета файлы формата FASTA, полученные из http://www.ncbi.nlm.nih.gov, сохраняются под именем <organism_name>.pep и переходят в качестве входных данных в программу PERL, которая создает уникальные заданные пептиды во время своего исполнения.
Формат входного/выходного файла
Выгруженные файлы и их формат:
<organism_name>.pep: файл, который включает и сохраняет описание и белковую последовательность <organism_name> относится к
Тb (Mycobacterium tuberculosis) Bs [Bacillus subtilis) Mg
(Mycoplasma genitalium) Mp (Mycoplasma pneumonia) Ec (Escherichia coli) Hp (Helicobacter pylori) Hi (Haemophilus influenzae)
Формат: FASTA
">gi|"<описание>
<<полная белковая последовательность..................
Например,
>gi |2808711| emb |CAA16238. 1| dnaA
MTDDPGSGFTTVWNAWSELNGDPKVDDGPSSDANLSAPLTPQQRAWLNLVQPL
TIVEGFALLSWSSFVQNEIERHLRAPITDALSRRLGHQIQLGVRIAPPATDEADDTT
VPPSENPATTSPDTTTDNDEIDDSAAARGDNQHSWPV………
>gi |3261513| emb |CAA16239.1| dnaN
MDAATTRVGLTDLTFMIJIESFADAVSWVAKNLPARPAVPVLSGVLLTGSDNGL
CGNARFSLPTMPVEDYPTLPTLPEETGLLPAE.
Выходной файл: <organism_name><peptide_length>.txt
Формат:
<все уникальные пептиды длины, указанной во время исполнения>
например формат Tb8.txt:
АААААААА
AAAAAAAG
AAAAAAAQ
AAAAAAAS
АААААААТ
Пример 2 Программа сравнения библиотек пептидов (PEPLIMP)
Целью настоящей программы является сравнение определенных пользователем библиотек пептидов друг с другом и сообщение об общих/уникальных пептидах. Выходные файлы программы PEPLIB используются в качестве входных данных для программы PEPLMP. При выполнении программы пользователь осуществляет выбор библиотек, которые должны сравниваться. В зависимости от выбранных библиотек генерируется выходной файл, включающий общие пептиды (фиг.1). Сравнение библиотек 8-мерных пептидов указанных выше семи организмов дает 164 восьмимерных пептида.
Сравнение четырех патогенных организмов, таких как Мусоbacterium tuberculosis, Helicobacter pylori, Mycoplasma pneumonia и Haemophilus influenzas приводит к получению 206 инвариантных пептидов, и сравнение трех непатогенных организмов, таких как Bacillus subtilis, Mycoplasma genitalium и Escherichia coli, приводит к получению 601 инвариантных пептидов. Дерево сравнения выглядит следующим образом
Figure 00000003
Пример 3
Программа извлечения пептидов (PEPXTRACT)
Эта программа использует выходные данные программы PEPLIMP, то есть все инвариантные пептиды в качестве входных данных, располагает эти пептиды в белковых последовательностях из исходной базы данных и метит их номером идентификации белка (PID) по положению и наименованию организма для дальнейшего анализа. Алгоритм этой программы объясняется на схеме, представленной на фиг.2.
Пример 4
Программа сшивки пептидов (PEPSTITCH)
Эта программа удаляет перекрывающиеся инвариантные пептиды и сообщает обо всем непрерывном расширении инвариантных пептидов, присутствующем в рассматриваемом белке. Это осуществляется путем сначала группировки 'N'-мерных пептидов от того же самого белка организма, а затем, в соответствии с их расположением, они объединяются в длинный одиночный пептид. Алгоритм этой программы представлен на фиг.3.
Пример 5
Предсказание функций гипотетического белка
Инвариантный пептид, имеющий последовательность FSGGQRQR, как обнаружено, существует в белках oppF/dppF шести организмов из семи рассмотренных (за исключением М. tuberculosis). Этот белок функционирует как АТФ-связывающий белок. Поскольку этот инвариантный пептид находится в гипотетическом белке, кодируемом геном Rv1273c в М. tuberculosis, предполагается, что этот белок, кодируемый геном Rv1273c, должен функционировать в качестве АТФ-связывающего белка, поскольку он содержит характеристику этого класса белков.
Пример 6
Предсказание функции гипотетического белка
Другой инвариантный пептид, имеющий последовательность GIVGLPNVGKS, обнаружен в белках, имеющих функцию связывания ГТФ в шести бактериях из семи исследованных (за исключением М. tuberculosis), в то время как такая же инвариантная последовательность присутствует в гипотетическом белке, кодируемом геном Rv1112 в М. tuberculosis. Предполагается, что этот гипотетический белок может иметь свойства связывания ГТФ, поскольку он содержит характеристику этого класса белков.
Пример 7
Идентификация мишени для лекарственных средств на основе инвариантных пептидных мотивов
Фермент ДНК-гираза, как известно, уменьшает суперспирализацию ДНК. Этот белок отсутствует у людей и рассматривается в качестве мишени в течение последних нескольких лет. Однако точная последовательность, на которую должны нацеливаться молекулы лекарственных средств, еще не ясна. Инвариантные пептиды, такие как VRKRPGMYIG, LHAGGKFD, SGGLHGVG, LPGKLADC, VEGDSAGG и QRYKGLGEM, которые являются инвариантными среди бета единиц гиразы множества патогенных и непатогенных бактериальных ДНК, но отсутствуют у хозяина, являются структурными детерминантами, которые могут быть использованы в качестве возможных мишеней для лекарственных средств против бактериальных инфекций. Кристаллические структуры трех из этих пептидов представлены на фиг.4.
Пример 8
Приписывание функции белку с неизвестными функциями
С помощью заявленного способа можно приписывать функцию белку с неизвестными функциями, демонстрирующему слабую гомологию или ее отсутствие по отношению к другим белковым последовательностям в доступной для всех базе данных (SWISSPROT) следующим образом
I. генерируют с помощью компьютера библиотеку перекрывающихся пептидов из белковых последовательностей с неизвестными функциями,
II. сортируют с помощью компьютера пептиды длины 'N' (N представляет собой длину скользящего окна из аминокислот), полученных так, как и выше, в алфавитном порядке, согласно коду аминокислоты из одной буквы,
III. сравнивают с помощью компьютера эту библиотеку с библиотекой пептидов всех белков с известными функциями для получения общих пептидов,
IV. размещают с помощью компьютера общие пептиды в исходных белках и осуществляют их последующее мечение по происхождению и положению,
V. соединяют с помощью компьютера перекрывающиеся общие пептиды с получением длинной цепи инвариантных пептидных последовательностей,
VI. приписывают функции неизвестному белку на основе функций белка с максимальной длиной пептидной последовательности, идентичность которой обнаружена.
Чем больше количество соответствий с белками, имеющими подобные функции, тем выше вероятность правильного приписывания функций.
Технические преимущества заявленного изобретения
Главное преимущество настоящего изобретения представляет собой создание нового способа, который позволяет одновременно сравнивать, подобно геному, большое количество (тысячи) белков одного организма с белками других организмов с получением характеристик пептидных мотивов инвариантных последовательностей.
Изобретение позволяет осуществить быстрый способ идентификации инвариантных пептидных мотивов.
Предусматривается простой и очень точный способ определения инвариантных пептидных мотивов, поскольку способ не включает никаких сложных математических вычислений.
Создается основа для скриннингового исследования антибактериальных соединений широкого спектра.

Claims (78)

1. Компьютерный способ идентификации инвариантных пептидных мотивов, пригодных для использования в качестве мишеней для лекарственных средств, заключающийся в том, что
i) генерируют с помощью компьютера библиотеки перекрывающихся пептидов из всех белковых последовательностей выбранных организмов, причем в устройстве памяти компьютера хранятся программы:
формирования библиотеки пептидов (PEPLIB), сравнения библиотек пептидов (PEPLIMP) (фиг.1), сшивки пептидов (PEPSTITCH) (фиг.2), извлечения пептидов (PEPXTRACT) (фиг.3),
при этом программа PEPLIB является программой создания библиотеки неизбыточных пептидов с заданным пользователем окном длины “N” данного генома путем перемещения окна на одну аминокислоту за один раз, и включает
сохранение полученных из сети файлов формата FASTA под именем <organism_name>.pep и переход в качестве входных данных в программу PERL, которая создает уникальные заданные пептиды во время своего исполнения,
причем <organism_name>.pep - это файл, который включает и сохраняет описание и белковую последовательность <organism_name> и относится к Tb (Mycobacterium tuberculosis), Bs (Bacillus subtilis), Mg (Mycoplasma genitalium), Mp (Mycoplasma pneumonia), Ее (Escherichia coli),Hp (Helicobacter pylori), Hi (Haemophilus influenzae)
формат FASTA “gi|”<описание> - “полная белковая последовательность...>, например,
>gi |2808711|emb|CAA16238.1|dnaA
MTDDPGSGFTTVWNAWSELNGDPKVDDGPSSDANLSAPLTPQQRAWLNLVQPL
TIVEGFALLSWSSFVQNEIERHLRAPITDALSRRLGHQIQLGVRIAPPATDEADDTT
VPPSENPATTSPDTTTDNDEIDDSAAARGDNQHSWP.......
>gi |3261513|emb|CAA16239.1|dnaN
MDAATTRVGLTDLTFMIJIESFADAVSWVAKNLPARPAVPVLSGVLL TGSDNGL
CGNARFSLPTMPVEDYPTLPTLPEETGLLPAE,
при этом выходной файл <organism_name><peptide_length>.txt,
формат - <все уникальные пептиды длины, указанной во время исполнения>, например, формат Tb8.txt:
АААААААА
AAAAAAAG
AAAAAAAQ
AAAAAAAS
АААААААТ,
ii) сортируют (классифицируют) в алфавитном порядке с помощью компьютера пептиды длиной “N”, равной длине “скользящего окна”, согласно однобуквенному коду аминокислоты,
iii) выделяют с помощью компьютера общие пептидные последовательности выбранных бактерий,
iv) размещают с помощью компьютера общие пептидные последовательности в исходных белках, а затем осуществляют мечение по их происхождению и положению,
v) соединяют с помощью компьютера перекрывающиеся общие пептидные последовательности с получением длинной цепи инвариантных пептидных последовательностей,
vi) проверяют вторичную структуру консервативных пептидов с помощь базы данных по кристаллической структуре,
vii) сравнивают геномы патогенных штаммов с геномами непатогенных штаммов и выбирают последовательности, которые не сохраняются вместе в этих двух группах, и
viii) проверяют с помощью компьютера пептидные мотивы инвариантных последовательностей в качестве возможной последовательности - мишени для лекарственных средств путем поиска данных сохраняющихся последовательностей в геноме хозяина и отбрасывают те, которые присутствуют в геноме хозяина.
2. Способ по п.1, отличающийся тем, что длину скользящего окна длиной “N” изменяют в пределах от 4 до любой длины аминокислотных остатков.
3. Способ по п.1, отличающийся тем, что данные о последовательностях белков берут от любого организма, при этом ограничиваются микробами, такими как Mycoplasma pneumoniae, Helicobacter pylori, Hemophillus influenzae, Mycobacterium tuberculosis, Mycoplasma genitalium, Bacillus subtillis, Escherichia coli.
4. Способ по п.1, отличающийся тем, что консервативные пептидные мотивы содержат
1. AAQSIGEPGTQLT
2. AGDGTTTAT
3. AGRHGNKG
4. AHIDAGKTTT
5. CPEETPEG
6. DEPSIGLH
7. DEPTSALD
8. DEPTTALDVT
9. DHAGIATQ
10. DHPHGGGEG
11. DLGGGTFD
12. DVLDTWFSS
13. ERERGin
14. ERGmrSAAT
15. ESRRTONQLRGR
16. FSGGQRQR
17. GEPGVGKTA
18. GFDYLRDN
19. GHNLQEHS
20. GIDLGTTNS
21. GINLLREGLD
22. GIVGLPNVGKS
23. GKSSLLNA
24. GLTGRKHVDTYG
25. GPPGTGKTLLA
26. GPPGVGKT
27. GSGKTTLL
28. GTRIFGPV
29. BBTPGHVDFT
30. HAHIDHGKSTL
31. INGFGRIGR
32. IREGGRTVG
33. FVGESGSGKS
34. KFSTYATWWI
35. KMSKSKGN
36. KMSKSLGN
37. KNMITGAAQMDGAILVV
38. KPNSALRK
39. LFGGAGVGKTV
40. LGPSGCGK
41. LHAGGKFD
42. LIDEARTPLIISG
43. LLNRAPTLH
44. LPDKAIDLIDE
45. LPGKLADC
46. LSGGQQQR
47. MGHVDHGKT
48. NADFDGDQMAVH
49. NGAGKSTL
50. NLLGKRVD
51. NTDAEGRL
52. PSAVGYQPTLA
53. QRVAIARA
54. QRYKGLGEM
55. RDGLKPVHRR
56. SALDVSIQA
57. SGGLHGVG
58. SGSGKSSL
59. SGSGKSTL
60. SVFAGVGERTREGND
61. TGRTHQIRVH
62. TGVSGSGKS
63. TLSGGEAQRI
64. TNKYAEGYP
65. TPRSNPATY
66. VEGDSAGG
67. VRKRPGMYIG
5. Способ по п.1, отличающийся тем, что количество инвариантных пептидов изменяется в зависимости от степени родства между организмами и количества организмов, которые сравниваются.
6. Способ по любому из пп.1-4, отличающийся тем, что инвариантные последовательности могут принадлежать следующим белкам, при этом список белков содержит
I DNA DIRECTED RNA POLYMERASE BETA CHAIN (бета-цепь ДНК-направленной RNA-полимеразы)
II EXCINUCLEASE ABC SUBUNIT А (субъединица А эксинуклеазы АВС)
III EXCINUCLEASE ABC SUBUNIT В (субъединица В эксинуклеазы АВС)
IV DNA GYRASE SUBUNIT В (субъединица в ДНК-гиразы)
V ATR SYNTHASE BETA CHAIN (бета-цепь АТФ-синтазы)
VI S-ADENOSYLMETHIONINE SYNTHETASE (S-аденозилметионинсинтаза)
VII GLYCERALDEHYDE 3-PHOSPHATE DEHYDROGENASE (глицеральдегид-3-фосфатдегидрогеназа)
VIII ELONGATION FACTOR G (EF-G) (фактор элонгации G(EF-G))
IX ELONGATION FACTOR TU (EF-TU) (фактор элонгации TU (EF-TU))
X 30S RIBOSOMAL PROTEIN S13 (30S - рибосомный белок SI 2)
XI 50S RIBOSOMAL PROTEIN LI 2 (50S - рибосомный белок LI 2)
XII 50S RIBOSOMAL PROTEIN L14 (50S - рибосомный белок L14)
XIII VALYL tRNA SYNTHETASE (VALRS) (валил-tRN-синтетаза)
XIV CELL DIVISON PROTEIN FtSH HOMOLOG (гомолог FtSH белка клеточного деления)
XV DnaK PROTEIN (HSP70) (белок DnaK (HSP70))
XVI GTP BINDING PROTEIN LepA (ГТФ-связывающий белок)
XVII TRANSPORTER (переносчик)
XVIII OLIGOPEPTIDE TRANSPORT ATP BINDING PROTEIN OPPF (АТФ-связывающий белок транспорта олигопептида).
7. Способ по п.1, отличающийся тем, что сравнение библиотек пептидов, как указано на стадии (iii), осуществляют по стадиям, указанным в блок-схеме алгоритма на фиг.1.
8. Способ по п.1, отличающийся тем, что размещение общих пептидов в исходных белковых последовательностях, как указано на стадии (iv), осуществляют по стадиям, указанным в блок-схеме алгоритма на фиг.2.
9. Способ по п.1, отличающийся тем, что для создания общего пептида переменной длины после удаления перекрываний, как указано на стадии (v), осуществляют по стадиям, указанным в блок-схеме алгоритма на фиг.3.
10. Компьютерная система для осуществления компьютерного способа идентификации инвариантных пептидных мотивов, содержащая блок центрального процессора, выполняющего программу формирования библиотеки пептидов (PEPLIB),
при этом программа PEPLIB является программой создания библиотеки неизбыточных пептидов с заданным пользователем окном длины “N” данного генома путем перемещения окна на одну аминокислоту за один раз, и включает
сохранение полученных из сети файлов формата FASTA под именем <organism__name>.pep и переход в качестве входных данных в программу PERL, которая создает уникальные заданные пептиды во время своего исполнения,
причем <organism_name>.pep - файл, который включает и сохраняет описание и белковую последовательность <organism_name> и относится к Tb (Mycobacterium tuberculosis) Bs (Bacillus subtilis) Mg (Mycoplasma genitalium) Mp (Mycoplasma pneumonia) Ec (Escherichia coli) Hp (Helicobacter pylori) Hi (Haemophilus influenzae)
формат FASTA “>gi|”<описание> - “<<полная белковая последовательность..., например,
>gi |2808711|emb|CAA16238.1|dnaA
MTDDPGSGFTTVWNAWSELNGDPKVDDGPSSDANLSAPLTPQQRAWLNLVQPL
TIVEGFALLSWSSFVQNEIERHLRAPITDALSRRLGHQIQLGVRIAPPATDEADDTT
VPPSENPATTSPDTTTDNDEIDDSAAARGDNQHSWP.......
>gi |3261513|emb|CAA 16239.1| dnaN
MDAATTRVGLTDLTFMIJIESFADAVSWVAKNLPARPAVPVLSGVLLTGSDNGL
CGNARFSLPTMPVEDYPTLPTLPEETGLLPAE,
при этом выходной файл <organism_name><peptide_length>.txt,
формат - <все уникальные пептиды длины, указанной во время исполнения>, например, формат TbS.txt:
АААААААА
AAAAAAAG
AAAAAAAQ
AAAAAAAS
АААААААТ,
программу сравнения библиотеки пептидов (PEPLIMP) (фиг.1), программу сшивки пептидов (PEPSTITCH) (фиг.2), программу извлечения пептидов (PEPXRACT) (фиг.3), причем все указанные программы хранятся в устройстве памяти, которое доступно для блока центрального процессора, соединенного с дисплеем, на котором блок центрального процессора отображает интерфейсы указанных выше программ в ответ на вводимые пользователем команды с помощью интерфейса.
11. Способ присвоения функций белку с неизвестными функциями, проявляющему слабую гомологию или ее отсутствие с другими белковыми последовательностями в доступной для всех базе данных (SWISSPROT), заключающийся в том, что
I. генерируют с помощью компьютера библиотеку перекрывающихся пептидов из белковых последовательностей с неизвестными функциями,
причем в устройстве памяти компьютера хранятся программы: формирования библиотеки пептидов (PEPLIB), сравнения библиотек пептидов (PEPLIMP) (фиг.1), сшивки пептидов (PEPSTITCH) (фиг.2), извлечения пептидов (PEPXTRACT) (фиг.3),
при этом программа PEPLIB является программой создания библиотеки неизбыточных пептидов с заданным пользователем окном длины “N” данного генома путем перемещения окна на одну аминокислоту за один раз, и включает
сохранение полученных из сети файлов формата FASTA под именем <organism_name>.pep и переход в качестве входных данных в программу PERL, которая создает уникальные заданные пептиды во время своего исполнения,
причем <organism_name>.pep - это файл, который включает и сохраняет описание и белковую последовательность <organism_name> и относится к Tb (Mycobacterium tuberculosis), Bs (Bacillus subtilis), Mg (Mycoplasma genitalium), Mp (Mycoplasma pneumonia), Eс (Escherichia coli), Hp (Helicobacter pylori), Hi (Haemophilus influenzae)
формат FASTA "gi|”<описание> - <<полная белковая последовательность...>, например,
>gi |2808711|emb|CAA 16238.1|dnaA
MTDDPGSGFTTVWNAWSELNGDPKVDDGPSSDANLSAPLTPQQRAWLNLVQPL
TIVEGFALLSWSSFVQNEIERHLRAPITDALSRRLGHQIQLGVRIAPPATDEADDTT
VPPSENPATTSPDTTTDNDEIDDSAAARGDNQHSWP.......
>gi |3261513|emb|CAA16239.1|dnaN
MDAATTRVGLTDLTFMIJIESFADAVSWVAKNLPARPAVPVLSGVLLTGSDNGL
CGNARFSLPTMPVEDYPTLPTLPEETGLLPAE,
при этом выходной файл <organism_name><peptide_length>.txt,
формат - <все уникальные пептиды длины, указанной во время исполнения>, например, формат Tb8.txt:
АААААААА
AAAAAAAG
AAAAAAAQ
AAAAAAAS
АААААААТ.
II. сортируют с помощью компьютера пептиды длины 'N', равной длине скользящего окна из аминокислот, полученные как указано выше в алфавитном порядке, согласно коду аминокислоты из одной буквы,
III. сравнивают с помощью компьютера эту библиотеку с библиотекой пептидов всех белков с известными функциями для получения общих пептидов,
IV. размещают с помощью компьютера общие пептиды в исходных белках и осуществляют последующее мечение по их происхождению и положению,
V. соединяют с помощью компьютера перекрывающиеся общие пептиды и получают длинную цепь инвариантных пептидных последовательностей,
VI. приписывают функцию неизвестному белку на основе функций белка с максимальной длиной пептидной последовательности, идентичность которой обнаружена, причем чем больше количество соответствий с белками, имеющими подобные функции, тем выше вероятность правильного приписывания функций.
RU2002103467/15A 2000-03-30 2000-08-31 Компьютерный способ идентификации сохраненных консервативных пептидных мотивов RU2249044C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/539,032 2000-03-30
US09/539,032 US7657378B1 (en) 2000-03-30 2000-03-30 Computer based method for identifying peptides useful as drug targets

Publications (2)

Publication Number Publication Date
RU2002103467A RU2002103467A (ru) 2003-09-27
RU2249044C2 true RU2249044C2 (ru) 2005-03-27

Family

ID=24149472

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2002103467/15A RU2249044C2 (ru) 2000-03-30 2000-08-31 Компьютерный способ идентификации сохраненных консервативных пептидных мотивов

Country Status (14)

Country Link
US (1) US7657378B1 (ru)
EP (1) EP1268512B1 (ru)
JP (1) JP2003528639A (ru)
KR (1) KR100780874B1 (ru)
CN (1) CN1211398C (ru)
AU (1) AU2001228793A1 (ru)
BR (1) BR0017193A (ru)
CA (1) CA2376710A1 (ru)
CZ (1) CZ200232A3 (ru)
DE (1) DE60017471T2 (ru)
HU (1) HU228447B1 (ru)
IL (1) IL147435A0 (ru)
RU (1) RU2249044C2 (ru)
WO (1) WO2001074130A2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2814953C2 (ru) * 2018-07-26 2024-03-07 Иституто Нацьонале Ди Физика Нуклеаре Способ идентификации промежуточных продуктов

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602004029391D1 (de) * 2003-12-05 2010-11-11 Council Scient Ind Res Ein auf computerverwendung basiertes verfahren zur identifizierung von dna-sequenzen, die für als "drug targets" nutzbare proteine codieren
CA2615506A1 (en) * 2005-07-15 2007-01-25 Novartis Ag Pamps, pathogen associated molecular patterns
EP2397856B1 (en) 2006-03-14 2013-11-13 Oregon Health and Science University Methods for detecting a mycobacterium tuberculosis infection
WO2017083874A1 (en) 2015-11-11 2017-05-18 Serimmune Inc. Methods and compositions for assessing antibody specificities
GB202101078D0 (en) * 2021-01-27 2021-03-10 Oxford Immunotec Ltd Fragment pools

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2326134A1 (en) * 1998-03-27 1999-10-07 Combichem, Inc. Method and system for search of implicitly described virtual libraries

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ФИГУРНОВ В.Э., IBM для пользователя, М., 1997, ИНФРА-М, стр.31-32. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2814953C2 (ru) * 2018-07-26 2024-03-07 Иституто Нацьонале Ди Физика Нуклеаре Способ идентификации промежуточных продуктов

Also Published As

Publication number Publication date
KR100780874B1 (ko) 2007-11-29
HU228447B1 (en) 2013-03-28
EP1268512A2 (en) 2003-01-02
US7657378B1 (en) 2010-02-02
WO2001074130A3 (en) 2002-01-24
BR0017193A (pt) 2003-01-14
CZ200232A3 (cs) 2002-05-15
IL147435A0 (en) 2002-08-14
DE60017471D1 (de) 2005-02-17
CN1452631A (zh) 2003-10-29
HUP0204426A3 (en) 2004-10-28
KR20020097137A (ko) 2002-12-31
HUP0204426A2 (en) 2003-05-28
CA2376710A1 (en) 2001-10-11
EP1268512B1 (en) 2005-01-12
DE60017471T2 (de) 2005-12-22
CN1211398C (zh) 2005-07-20
JP2003528639A (ja) 2003-09-30
WO2001074130A2 (en) 2001-10-11
AU2001228793A1 (en) 2001-10-15

Similar Documents

Publication Publication Date Title
Lee et al. Ab initio protein structure prediction
Lee et al. Distinguish protein decoys by using a scoring function based on a new AMBER force field, short molecular dynamics simulations, and the generalized born solvent model
Bork et al. Predicting functions from protein sequences—where are the bottlenecks?
Rahman et al. Methods for the bioinformatic identification of bacterial lipoproteins encoded in the genomes of Gram-positive bacteria
Kelley et al. Enhanced genome annotation using structural profiles in the program 3D-PSSM
Johnson et al. Alignment and searching for common protein folds using a data bank of structural templates
Andreatta et al. NNAlign: a web-based prediction method allowing non-expert end-user discovery of sequence motifs in quantitative peptide data
WO1998020433A1 (en) Alignment-based similarity scoring methods for quantifying the differences between related biopolymer sequences
CZ20031090A3 (cs) Způsob provozování počítačového systému pro provádění diskrétní podstrukturní analýzy
Rey et al. Assessing the precision of high-throughput computational and laboratory approaches for the genome-wide identification of protein subcellular localization in bacteria
Stormo et al. Mining genome databases to identify and understand new gene regulatory systems
RU2249044C2 (ru) Компьютерный способ идентификации сохраненных консервативных пептидных мотивов
Plewczynski et al. Prediction of signal peptides in protein sequences by neural networks
Bono et al. Systematic prediction of orthologous units of genes in the complete genomes
de Jong et al. Towards low false discovery rate estimation for protein-protein interactions detected by chemical cross-linking
Terai et al. Predicting rules on organization of cis-regulatory elements, taking the order of elements into account
Chen et al. iEsGene-ZCPseKNC: Identify Essential Genes Based on Z Curve Pseudo $ k $-Tuple Nucleotide Composition
Hodgman The elucidation of protein function from its amino acid sequence
RU2002103467A (ru) Компьютерный способ идентификации сохраненных инвариантных пептидных мотивов
Alex et al. Hardware accelerated novel protein identification
Minkiewicz et al. Online programs and databases of peptides and proteolytic enzymes–a brief update for 2007–2008
Ma et al. A Concurrent Neural Network (CNN) Method for RNA-binding Site Prediction
Nielsen et al. A novel multi-objectivisation approach for optimising the protein inverse folding problem
WO2002034877A2 (en) A method and system useful for structural classification of unknown polypeptides
Collado-Vides et al. Microbial computational genomics of gene regulation