RU2019139175A

RU2019139175A - Классификация сайта сплайсинга на основе глубокого обучения

Info

Publication number: RU2019139175A
Application number: RU2019139175A
Authority: RU
Inventors: Кишор ДЖАГАНАТАН; Кай-Хоу ФАРХ; София КИРИАЗОПУЛУ ПАНАЙОТОПУЛУ; Джереми Фрэнсис МАКРЭЙ
Original assignee: Иллюмина, Инк.
Priority date: 2017-10-16
Filing date: 2018-10-15
Publication date: 2021-06-02
Also published as: US20240013856A1; KR102317911B1; JP6840871B2; CN110870020A; US11488009B2; AU2018350907B2; EP3622519A1; MX2022014869A; KR20210130842A; CA3066534A1; AU2018350905A1; JP7335406B2; AU2021282482A1; EP3628099C0; EP3622525A1; KR20200015536A; AU2018350907B9; KR102223129B1; JP6980882B2; AU2018350907A1

Claims

1. Реализуемый с применением нейронной сети способ предсказания правдоподобия сайтов сплайсинга в пре-мРНК геномных последовательностях, где указанный способ включает:

обучение разреженной сверточной нейронной сети, ACNN, на обучающих примерах пре-мРНК нуклеотидных последовательностей, включая по меньшей мере 50000 обучающих примеров донорных сайтов сплайсинга, по меньшей мере 50000 обучающих примеров акцепторных сайтов сплайсинга и по меньшей мере 100000 обучающих примеров сайтов, не связанных со сплайсингом, где указанное обучение включает:

ввод закодированных кодированием с одним активным состоянием обучающих примеров нуклеотидных последовательностей, причем каждая нуклеотидная последовательность содержит по меньшей мере 401 нуклеотид, с по меньшей мере одним целевым нуклеотидом и контекстом из по меньшей мере 200 фланкирующих нуклеотидов с каждой стороны, в направлении 5’ и в направлении 3’ от целевого нуклеотида; и

корректировку, путем обратного распространения, параметров фильтров в указанной ACNN для предсказания оценок правдоподобия того, что каждый целевой нуклеотид в указанной нуклеотидной последовательности является донорным сайтом сплайсинга, акцепторным сайтом сплайсинга или сайтом, не связанным со сплайсингом;

за счет чего обученная ACNN конфигурируется для приема в качестве входа пре-мРНК нуклеотидной последовательности, из по меньшей мере 401 нуклеотида, которая закодирована кодированием с одним активным состоянием и которая включает по меньшей мере один целевой нуклеотид и контекст из по меньшей мере 200 фланкирующих нуклеотидов с каждой стороны, и для оценки правдоподобия того, что целевой нуклеотид является донорным сайтом сплайсинга, акцепторным сайтом сплайсинга или сайтом, не связанным со сплайсингом.

2. Реализуемый с применением компьютера способ по п. 1, где каждый из обучающих примеров пре-мРНК нуклеотидных последовательностей и указанной входной пре-мРНК нуклеотидной последовательности включает 2500 фланкирующих нуклеотидов с каждой стороны от целевого нуклеотида, за счет чего обученная ACNN конфигурируется для приема в качестве входа пре-мРНК нуклеотидной последовательности из по меньшей мере 5001 нуклеотидов.

3. Реализуемый с применением компьютера способ по п. 1, где каждый из обучающих примеров пре-мРНК нуклеотидных последовательностей и указанной входной пре-мРНК нуклеотидной последовательности фланкирован 5000 расположенными в направлении 5’ контекстными нуклеотидами и 5000 расположенными в направлении 3’ контекстными нуклеотидами целевого нуклеотида, за счет чего обученная ACNN конфигурируется для приема в качестве входа пре-мРНК нуклеотидной последовательности из по меньшей мере 10001 нуклеотидов.

4. Реализуемый с применением компьютера способ по п. 1, где каждый из указанных обучающих примеров пре-мРНК нуклеотидных последовательностей и указанной входной пре-мРНК нуклеотидной последовательности фланкирован 500 нуклеотидами с каждой стороны от целевого нуклеотида.

5. Реализуемый с применением компьютера способ по п. 1, где каждый из указанных обучающих примеров пре-мРНК нуклеотидных последовательностей и указанной входной пре-мРНК нуклеотидной последовательности фланкирован 1000 расположенных в направлении 5’ контекстных нуклеотидов и 1000 расположенных в направлении 3’ контекстных нуклеотидов.

6. Реализуемый с применением компьютера способ по любому из пп. 1-5, дополнительно включающий обучение указанной ACNN на по меньшей мере 150000 тренировочных примеров донорных сайтов сплайсинга, 150000 тренировочных примеров акцепторных сайтов сплайсинга и 800000000 тренировочных примеров сайтов, не связанных со сплайсингом.

7. Реализуемый с применением компьютера способ по любому из пп. 1-6, где указанная ACNN содержит группы остаточных блоков.

8. Реализуемый с применением компьютера способ по п. 7, где каждая группа остаточных блоков параметризируется числом сверточных фильтров в остаточных блоках, размером окна свертки остаточных блоков и фактором разрежения остаточных блоков.

9. Реализуемый с применением компьютера способ по любому из пп. 7, 8, где фактор разряжения изменяется неэкспоненциально между группами остаточных блоков.

10. Реализуемый с применением компьютера способ по любому из пп. 8, 9, где размеры окна свертки в разных группах остаточных блоков различаются.

11. Реализуемый с применением компьютера способ по любому из пп. 1-9, где указанная ACNN дополнительно включает по меньшей мере одну группу из четырех остаточных блоков и по меньшей мере одно соединение с пропуском, причем каждый остаточный блок содержит 32 сверточных фильтра, размер окна свертки, составляющий 11, и фактор разряжения, составляющий 1.

12. Реализуемый с применением компьютера способ по п. 1, где указанная ACNN обучена на и сконфигурирована для оценки входов, включающих целевой нуклеотид, фланкированный 500 расположенными в направлении 5’ контекстными нуклеотидами и 500 расположенными в направлении 3’ контекстными нуклеотидами, дополнительно включающий:

по меньшей две группы из четырех остаточных блоков и по меньшей мере два соединения с пропусками, причем каждый остаточный блок в первой группе имеет 32 сверточных фильтра, размер окна свертки, составляющий 11, и фактор разрежения, составляющий 1, и каждый остаточный блок во второй группе имеет 32 сверточных фильтра, размер окна свертки, составляющий 11, и фактор разряжения, составляющий 4.

13. Реализуемый с применением компьютера способ по п. 1, где указанная ACNN обучена на и сконфигурирована для оценки входов, включающих целевой нуклеотид, фланкированный 1000 расположенных в направлении 5’ контекстных нуклеотидов и 1000 расположенных в направлении 3’ контекстных нуклеотидов, дополнительно включающий:

по меньшей мере три группы из четырех остаточных блоков и по меньшей мере три соединения с пропуском, где каждый остаточный блок в первой группе имеет 32 сверточных фильтра, размер окна свертки, составляющий 11, и фактор разряжения, составляющий 1, каждый остаточный блок во второй группе имеет 32 сверточных фильтра, размер окна свертки, составляющий 11, и фактор разряжения, составляющий 4, и каждый остаточный блок в третьей группе имеет 32 сверточных фильтра, размер окна свертки, составляющий 21, и фактор разряжения, составляющий 19.

14. Реализуемый с применением компьютера способ по п. 1, где указанная ACNN обучена на и сконфигурирована для оценки входов, включающих целевой нуклеотид, фланкированный 5000 расположенными в направлении 5’ контекстными нуклеотидами и 5000 расположенными в направлении 3’ контекстными нуклеотидами, дополнительно включающий:

по меньшей мере четыре группы из четырех остаточных блоков и по меньшей мере четыре соединения с пропуском, где каждый остаточный блок в первой группе имеет 32 сверточных фильтра, размер окна свертки, составляющий 11, и фактор разряжения, составляющий 1, каждый остаточный блок во второй группе имеет 32 сверточных фильтра, размер окна свертки, составляющий 11, и фактор разряжения, составляющий 4, каждый остаточный блок в третьей группе имеет 32 сверточных фильтра, размер окна свертки, составляющий 21, и фактор разряжения, составляющий 19, и каждый остаточный блок в четвертой группе имеет 32 сверточных фильтра, размер окна свертки, составляющий 41, и фактор разряжения, составляющий 25.

15. Реализуемый с применением компьютера способ по любому из пп. 1-14, где указанные оценки для каждого целевого нуклеотида экспоненциально нормированы и в сумме равны единице.

16. Реализуемый с применением компьютера способ по любому из пп. 1-15, дополнительно включающий классификацию каждого целевого нуклеотида как донорный сайт сплайсинга, акцепторный сайт сплайсинга или сайт, не связанный со сплайсингом, на основании наивысшей оценки для данного целевого нуклеотида.

17. Реализуемый с применением компьютера способ по любому из пп. 1-16, где размерность входа составляет (Cu+L+Cd)×4, где:

Cu - представляет собой число расположенных в 5’-направлении контекстных нуклеотидов;

Cd - представляет собой число расположенных в направлении 3’ контекстных нуклеотидов; и

L - представляет собой число нуклеотидов в целевой нуклеотидной последовательности.

18. Реализуемый с применением компьютера способ по п. 17, где размерность выхода составляет L×3.

19. Реализуемый с применением компьютера способ по п. 17, где размерность входа составляет (5000+5000+5000)×4.

20. Реализуемый с применением компьютера способ по п. 19, где размерность выхода составляет 5000×3.

21. Реализуемый с применением компьютера способ по любому из пп. 7-14, где каждая группа остаточных блоков выдает промежуточный выход посредством обработки предшествующего входа, причем размерность указанного промежуточного выхода составляет (I-[{(W-1)⋅D}⋅A])×N, где:

I - представляет собой размерность предшествующего входа;

W - представляет собой размер окна свертки остаточных блоков;

D - представляет собой показатель разрежения свертки остаточных блоков;

A - представляет собой число слоев разреженной свертки в указанной группе; и

N - представляет собой число сверточных фильтров в остаточных блоках.

22. Реализуемый с применением компьютера способ по любому из пп. 1-21, где указанная ACNN пакетно оценивает обучающие примеры на протяжении эпохи.

23. Реализуемый с применением компьютера способ по любому из пп. 1-22, где обучающие примеры случайным образом группируют в пакеты, причем каждый пакет имеет заранее определенный размер пакета.

24. Реализуемый с применением компьютера способ по любому из пп. 1-23, где указанная ACNN итерирует оценку обучающих примеров на протяжении по меньшей мере десяти эпох.

25. Реализуемый с применением компьютера способ по п. 24, где указанный вход включает целевую нуклеотидную последовательность, имеющую два соседних целевых нуклеотида.

26. Реализуемый с применением компьютера способ по п. 25, где указанные два соседних целевых нуклеотида представляют собой аденин, сокращенно A, и гуанин, сокращенно G.

27. Реализуемый с применением компьютера способ по п. 25, где указанные два соседних целевых нуклеотида представляют собой гуанин, сокращенно G, и урацил, сокращенно D.

28. Реализуемый с применением компьютера способ по любому из пп. 1-6 и 15-27, где указанная ACNN параметризуется числом остаточных блоков, числом соединений с пропуском и числом остаточных связей.

29. Реализуемый с применением компьютера способ по любому из пп. 1-28, где разреженные свертки сохраняют сверточные вычисления для повторного использования по мере обработки соседних нуклеотидов.

30. Реализуемый с применением компьютера способ по любому из пп. 1-29, где указанная ACNN включает сверточные меняющие размерность слои, которые изменяют пространственные размерности и размерности признаков предшествующего входа.

31. Реализуемый с применением компьютера способ по любому из пп. 7-14 и 28-30, где каждый остаточный блок содержит по меньшей мере один слой пакетной нормализации, по меньшей мере один слой блоков линейной ректификации (сокращенно ReLU), по меньшей мере один слой разреженной свертки и по меньшей мере одно остаточное соединение.

32. Реализуемый с применением компьютера способ по любому из пп. 7-14 и 28-30, где каждый остаточный блок содержит два слоя пакетной нормализации, два нелинейных слоя ReLU, два слоя разреженной свертки и одно остаточное соединение.

33. Система для предсказания правдоподобия сайтов сплайсинга в пре-мРНК геномных последовательностях, включающая один или более процессоров, связанных с памятью, причем в память загружены компьютерные команды, которые, при исполнении на указанных процессорах реализуют действия, включающие:

обучение разреженной сверточной нейронной сети, ACNN, на обучающих примерах пре-мРНК нуклеотидных последовательностей, включая по меньшей мере 50000 тренировочных примеров донорных сайтов сплайсинга, по меньшей мере 50000 тренировочных примеров акцепторных сайтов сплайсинга, и по меньшей мере 100000 тренировочных примеров сайтов, не связанных со сплайсингом, где указанное обучение включает:

ввод закодированных кодированием с одним активным состоянием примеров нуклеотидных последовательностей, где каждая нуклеотидная последовательность содержит по меньшей мере 401 нуклеотид, с по меньшей мере одним целевым нуклеотидом и контекстом из по меньшей мере 200 фланкирующих нуклеотидов с каждой стороны, в направлении 5’ и в направлении 3’; и

34. Система по п. 33, где указанная ACNN обучена на 150000 тренировочных примеров донорных сайтов сплайсинга, 150000 тренировочных примеров акцепторных сайтов сплайсинга и 800000000 тренировочных примеров сайтов, не связанных со сплайсингом.

35. Система по любому из пп. 32 или 33, где ACNN содержит группы остаточных блоков.

36. Система по п. 35, где каждая группа остаточных блоков параметризируется числом сверточных фильтров в остаточных блоках, размером окна свертки остаточных блоков и фактором разрежения остаточных блоков.

37. Система по п. 37, где фактор разряжения неэкспоненциально меняется между группами остаточных блоков.

38. Система по п. 37, где размеры окна свертки в разных группах остаточных блоков различаются.

39. Система по любому из пп. 21-38, где указанная ACNN обучена на одном или более обучающих серверах.

40. Система по любому из пп. 32-39, где указанная обученная ACNN размещена на одном или большем числе рабочих серверов, которые получают входные последовательности от запрашивающих клиентов.

41. Система по любому из пп. 32-40, где указанные рабочие серверы обрабатывают входные последовательности посредством стадий ввода и вывода указанной ACNN с генерацией выходных данных, которые передаются указанным клиентам.