RU2021116658A

RU2021116658A - Нейронные сети с преобразованием последовательности на основе внимания

Info

Publication number: RU2021116658A
Application number: RU2021116658A
Authority: RU
Inventors: Ноум М. ШЕЙЗИР; Айдан Николас ГОМЕС; Лукаш Мечислав КАЙЗЕР; Якоб Д. УСКОРЕЙТ; Ллайон Оуэн ДЖОНС; Ники Дж. ПАРМАР; Илья ПОЛОСУХИН; Ашиш Теку ВАСВАНИ
Original assignee: ГУГЛ ЭлЭлСи
Priority date: 2017-05-23
Filing date: 2018-05-23
Publication date: 2021-07-05
Also published as: AU2022221389B2; CA3050334C; KR20190089980A; EP3542316B1; JP7214783B2; JP2023052483A; US20210019623A1; JP7423828B2; EP4156033A1; AU2024202594A1; US10452978B2; AU2018271931B2; EP4156031A1; KR102486348B1; US10719764B2; PL3542316T3; KR20200129197A; EP4156032A1; AU2018271931A1; US20190392319A1

Claims

1. Система, содержащая один или более компьютеров и одно или более запоминающих устройств, хранящих инструкции, которые при их исполнении одним или более компьютерами предписывают одному или более компьютерам реализовывать нейронную сеть с преобразованием последовательности для преобразования входной последовательности, имеющей соответственный сетевой ввод в каждой из множества позиций ввода в порядке ввода, в выходную последовательность, имеющую соответственный сетевой вывод в каждой из множества позиций вывода в порядке вывода, при этом нейронная сеть с преобразованием последовательности содержит:

нейронную сеть декодировщика, выполненную с возможностью принимать ввод декодировщика и обрабатывать ввод декодировщика для генерирования выходной последовательности, при этом ввод декодировщика содержит соответственное представление каждого из сетевых вводов во входной последовательности, при этом нейронная сеть декодировщика содержит последовательность из одной или более подсетей декодировщика, причем каждая подсеть декодировщика выполнена с возможностью, на каждом из множества временных шагов генерирования, (i) принимать соответственный ввод подсети декодировщика для каждой из конкретных позиций вывода, предшествующих текущей позиции вывода, соответствующей текущему временному шагу генерирования, и (ii) генерировать соответственный вывод подсети декодировщика для каждой из конкретных позиций вывода, предшествующих текущей позиции вывода, и при этом каждая подсеть декодировщика содержит подслой самовнимания декодировщика, который выполнен с возможностью, на каждом временном шаге генерирования, принимать ввод подсети декодировщика для каждой из конкретных позиций вывода, предшествующих текущей позиции вывода, и, для каждой из этих конкретных позиций вывода, применять механизм самовнимания к вводам подсети декодировщика в конкретных позициях вывода, предшествующих текущей позиции вывода, чтобы сгенерировать соответственное обновленное представление для конкретной позиции вывода, при этом применение механизма самовнимания содержит: определение запроса из ввода подсети декодировщика в конкретной позиции вывода, определение ключей, полученных из вводов подсети декодировщика в упомянутых конкретных позициях вывода, определение значений, полученных из вводов подсети декодировщика в этих конкретных позициях вывода, и использование упомянутых определенных запроса, ключей и значений для генерирования соответственного обновленного представления для конкретной позиции вывода.

2. Система по п.1, в которой нейронная сеть декодировщика авторегрессионным методом генерирует выходную последовательность посредством того, что, на каждом из множества временных шагов генерирования, генерирует сетевой вывод в позиции вывода, соответствующей этому временному шагу генерирования, обусловленный кодированными представлениями и сетевыми выводами в позициях вывода, предшествующих этой позиции вывода в порядке вывода.

3. Система по п.1, в которой нейронная сеть декодировщика дополнительно содержит слой векторного представления, выполненный с возможностью, на каждом временном шаге генерирования, для каждого сетевого вывода в позициях вывода, предшествующих упомянутой соответствующей позиции вывода в порядке вывода: отображать этот сетевой вывод в векторизованное представление сетевого вывода и объединять векторизованное представление сетевого вывода с позиционным векторным представлением упомянутой соответствующей позиции вывода сетевого вывода в порядке вывода, чтобы сгенерировать объединенное векторизованное представление сетевого вывода; и предоставлять объединенные векторизованные представления сетевого вывода в качестве ввода для первой подсети декодировщика в последовательности подсетей декодировщика.

4. Система по п.1, в которой по меньшей мере одна из подсетей декодировщика содержит слой попозиционного прямого распространения, который выполнен с возможностью, на каждом временном шаге генерирования, для каждой конкретной позиции вывода, предшествующей упомянутой соответствующей позиции вывода: принимать ввод в этой конкретной позиции вывода и применять последовательность трансформаций к вводу в данной конкретной позиции вывода, чтобы сгенерировать вывод для этой конкретной позиции вывода.

5. Система по п.4, в которой последовательность трансформаций содержит две изученные линейные трансформации, отделенные функцией активации.

6. Система по п.4, в которой упомянутая по меньшей мере одна подсеть декодировщика дополнительно содержит:

слой остаточного соединения, который объединяет выводы слоя попозиционного прямого распространения с вводами для слоя попозиционного прямого распространения, чтобы сгенерировать остаточный вывод, и

слой нормализации слоя, который применяет нормализацию слоя к остаточному выводу.

7. Система по п.1, в которой каждая подсеть декодировщика содержит подслой внимания кодировщика-декодировщика, который выполнен с возможностью, на каждом временном шаге генерирования принимать ввод для каждой конкретной позиции вывода, предшествующей упомянутой соответствующей позиции вывода, и, для каждой из этих конкретных позиций вывода, применять механизм внимания к кодированным представлениям в позициях ввода с использованием одного или более запросов, извлеченных из ввода для этой конкретной позиции вывода, чтобы сгенерировать обновленное представление для данной конкретной позиции вывода.

8. Система по п.7, в которой каждый подслой внимания кодировщика-декодировщика содержит множество слоев внимания кодировщика-декодировщика, и в которой каждый слой внимания кодировщика-декодировщика выполнен с возможностью, на каждом временном шаге генерирования:

применять изученную линейную трансформацию запроса к вводу в каждой из конкретных позиций вывода, предшествующих упомянутой соответствующей позиции вывода, чтобы сгенерировать соответственный запрос для каждой конкретной позиции вывода,

применять изученную линейную трансформацию ключа к каждому кодированному представлению в каждой позиции ввода, чтобы сгенерировать соответственный ключ для каждой позиции ввода,

применять изученную линейную трансформацию значения к каждому кодированному представлению в каждой позиции ввода, чтобы сгенерировать соответственное значение для каждой позиции ввода, и

для каждой конкретной позиций вывода, предшествующей упомянутой соответствующей позиции вывода,

определять соответственный индивидуальный для позиции вывода вес для каждой из позиций ввода путем применения функции сравнения между запросом для конкретной позиции вывода и ключами, и

определять начальный вывод внимания кодировщика-декодировщика для конкретной позиции вывода путем определения взвешенной суммы значений, взвешенных посредством соответствующих весов, индивидуальных для позиций вывода, для позиции ввода.

9. Система по п.8, в которой слой внимания кодировщика-декодировщика выполнен с возможностью, на каждом временном шаге генерирования, объединять выводы внимания кодировщика-декодировщика, сгенерированные слоями внимания кодировщика-декодировщика, чтобы сгенерировать вывод для подслоя внимания кодировщика-декодировщика.

10. Система по п.8, в которой подслои внимания кодировщика-декодировщика работают параллельно.

11. Система по п.1, в которой каждая подсеть декодировщика содержит:

слой остаточного соединения, который объединяет выводы подслоя внимания кодировщика-декодировщика с вводами для подслоя внимания кодировщика-декодировщика, чтобы сгенерировать остаточный вывод, и

12. Система по п.1, в которой каждая подсеть декодировщика содержит подслой самовнимания декодировщика, который выполнен с возможностью, на каждом временном шаге генерирования: принимать ввод для каждой конкретной позиции вывода, предшествующей упомянутой соответствующей позиции вывода и, для каждой конкретной позиции вывода, применять механизм внимания к вводам в конкретных позициях вывода, предшествующих упомянутой соответствующей позиции вывода, с использованием одного или более запросов, извлеченных из ввода в этой конкретной позиции вывода, чтобы сгенерировать обновленное представление для данной конкретной позиции вывода.

13. Система по п.12, в которой каждый подслой самовнимания декодировщика содержит множество слоев самовнимания декодировщика, и в которой каждый слой самовнимания декодировщика выполнен с возможностью, на каждом временном шаге генерирования:

применять изученную линейную трансформацию запроса к вводу в каждой конкретной позиции вывода, предшествующей упомянутой соответствующей позиции вывода, чтобы сгенерировать соответственный запрос для каждой конкретной позиции вывода,

применять изученную линейную трансформацию ключа к каждому вводу в каждой конкретной позиции вывода, предшествующей упомянутой соответствующей позиции вывода, чтобы сгенерировать соответственный ключ для каждой конкретной позиции вывода,

применять изученную линейную трансформацию значения к каждому вводу в каждой конкретной позиции вывода, предшествующей упомянутой соответствующей позиции вывода, чтобы сгенерировать соответственное значение для каждой конкретной позиции вывода, и

для каждой из конкретных позиций вывода, предшествующих упомянутой соответствующей позиции вывода,

определять соответственный индивидуальный для позиции вывода вес для каждой конкретной позиции вывода путем применения функции сравнения между запросом для этой конкретной позиции вывода и ключами, и

определять начальный вывод внимания декодировщика для данной конкретной позиции вывода путем определения взвешенной суммы значений, взвешенных посредством соответствующих весов, индивидуальных для позиций вывода, для этой конкретной позиции вывода.

14. Система по п.13, в которой подслой самовнимания декодировщика выполнен с возможностью, на каждом временном шаге генерирования, объединять выводы внимания декодировщика, сгенерированные слоями самовнимания декодировщика, чтобы сгенерировать вывод для подслоя самовнимания декодировщика.

15. Система по п.13, в которой слои внимания декодировщика работают параллельно.

16. Система по п.12, в которой каждая подсеть декодировщика дополнительно содержит:

слой остаточного соединения, который объединяет выводы подслоя самовнимания декодировщика с вводами для подслоя самовнимания декодировщика, чтобы сгенерировать остаточный вывод, и

17. Один или более долговременных компьютерных носителей информации, хранящих инструкции, которые при их исполнении одним или более компьютерами предписывают одному или более компьютерам реализовывать нейронную сеть с преобразованием последовательности для преобразования входной последовательности, имеющей соответственный сетевой ввод в каждой из множества позиций ввода в порядке ввода, в выходную последовательность, имеющую соответственный сетевой вывод в каждой из множества позиций вывода в порядке вывода, при этом нейронная сеть с преобразованием последовательности содержит:

нейронную сеть декодировщика, выполненную с возможностью принимать ввод декодировщика и обрабатывать ввод декодировщика для генерирования выходной последовательности, при этом ввод декодировщика содержит соответственное представление каждого из сетевых вводов во входной последовательности, при этом нейронная сеть декодировщика содержит последовательность из одной или более подсетей декодировщика, причем каждая подсеть декодировщика выполнена с возможностью, на каждом из множества временных шагов генерирования, (i) принимать соответственный ввод подсети декодировщика для каждой из конкретных позиций вывода, предшествующих текущей позиции вывода, соответствующей текущему временному шагу генерирования, и (ii) генерировать соответственный вывод подсети декодировщика для каждой из конкретных позиций вывода, предшествующих текущей позиции вывода, и

при этом каждая подсеть декодировщика содержит подслой самовнимания декодировщика, который выполнен с возможностью, на каждом временном шаге генерирования, принимать ввод подсети декодировщика для каждой из конкретных позиций вывода, предшествующих текущей позиции вывода, и, для каждой из этих конкретных позиций вывода, применять механизм самовнимания к вводам подсети декодировщика в конкретных позициях вывода, предшествующих текущей позиции вывода, чтобы сгенерировать соответственное обновленное представление для конкретной позиции вывода, при этом применение механизма самовнимания содержит: определение запроса из ввода подсети декодировщика в конкретной позиции вывода, определение ключей, полученных из вводов подсети декодировщика в упомянутых конкретных позициях вывода, определение значений, полученных из вводов подсети декодировщика в этих конкретных позициях вывода, и использование упомянутых определенных запроса, ключей и значений для генерирования соответственного обновленного представления для конкретной позиции вывода.

18. Долговременные компьютерные носители информации по п.17, при этом нейронная сеть декодировщика авторегрессионным методом генерирует выходную последовательность посредством того, что, на каждом из множества временных шагов генерирования, генерирует сетевой вывод в позиции вывода, соответствующей этому временному шагу генерирования, обусловленный кодированными представлениями и сетевыми выводами в позициях вывода, предшествующих этой позиции вывода в порядке вывода.

19. Способ, содержащий этапы, на которых:

принимают входную последовательность, имеющую соответственный ввод в каждой из множества позиций ввода в порядке ввода;

обрабатывают входную последовательность посредством нейронной сети декодировщика, чтобы сгенерировать выходную последовательность, имеющую соответственный сетевой вывод в каждой из множества позиций вывода в порядке вывода,

при этом нейронная сеть декодировщика содержит последовательность из одной или более подсетей декодировщика, причем каждая подсеть декодировщика выполнена с возможностью, на каждом из множества временных шагов генерирования, (i) принимать соответственный ввод подсети декодировщика для каждой из конкретных позиций вывода, предшествующих текущей позиции вывода, соответствующей текущему временному шагу генерирования, и (ii) генерировать соответственный вывод подсети декодировщика для каждой из конкретных позиций вывода, предшествующих текущей позиции вывода,

при этом каждая подсеть декодировщика содержит подслой самовнимания декодировщика, который выполнен с возможностью, на каждом временном шаге генерирования, принимать ввод подсети декодировщика для каждой из конкретных позиций вывода, предшествующих текущей позиции вывода, и, для каждой из этих конкретных позиций вывода, применять механизм самовнимания к вводам подсети декодировщика в конкретных позициях вывода, предшествующих текущей позиции вывода, чтобы сгенерировать соответственное обновленное представление для конкретной позиции вывода, при этом применение механизма самовнимания содержит этапы, на которых: определяют запрос из ввода подсети декодировщика в конкретной позиции вывода, определяют ключи, полученные из вводов подсети декодировщика в упомянутых конкретных позициях вывода, определяют значения, полученные из вводов подсети декодировщика в этих конкретных позициях вывода, и используют упомянутые определенные запрос, ключи и значения для генерирования соответственного обновленного представления для конкретной позиции вывода.

20. Способ по п.19, в котором нейронная сеть декодировщика авторегрессионным методом генерирует выходную последовательность посредством того, что, на каждом из множества временных шагов генерирования, генерирует сетевой вывод в позиции вывода, соответствующей этому временному шагу генерирования, обусловленный кодированными представлениями и сетевыми выводами в позициях вывода, предшествующих этой позиции вывода в порядке вывода.