RU2020109236A

RU2020109236A - Иерархические нейронные сети с грануляризированным вниманием

Info

Publication number: RU2020109236A
Application number: RU2020109236A
Authority: RU
Inventors: Юань ЛИН; Шейх Садид АЛЬ ХАСАН; Оладимеджи Фейисетан ФАРРИ; Цзюньи ЛЮ
Original assignee: Конинклейке Филипс Н.В.
Priority date: 2017-08-03
Filing date: 2018-08-03
Publication date: 2021-09-03
Also published as: US20210089765A1; RU2020109236A3; CN111356997B; US11361569B2; CN111356997A; WO2019025601A1

Claims

1. Способ, реализуемый с помощью одного или более процессоров, для формирования одной или более классификаций документа, включающий:

получение (102) данных, показательных в отношении документа;

обработку (104) данных, показательных в отношении документа, в первом слое из двух или более слоев иерархической сетевой модели с использованием механизма внимания двойной гранулярности для формирования выходных данных первого слоя, причем механизм внимания двойной гранулярности присваивает веса некоторым частям данных, в большей степени показательных в отношении документа в первом слое, при этом во время тренировки механизма внимания двойной гранулярности указанные некоторые части встраивают в иерархическую сетевую модель;

обработку (106) первого слоя выходных данных во втором из двух или более слоев иерархической сетевой модели для формирования выходных данных второго слоя и

формирование (108) метки классификации из выходных данных второго слоя.

2. Способ по п. 1, в котором два или более слоев иерархической сетевой модели содержат слой слов и слой предложений.

3. Способ по п. 2, в котором два или более слоев иерархической сетевой модели также содержат слой символов, слой разделов и слой документов.

4. Способ по п. 1, в котором формирование метки классификации также включает подачу выходных данных второго слоя в функцию softmax.

5. Способ по п. 1, в котором механизм внимания двойной гранулярности, также содержит историю внимания и специфичную для предметной области историю внимания, причем история внимания соответствует первому слою иерархической сетевой модели, а специфичная для предметной области история внимания соответствует второму слою иерархической сетевой модели.

6. Способ по п. 5, в котором механизм внимания двойной гранулярности определяют посредством одного или более процессоров с помощью выражений:

где

- значение внимания,

- поддающаяся изучению функция,

- история внимания,

- специфичная для предметной области история внимания,

- вектор вероятности,

- общее количество временных шагов,

- время,

- время и

- взвешенное среднее.

7. Способ по п. 6, в котором специфичную для предметной области историю внимания предварительно заполняют вложениями, соответствующими знаниям в конкретной предметной области.

8. Способ по п. 3, в котором слой символов дополнительно содержит слой символов с долгой краткосрочной памятью (LSTM), причем к LSTM-слою символов применяют двухгранулярный механизм, слой слов дополнительно содержит LSTM-слой слов, причем к LSTM-слою слов применяют двухгранулярный механизм, слой предложений дополнительно включает LSTM-слой предложений, причем к LSTM-слою предложений применяют двухгранулярный механизм, и слой разделов дополнительно содержит LSTM-слой разделов, причем к LSTM-слою разделов применяют двухгранулярный механизм.

9. По меньшей мере один некратковременный компьютерочитаемый носитель информации, хранящий машиннообучаемую модель для формирования одной или более классификаций документа, причем модель тренируют с использованием следующего процесса:

получают (202) набор тренировочных данных, показательных в отношении документа;

осуществляют тренировку (206) двух или более слоев иерархической сетевой модели с механизмом внимания двойной гранулярности с использованием набора тренировочных данных, показательных в отношении документа, причем первый слой в механизме внимания двойной гранулярности тренируют с помощью двух или более слоев иерархической сетевой модели, а второй слой в механизме внимания двойной гранулярности предварительно заполняют данными, отражающими специфичные для предметной области знания.

получают (102) данные, показательных в отношении документа;

выполняют обработку (104) данных, показательных в отношении документа, в первом слое из двух или более слоев иерархической сетевой модели с использованием механизма внимания двойной гранулярности для формирования выходных данных первого слоя, причем механизм внимания двойной гранулярности присваивает веса некоторым частям данных, в большей степени показательных в отношении документа в первом слое;

выполняют обработку (106) первого слоя выходных данных во втором из двух или более слоев иерархической сетевой модели для формирования выходных данных второго слоя и

формируют (108) метку классификации из выходных данных второго слоя.

10. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 9, в котором два или более слоев иерархической сетевой модели содержат слой слов и слой предложений.

11. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 10, в котором два или более слоя иерархической сетевой модели также содержат слой символов, слой разделов и слой документов.

12. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 9, в котором формирование метки классификации также включает подачу выходных данных второго слоя в функцию softmax.

13. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 9, в котором механизм внимания двойной гранулярности определяют посредством одного или более процессоров с помощью выражений:

где

- значение внимания,

- поддающаяся изучению функция,

- первый слой в двухслойной истории внимания,

- второй слой в двухслойной истории внимания, который содержит специфичные для предметной области знания,

- вектор вероятности,

общее количество временных шагов,

- время,

- время и

- взвешенное среднее.

14. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 13, в котором специфичную для предметной области историю внимания предварительно заполняют вложениями, соответствующими знаниям в конкретной предметной области.

15. По меньшей мере один некратковременный компьютерочитаемый носитель информации по п. 10, в котором слой символов дополнительно содержит слой символов с долгой краткосрочной памятью (LSTM), причем к LSTM-слою символов применяют двухгранулярный механизм, слой слов дополнительно содержит LSTM-слой слов, причем к LSTM-слою слов применяют двухгранулярный механизм, слой предложений дополнительно включает LSTM-слой предложений, причем к LSTM-слою предложений применяют двухгранулярный механизм, и слой разделов дополнительно содержит LSTM-слой разделов, причем к LSTM-слою разделов применяют двухгранулярный механизм.

16. Система, содержащая один или более процессоров и память, выполненную с возможностью функционального соединения с одним или более процессорами для формирования одной или более классификаций документа, причем память хранит инструкции, которые в ответ на их исполнение одним или более процессорами, вызывают выполнение одним или более процессорами следующих операций:

обработка (104) данных, показательных в отношении документа, в первом слое из двух или более слоев иерархической сетевой модели с использованием механизма внимания двойной гранулярности для формирования выходных данных первого слоя, причем механизм внимания двойной гранулярности присваивает веса некоторым частям данных, в большей степени показательных в отношении документа в первом слое, при этом во время тренировки механизма внимания двойной гранулярности указанные некоторые части встраивают в иерархическую сетевую модель;

обработка (106) первого слоя выходных данных во втором из двух или более слоев иерархической сетевой модели для формирования выходных данных второго слоя и

17. Система по п. 16, в которой два или более слоев иерархической сетевой модели содержат слой слов и слой предложений.

18. Система по п. 17, в которой два или более слоя иерархической сетевой модели также содержат слой символов, слой разделов и слой документов.

19. Система по п. 16, в которой формирование метки классификации также включает подачу выходных данных второго слоя в функцию softmax.

20. Система по п. 16, в которой механизм внимания двойной гранулярности, также содержит историю внимания и специфичную для предметной области историю внимания, причем история внимания соответствует первому слою иерархической сетевой модели, а специфичная для предметной области история внимания соответствует второму слою иерархической сетевой модели.