RU2018123353A

RU2018123353A - Предсказание вероятности появления строки с использованием последовательности векторов

Info

Publication number: RU2018123353A
Application number: RU2018123353A
Authority: RU
Inventors: Евгений Михайлович Инденбом; Даниил Гарриевич Анастасьев
Original assignee: Общество с ограниченной ответственностью "Аби Продакшн"
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2019-12-27
Also published as: RU2018123353A3; US20200004819A1; US20200279079A1; US10657203B2; RU2712101C2; US10963647B2

Claims

1. Способ определения наиболее вероятной строки из множества строк, включающий

получение множества строк, где каждая строка из множества строк содержит множество символов;

для каждой строки из множества строк создание обрабатывающим устройством первой последовательности векторов, исходя по меньшей мере из максимальной длины слова для каждого символа в строке;

передачу модулю машинного обучения первой последовательности векторов для каждой строки из множества строк;

и получение от модуля машинного обучения вероятности появления каждой строки из множества строк.

2. Способ по п. 1, отличающийся тем, что каждый вектор в первой последовательности векторов соответствует каждому символу в этой строке.

3. Способ по п. 2, отличающийся тем, что каждый вектор в первой последовательности векторов создается путем объединения первого вектора, содержащего максимальную длину слова для данного символа строки, и второго вектора, содержащего вектор символа для данного символа строки.

4. Способ по п. 3, отличающийся тем, что максимальная длина слова для каждого символа строки соответствует длине самого длинного возможного слова в строке, которая начинается с этого символа.

5. Способ по п. 4, отличающийся тем, что самое длинное возможное слово берется из словаря.

6. Способ по п. 3, отличающийся тем, что вектор символа для каждого символа строится на основе одного или более из

эмбединг символа;

единый вектор для символов алфавита, отличающегося от алфавита, используемого для строки;

вектор для частотных знаков пунктуации;

вектор для редких знаков пунктуации; или

вектор для цифр.

7. Способ по п. 1, отличающийся тем, что каждая строка из множества строк отличается от других строк из множества строк одним символом, этот символ находится в одной и той же позиции каждой из строк.

8. Способ по п. 1, отличающийся тем, что модуль машинного обучения включает

первый полносвязный слой и второй полносвязный слой для применения матричных преобразований к первой последовательности векторов каждой из строк; и

третий полносвязный слой, который используется в качестве выходного слоя.

9. Способ по п. 8, отличающийся тем, что к первому результату первого полносвязного слоя и второму результату второго полносвязного слоя применяются функция пакетной нормализации и ректификационная линейная функция активации и что к третьему выходу третьего полносвязного слоя применяется сигмоидная функция активации.

10. Способ по п. 1, отличающийся тем, что вероятность появления данной строки, имеющей значение, близкое к «один» по сравнению со значениями вероятности появления остальных строк, указывает на то, что у этой строки максимальная вероятность появления.

11. Система определения наиболее вероятной строки из множества строк, включающая следующие компоненты:

устройство памяти, в котором хранятся инструкции;

устройство обработки, подключенное к запоминающему устройству, причем устройство обработки предназначено для выполнения инструкций для

получения множества строк, где каждая строка из множества строк содержит множество символов;

для каждой строки из множества строк создания обрабатывающим устройством первой последовательности векторов, исходя по меньшей мере из максимальной длины слова для каждого символа в строке;

передачи модулю машинного обучения первой последовательности векторов для каждой строки из множества строк; и

получения от модуля машинного обучения вероятности появления каждой строки из множества строк.

12. Система по п. 11, отличающаяся тем, что каждый вектор в первой последовательности векторов соответствует каждому символу в этой строке.

13. Система по п. 12, отличающаяся тем, что каждый вектор в первой последовательности векторов создается путем объединения первого вектора, содержащего максимальную длину слова для данного символа строки, и второго вектора, содержащего вектор символа для данного символа строки.

14. Система по п. 13, отличающаяся тем, что максимальная длина слова для каждого символа строки соответствует длине самого длинного возможного слова в строке, которая начинается с этого символа.

15. Система по п. 14, отличающаяся тем, что самое длинное возможное слово берется из словаря.

16. Система по п. 13, отличающаяся тем, что вектор символа для каждого символа строится на основе одного или более из следующих вариантов:

эмбединг символа;

вектор для частотных знаков пунктуации;

вектор для редких знаков пунктуации; или

вектор для цифр.

17. Система по п. 11, отличающаяся тем, что каждая строка из множества строк отличается от других строк из множества строк одним символом, этот символ находится в одной и той же позиции каждой из строк.

18. Постоянный машиночитаемый носитель данных, содержащий инструкции, направленные на выполнения способа определения наиболее вероятной строки из множества строк, которые при обращении к ним обрабатывающего устройства приводят к выполнению обрабатывающим устройством следующих операций:

19. Постоянный машиночитаемый носитель данных по п. 18, в котором модуль машинного обучения содержит

20. Постоянный машиночитаемый носитель данных по п. 19, отличающийся тем, что к первому результату первого полносвязного слоя и ко второму результату второго полносвязного слоя применяются функция пакетной нормализации и ректификационная линейная функция активации и что к третьему выходу третьего полносвязного слоя применяется сигмоидная функция активации.