RU2017146276A

RU2017146276A - Способ и сервер для прогнозирования предлагаемого варианта расширения частично введенного пользователем запроса

Info

Publication number: RU2017146276A
Application number: RU2017146276A
Authority: RU
Inventors: Алексей Галимович Шаграев
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2019-06-27
Also published as: RU2711103C2; RU2017146276A3; US20190197131A1; US10846340B2

Claims

1. Способ обучения алгоритма машинного обучения (MLA) для определения предлагаемого варианта расширения частично введенного пользователем запроса, представляющего собой часть предполагаемого пользовательского запроса, выполняемый сервером и включающий в себя:

прием сервером множества прошлых пользовательских запросов;

разделение сервером множества прошлых пользовательских запросов на множество n-грамм, причем каждая из множества n-грамм связана с по меньшей мере одним соответствующим прошлым пользовательским запросом и соответствующими признаками n-граммы, указывающими на попарное совместное появление n-грамм из каждой возможной пары n-грамм из множества n-грамм во множестве прошлых пользовательских запросов; и

для данной n-граммы из данного прошлого пользовательского запроса:

выбор сервером по меньшей мере одной возможной n-граммы из множества n-грамм в зависимости от попарного совместного появления каждой n-граммы из множества n-грамм и данной n-граммы во множестве прошлых пользовательских запросов;

формирование сервером соответствующих векторов признаков для данной n-граммы и по меньшей мере одной возможной n-граммы в зависимости от соответствующих признаков n-грамм;

формирование сервером для данной n-граммы обучающего набора, содержащего входной сегмент и сегмент метки, при этом входной сегмент основан на данной n-грамме, по меньшей мере одной возможной n-грамме и соответствующих векторах признаков, а сегмент метки основан на данном прошлом пользовательском запросе и по меньшей мере одной возможной n-грамме и указывает на групповое совместное появление группы n-грамм в данном прошлом пользовательском запросе, причем группа n-грамм включает в себя (а) по меньшей мере одну n-грамму из по меньшей мере одной возможной n-граммы и (б) данную n-грамму, и

обучение сервером алгоритма MLA на основе обучающего набора для определения на этапе его использования предсказанного группового совместного появления по меньшей мере одной используемой возможной n-граммы и по меньшей мере одной используемой n-граммы в предполагаемом пользовательском запросе, причем по меньшей мере одна используемая n-грамма представляет собой частично введенный пользователем запрос, а предсказанное групповое совместное появление предназначено для определения того, какая из по меньшей мере одной используемой возможной n-граммы должна использоваться в качестве соответствующего предлагаемого варианта расширения запроса.

2. Способ по п. 1, отличающийся тем, что содержит определение сервером признаков n-граммы, которые должны быть связаны с каждой n-граммой из множества n-грамм, в зависимости от множества n-грамм и множества прошлых пользовательских запросов.

3. Способ по п. 1, отличающийся тем, что выбор по меньшей мере одной возможной n-граммы из множества n-грамм включает в себя выбор сервером только тех n-грамм из множества n-грамм, которые появлялись совместно с данной n-граммой во множестве прошлых пользовательских запросов.

4. Способ по п. 1, отличающийся тем, что выбор по меньшей мере одной возможной n-граммы из множества n-грамм включает в себя

ранжирование сервером по меньшей мере некоторых n-грамм из множества n-грамм в зависимости от попарного совместного появления каждой n-граммы из множества n-грамм и данной n-граммы во множестве прошлых пользовательских запросов; и

выбор сервером по меньшей мере одной n-граммы с наибольшим рангом из по меньшей мере некоторых n-грамм из множества n-грамм в качестве по меньшей мере одной возможной n-граммы.

5. Способ по п. 1, отличающийся тем, что n-грамма из множества n-грамм, появлявшаяся совместно с данной n-граммой в одном из множества прошлых пользовательских запросов, является предшествующей n-граммой для данной n-граммы в одном из множества прошлых пользовательских запросов или последующей n-граммой для данной n-граммы в одном из множества прошлых пользовательских запросов.

6. Способ по п. 5, отличающийся тем, что предшествующая n-грамма является непосредственно предшествующей n-граммой, а последующая n-грамма является непосредственно последующей n-граммой.

7. Способ по п. 1, отличающийся тем, что признаки данной n-граммы указывают на попарное совместное появление каждой n-граммы из множества n-грамм и данной n-граммы во множестве прошлых пользовательских запросов.

8. Способ по п. 1, отличающийся тем, что дополнительно включает в себя:

прием сервером частично введенного пользователем запроса;

разделение сервером частично введенного пользователем запроса на по меньшей мере одну используемую n-грамму, связанную с соответствующими признаками n-граммы;

выбор сервером по меньшей мере одной используемой возможной n-граммы из множества n-грамм в зависимости от попарного совместного появления каждой n-граммы из множества n-грамм и по меньшей мере одной используемой n-граммы во множестве прошлых пользовательских запросов;

формирование сервером соответствующих векторов признаков для по меньшей мере одной используемой n-граммы и по меньшей мере одной используемой возможной n-граммы в зависимости от соответствующих признаков n-грамм;

определение сервером, выполняющим алгоритм MLA, предсказанного группового совместного появления по меньшей мере одной используемой возможной n-граммы и по меньшей мере одной используемой n-граммы, причем определение предсказанного группового совместного появления основано на по меньшей мере одной используемой n-грамме, по меньшей мере одной используемой возможной n-грамме и соответствующих векторах признаков.

9. Способ по п. 8, отличающийся тем, что по меньшей мере одна используемая возможная n-грамма представляет собой по меньшей мере две используемые возможные n-граммы, причем способ дополнительно включает в себя ранжирование сервером по меньшей мере двух используемых возможных n-грамм в зависимости от предсказанного группового совместного появления.

10. Способ по п. 9, отличающийся тем, что дополнительно включает в себя определение сервером на основе предсказанного группового совместного появления того, какая из по меньшей мере одной используемой возможной n-граммы должна использоваться в качестве соответствующего предлагаемого варианта расширения запроса.

11. Способ по п. 1, отличающийся тем, что данная n-грамма может являться по меньшей мере одной из следующих n-грамм:

основанная на буквах n-грамма;

основанная на фонемах n-грамма;

основанная на слогах n-грамма;

основанная на словах n-грамма.

12. Сервер для обучения алгоритма машинного обучения (MLA) для определения предлагаемого варианта расширения частично введенного пользователем запроса, представляющего собой часть предполагаемого пользовательского запроса, выполненный с возможностью:

принимать множество прошлых пользовательских запросов;

разделять множество прошлых пользовательских запросов на множество n-грамм, причем каждая из множества n-грамм связана с по меньшей мере одним соответствующим прошлым пользовательским запросом и соответствующими признаками n-граммы, указывающими на попарное совместное появление n-грамм из каждой возможной пары n-грамм из множества n-грамм во множестве прошлых пользовательских запросов; и

выбирать по меньшей мере одну возможную n-грамму из множества n-грамм в зависимости от попарного совместного появления каждой n-граммы из множества n-грамм и данной n-граммы во множестве прошлых пользовательских запросов;

формировать соответствующие векторы признаков для данной n-граммы и по меньшей мере одной возможной n-граммы в зависимости от соответствующих признаков n-грамм;

формировать для данной n-граммы обучающий набор, содержащий входной сегмент и сегмент метки, при этом входной сегмент основан на данной n-грамме, по меньшей мере одной возможной n-грамме и соответствующих векторах признаков, а сегмент метки основан на данном прошлом пользовательском запросе и по меньшей мере одной возможной n-грамме и указывает на групповое совместное появление группы n-грамм в данном прошлом пользовательском запросе, причем группа n-грамм включает в себя (а) по меньшей мере одну n-грамму из по меньшей мере одной возможной n-граммы и (б) данную n-грамму, и

обучать алгоритм MLA на основе обучающего набора для определения на этапе его использования предсказанного группового совместного появления по меньшей мере одной используемой возможной n-граммы и по меньшей мере одной используемой n-граммы в предполагаемом пользовательском запросе, причем по меньшей мере одна используемая n-грамма представляет собой частично введенный пользователем запрос, а предсказанное групповое совместное появление предназначено для определения того, какая из по меньшей мере одной используемой возможной n-граммы должна использоваться в качестве соответствующего предлагаемого варианта расширения запроса.

13. Сервер по п. 12, отличающийся тем, что сервер дополнительно выполнен с возможностью определять признаки n-граммы, которые должны быть связаны с каждой n-граммой из множества n-грамм, в зависимости от множества n-грамм и множества прошлых пользовательских запросов.

14. Сервер по п. 12, отличающийся тем, что возможность сервера выбирать по меньшей мере одну возможную n-грамму из множества n-грамм включает в себя возможность выбирать только те n-граммы из множества n-грамм, которые появлялись совместно с данной n-граммой во множестве прошлых пользовательских запросов.

15. Сервер по п. 12, отличающийся тем, что возможность сервера выбирать по меньшей мере одну возможную n-грамму из множества n-грамм включает в себя возможность:

ранжировать по меньшей мере некоторые n-граммы из множества n-грамм в зависимости от попарного совместного появления каждой n-граммы из множества n-грамм и данной n-граммы во множестве прошлых пользовательских запросов; и

выбирать по меньшей мере одну n-грамму с наибольшим рангом из по меньшей мере некоторых n-грамм из множества n-грамм в качестве по меньшей мере одной возможной n-граммы.

16. Сервер по п. 12, отличающийся тем, что n-грамма из множества n-грамм, появлявшаяся совместно с данной n-граммой в одном из множества прошлых пользовательских запросов, является предшествующей n-граммой для данной n-граммы в одном из множества прошлых пользовательских запросов или последующей n-граммой для данной n-граммы в одном из множества прошлых пользовательских запросов.

17. Сервер по п. 16, отличающийся тем, что предшествующая n-грамма является непосредственно предшествующей n-граммой, а последующая n-грамма является непосредственно последующей n-граммой.

18. Сервер по п. 12, отличающийся тем, что признаки данной n-граммы указывают на попарное совместное появление каждой n-граммы из множества n-грамм и данной n-граммы во множестве прошлых пользовательских запросов.

19. Сервер по п. 12, отличающийся тем, что сервер дополнительно выполнен с возможностью:

принимать частично введенный пользователем запрос;

разделять частично введенный пользователем запрос на по меньшей мере одну используемую n-грамму, связанную с соответствующими признаками n-граммы;

выбирать по меньшей мере одну используемую возможную n-грамму из множества n-грамм в зависимости от попарного совместного появления каждой n-граммы из множества n-грамм и по меньшей мере одной используемой n-граммы во множестве прошлых пользовательских запросов;

формировать соответствующие векторы признаков для по меньшей мере одной используемой n-граммы и по меньшей мере одной используемой возможной n-граммы в зависимости от соответствующих признаков n-грамм; и

определять путем выполнения алгоритма MLA предсказанное групповое совместное появление по меньшей мере одной используемой возможной n-граммы и по меньшей мере одной используемой n-граммы, причем определение предсказанного группового совместного появления основано на по меньшей мере одной используемой n-грамме, по меньшей мере одной используемой возможной n-грамме и соответствующих векторах признаков.

20. Сервер по п. 19, отличающийся тем, что по меньшей мере одна используемая возможная n-грамма представляет собой по меньшей мере две используемые возможные n-граммы, причем сервер дополнительно выполнен с возможностью ранжировать по меньшей мере две используемые возможные n-граммы в зависимости от предсказанного группового совместного появления.