RU2017142709A

RU2017142709A - Система и способ формирования обучающего набора для алгоритма машинного обучения

Info

Publication number: RU2017142709A
Application number: RU2017142709A
Authority: RU
Inventors: Константин Викторович Лахман; Александр Александрович Чигорин; Виктор Сергеевич Юрченко
Original assignee: Общество С Ограниченной Ответственностью "Яндекс"
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2019-06-10
Also published as: RU2017142709A3; US20190179796A1; RU2711125C2

Claims

1. Способ формирования набора обучающих объектов для алгоритма машинного обучения (MLA), предназначенного для классификации изображений, выполняемый на сервере, осуществляющем MLA, и включающий в себя:

- получение из журнала поиска данных о поисковых запросах, выполненных во время вертикального поиска изображений, каждый из которых связан с первым набором результатов поиска изображений;

- формирование вектора запроса для каждого поискового запроса;

- распределение векторов запросов между множеством кластеров векторов запросов;

- связывание с каждым кластером векторов запросов второго набора результатов поиска изображений, содержащего по меньшей мере часть каждого первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера векторов запросов; и

- формирование набора обучающих объектов путем сохранения для каждого кластера векторов запросов каждого результата поиска изображений из второго набора результатов поиска изображений в виде обучающего объекта в наборе обучающих объектов, при этом каждый результат поиска изображений связан с меткой кластера, указывающей на кластер векторов запросов, с которым связан результат поиска изображений.

2. Способ по п. 1, отличающийся тем, что формирование вектора запроса включает в себя применение алгоритма векторизации слов для каждого поискового запроса.

3. Способ по п. 2, отличающийся тем, что перед связыванием второго набора результатов поиска изображений с каждым кластером векторов запросов способ дополнительно включает в себя получение для каждого первого набора результатов поиска изображений соответствующего набора метрик, каждая из которых указывает на действия пользователя с соответствующим результатом поиска изображений из первого набора результатов поиска изображений;

при этом связывание с каждым кластером векторов запросов второго набора результатов поиска изображений включает в себя выбор по меньшей мере части каждого первого набора результатов поиска изображений, входящих в состав второго набора результатов поиска изображений, на основе превышающих заранее заданный порог соответствующих метрик результатов поиска изображений из первого набора результатов поиска изображений.

4. Способ по п. 3, отличающийся тем, что кластеры векторов запросов формируются на основе степени близости векторов запросов в N-мерном пространстве.

5. Способ по п. 2, отличающийся тем, что используется один из следующих алгоритмов векторизации слов: word2vec, GloVe (глобальные векторы для представления слов), LDA2Vec, sense2vec и wang2vec.

6. Способ по п. 1, отличающийся тем, что кластеризация осуществляется с использованием одного из следующих алгоритмов: кластеризация методом k-средних, кластеризация методом максимизации ожиданий, кластеризация методом максимальной удаленности, иерархическая кластеризация, кластеризация методом cobweb и кластеризация на основе плотности.

7. Способ по п. 1, отличающийся тем, что каждый результат поиска изображений из первого набора результатов поиска изображений связан с соответствующей метрикой, указывающей на действия пользователя с результатом поиска изображений, а формирование вектора запроса включает в себя:

- формирование вектора признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений, связанных с поисковым запросом;

- взвешивание каждого вектора признаков с использованием соответствующей метрики; и

- объединение векторов признаков, взвешенных с использованием соответствующих метрик.

8. Способ по п. 7, отличающийся тем, что перед формированием вектора признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений способ дополнительно включает в себя выбор по меньшей мере части каждого первого набора результатов поиска изображений, входящих в состав выбранного подмножества результатов поиска изображений, на основе превышающих заранее заданный порог соответствующих метрик результатов поиска изображений из первого набора результатов поиска изображений.

9. Способ по п. 8, отличающийся тем, что второй набор результатов поиска изображений включает в себя все результаты поиска изображений из первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера.

10. Способ по п. 7, отличающийся тем, что соответствующая метрика представляет собой коэффициент переходов (CTR) или количество переходов.

11. Способ по п. 9, отличающийся тем, что кластеризация осуществляется с использованием одного из следующих алгоритмов: кластеризация методом k-средних, кластеризация методом максимизации ожиданий, кластеризация методом максимальной удаленности, иерархическая кластеризация, кластеризация методом cobweb и кластеризация на основе плотности.

12. Способ обучения алгоритма машинного обучения (MLA), предназначенного для классификации изображений, выполняемый на сервере, осуществляющем MLA, и включающий в себя:

- получение из журнала поиска данных о поисковых запросах, выполненных во время вертикального поиска изображений, каждый из которых связан с первым набором результатов поиска изображений, при этом каждый результат поиска изображений связан с соответствующей метрикой, указывающей на действия пользователя с результатом поиска изображений;

- выбор для каждого поискового запроса результатов поиска изображений из первого набора результатов поиска изображений, имеющих соответствующую метрику, превышающую заранее заданный порог, для добавления в соответствующее выбранное подмножество результатов поиска изображений;

- формирование вектора признаков для каждого результата поиска изображений из соответствующего выбранного подмножества результатов поиска изображений, связанных с каждым поисковым запросом;

- формирование вектора запроса для каждого поискового запроса на основе векторов признаков и соответствующих метрик результатов поиска изображений из соответствующего выбранного подмножества результатов поиска изображений;

- связывание с каждым кластером векторов запросов второго набора результатов поиска изображений, включающего в себя соответствующие выбранные подмножества результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера векторов запросов;

- формирование набора обучающих объектов путем сохранения для каждого кластера векторов запросов каждого результата поиска изображений из второго набора результатов поиска изображений в виде обучающего объекта в наборе обучающих объектов, при этом каждый результат поиска изображений связан с меткой кластера, указывающей на кластер векторов запросов, с которым связан результат поиска изображений; и

- обучение MLA для классификации изображений с использованием сохраненного набора обучающих объектов.

13. Способ по п. 12, отличающийся тем, что обучение представляет собой первый этап обучения с целью грубого обучения MLA для классификации изображений.

14. Способ по п. 13, отличающийся тем, что дополнительно включает в себя точное обучение MLA с использованием дополнительного набора точно настроенных обучающих объектов.

15. Способ по п. 12, отличающийся тем, что MLA представляет собой алгоритм обучения искусственной нейронной сети (ANN).

16. Способ по п. 15, отличающийся тем, что MLA представляет собой алгоритм глубинного обучения.

17. Система формирования набора обучающих объектов для алгоритма машинного обучения (MLA), предназначенного для классификации изображений, содержащая физический машиночитаемый носитель информации, содержащий команды, и процессор, выполняющий эти команды и выполненный с возможностью:

- получать из журнала поиска данные поисковых запросов, выполненных во время вертикального поиска изображений, каждый из которых связан с первым набором результатов поиска изображений;

- формировать вектор запроса для каждого поискового запроса;

- распределять векторы запросов между множеством кластеров векторов запросов;

- связывать с каждым кластером векторов запросов второй набор результатов поиска изображений, содержащий по меньшей мере часть каждого первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера векторов запросов; и

- формировать набор обучающих объектов путем сохранения для каждого кластера векторов запросов каждого результата поиска изображений из второго набора результатов поиска изображений в виде обучающего объекта в наборе обучающих объектов, при этом каждый результат поиска изображений связан с меткой кластера, указывающей на кластер векторов запросов, с которым связан результат поиска изображений.

18. Система по п. 17, отличающаяся тем, что каждый результат поиска изображений из первого набора результатов поиска изображений связан с соответствующей метрикой, указывающей на действия пользователя с результатом поиска изображений, а для формирования вектора запроса процессор выполнен с возможностью:

- формировать вектор признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений, связанных с поисковым запросом;

- взвешивать каждый вектор признаков с использованием соответствующей метрики; и

- объединять векторы признаков, взвешенные с использованием соответствующих метрик.

19. Система по п. 18, отличающаяся тем, что перед формированием вектора признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений процессор дополнительно выполнен с возможностью выбирать по меньшей мере часть каждого первого набора результатов поиска изображений, входящих в состав выбранного подмножества результатов поиска изображений, на основе превышающих заранее заданный порог соответствующих метрик результатов поиска изображений из первого набора результатов поиска изображений.

20. Система по п. 19, отличающаяся тем, что второй набор результатов поиска изображений включает в себя все результаты поиска изображений из первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера.