RU2017142709A - Система и способ формирования обучающего набора для алгоритма машинного обучения - Google Patents

Система и способ формирования обучающего набора для алгоритма машинного обучения Download PDF

Info

Publication number
RU2017142709A
RU2017142709A RU2017142709A RU2017142709A RU2017142709A RU 2017142709 A RU2017142709 A RU 2017142709A RU 2017142709 A RU2017142709 A RU 2017142709A RU 2017142709 A RU2017142709 A RU 2017142709A RU 2017142709 A RU2017142709 A RU 2017142709A
Authority
RU
Russia
Prior art keywords
image search
search results
query
vectors
cluster
Prior art date
Application number
RU2017142709A
Other languages
English (en)
Other versions
RU2017142709A3 (ru
RU2711125C2 (ru
Inventor
Константин Викторович Лахман
Александр Александрович Чигорин
Виктор Сергеевич Юрченко
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2017142709A priority Critical patent/RU2711125C2/ru
Priority to US16/010,128 priority patent/US20190179796A1/en
Publication of RU2017142709A3 publication Critical patent/RU2017142709A3/ru
Publication of RU2017142709A publication Critical patent/RU2017142709A/ru
Application granted granted Critical
Publication of RU2711125C2 publication Critical patent/RU2711125C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Claims (45)

1. Способ формирования набора обучающих объектов для алгоритма машинного обучения (MLA), предназначенного для классификации изображений, выполняемый на сервере, осуществляющем MLA, и включающий в себя:
- получение из журнала поиска данных о поисковых запросах, выполненных во время вертикального поиска изображений, каждый из которых связан с первым набором результатов поиска изображений;
- формирование вектора запроса для каждого поискового запроса;
- распределение векторов запросов между множеством кластеров векторов запросов;
- связывание с каждым кластером векторов запросов второго набора результатов поиска изображений, содержащего по меньшей мере часть каждого первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера векторов запросов; и
- формирование набора обучающих объектов путем сохранения для каждого кластера векторов запросов каждого результата поиска изображений из второго набора результатов поиска изображений в виде обучающего объекта в наборе обучающих объектов, при этом каждый результат поиска изображений связан с меткой кластера, указывающей на кластер векторов запросов, с которым связан результат поиска изображений.
2. Способ по п. 1, отличающийся тем, что формирование вектора запроса включает в себя применение алгоритма векторизации слов для каждого поискового запроса.
3. Способ по п. 2, отличающийся тем, что перед связыванием второго набора результатов поиска изображений с каждым кластером векторов запросов способ дополнительно включает в себя получение для каждого первого набора результатов поиска изображений соответствующего набора метрик, каждая из которых указывает на действия пользователя с соответствующим результатом поиска изображений из первого набора результатов поиска изображений;
при этом связывание с каждым кластером векторов запросов второго набора результатов поиска изображений включает в себя выбор по меньшей мере части каждого первого набора результатов поиска изображений, входящих в состав второго набора результатов поиска изображений, на основе превышающих заранее заданный порог соответствующих метрик результатов поиска изображений из первого набора результатов поиска изображений.
4. Способ по п. 3, отличающийся тем, что кластеры векторов запросов формируются на основе степени близости векторов запросов в N-мерном пространстве.
5. Способ по п. 2, отличающийся тем, что используется один из следующих алгоритмов векторизации слов: word2vec, GloVe (глобальные векторы для представления слов), LDA2Vec, sense2vec и wang2vec.
6. Способ по п. 1, отличающийся тем, что кластеризация осуществляется с использованием одного из следующих алгоритмов: кластеризация методом k-средних, кластеризация методом максимизации ожиданий, кластеризация методом максимальной удаленности, иерархическая кластеризация, кластеризация методом cobweb и кластеризация на основе плотности.
7. Способ по п. 1, отличающийся тем, что каждый результат поиска изображений из первого набора результатов поиска изображений связан с соответствующей метрикой, указывающей на действия пользователя с результатом поиска изображений, а формирование вектора запроса включает в себя:
- формирование вектора признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений, связанных с поисковым запросом;
- взвешивание каждого вектора признаков с использованием соответствующей метрики; и
- объединение векторов признаков, взвешенных с использованием соответствующих метрик.
8. Способ по п. 7, отличающийся тем, что перед формированием вектора признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений способ дополнительно включает в себя выбор по меньшей мере части каждого первого набора результатов поиска изображений, входящих в состав выбранного подмножества результатов поиска изображений, на основе превышающих заранее заданный порог соответствующих метрик результатов поиска изображений из первого набора результатов поиска изображений.
9. Способ по п. 8, отличающийся тем, что второй набор результатов поиска изображений включает в себя все результаты поиска изображений из первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера.
10. Способ по п. 7, отличающийся тем, что соответствующая метрика представляет собой коэффициент переходов (CTR) или количество переходов.
11. Способ по п. 9, отличающийся тем, что кластеризация осуществляется с использованием одного из следующих алгоритмов: кластеризация методом k-средних, кластеризация методом максимизации ожиданий, кластеризация методом максимальной удаленности, иерархическая кластеризация, кластеризация методом cobweb и кластеризация на основе плотности.
12. Способ обучения алгоритма машинного обучения (MLA), предназначенного для классификации изображений, выполняемый на сервере, осуществляющем MLA, и включающий в себя:
- получение из журнала поиска данных о поисковых запросах, выполненных во время вертикального поиска изображений, каждый из которых связан с первым набором результатов поиска изображений, при этом каждый результат поиска изображений связан с соответствующей метрикой, указывающей на действия пользователя с результатом поиска изображений;
- выбор для каждого поискового запроса результатов поиска изображений из первого набора результатов поиска изображений, имеющих соответствующую метрику, превышающую заранее заданный порог, для добавления в соответствующее выбранное подмножество результатов поиска изображений;
- формирование вектора признаков для каждого результата поиска изображений из соответствующего выбранного подмножества результатов поиска изображений, связанных с каждым поисковым запросом;
- формирование вектора запроса для каждого поискового запроса на основе векторов признаков и соответствующих метрик результатов поиска изображений из соответствующего выбранного подмножества результатов поиска изображений;
- распределение векторов запросов между множеством кластеров векторов запросов;
- связывание с каждым кластером векторов запросов второго набора результатов поиска изображений, включающего в себя соответствующие выбранные подмножества результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера векторов запросов;
- формирование набора обучающих объектов путем сохранения для каждого кластера векторов запросов каждого результата поиска изображений из второго набора результатов поиска изображений в виде обучающего объекта в наборе обучающих объектов, при этом каждый результат поиска изображений связан с меткой кластера, указывающей на кластер векторов запросов, с которым связан результат поиска изображений; и
- обучение MLA для классификации изображений с использованием сохраненного набора обучающих объектов.
13. Способ по п. 12, отличающийся тем, что обучение представляет собой первый этап обучения с целью грубого обучения MLA для классификации изображений.
14. Способ по п. 13, отличающийся тем, что дополнительно включает в себя точное обучение MLA с использованием дополнительного набора точно настроенных обучающих объектов.
15. Способ по п. 12, отличающийся тем, что MLA представляет собой алгоритм обучения искусственной нейронной сети (ANN).
16. Способ по п. 15, отличающийся тем, что MLA представляет собой алгоритм глубинного обучения.
17. Система формирования набора обучающих объектов для алгоритма машинного обучения (MLA), предназначенного для классификации изображений, содержащая физический машиночитаемый носитель информации, содержащий команды, и процессор, выполняющий эти команды и выполненный с возможностью:
- получать из журнала поиска данные поисковых запросов, выполненных во время вертикального поиска изображений, каждый из которых связан с первым набором результатов поиска изображений;
- формировать вектор запроса для каждого поискового запроса;
- распределять векторы запросов между множеством кластеров векторов запросов;
- связывать с каждым кластером векторов запросов второй набор результатов поиска изображений, содержащий по меньшей мере часть каждого первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера векторов запросов; и
- формировать набор обучающих объектов путем сохранения для каждого кластера векторов запросов каждого результата поиска изображений из второго набора результатов поиска изображений в виде обучающего объекта в наборе обучающих объектов, при этом каждый результат поиска изображений связан с меткой кластера, указывающей на кластер векторов запросов, с которым связан результат поиска изображений.
18. Система по п. 17, отличающаяся тем, что каждый результат поиска изображений из первого набора результатов поиска изображений связан с соответствующей метрикой, указывающей на действия пользователя с результатом поиска изображений, а для формирования вектора запроса процессор выполнен с возможностью:
- формировать вектор признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений, связанных с поисковым запросом;
- взвешивать каждый вектор признаков с использованием соответствующей метрики; и
- объединять векторы признаков, взвешенные с использованием соответствующих метрик.
19. Система по п. 18, отличающаяся тем, что перед формированием вектора признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений процессор дополнительно выполнен с возможностью выбирать по меньшей мере часть каждого первого набора результатов поиска изображений, входящих в состав выбранного подмножества результатов поиска изображений, на основе превышающих заранее заданный порог соответствующих метрик результатов поиска изображений из первого набора результатов поиска изображений.
20. Система по п. 19, отличающаяся тем, что второй набор результатов поиска изображений включает в себя все результаты поиска изображений из первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера.
RU2017142709A 2017-12-07 2017-12-07 Система и способ формирования обучающего набора для алгоритма машинного обучения RU2711125C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2017142709A RU2711125C2 (ru) 2017-12-07 2017-12-07 Система и способ формирования обучающего набора для алгоритма машинного обучения
US16/010,128 US20190179796A1 (en) 2017-12-07 2018-06-15 Method of and system for generating a training set for a machine learning algorithm

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2017142709A RU2711125C2 (ru) 2017-12-07 2017-12-07 Система и способ формирования обучающего набора для алгоритма машинного обучения

Publications (3)

Publication Number Publication Date
RU2017142709A3 RU2017142709A3 (ru) 2019-06-10
RU2017142709A true RU2017142709A (ru) 2019-06-10
RU2711125C2 RU2711125C2 (ru) 2020-01-15

Family

ID=66696892

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017142709A RU2711125C2 (ru) 2017-12-07 2017-12-07 Система и способ формирования обучающего набора для алгоритма машинного обучения

Country Status (2)

Country Link
US (1) US20190179796A1 (ru)
RU (1) RU2711125C2 (ru)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544327B2 (en) * 2018-11-28 2023-01-03 Kroll Government Solutions, Llc Method and system for streamlined auditing
US11250039B1 (en) * 2018-12-06 2022-02-15 A9.Com, Inc. Extreme multi-label classification
US11489839B2 (en) * 2019-01-31 2022-11-01 Salesforce, Inc. Automatic user permission refinement through cluster-based learning
CN110990617B (zh) * 2019-11-27 2024-04-19 广东智媒云图科技股份有限公司 一种图片标记方法、装置、设备及存储介质
US11758069B2 (en) * 2020-01-27 2023-09-12 Walmart Apollo, Llc Systems and methods for identifying non-compliant images using neural network architectures
WO2021234577A1 (en) * 2020-05-21 2021-11-25 Element Ai Inc. Method of and system for training machine learning algorithm for object classification
US11704558B2 (en) 2020-05-21 2023-07-18 Servicenow Canada Inc. Method of and system for training machine learning algorithm for object classification
CN112232374B (zh) * 2020-09-21 2023-04-07 西北工业大学 基于深度特征聚类和语义度量的不相关标签过滤方法
US11829374B2 (en) * 2020-12-04 2023-11-28 Microsoft Technology Licensing, Llc Document body vectorization and noise-contrastive training
CN113378781B (zh) * 2021-06-30 2022-08-05 北京百度网讯科技有限公司 视频特征提取模型的训练方法、装置和电子设备
US11822908B1 (en) * 2023-02-10 2023-11-21 CuraeChoice, Inc. Extensible compilation using composite programming for hardware

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2635259C1 (ru) * 2016-06-22 2017-11-09 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и устройство для определения типа цифрового документа
US8370337B2 (en) * 2010-04-19 2013-02-05 Microsoft Corporation Ranking search results using click-based data
US8909563B1 (en) * 2011-06-17 2014-12-09 Google Inc. Methods, systems, and programming for annotating an image including scoring using a plurality of trained classifiers corresponding to a plurality of clustered image groups associated with a set of weighted labels
US9536293B2 (en) * 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US9953425B2 (en) * 2014-07-30 2018-04-24 Adobe Systems Incorporated Learning image categorization using related attributes
US9965704B2 (en) * 2014-10-31 2018-05-08 Paypal, Inc. Discovering visual concepts from weakly labeled image collections
US20160140438A1 (en) * 2014-11-13 2016-05-19 Nec Laboratories America, Inc. Hyper-class Augmented and Regularized Deep Learning for Fine-grained Image Classification
US10810252B2 (en) * 2015-10-02 2020-10-20 Adobe Inc. Searching using specific attributes found in images
US10503775B1 (en) * 2016-12-28 2019-12-10 Shutterstock, Inc. Composition aware image querying
US10353951B1 (en) * 2017-09-15 2019-07-16 Sutterstock, Inc. Search query refinement based on user image selections

Also Published As

Publication number Publication date
RU2017142709A3 (ru) 2019-06-10
US20190179796A1 (en) 2019-06-13
RU2711125C2 (ru) 2020-01-15

Similar Documents

Publication Publication Date Title
RU2017142709A (ru) Система и способ формирования обучающего набора для алгоритма машинного обучения
Dubey et al. Defense against adversarial images using web-scale nearest-neighbor search
McCann et al. Local naive bayes nearest neighbor for image classification
Sukhbaatar et al. Learning from noisy labels with deep neural networks
CN112949693B (zh) 图像分类模型的训练方法、图像分类方法、装置和设备
US8805752B2 (en) Learning device, learning method, and computer program product
WO2018166273A1 (zh) 高维图像特征匹配方法和装置
Chen et al. Progressive EM for latent tree models and hierarchical topic detection
Asadi et al. Creating discriminative models for time series classification and clustering by HMM ensembles
CN104318271B (zh) 一种基于适应性编码和几何平滑汇合的图像分类方法
JP6004015B2 (ja) 学習方法、情報処理装置および学習プログラム
Menéndez et al. MACOC: a medoid-based ACO clustering algorithm
Liu et al. Dmn4: Few-shot learning via discriminative mutual nearest neighbor neural network
JP6468364B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
Meng et al. Vigilance adaptation in adaptive resonance theory
US20170309004A1 (en) Image recognition using descriptor pruning
Fan et al. Dynamic textures clustering using a hierarchical pitman-yor process mixture of dirichlet distributions
JP6004014B2 (ja) 学習方法、情報変換装置および学習プログラム
Ma et al. Compound exemplar based object detection by incremental random forest
JP2016071872A (ja) 対象追跡方法と装置、追跡特徴選択方法
JP6601965B2 (ja) 探索木を用いて量子化するプログラム、装置及び方法
Dennis et al. Autoencoder-enhanced sum-product networks
Lee Analyzing complex events and human actions in" in-the-wild" videos
US20210248426A1 (en) Learning device, learning method, and computer program product
Pang et al. MOGT: oversampling with a parsimonious mixture of Gaussian trees model for imbalanced time-series classification