RU2017142709A - Система и способ формирования обучающего набора для алгоритма машинного обучения - Google Patents
Система и способ формирования обучающего набора для алгоритма машинного обучения Download PDFInfo
- Publication number
- RU2017142709A RU2017142709A RU2017142709A RU2017142709A RU2017142709A RU 2017142709 A RU2017142709 A RU 2017142709A RU 2017142709 A RU2017142709 A RU 2017142709A RU 2017142709 A RU2017142709 A RU 2017142709A RU 2017142709 A RU2017142709 A RU 2017142709A
- Authority
- RU
- Russia
- Prior art keywords
- image search
- search results
- query
- vectors
- cluster
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Library & Information Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Claims (45)
1. Способ формирования набора обучающих объектов для алгоритма машинного обучения (MLA), предназначенного для классификации изображений, выполняемый на сервере, осуществляющем MLA, и включающий в себя:
- получение из журнала поиска данных о поисковых запросах, выполненных во время вертикального поиска изображений, каждый из которых связан с первым набором результатов поиска изображений;
- формирование вектора запроса для каждого поискового запроса;
- распределение векторов запросов между множеством кластеров векторов запросов;
- связывание с каждым кластером векторов запросов второго набора результатов поиска изображений, содержащего по меньшей мере часть каждого первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера векторов запросов; и
- формирование набора обучающих объектов путем сохранения для каждого кластера векторов запросов каждого результата поиска изображений из второго набора результатов поиска изображений в виде обучающего объекта в наборе обучающих объектов, при этом каждый результат поиска изображений связан с меткой кластера, указывающей на кластер векторов запросов, с которым связан результат поиска изображений.
2. Способ по п. 1, отличающийся тем, что формирование вектора запроса включает в себя применение алгоритма векторизации слов для каждого поискового запроса.
3. Способ по п. 2, отличающийся тем, что перед связыванием второго набора результатов поиска изображений с каждым кластером векторов запросов способ дополнительно включает в себя получение для каждого первого набора результатов поиска изображений соответствующего набора метрик, каждая из которых указывает на действия пользователя с соответствующим результатом поиска изображений из первого набора результатов поиска изображений;
при этом связывание с каждым кластером векторов запросов второго набора результатов поиска изображений включает в себя выбор по меньшей мере части каждого первого набора результатов поиска изображений, входящих в состав второго набора результатов поиска изображений, на основе превышающих заранее заданный порог соответствующих метрик результатов поиска изображений из первого набора результатов поиска изображений.
4. Способ по п. 3, отличающийся тем, что кластеры векторов запросов формируются на основе степени близости векторов запросов в N-мерном пространстве.
5. Способ по п. 2, отличающийся тем, что используется один из следующих алгоритмов векторизации слов: word2vec, GloVe (глобальные векторы для представления слов), LDA2Vec, sense2vec и wang2vec.
6. Способ по п. 1, отличающийся тем, что кластеризация осуществляется с использованием одного из следующих алгоритмов: кластеризация методом k-средних, кластеризация методом максимизации ожиданий, кластеризация методом максимальной удаленности, иерархическая кластеризация, кластеризация методом cobweb и кластеризация на основе плотности.
7. Способ по п. 1, отличающийся тем, что каждый результат поиска изображений из первого набора результатов поиска изображений связан с соответствующей метрикой, указывающей на действия пользователя с результатом поиска изображений, а формирование вектора запроса включает в себя:
- формирование вектора признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений, связанных с поисковым запросом;
- взвешивание каждого вектора признаков с использованием соответствующей метрики; и
- объединение векторов признаков, взвешенных с использованием соответствующих метрик.
8. Способ по п. 7, отличающийся тем, что перед формированием вектора признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений способ дополнительно включает в себя выбор по меньшей мере части каждого первого набора результатов поиска изображений, входящих в состав выбранного подмножества результатов поиска изображений, на основе превышающих заранее заданный порог соответствующих метрик результатов поиска изображений из первого набора результатов поиска изображений.
9. Способ по п. 8, отличающийся тем, что второй набор результатов поиска изображений включает в себя все результаты поиска изображений из первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера.
10. Способ по п. 7, отличающийся тем, что соответствующая метрика представляет собой коэффициент переходов (CTR) или количество переходов.
11. Способ по п. 9, отличающийся тем, что кластеризация осуществляется с использованием одного из следующих алгоритмов: кластеризация методом k-средних, кластеризация методом максимизации ожиданий, кластеризация методом максимальной удаленности, иерархическая кластеризация, кластеризация методом cobweb и кластеризация на основе плотности.
12. Способ обучения алгоритма машинного обучения (MLA), предназначенного для классификации изображений, выполняемый на сервере, осуществляющем MLA, и включающий в себя:
- получение из журнала поиска данных о поисковых запросах, выполненных во время вертикального поиска изображений, каждый из которых связан с первым набором результатов поиска изображений, при этом каждый результат поиска изображений связан с соответствующей метрикой, указывающей на действия пользователя с результатом поиска изображений;
- выбор для каждого поискового запроса результатов поиска изображений из первого набора результатов поиска изображений, имеющих соответствующую метрику, превышающую заранее заданный порог, для добавления в соответствующее выбранное подмножество результатов поиска изображений;
- формирование вектора признаков для каждого результата поиска изображений из соответствующего выбранного подмножества результатов поиска изображений, связанных с каждым поисковым запросом;
- формирование вектора запроса для каждого поискового запроса на основе векторов признаков и соответствующих метрик результатов поиска изображений из соответствующего выбранного подмножества результатов поиска изображений;
- распределение векторов запросов между множеством кластеров векторов запросов;
- связывание с каждым кластером векторов запросов второго набора результатов поиска изображений, включающего в себя соответствующие выбранные подмножества результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера векторов запросов;
- формирование набора обучающих объектов путем сохранения для каждого кластера векторов запросов каждого результата поиска изображений из второго набора результатов поиска изображений в виде обучающего объекта в наборе обучающих объектов, при этом каждый результат поиска изображений связан с меткой кластера, указывающей на кластер векторов запросов, с которым связан результат поиска изображений; и
- обучение MLA для классификации изображений с использованием сохраненного набора обучающих объектов.
13. Способ по п. 12, отличающийся тем, что обучение представляет собой первый этап обучения с целью грубого обучения MLA для классификации изображений.
14. Способ по п. 13, отличающийся тем, что дополнительно включает в себя точное обучение MLA с использованием дополнительного набора точно настроенных обучающих объектов.
15. Способ по п. 12, отличающийся тем, что MLA представляет собой алгоритм обучения искусственной нейронной сети (ANN).
16. Способ по п. 15, отличающийся тем, что MLA представляет собой алгоритм глубинного обучения.
17. Система формирования набора обучающих объектов для алгоритма машинного обучения (MLA), предназначенного для классификации изображений, содержащая физический машиночитаемый носитель информации, содержащий команды, и процессор, выполняющий эти команды и выполненный с возможностью:
- получать из журнала поиска данные поисковых запросов, выполненных во время вертикального поиска изображений, каждый из которых связан с первым набором результатов поиска изображений;
- формировать вектор запроса для каждого поискового запроса;
- распределять векторы запросов между множеством кластеров векторов запросов;
- связывать с каждым кластером векторов запросов второй набор результатов поиска изображений, содержащий по меньшей мере часть каждого первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера векторов запросов; и
- формировать набор обучающих объектов путем сохранения для каждого кластера векторов запросов каждого результата поиска изображений из второго набора результатов поиска изображений в виде обучающего объекта в наборе обучающих объектов, при этом каждый результат поиска изображений связан с меткой кластера, указывающей на кластер векторов запросов, с которым связан результат поиска изображений.
18. Система по п. 17, отличающаяся тем, что каждый результат поиска изображений из первого набора результатов поиска изображений связан с соответствующей метрикой, указывающей на действия пользователя с результатом поиска изображений, а для формирования вектора запроса процессор выполнен с возможностью:
- формировать вектор признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений, связанных с поисковым запросом;
- взвешивать каждый вектор признаков с использованием соответствующей метрики; и
- объединять векторы признаков, взвешенные с использованием соответствующих метрик.
19. Система по п. 18, отличающаяся тем, что перед формированием вектора признаков для каждого результата поиска изображений из выбранного подмножества результатов поиска изображений процессор дополнительно выполнен с возможностью выбирать по меньшей мере часть каждого первого набора результатов поиска изображений, входящих в состав выбранного подмножества результатов поиска изображений, на основе превышающих заранее заданный порог соответствующих метрик результатов поиска изображений из первого набора результатов поиска изображений.
20. Система по п. 19, отличающаяся тем, что второй набор результатов поиска изображений включает в себя все результаты поиска изображений из первого набора результатов поиска изображений, связанных с векторами запросов, входящими в состав каждого соответствующего кластера.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2017142709A RU2711125C2 (ru) | 2017-12-07 | 2017-12-07 | Система и способ формирования обучающего набора для алгоритма машинного обучения |
US16/010,128 US20190179796A1 (en) | 2017-12-07 | 2018-06-15 | Method of and system for generating a training set for a machine learning algorithm |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2017142709A RU2711125C2 (ru) | 2017-12-07 | 2017-12-07 | Система и способ формирования обучающего набора для алгоритма машинного обучения |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2017142709A3 RU2017142709A3 (ru) | 2019-06-10 |
RU2017142709A true RU2017142709A (ru) | 2019-06-10 |
RU2711125C2 RU2711125C2 (ru) | 2020-01-15 |
Family
ID=66696892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2017142709A RU2711125C2 (ru) | 2017-12-07 | 2017-12-07 | Система и способ формирования обучающего набора для алгоритма машинного обучения |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190179796A1 (ru) |
RU (1) | RU2711125C2 (ru) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544327B2 (en) * | 2018-11-28 | 2023-01-03 | Kroll Government Solutions, Llc | Method and system for streamlined auditing |
US11250039B1 (en) * | 2018-12-06 | 2022-02-15 | A9.Com, Inc. | Extreme multi-label classification |
US11489839B2 (en) * | 2019-01-31 | 2022-11-01 | Salesforce, Inc. | Automatic user permission refinement through cluster-based learning |
CN110990617B (zh) * | 2019-11-27 | 2024-04-19 | 广东智媒云图科技股份有限公司 | 一种图片标记方法、装置、设备及存储介质 |
US11758069B2 (en) * | 2020-01-27 | 2023-09-12 | Walmart Apollo, Llc | Systems and methods for identifying non-compliant images using neural network architectures |
WO2021234577A1 (en) * | 2020-05-21 | 2021-11-25 | Element Ai Inc. | Method of and system for training machine learning algorithm for object classification |
US11704558B2 (en) | 2020-05-21 | 2023-07-18 | Servicenow Canada Inc. | Method of and system for training machine learning algorithm for object classification |
CN112232374B (zh) * | 2020-09-21 | 2023-04-07 | 西北工业大学 | 基于深度特征聚类和语义度量的不相关标签过滤方法 |
US11829374B2 (en) * | 2020-12-04 | 2023-11-28 | Microsoft Technology Licensing, Llc | Document body vectorization and noise-contrastive training |
CN113378781B (zh) * | 2021-06-30 | 2022-08-05 | 北京百度网讯科技有限公司 | 视频特征提取模型的训练方法、装置和电子设备 |
US11822908B1 (en) * | 2023-02-10 | 2023-11-21 | CuraeChoice, Inc. | Extensible compilation using composite programming for hardware |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2635259C1 (ru) * | 2016-06-22 | 2017-11-09 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и устройство для определения типа цифрового документа |
US8370337B2 (en) * | 2010-04-19 | 2013-02-05 | Microsoft Corporation | Ranking search results using click-based data |
US8909563B1 (en) * | 2011-06-17 | 2014-12-09 | Google Inc. | Methods, systems, and programming for annotating an image including scoring using a plurality of trained classifiers corresponding to a plurality of clustered image groups associated with a set of weighted labels |
US9536293B2 (en) * | 2014-07-30 | 2017-01-03 | Adobe Systems Incorporated | Image assessment using deep convolutional neural networks |
US9953425B2 (en) * | 2014-07-30 | 2018-04-24 | Adobe Systems Incorporated | Learning image categorization using related attributes |
US9965704B2 (en) * | 2014-10-31 | 2018-05-08 | Paypal, Inc. | Discovering visual concepts from weakly labeled image collections |
US20160140438A1 (en) * | 2014-11-13 | 2016-05-19 | Nec Laboratories America, Inc. | Hyper-class Augmented and Regularized Deep Learning for Fine-grained Image Classification |
US10810252B2 (en) * | 2015-10-02 | 2020-10-20 | Adobe Inc. | Searching using specific attributes found in images |
US10503775B1 (en) * | 2016-12-28 | 2019-12-10 | Shutterstock, Inc. | Composition aware image querying |
US10353951B1 (en) * | 2017-09-15 | 2019-07-16 | Sutterstock, Inc. | Search query refinement based on user image selections |
-
2017
- 2017-12-07 RU RU2017142709A patent/RU2711125C2/ru active
-
2018
- 2018-06-15 US US16/010,128 patent/US20190179796A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
RU2017142709A3 (ru) | 2019-06-10 |
US20190179796A1 (en) | 2019-06-13 |
RU2711125C2 (ru) | 2020-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2017142709A (ru) | Система и способ формирования обучающего набора для алгоритма машинного обучения | |
Dubey et al. | Defense against adversarial images using web-scale nearest-neighbor search | |
McCann et al. | Local naive bayes nearest neighbor for image classification | |
Sukhbaatar et al. | Learning from noisy labels with deep neural networks | |
CN112949693B (zh) | 图像分类模型的训练方法、图像分类方法、装置和设备 | |
US8805752B2 (en) | Learning device, learning method, and computer program product | |
WO2018166273A1 (zh) | 高维图像特征匹配方法和装置 | |
Chen et al. | Progressive EM for latent tree models and hierarchical topic detection | |
Asadi et al. | Creating discriminative models for time series classification and clustering by HMM ensembles | |
CN104318271B (zh) | 一种基于适应性编码和几何平滑汇合的图像分类方法 | |
JP6004015B2 (ja) | 学習方法、情報処理装置および学習プログラム | |
Menéndez et al. | MACOC: a medoid-based ACO clustering algorithm | |
Liu et al. | Dmn4: Few-shot learning via discriminative mutual nearest neighbor neural network | |
JP6468364B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
Meng et al. | Vigilance adaptation in adaptive resonance theory | |
US20170309004A1 (en) | Image recognition using descriptor pruning | |
Fan et al. | Dynamic textures clustering using a hierarchical pitman-yor process mixture of dirichlet distributions | |
JP6004014B2 (ja) | 学習方法、情報変換装置および学習プログラム | |
Ma et al. | Compound exemplar based object detection by incremental random forest | |
JP2016071872A (ja) | 対象追跡方法と装置、追跡特徴選択方法 | |
JP6601965B2 (ja) | 探索木を用いて量子化するプログラム、装置及び方法 | |
Dennis et al. | Autoencoder-enhanced sum-product networks | |
Lee | Analyzing complex events and human actions in" in-the-wild" videos | |
US20210248426A1 (en) | Learning device, learning method, and computer program product | |
Pang et al. | MOGT: oversampling with a parsimonious mixture of Gaussian trees model for imbalanced time-series classification |