RU2648946C2 - Способ и устройство распознавания категории объекта изображения - Google Patents
Способ и устройство распознавания категории объекта изображения Download PDFInfo
- Publication number
- RU2648946C2 RU2648946C2 RU2016122051A RU2016122051A RU2648946C2 RU 2648946 C2 RU2648946 C2 RU 2648946C2 RU 2016122051 A RU2016122051 A RU 2016122051A RU 2016122051 A RU2016122051 A RU 2016122051A RU 2648946 C2 RU2648946 C2 RU 2648946C2
- Authority
- RU
- Russia
- Prior art keywords
- category
- image
- objects
- feature points
- images
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 42
- 238000007621 cluster analysis Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000010845 search algorithm Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000000007 visual effect Effects 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000013480 data collection Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 5
- 238000004042 decolorization Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract 1
- 230000008569 process Effects 0.000 description 21
- 238000012549 training Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4023—Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/7625—Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30242—Counting objects in image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Изобретение относится к области обработки изображений, а именно к распознаванию категории объекта изображения. Технический результат – повышение скорости и точности распознавания категории объекта изображения. Способ распознавания категории объекта изображения содержит: этап извлечения признаков изображения, на котором извлекают точки признаков всех образцовых изображений в N известных категориях с помощью способа извлечения точек признаков и создают соответствие "известная категория - образцовое изображение - точка признака", где N - натуральное число больше 1, и каждая категория содержит по меньшей мере одно образцовое изображение; этап кластерного анализа, на котором выполняют кластерный анализ всех точек признаков, извлеченных с использованием алгоритма кластеризации, и разделяют точки признаков на N подмножеств; этап определения категории объектов, на котором определяют категорию Cn объекта для каждого из подмножеств; и этап сбора общих признаков, на котором собирают общие признаки среди изображений в каждой категории Cn объектов с помощью алгоритма поиска, где Cn - n-я категория объектов, и n - положительное целое число не больше N. 4 н. и 11 з.п. ф-лы, 10 ил., 1 табл.
Description
ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к обработке цифровых изображений с помощью компьютера и, в частности, относится к новому способу и устройству распознавания категории объекта изображения.
УРОВЕНЬ ТЕХНИКИ
С развитием цифровых мультимедиа количество цифровых изображений экспоненциально возросло; в частности, в электронном Интернете все подробные сведения о товарах для продажи показываются с изображениями товаров, причем изображения с богатым семантическим содержанием заменяют описания подробных сведений о товарах. Таким образом, количество изображений растет. И насущной проблемой становится то, каким образом категоризировать крупномасштабные данные изображений в соответствии с товарами, описанными в изображениях.
Существующие способы распознавания категории объекта изображения главным образом используют способы машинного обучения. На практике параметры в большинстве моделей обучения получаются через обучающие выборки и имеют неопределенности. В то же время, вследствие различий в обучающих выборках модели классификации будут производить ошибки, и ошибки и частоты возникновения ошибок присутствуют при установлении категории объекта. Кроме того, хотя часть инфраструктуры для распознавания объектов, использующая многоуровневую структуру, улучшает точность распознавания, она требует большого количества ресурсов и тратит много времени при распознавании категории.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Настоящее изобретение обеспечивает новые способ и устройство распознавания категории объекта изображения, разработанные для решения следующих проблем в существующих способах распознавания категории изображения: 1) в существующем способе распознавания категории объекта изображения посредством оценки параметров модели классификации параметры получаются через обучающие выборки и имеют неопределенность; 2) вследствие различий в обучающих выборках модели классификации произведут ошибки, и ошибки и частоты появления ошибок присутствуют при установлении категории объекта, будучи не в состоянии реализовать точное распознавание категории объекта изображения; 3) распознавание категории объекта изображения имеет низкую точность и медленную скорость.
Способ и устройство настоящего изобретения начинаются с визуальных признаков низкого уровня изображений. Построенные модули обучения могут обнаружить главную общность среди изображений для каждой категории объектов, и между тем могут в основном отличать разные категории, чтобы реализовать точное распознавание категории объекта изображения, увеличивая точность и скорость распознавания категории объекта изображения.
Настоящее изобретение сначала извлекает ключевые точки признаков из всех образцовых изображений, значительно уменьшая количество вычислений посредством алгоритма кластеризации, алгоритма поиска и т.д. Дополнительное использование способа извлечения общности признаков изображения уменьшает количество вычислений, увеличивая точность распознавания изображения.
Техническое решение настоящего изобретения представляет собой следующее.
Настоящее изобретение включает в себя способ распознавания категории объекта изображения, содержащий следующие этапы:
этап (S1) извлечения признаков изображения, на котором извлекают точки признаков всех образцовых изображений в N известных категориях с помощью способа извлечения точек признаков и создают соответствие "известная категория - образцовое изображение - точка признака", где N - натуральное число больше 1, каждая категория содержит по меньшей мере одно образцовое изображение;
этап (S2) кластерного анализа, на котором выполняют кластерный анализ всех извлеченных точек признаков с использованием алгоритма кластеризации и разделяют точки признаков на N подмножеств;
этап (S3) определения категории объекта, на котором определяют категорию S n объектов для каждого из подмножеств; и
этап (S4) сбора общих признаков, на котором собирают общие признаки среди изображений в каждой категории Sn объектов с помощью алгоритма поиска, где Sn - n-ая категория объектов, и n - положительное целое число не больше N.
После этапа S4 способ может дополнительно содержать этап S5 онлайнового распознавания и категоризации изображения, на котором распознают и автоматически категоризируют изображение, которое должно быть категоризировано, этап S5 онлайнового распознавания и категоризации изображения содержит этапы:
S502, на котором выполняют такую же обработку извлечения признаков изображения над изображением, которое должно быть категоризировано, как на этапе S1, чтобы извлечь точки признаков изображения, которое должно быть категоризировано;
S503, на котором сравнивают точки признаков, извлеченные из изображения, которое должно быть категоризировано, с каждым из общих признаков каждой категории Cn объектов среди n категорий объектов, чтобы вычислить подобие между изображением, которое должно быть категоризировано, и каждой категорией объектов соответственно;
S504, на котором приписывают изображение, которое должно быть категоризировано, к категории Cn объектов, имеющей наибольшее подобие.
Настоящее изобретение дополнительно содержит устройство распознавания категории объекта изображения, устройство содержит:
блок извлечения признаков изображения, выполненный с возможностью извлекать точки признаков всех образцовых изображений в N известных категориях с помощью способа извлечения точек признаков и создавать соответствие "известная категория - образцовое изображение - точка признака", где N - натуральное число больше 1, каждая категория содержит по меньшей мере одно образцовое изображение
блок кластерного анализа, выполненный с возможностью выполнять кластерный анализ всех извлеченных точек признаков с использованием алгоритма кластеризации и разделять точки признаков на N подмножеств;
блок определения для определения категории Cn объектов для каждого из подмножеств; и
блок сбора данных для сбора общих признаков среди изображений в каждой категории Cn объектов с помощью алгоритма поиска, где Cn - n-ая категория объектов, и n - положительное целое число не больше N.
Настоящее изобретение также относится к способу автоматической категоризации изображения, которое должно быть категоризировано, с помощью способа распознавания категории объекта изображения по пункту 1 формулы изобретения, содержащему следующие этапы:
этап извлечения на котором выполняют такую же обработку извлечения признаков изображения над изображением, которое должно быть категоризировано, как на этапе S1, чтобы извлечь визуальные признаки низкого уровня из изображения, которое должно быть категоризировано;
этап сравнения и вычисления, на котором сравнивают каждую точку признака, извлеченную из изображения, которое должно быть категоризировано, с каждой точкой признака в множестве общих точек признака для каждой категории объектов или в усредненных изображениях каждой категории объектов друг за другом с помощью алгоритма измерения подобия изображений, чтобы вычислить подобие между точками признаков изображения, которое должно быть категоризировано, и точками признаков каждой категории объектов; и
этап приписывания, на котором приписывают изображение, которое должно быть категоризировано, к категории объектов, имеющей наибольшее подобие.
Настоящее изобретение дополнительно относится к системе распознавания изображений, содержащей по меньшей мере процессор, выполненный с возможностью содержать по меньшей мере следующие функциональные блоки:
блок извлечения признаков изображения, выполненный с возможностью извлекать точки признаков всех образцовых изображений в N известных категориях с помощью способа извлечения точек признаков, где N - натуральное число больше 1, каждая категория содержит по меньшей мере одно образцовое изображение, и создано соответствие "известная категория - образцовое изображение - точка признака;
блок кластерного анализа, выполненный с возможностью выполнять кластерный анализ всех точек признаков, извлеченных с использованием алгоритма кластеризации и разделять точки признаков на N подмножеств;
блок определения для определения категории Cn объектов для каждого из подмножеств; и
блок сбора данных для поиска общих признаков среди изображений в каждой категории Cn объектов с помощью алгоритма поиска, где Cn - n-ая категория объектов, и n - положительное целое число не больше N.
Варианты осуществления настоящего изобретения получили следующие положительные эффекты:
1. Компьютер извлекает и автоматически анализирует признаки категории объектов образцовых изображений, автономно изучает и категоризирует образцовые изображения, автоматически распознает категорию изображения, которое должно быть распознано, на основе результата автономного обучения и классификации.
2. Отбор репрезентативных изображений категории объектов сокращает воздействие конкретного изображения с относительно большим отличием в категории объектов на распознавание всей категории объектов, улучшая извлечение общих признаков из общих изображений в категории объектов. Концепция построения k-дерева в большой степени гарантирует пространственную релевантность среди категорий объектов с подобной общностью.
3. Посредством изучения усредненных изображений категории объектов увеличивается скорость распознавания. Кроме того, в процессе распознавания объекта определение порогов для разных категорий объектов в соответствии с характеристиками разных категорий объектов в значительной степени устраняет влияние использования однородных критериев со стороны категорий объектов, уменьшает ошибки при распознавании и увеличивает точность распознавания.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг. 1 - основная блок-схема последовательности операций способа распознавания категории объекта изображения на основе офлайновой (первая часть) модели автономного обучения компьютера настоящего изобретения.
Фиг. 2 - блок-схема последовательности операций выполнения предварительной обработки изображения в соответствии с настоящим изобретением.
Фиг. 3 - подробная блок-схема последовательности операций способа извлечения визуального признака низкого уровня изображения в соответствии с одним вариантом осуществления настоящего изобретения.
Фиг. 4 - подробная блок-схема последовательности операций способа кластерного анализа в соответствии с одним вариантом осуществления настоящего изобретения.
Фиг. 5 - подробная блок-схема последовательности операций этапа S3 в соответствии с одним вариантом осуществления настоящего изобретения.
Фиг. 6 - подробная блок-схема последовательности операций этапа S4 в соответствии с одним вариантом осуществления настоящего изобретения.
Фиг. 7 - основная блок-схема последовательности операций онлайнового (вторая часть) способ распознавания категории изображения настоящего изобретения.
Фиг. 8 - блок-схема устройства распознавания категории объекта изображения настоящего изобретения.
Фиг. 9 - Конкретный пример офлайнового автоматического распознавания образов с помощью компьютера.
Фиг. 10 - блок-схема системы распознавания изображений, содержащей устройство распознавания категории объекта изображения настоящего изобретения.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Чтобы разъяснить задачу, техническое решение и преимущества, настоящее изобретение будет далее подробно описано со следующими прилагаемыми чертежами и конкретными вариантами осуществления. Чертежи иллюстрируют только типичные варианты реализации настоящего изобретения. Настоящее изобретение может быть реализовано в различных формах и не должно быть истолковано, как ограниченное конкретными вариантами реализации, описанными или проиллюстрированными здесь. Эти варианты осуществления обеспечены только для того, чтобы сделать раскрытие достаточным и всесторонним. Всюду по тексту одинаковые ссылочные позиции соответствуют одинаковым элементам. Для одинаковых элементов на каждом из чертежей разъяснения не будут повторяться. Использование в настоящем документе фраз "включает в себя", "содержит" и их вариантов означает включение перечисленных после этого элементов и их эквивалентов, а также дополнительных элементов.
Кроме того, следует понимать, что варианты осуществления настоящего изобретения, включающие в себя аппаратные средства, программное обеспечение, программно-аппаратное обеспечение и электронные компоненты или модули и т.д., могут быть проиллюстрированы и описаны таким образом, что большинство частей реализовано исключительно в аппаратных средствах в целях описания. Однако на основе приведенных в настоящем документе подробных описаний специалисты в области техники поймут, что по меньшей мере в одном варианте осуществления один аспект настоящего изобретения, основанный на электронном устройстве, может быть реализован посредством программного обеспечения или программно-аппаратного обеспечения. Также следует отметить, что множество устройств, основанных на аппаратных средствах, программном обеспечении и программно-аппаратном обеспечении, и множество различных структурных компонентов могут использоваться в реализации настоящего изобретения. Кроме того, как описано в нижеследующих абзацах, конкретная механическая конфигурация, проиллюстрированная на чертежах, приведена в качестве примера вариантов осуществления настоящего изобретения, и также возможны другие альтернативные конфигурации.
Специалисты в области техники могут с легкостью обеспечить подходящую программную среду для помощи в реализации настоящего изобретения посредством использования представленной здесь идеи и языков и инструментов программирования, таких как Java, Pascal, C++, C, язык для работы с базами данных, API, SDK, компилятор, программно-аппаратное обеспечение, микрокод и т.п.
Предпочтительные варианты осуществления в соответствии с настоящим изобретением теперь будут описаны со ссылкой на варианты реализации обработки изображений. На практике настоящее изобретение может обрабатывать различные изображения, например, цветные, черно-белые или полутоновые и т.д.
Способ в соответствии с заявкой может быть разделен на две части. Первая часть представляет процесс автономной тренировки и обучения компьютера, и вторая часть представляет автоматический процесс распознавания категории. Обе эти части могут быть исполнены или реализованы офлайновым или онлайновым методом. Офлайновый метод относится к процессу, в котором независимо от сетевой системы компьютер выполняет автономное приобретение знаний о категории объекта для изображения; и онлайновый метод означает процесс, в котором автоматическое распознавание категории объекта для категоризируемого изображения, которое было получено, выполняется в практическом применении, особенно в сетевой среде. Эти две части могут быть выполнены независимо друг от друга.
В первой части сначала репрезентативное множество образцовых изображений для каждой категории выбирается соответственно из множества известных образцовых изображений (продуктов или товаров и т.д.), которые были явным образом категоризированы по известным категориям (например, N известных категорий), каждое множество образцовых изображений включает в себя по меньшей мере одно образцовое изображение, содержащее типичные признаки известной категории. Посредством соответствующего анализа этих репрезентативных множеств образцовых изображений с помощью компьютера из них извлекается общность признаков каждого множества образцовых изображений для каждой известной категории, чтобы установить соответствие среди известной категории, образцового изображения и точки признака, и компьютер побуждают автономно извлекать (вычислять) общие признаки или усредненные изображения среди множества образцовых изображений для каждой категории объектов на основе соответствия.
Во второй части с использованием общих признаков или усредненных изображений каждой категории объектов, полученных в первой части, в качестве эталона для сравнения, используемого при участии в онлайновом процессе распознавания категории объекта для выполнения автоматического распознавания категории для изображений, которые должны быть категоризированы. Если общие признаки образцовых изображений для каждой категории объектов были получены при помощи других способов, автоматический процесс распознавания второй части может быть выполнен непосредственно, с исключением первой части.
Конкретные варианты реализации для каждой части будут описаны более подробно.
Фиг. 1 является основной блок-схемой последовательности операций первой части способа распознавания категории объекта изображения.
В первой части основная цель состоит в том, чтобы побудить компьютер автономно учиться извлекать общие признаки из известного множества образцовых изображений для каждой известной категории. Первая часть в основном включает в себя, но без ограничения, следующие этапы: этап извлечения признака изображения; этап кластерного анализа; и этап определения категории объекта и поиска множества общих точек признаков и т.д. (см. фиг. 1).
Сначала каждая конкретная категория (такая как телевизор, холодильник и т.д.) в множествах изображений для N (N - натуральное число больше 1) известных категорий была определена вручную или другими средствами, и каждая категория имеет свое собственное множество изображений. Каждое множество изображений включает в себя по меньшей мере одно образцовое изображение, посредством чего может быть установлено соответствие между каждой известной категорией и каждым множеством образцовых изображений или даже каждым изображением (в дальнейшем таблица соответствия "известная категория - множество образцовых изображений”).
Поскольку процесс субъективного суждения и распознавания для некоторого изображения человеческим глазом абсолютно отличается от принципа суждения и распознавания относительно того же самого изображения с помощью компьютера, результаты распознавания могут быть далекими друг от друга. Чтобы разрешить компьютеру получить результат распознавания, сходный с человеческим глазом, необходимо сначала "натренировать" компьютер и заставить его "учиться" автономно категоризировать и распознавать изображения.
Чтобы натренировать компьютер автономно изучать общие признаки множества изображений для каждой известной категории и получать точные описания для каждой известной категории, настоящее изобретение анализирует множество образцовых изображений для каждой категории с помощью компьютера сначала, чтобы извлечь (вычислить) описания признаков каждого изображения в множестве образцовых изображений для каждой категории. С этой целью первая часть настоящего изобретения может включать в себя, но без ограничения, следующие этапы:
ЭТАП ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ
Перед анализом изображения, чтобы уменьшить количество вычислений и/или удалить шум из изображения, часто требуется необходимая предварительная обработка изображения. Однако этап предварительной обработки не является обязательным и может быть опущен при условии, что изображение, которое будет проанализировано, может удовлетворять требованиям для извлечения признаков. Согласно фиг. 2, для цветного изображения, например, этап предварительной обработки изображения настоящего варианта осуществления включает в себя, но без ограничения: пропорциональное масштабирование изображения для уменьшения количества вычислений; удаление части или всего шума с помощью средства фильтрации; обработка удаления цветности и т.д. С черно-белыми изображениями обработка удаления цветности и т.д. может быть опущена.
Конкретный этап предварительной обработки может быть реализован с помощью следующих подэтапов.
Этап S001: пропорциональное масштабирование цветного изображения в соответствии с формулой (1.1):
где W, H представляют ширину и высоту исходного изображения перед масштабированием, W', H' представляют ширину и высоту пропорционально масштабированного изображения, scale представляет коэффициент масштабирования, и T - порог для пропорционального масштабирования. В настоящем изобретении в пикселях в качестве единицы измерения можно установить порог T ∈ [500, 800]. Посредством многократных экспериментов автор изобретения обнаружил, что когда порог находится в пределах этого диапазона, результат является оптимальным; особенно, когда T=600, изображение может быть масштабировано до подходящего размера, и не производится какое-либо влияние на дальнейшую обработку и распознавание изображения с улучшенной эффективностью вычисления.
Затем в соответствии с формулой (1.2) линейная интерполяция в направлении X применяется к исходному изображению, и затем выполняется линейная интерполяция в направлении Y в соответствии с формулой (1.3) для получения пропорционально масштабированного изображения:
где R1 и R 2 представляют линейно интерполированные в направлении X пиксели, x, y, x1, y1, x2, y2 являются координатами пикселей в изображении, f(*, *) представляет значение цвета пикселей, Q11=(x1, y1), Q12=(x1, y2), Q21=(x2, y1), Q22=(x2, y2) представляют четыре точки в исходном изображении, которые участвуют в вычислении масштабирования, и P представляет линейно интерполированную в направлении Y точку. В настоящем варианте осуществления после линейной интерполяции в направлении Y получено пропорционально масштабированное изображение.
Этап S002: выполнение следующей обработки двусторонней фильтрации в соответствии с формулой (1.4) над пропорционально масштабированным на этапе S001 изображением:
где f(x) - входное изображение, h(x) - выходное изображение, с(ξ, x) измеряет степень геометрической близости между пороговым центром x и его смежной точкой ξ, s(f(ξ), f(x)) измеряет подобие яркости пикселей между пороговым центром x и его смежной точкой ξ, и k - нормализованный параметр. В гладкой области двусторонний фильтр воплощен как стандартный фильтр сетевой области, который отфильтровывает шум посредством процесса сглаживания, такого как удаление заметных изменчивых изолированных пикселей и т.д.
Затем выполняется операция удаления цветности над входным цветным изображением в соответствии с формулой (1.5). Этот этап может быть опущен, когда не используется алгоритм SIFT.
Y=0,299*R+0,587*G+0,114*B (1.5),
где Y представляет пиксельное значение текущего пикселя после преобразования, R представляет значение красного цвета текущего пикселя, G представляет значение зеленого цвета текущего пикселя, и B представляет значение синего цвета текущего пикселя.
Способы и устройства предварительной обработки, которые могут удовлетворять требованиям извлечения признаков изображения на предшествующем уровне техники, могут использоваться в любой форме для предварительной обработки изображения.
ЭТАП S1 ИЗВЛЕЧЕНИЯ ПРИЗНАКА
После выборочной предварительной обработки изображения наступает этап S1 (см. фиг. 1 и фиг. 3): извлечение соответствующего описания признака каждого изображения в известном множестве образцовых изображений для каждой категории.
Конкретно для вариантов осуществления настоящего изобретения способ извлечения визуального признака низкого уровня (см. фиг. 3) может использоваться для извлечения каждой ключевой точки признака из каждого изображения в каждом множестве образцовых изображений (этап S101) и вычисления (получения) векторного описания, т.е. дескриптора каждой ключевой точки признака (этап S102). В варианте осуществления процесс извлечения визуального признака низкого уровня из изображения описан с использованием алгоритма SIFT в качестве примера.
Этап извлечения визуального признака низкого уровня может быть реализован через следующие подэтапы.
Этап S101: извлечение визуальных признаков низкого уровня из предварительно обработанного изображения. Например, извлечение визуальных признаков низкого уровня может быть выполнено с использованием алгоритма SIFT (масштабно-инвариантная трансформация признаков). Алгоритм SIFT выдвинут Д. Г. Лоу (D. G. Lowe) в 1999 году и усовершенствован и заключительно сформулирован в 2004 году. Работа была опубликована в IJCV: David G. Lowe, "Distinctive image features from scale-invariant key points", International Journal of Computer Vision, 60, 2 (2004), pp.91-110. Содержания этого документа полностью включено в настоящий документ посредством цитирования и ссылки.
В SIFT ключевые точки признаков и дескрипторы (т.е. векторные выражения точек признаков) ключевых точек признаков могут быть вычислены с помощью хорошо известного и используемого способа. И этапы S101 и S102 могут быть выполнены на одном вычислительном этапе или в одном функциональном блоке.
Через извлечение визуальных признаков низкого уровня компьютер может извлечь (т.е. вычислить) каждую ключевую точку признака, имеющую известную характеристику, в каждом изображении и ее соответствующий дескриптор. Затем создается соответствие (см. таблицу 1) “известная категория - множество образцовых изображений - ключевая точка признака (т.е. дескриптор)” (этап S103) на основе ранее созданной таблицы соответствия “известная категория - множество образцовых изображений”. На основе соответствия (таблицы) компьютер может идентифицировать количества ключевых точек признаков, включенных в каждую категорию и даже в каждое образцовое изображение, и дескрипторы и соответствия между ними. Таблица соответствия также может создаваться одновременно с тем или после того, как вычислена каждая ключевая точка признака. Таким образом, этап S103 может быть выполнен параллельно с этапами S101 и/или этапом S102 или последовательно после них, и таблица соответствия может быть сохранена в соответствующей памяти согласно необходимости.
ТАБЛИЦА 1 | ||
Номер известной категории | Множество образцовых изображений | Ключевая точка признака (дескриптор) |
C1 | I11, I12, I13... | F111, F112, F113... |
C2 | I21, I22, I23... | F211, F212, F213... |
C3 | I31, I32, I33... | F311, F312, F313... |
... | ... | ... |
Cn | In1, In2, In3… | Fn11, Fn12, Fn13... |
где Cn представляет n-ю категорию объектов, C1, ..., Cn (n≤N); In1, ..., Inj представляет j-ое изображение в n-й категории объектов (j - количество изображений в категории Cn объектов); Fnj1, ..., Fnjf представляет f-ую ключевую точку признака SIFT в каждом изображении Inj, причем f - натуральное число не меньше 1.
При этом другие способы извлечения признаков изображения могут использоваться в качестве схем, альтернативных алгоритму SIFT, например, алгоритм SURF или алгоритм PCA (анализ основных составляющих)-SIFT и т.д., и эти алгоритмы применимы к настоящему изобретению.
ЭТАП S2 КЛАСТЕРНОГО АНАЛИЗА
После извлечения признака каждого образцового изображения, т.е. визуального признака низкого уровня, наступает этап S2 кластерного анализа (см. фиг. 1). Все ключевые точки признаков (т.е. дескрипторы), извлеченные из всех множеств образцовых изображений для всех категорий подвергаются кластерному анализу, и строится древоподобная структура. Древоподобная структура может быть истолкована с использованием структуры k-дерева. Этап S2 может быть реализован с помощью следующего конкретного способа (см. фиг. 4).
Все ключевые точки признаков SIFT, включенные во все образцовые изображения для всех полученных категорий объектов, кластеризируются по предварительно заданному количеству кластеров (этап S201) с помощью алгоритма кластеризации. Процесс кластеризации извлекает главную общность среди каждой категории самонастраивающимся образом, в основном отличая различные категории. Может использоваться хорошо известный и используемый алгоритм кластеризации, например, метод k-средних (k-means). Информацию об алгоритме кластеризации k-средних можно найти в следующих документах: MacQueen, J. B., Some methods for classification and analysis of multivariate observations, in Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, 1967, pp. 281-297. Подробное введение можно дополнительно найти на следующих веб-сайтах, и их содержание включено в настоящий документ посредством цитирования.
1. http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html
2. http://wenku.baidu.com/view/179d21a4f524ccbff1218482.html
Другие способы кластеризации также могут быть применены к настоящему изобретению при условии, что они могут категоризировать пространственно смежные данные в одну и ту же категорию. Альтернативные алгоритмы кластеризации включают в себя, но без ограничения: алгоритм k-modes, алгоритм k-Prototype, иерархический способ кластеризации, способ выборки с максимальным расстоянием, муравьиный алгоритм кластеризации, алгоритм нечеткой кластеризации и т.д.
В этом случае настоящее изобретение описывает процесс кластеризации с использованием алгоритма k-средних в качестве примера. Алгоритм k-средних категоризирует n объектов данных по k кластерам на основе предварительно установленного значения k. Объекты в одном и том же кластере имеют высокое подобие, тогда как объекты в разных кластерах имеют низкое подобие. Подобие кластеров вычисляется посредством "центрального объекта" (центра тяжести), полученное посредством средннго из объектов данных в каждом кластере. Например, в настоящем изобретении, когда известное и предварительно установленное количество категорий объектов равно N, диапазон k представляет собой k ∈ (1, N), или k меньше общего количества точек признаков, которые участвуют в кластеризации. В настоящем варианте осуществления выбрано, что k ∈ (1,10), и обычно k не больше 10. Выбор k может быть определен на основе оптимального значения, полученного опытным путем или через тесты в соответствии с фактическими потребностями.
Рабочий процесс алгоритма k-средних представляет собой следующее: сначала случайно выбираются k объектов в качестве начальных центров кластеризации из x объектов данных; остальные объекты данных распределяются по центрам кластеризации, наиболее подобным с ними (ближайшим в пространственном расстоянии), соответственно на основе их подобия (пространственных расстояний) с центрами кластеризации.
Конкретно для варианта осуществления настоящего изобретения множество дескрипторов всех ключевых точек признаков, извлеченных из всех изображений, подвергается кластерному анализу. При этом на начальной стадии кластеризации k-средних центры кластеризации сначала могут быть определены случайным образом. Например, когда выбрано, что k=2, случайным образом выбираются дескрипторы двух ключевых точек признаков в качестве начальных центров кластеризации. Посредством вычисления евклидова расстояния между дескрипторами ключевых точек признаков, которые недавно присоединились, и предварительно выбранными двумя начальными центрами кластеризации, дескрипторы ключевых точек признаков, которые недавно присоединились, приписываются к категории (т.е. к кластеру), которая имеет минимальное евклидово расстояние. Таким образом, например, через итерационный подход осуществляется обход всех точек признаков, пока все точки признаков или дескрипторы не будут вовлечены в кластеризацию, и в конечном счете все извлеченные ключевые признаки кластеризируются в два кластера вокруг двух начальных центров кластеризации. Затем средние значения (средние значения векторов дескрипторов) всех дескрипторов в каждом кластере повторно вычислены для этих двух кластеров, чтобы получить новый центр кластеризации. Затем вновь полученный центр кластеризации и предыдущий (смежный предыдущий) центр кластеризации сравниваются, чтобы вычислить разность (например, дисперсию) между ними. Когда разность равна нулю или достигает предварительно заданного порога, процесс кластеризации может быть закончен. Иначе новый центр кластеризации, определенный посредством текущей итерации, может использоваться в качестве начального центра кластеризации для следующей итерации, чтобы постоянно корректировать центр кластеризации. Упомянутый выше процесс итерации или кластеризации может повторяться, пока центр кластеризации не перестает изменяться или изменяется мало (т.е. удовлетворяет предварительно установленному порогу).
Более конкретно может использоваться стандартный показатель для определения, удовлетворяет ли итерационный процесс условию сходимости, чтобы определить, может ли итерационный процесс быть закончен. В варианте осуществления настоящего изобретения, когда k=2, стандартный показатель может быть определен как сумма абсолютных значений разности между каждым компонентом дескриптора SIFT и соответствующим компонентом полученного дескриптора центра кластеризации. Когда сумма больше некоторого значения или количество повторений больше предварительно заданного числа, итерационный процесс кластеризации заканчивается.
Чтобы сократить временную сложность вычисления, в качестве стандартного показателя также можно выбрать следующее: вычисление абсолютного значения разности между текущим центром кластеризации и предыдущим центром кластеризации для каждой категории и затем вычисление суммы абсолютных значений всех категорий. Когда сумма меньше определенного порога, итерации заканчиваются.
Древоподобная структура ключевых точек признаков (или дескрипторов), т.е. k-дерево, может строиться (этап S202) одновременно с выполнением алгоритма кластеризации или после него. Таким образом, функция кластерного анализа на этапе S2 может быть реализована посредством объединения этапов S201 и S202 в один этап или в один функциональный модуль в конкретном варианте осуществления.
Конкретно для одного варианта осуществления при k=2 (т.е. двоичное дерево) в качестве примера все визуальные признаки низкого уровня всех образцовых изображений категории объектов, т.е. из ключевых точек признаков SIFT в упомянутом выше варианте осуществления строится корневой узел n1 двоичного дерева, и упомянутый выше кластерный анализ выполняется над всеми ключевыми точками признаков в узле n1.
Множество кластеров, имеющее относительно большее количество ключевых точек признаков в узле n1 после кластеризации, служит в качестве левого дочернего узла n2 корневого узла n1, тогда как множество кластеров, имеющее относительно меньшее количество ключевых точек признаков в узле, служит в качестве правого дочернего узла n3 корневого узла n1. Остальное выполняется таким же образом, последующий кластерный анализ выполняется над узлами n2 и n3 соответственно, пока количество концевых узлов двоичного дерева не станет равно известному и предварительно установленному общему количеству N категорий объектов, т.е. заключительное количество концевых узлов должно быть равно N. Другими словами, все ключевые точки признаков всех изображений во всех категориях объектов разделены на N подмножеств.
При k=2, например, структурная диаграмма окончательно построенного двоичного дерева следующая:
В предположении, что каждый узел k-дерева, построенного на этапе S2, выражен следующим образом:
ni(C1, I11, F111, ..., F11f, f11, ..., I1j, F1j1, ..., F1jf, f1j; ...;Cn, In1, Fn11, ..., Fn1f, fn1, ..., Inj, Fnj1, ..., Fnjf, fnj)
где ni обозначает i-ый концевой узел k-дерева, категории объектов, обозначенные ключевыми точками признаков SIFT, сохраненными в узле, представляют собой C1, ..., Cn (n≤N), изображения в каждой категории объектов обозначены как In1, ..., Inj (j - количество изображений в категории Cn объектов), ключевые точки признаков SIFT, кластеризированные как узел ni в каждом изображении Inj, представляют собой Fnj1, ..., Fnjf, fnj - количество ключевых точек признаков SIFT, кластеризированных как ni-ый концевой узел в j-ом изображение n-ой (1n≤N) категории объектов (т.е. Cn).
Таким образом, все ключевые точки признаков во всех образцовых изображениях распределены или разделены на N концевых узлов или подмножеств. Повторяющиеся ключевые точки признаков не включены в N концевых узлов, т.е. между каждыми двумя концевыми узлами нет никаких пересечений, но ключевые точки признаков изображений другой категории могут смешиваться или включаться в каждый концевой узел.
ЭТАП S3 ОПРЕДЕЛЕНИЯ КАТЕГОРИИ ОБЪЕКТА И ПОИСКА МНОЖЕСТВА ОБЩИХ ТОЧЕК ПРИЗНАКОВ
Для удаления изображений, которые не принадлежат категории из каждого узла ni, чтобы точно ограничить категорию, которой принадлежит образцовое изображение, настоящее изобретение дополнительно содержит этап S3 определения категории объекта и поиска общих признаков для каждого изображения, включенного в каждую категорию объектов (см. фиг. 1).
Конкретные способы реализации или этапы для этапа S3 описаны ниже со ссылкой на фиг. 5.
Этап S3 (для определения категории объекта): анализ каждого концевого узла или подмножества древоподобной структуры, полученной на предыдущем этапе S2, со ссылкой на таблицу соответствия “известная категория - множество образцовых изображений - ключевая точка признака и дескриптор”, полученную на предыдущем этапе, для определения категории, которой должен принадлежать каждый концевой узел, чтобы удалить те изображения, которые не принадлежат категории объектов.
Конкретный процесс реализации представляет собой следующее: вычисление или подсчет общего количества ключевых точек признаков SIFT, распределенных для ni-го концевого узла и принадлежащих разным известным категориям, на основе таблицы соответствия “известная категория - множество образцовых изображений - ключевая точка признака и дескриптор”, полученной на предыдущем этапе (S301):
class_number_SIFT(Cn)=fn1+fn2+...+fnj.
Категория, имеющая самое большое количество ключевых точек признаков SIFT в каждом концевом узле, полученное со ссылкой на соответствие “известная категория - множество образцовых изображений - ключевая точка признака и дескриптор":
node_class_label(ni)=max(class_number_SIFT(Cn)).
Категория Cn объектов помечена или идентифицирована как категория, имеющая самое большое общее количество ключевых точек признаков в концевом узле (S302). Если до этого категория была помечена или распределена другому концевому узлу, для пометки выбирается категория, имеющая меньшее общее количество ключевых точек признаков SIFT. Остальное делается таким же образом, чтобы пометить категорию для каждого концевого узла. Например, в предположении, что некоторый концевой узел включает в себя известные категории, пронумерованные как 1.5.8.9, и общие количества точек признаков изображений SIFT, включенных в соответствующие категории, составляют 10.25.15.35 соответственно, порядок в соответствии с общим количеством точек признаков SIFT представляет собой 9(35).5(25).8(15).1(10). В соответствии с этим номер категории (т.е. 9), имеющей наибольшее количество точек признаков, распределяется или помечается для концевого узла. Однако если категория номер 9 до этого была распределена другому концевому узлу, категория номер 5 (т.е. имеющая меньшее общее количество ключевых точек признаков) последовательно распределяется текущему концевому узлу. В предположении, что номер 5 также был распределен другому концевому узлу, номер 8 выбирается для пометки концевого узла. Остальное делается таким же образом, пока не будут помечены все концевые узлы.
Теперь для каждой категории Cn объектов категория, которой она принадлежит, была помечена или идентифицирована. Однако на практике подмножество изображений в категории объектов включает в себя более одного изображения, и некоторое образцовое изображение включает в себя некоторые избыточные элементы признаков. Например, в множестве "похожих на компьютер" образцовых изображений, полученных при тренировке, в отличие от других "похожих на компьютер" образцовых изображений одно из "похожих на компьютер" изображений дополнительно включает в себя избыточный элемент признака "звукового проигрывателя". Таким образом, посредством процесса кластерного анализа некоторые избыточные точки признаков или элементы, которые не могут представлять основные признаки категории объектов, неизбежно примешиваются в каждой категории объектов. Кроме того, даже для изображений в одной и той же категории вследствие вмешательства угла съемки, освещения и подобных факторов описания одной и той же точки признака различаются, и эти элементы будут влиять на корректную категоризацию и автоматическое распознавание изображений посредством компьютера.
С этой целью компьютер должен прояснить общие признаки среди изображений для каждой категории, чтобы как можно больше устранить влияние этих оказывающих помехи факторов.
С этой целью настоящее изобретение дополнительно содержит этап S4 сбора общих признаков среди каждого изображения, включенного в каждую категорию Cn объектов.
Этап S4 описан со ссылкой на фиг. 6. Более конкретно этап S4 по меньшей мере содержит: извлечение множества общих точек признаков (в дальнейшем: множество общих точек признаков) среди каждого изображения для каждой категории Cn объектов (этап S401) и/или дополнительное отображение репрезентативных типичных изображений, соответствующих этим общим признакам, посредством таблицы соответствия "известная категория - множество образцовых изображений - ключевая точка признака и дескриптор" (S402), тем самым не только заставляя компьютер прояснить общие признаки каждой категории Cn объектов, обеспечивая вручную основание для подтверждения, является ли корректным автономное распознавание с помощью компьютера относительно категории Cn объектов, но также обеспечивая точный и оптимальный эталон для сравнения для последующего точного онлайнового распознавания категории объектов, значительно уменьшая количество вычислений.
Сначала в каждом концевом узле выбирается соответствующее множество изображений, помеченных как категория Cn, и множество изображений выражено следующим образом:
I(Cn)={In1, In2, ..., Inj}
Этап S401: извлечение общих признаков для каждой категории Cn объектов. Когда визуальные признаки низкого уровня изображения служат в качестве описаний изображения, в каждой категории Cn объектов может быть выбрано множество ключевых точек признаков среди каждого изображения, чтобы выражать общие признаки категории объектов. Чтобы уменьшить количество вычислений или поиска, наименьшее количество общих точек признаков, которые должны быть извлечены в каждой категории Cn объектов, может быть определено посредством следующих этапов
Количество соответствующих ключевых точек признаков SIFT и количество точек признаков каждого изображения выражены следующим образом:
I(Cn)={In1, Fn11, ..., Fn1f, fn1, ..., Inj, Fnj1, ..., Fnjf, fnj},
где fnj - количество ключевых точек признаков SIFT, помеченных как Cn, в изображении Inj.
Поскольку количество общих точек признаков среди каждого изображения для каждой категории Cn объектов неизбежно не больше, чем количество точек признаков в изображении, имеющем наименьшее количество точек признаков, минимальное количество K(Cn) общих точек признаков может быть определено следующим упрощенным методом. Например, со ссылкой на соответствие "известная категория - множество образцовых изображений - ключевая точка признака и дескриптор" может быть подсчитано количество ключевых точек признаков SIFT, помеченных как категория Cn в каждом изображении в каждой категории Cn объектов, и среди них может быть выбран минимум:
K(Cn)={fn1, fn2, ..., fnj}
В соответствии с этим диапазон количества ключевых точек признаков, имеющих совместные общие признаки в категории объектов (или в множестве изображений I(Cn)), может быть сначала определен численно. Однако упомянутые выше этапы могут прояснить только количество общих точек признаков, включенных в каждую категорию Cn объектов, эти точки признаков и изображения, которым они соответственно принадлежат, не могут быть определены.
Алгоритм поиска, такой как KNN (алгоритм k ближайших соседей) (документ Hastie, T.and Tibshirani, R.1996. Discriminant Adaptive Nearest Neighbor Classification. IEEE Trans. Pattern Anal.Mach. Intell. (TPAMI) .18,6 (Jun.1996), 607-616., который включен в настоящий документ посредством ссылки) может использоваться, чтобы найти множество общих точек признаков, имеющих совместные общие признаки в каждом изображении, включенном в каждую категорию Cn объектов, и соответствующее множество изображений этих общих точек признаков.
В примере использования алгоритма поиска KNN конкретные этапы являются следующими: в предположении, что векторный центр всех множеств точек признаков SIFT, включенных в категорию, помеченную как Cn, в множестве репрезентативных изображений I(Cn)={In1, In2, ..., Inj}, полученном на предыдущем этапе, обозначен как centre(Cn), векторный центр может быть получен посредством вычисления среднего вектора дескрипторов всех точек признаков SIFT, помеченных в множестве репрезентативных изображений:
Вычисляется евклидово расстояние Dis(Fnjf, centre(Cn)) между дескриптором ключевой точки признака SIFT, помеченной в множестве репрезентативных изображений категории объектов, и векторным центром centre(Cn) (этап S401).
Хорошо известный и используемый алгоритм поиска ближайших соседей KNN или другие общие алгоритмы сортировки могут использоваться для получения K(Cn) ключевых точек признаков SIFT, самых близких к векторному центру centre(Cn), и обозначенных KNN(F), чтобы извлечь K(Cn) точек признаков, самых близких к векторному центру centre(Cn). K(Cn) ключевых точек признаков и их соответствующие образцовые изображения, к которым они принадлежат, могут быть определены и извлечены посредством полученного ранее соответствия "известная категория - множество образцовых изображений - ключевая точка признака и дескриптор".
Таким образом, с помощью упомянутого выше алгоритма множество общих точек признаков, имеющих совместные общие признаки среди каждого изображения в каждой категории Cn объектов (или называемый множеством общих точек признаков в категории Cn объектов) может быть получено и использовано непосредственно в качестве основания для сравнения на последующем этапе S5.
Однако в целях проверки правильности автономного обучения компьютера или визуального сравнения изображений иногда необходимо найти множество образцовых изображений, соответствующих K(Cn) ключевым точкам признаков, или его наибольшее подмножество. С этой целью настоящее изобретение дополнительно содержит этап S402: дополнительный поиск множества изображений, включающего в себя K(Cn) точек признаков из множества изображений категории Cn объектов, или его наибольшее подмножество на основе K(Cn) точек признаков, найденных на предыдущем этапе, и соответствия "известная категория - образцовое изображение - точка признака", чтобы использовать самое большое подмножество образцовых изображений, включающее в себя K(Cn) точек признаков, как усредненные изображения или множество изображений категории объектов, полученное через машинное автономное обучение.
Дополнительно, но не обязательно, минимальное расстояние (min_dis(Cn)) K(Cn) общих точек признаков до векторного центра centre(Cn) категории объектов может быть получено и использовано в качестве основания для ограничения порогового диапазона подобия сравниваемых изображений на последующем этапе S5, причем расстояние обозначает подобие среди точек в пространстве, и минимальное расстояние означает, что изображение может наилучшим образом изобразить главную общность категории объектов. Минимальное расстояние выражено как:
min_dis(Cn)=min(Dis(Fnjf, centre(ni))).
Через описанную выше офлайновую обработку в первой части посредством офлайновой тренировки на определенном количестве известных образцовых изображений компьютер завершил процесс автономного распознавания категории объектов и извлек множество общих точек признаков, имеющих совместные общие признаки, среди каждого изображения, включенного в каждую категорию Cn объектов, и соответствующие усредненные изображения или множество изображений из всех образцовых изображений. Усредненные изображения или множество изображений используются в качестве основания в последующем онлайновом процессе распознавания категорий объектов (т.е. во второй части).
Вторая часть: онлайновое распознавание и категоризация изображений. Фиг. 7 иллюстрирует один метод реализации этапа S5.
После получения множества общих точек признаков среди изображений, включенных в каждую категорию Cn объектов, или соответствующих усредненных изображений или множества изображений, множество общих точек признаков или усредненных изображений может быть соединено с соответствующей сетью или помещено в любую платформу или местоположение, желаемое для последующей реализации автоматического распознавания изображения, которое должно быть категоризировано.
Например, в предположении, что новое изображение, которое должно быть категоризировано, получено через сеть или другими средствами, новое изображение не категоризировано, или категория, которой оно принадлежит, не идентифицирована, и желательно, чтобы изображение, которое должно быть категоризировано, было категоризировано автономно по упомянутым выше известным N изображениям (или N типам товаров).
С этой целью настоящее изобретение выполняет такую же обработку над новым изображением, которое должно быть категоризировано, как на этапе предварительной обработки и на этапе S1 извлечения признака изображения в первой части. Более конкретно со ссылкой на фиг. 7, факультативно выполняется этап S501. Когда необходимо, такая же предварительная обработка, как на предыдущих этапах S001-S003, выполняется над новым изображением.
Этап S502: извлечение визуальных признаков низкого уровня из изображения, которое должно быть категоризировано, с использованием такого же способа извлечения признака изображения, который используется на этапе S1 в первой части, т.е. извлечение ключевых точек признаков и дескрипторов изображения, которое должно быть категоризировано.
Этап S503: сравнение изображения, которое должно быть категоризировано, с общими признаками каждой категории объектов, полученными в первой части, чтобы определить (вычислить) подобие между ними. Затем изображение, которое должно быть категоризировано, распределяется (приписывается) в категорию объектов, имеющей наибольшее подобие (этап S504).
Более конкретно, ключевые точки признаков и дескрипторы, извлеченные из изображения, которое должно быть категоризировано, сравниваются непосредственно с множеством общих точек признаков для каждой категории объектов, полученным ранее, или с ключевыми точками признаков в усредненных изображениях в каждой категории объектов, чтобы измерить подобие между изображением, которое должно быть категоризировано, и каждым образцовым изображением, и изображение, которое должно быть категоризировано, распределяется в категорию с наибольшим подобием.
Конкретно для настоящего изобретения, если подобие измерено с помощью алгоритма SIFT и с использованием евклидова расстояния, и множество общих точек признаков для каждой категории объектов выбрано как основание для сравнения, все ключевые точки признаков SIFT, извлеченные из изображения, которое должно быть категоризировано, сравниваются с каждой ключевой точкой признака SIFT, включенной в множество общих точек признаков, друг за другом для каждой категории объектов, чтобы вычислить евклидово расстояние Dis(FRi , FAi) между ними, где FRi - i-ая ключевая точка признака SIFT в изображении, которое должно быть распознано, FAi - i-ая ключевая точка признака SIFT в множестве общих точек признаков категории объектов.
Преимущество прямого выбора множества общих точек признаков для каждой категории объектов в качестве основания для сравнения заключается в значительном сокращении количества вычислений и в сокращении времени для вычисления. Однако проблема состоит в том, что поскольку множество общих точек признаков представляет собой улучшенное описание общих признаков категории объектов, возможно удалено большое количество точек признаков, которые должны принадлежать категории. Например, вследствие вмешательства угла съемки, освещения и подобных факторов описания точек признаков, которые должны были принадлежать одному и тому же признаку, отличаются, и точки признаков не приписаны к множеству общих точек признаков, и это влияет на корректную классификацию и распознавание изображения, которое должно быть категоризировано, с помощью компьютера.
Таким образом, в настоящем изобретении предпочтительно, чтобы изображение, которое должно быть категоризировано, сравнивалось с усредненными изображениями или множеством изображений каждой категории объектов, вместо того, чтобы использовать множество точек признаков для каждой категории объектов в качестве основания для сравнения. В это время все ключевые точки признаков SIFT, извлеченные из изображения, которое должно быть категоризировано, сравниваются со всеми ключевыми точками признаков SIFT (т.е. полным множеством ключевых точек признаков в каждом изображении) в каждом изображении среди усредненных изображений в каждой категории объектов друг за другом, и вычисляется евклидово расстояние Dis(FRi , FAi) между ними, где FRi - i-я ключевая точка признака SIFT в изображении, которое должно быть идентифицировано, и FAi - i-я точка признака SIFT в усредненных изображениях категории объектов.
Затем подсчитывается количество ключевых точек признаков, которые удовлетворяют пороговым условиям, и категория, имеющая наибольшее количество точек признаков, которое удовлетворяет предварительно заданным условиям, может быть определена как категория, которой принадлежит изображение, которое должно быть категоризировано.
Конкретный процесс реализации представляет собой следующее.
(1) Для n-ой категория Cn объектов, если Dis(FRi, FAi)<T1, где T1 - предварительно установленный порог, количественный показатель категории равен score(Cn) плюс 1, причем T1=ε*min_dis(Cn). Здесь ε обозначает весовой коэффициент, который установлен в основном для сокращения количества вычислений и, таким образом, не является необходимым. При условии, что количество вычисления не является большим, ε может быть опущен. И min_dis(Cn) представляет собой минимальное расстояние до векторного центра centre(Cn), полученного ранее после этапа S402. В настоящем изобретении оптимальное значение для весового коэффициента ε получено в соответствии с тестами. В процессе тестирования было обнаружено, что когда ε ∈ [1,5; 2,3], был достигнут более хороший эффект. В более предпочтительном варианте осуществления настоящего изобретения, когда было выбрано, что ε=1,8, может быть получена более высокая точность распознавания.
(2) Затем для каждой категории объектов, если score(Cn)>K(Cn), категория используется в качестве потенциальной распознанной категории изображения, которой должно быть распознано. Наконец, score(Cn) сортируется в порядке убывания, и категория объектов, отсортированная как первая, представляет собой категорию объекта в изображении, которое должно быть распознано.
Другие минимальные расстояния, предварительно установленные или полученные другими средствами, могут быть выбраны для замены min_dis(Cn) до векторного центра center(Cn), чтобы они служил в качестве основания для сравнения расстояния. Например, минимальное евклидово расстояние Dis(FRi , FAi) между каждой точкой признака в изображении, которое должно быть категоризировано, и каждой точкой признака в множестве общих точек признаков или каждой точкой признака в усредненных изображениях может быть выбрано для замены min_dis(Cn) и может быть равно 0 или иметь ненулевое значение.
При условии, что подобие среди изображений может быть измерено точно, могут использоваться другие способы для измерения подобия изображений. Например, расстояние Махаланобиса, расстояние городских кварталов и т.д. может быть выбрано для замены упомянутого выше вычислительного способа с евклидовым расстоянием.
Фиг. 8 показывает один вариант осуществления устройства распознавания категории объекта изображения в соответствии с настоящим изобретением.
Устройство 1 распознавания категории объекта изображения содержит:
блок 2 извлечения признака изображения, выполненный с возможностью извлекать точки признаков всех образцовых изображений в N известных категориях с помощью способа извлечения точек признаков, где N - натуральное число больше 1, каждая категория содержит по меньшей мере одно образцовое изображение, и создано соответствие "известная категория - образцовое изображение - точка признака";
блок 3 кластерного анализа, выполненный с возможностью выполнять кластерный анализ всех точек признаков, извлеченных с использованием алгоритма кластеризации и разделять точки признаков на N подмножеств;
блок 4 определения для определения категории Cn объектов для каждого из подмножеств;
блок 5 сбора данных для сбора общих признаков среди изображений, включенных в каждую категорию Cn объектов с помощью алгоритма поиска, где Cn - n-я категория объектов, и n - положительное целое число не больше N.
Кроме того, блок 4 определения выполнен с возможностью включать в себя по меньшей мере следующие модули: модуль 41 подсчета для подсчета количества точек признаков, которые принадлежат разным известным категориям, для каждого подмножества из N подмножеств; и модуль 42 определения для определения известной категории, которая включает в себя наибольшее количество точек признаков, как категории Cn объектов.
Блок 5 сбора данных выполнен с возможностью включить в себя по меньшей мере следующий модуль: модуль 51 поиска для поиска множества общих точек признаков, имеющих совместные общие признаки, среди изображений, включенных в каждую категорию Cn объектов посредством алгоритма поиска. Чтобы удалить избыточные точки признаков, которые не принадлежат категории Cn объектов.
Предпочтительно, блок 5 сбора данных дополнительно выполнен с возможностью включать в себя: модуль 52 отображения для дополнительного отображения образцовых изображений, имеющих наибольшее количество общих точек признаков среди множества общих точек признаков, из каждой категории Cn объектов посредством соответствия "известная категория - образцовое изображение - точка признака", и с использованием образцовых изображений в качестве усредненных изображений категории Cn объектов.
Фиг. 9 показывает конкретный схематический результат сравнения при распознавании изображения, который включает в себя результаты ручного и компьютерного распознавания. Процесс распознавания категории объекта изображения в первой части настоящего изобретения подобен этому. Три блока слева направо сверху представляют соответственно следующие области: 1. изображения для компьютера для выполнения автономного распознавания категории объектов (в том числе плоскость на фоне); 2. категория изображения, распознанная вручную, и результат извлечения признаков (ключевые слова); 3. категория объектов, распознанная через компьютерный алгоритм автономного обучения, и соответствующий результат извлечения признаков (ключевые слова).
Фиг. 10 показывает блок-схему иллюстративного варианта осуществления системы 100 распознавания изображений, содержащую упомянутое выше устройство распознавания категории объекта изображения. Система 100 по меньшей мере содержит: блок 200 извлечения признаков изображения, блок 300 кластерного анализа, блок 400 определения и блок 500 сбора данных, причем блок 400 определения может содержать по меньшей мере следующие функциональные модули: модуль подсчета и модуль определения. Блок сбора данных может содержать по меньшей мере: модуль поиска и/или модуль отображения и т.д. Эти блоки или модули соответственно реализуют функции блоков, показанных на фиг. 8, которые здесь не повторяются.
Кроме того, чтобы достигнуть функции автоматического распознавания категории во второй части настоящего изобретения, упомянутая система 100 распознавания изображения может дополнительно содержать блок 600 сравнения и вычисления для сравнения каждой точки признака, извлеченной блоком 200 извлечения признаков изображения из изображения, которое должно быть категоризировано, с каждой точкой признака в множестве общих точек признаков для каждой категории объектов или в усредненных изображениях каждой категории объектов друг за другом с помощью алгоритма измерения подобия изображений, чтобы вычислить подобие между точкой признака изображения, которое должно быть категоризировано, и точкой признака каждой категории объектов; и блок 700 приписывания для приписывания изображения, которое должно быть категоризировано, к категории Cn объектов, имеющей наибольшее подобие.
Система 100 включает в себя по меньшей мере один процессор, который может быть запрограммирован для выполнения упомянутого выше способа распознавания категории объекта изображения. Или процессор может содержать программное обеспечение, микропрограммные или аппаратные средства и/или их комбинацию для реализации упомянутых выше функциональных модулей и/или их комбинации.
Варианты осуществления настоящего изобретения были полностью реализованы на платформе компиляции Visual Studio 2010, предоставляемой Windows, и применимы к приложениям для сетевого маркетинга и т.д. или другим приложениям, которым требуется категоризировать изображения.
Выше были описаны только предпочтительные варианты осуществления настоящего изобретения, и описание не предназначено для ограничения настоящего изобретения. Любые модификации, эквивалентные замены, улучшения и т.д. в пределах сущности и принципов настоящего изобретения должны быть включены в объем защиты настоящего изобретения.
Claims (68)
1. Способ распознавания категории объекта изображения, содержащий следующие этапы:
этап (S1) извлечения признаков изображения, на котором извлекают точки признаков всех образцовых изображений в N известных категориях с помощью способа извлечения точек признаков и создают соответствие "известная категория - образцовое изображение - точка признака", где N - натуральное число больше 1, и каждая категория содержит по меньшей мере одно образцовое изображение;
этап (S2) кластерного анализа, на котором выполняют кластерный анализ всех точек признаков, извлеченных с использованием алгоритма кластеризации, и разделяют точки признаков на N подмножеств;
этап (S3) определения категории объектов, на котором определяют категорию Cn объекта для каждого из подмножеств; и
этап (S4) сбора общих признаков, на котором собирают общие признаки среди изображений в каждой категории Cn объектов с помощью алгоритма поиска, где Cn - n-я категория объектов, и n - положительное целое число не больше N;
причем этап S4 содержит по меньшей мере следующий подэтап:
S401, на котором выполняют поиск множества общих точек признаков, имеющих совместные общие признаки, среди изображений, включенных в каждую категорию Cn объектов, посредством алгоритма поиска;
причем после подэтапа S401, дополнительно содержит этап:
S402, на котором дополнительно отображают образцовые изображения, имеющие наибольшее количество общих точек признаков среди множества общих точек признаков из каждой категории Cn объектов, на основе множества общих точек признаков, найденных посредством соответствия "известная категория - образцовое изображение - точка признака", и используют образцовые изображения в качестве усредненных изображений категории Cn объектов.
2. Способ по п. 1, в котором этап S1 содержит по меньшей мере следующие подэтапы:
S101, на котором извлекают точки признаков среди визуальных признаков низкого уровня каждого из образцовых изображений;
S102, на котором собирают векторное описание для каждой из точек признаков; и
S103, на котором создают соответствие "известная категория - образцовое изображение - точка признака".
3. Способ по п. 2, в котором этап S2 содержит по меньшей мере следующие подэтапы:
S201, на котором подвергают кластеризации все извлеченные точки признаков на предварительно заданное количество кластеров посредством алгоритма кластеризации; и
S202, на котором из кластеров строят структуру k-дерева, где k - положительное целое число, и k ∈ (1, N).
4. Способ по п. 3, в котором этап S3 содержит по меньшей мере следующие подэтапы:
S301, на котором подсчитывают количество точек признаков, которые принадлежат разным известным категориям, для каждого подмножества из N подмножеств; и
S302, на котором определяют известную категорию, которая включает в себя наибольшее количество точек признаков, как категорию Cn объекта.
5. Способ по п. 1, в котором количество общих точек признаков (K(Cn)) в множестве общих точек признаков определяется на основе количества точек признаков изображения, имеющего наименьшее количество точек признаков в категории Cn объектов.
6. Способ по одному из пп. 1-5, который после этапа S4 дополнительно содержит этап S5 онлайнового распознавания и категоризации изображения, на котором распознают и автоматически категоризируют изображение, которое должно быть категоризировано, причем этап S5 онлайнового распознавания и категоризации содержит этапы:
S502, на котором выполняют такую же обработку извлечения признаков изображения над изображением, которое должно быть категоризировано, как на этапе S1, чтобы извлечь точки признаков изображения, которое должно быть категоризировано;
S503, на котором сравнивают точки признаков, извлеченные из изображения, которое должно быть категоризировано, с каждым из общих признаков каждой категории Cn объектов среди n категорий объектов, чтобы вычислить подобие между изображением, которое должно быть категоризировано, и каждой категорией объектов соответственно; и
S504, на котором приписывают изображение, которое должно быть категоризировано, к категории Cn объектов, имеющей наибольшее подобие.
7. Способ по одному из пп. 1-5, который после этапа S4 дополнительно содержит этап S5 онлайнового распознавания и категоризации изображения, на котором распознают и автоматически категоризируют изображение, которое должно быть категоризировано, причем этап S5 онлайнового распознавания и категоризации содержит этапы:
S502, на котором выполняют такую же обработку извлечения признаков изображения над изображением, которое должно быть категоризировано, как на этапе S1, чтобы извлечь точки признаков изображения, которое должно быть категоризировано;
S503, на котором сравнивают каждую из точек признаков, извлеченных из изображения, которое должно быть категоризировано, с каждой точкой признака в усредненных изображениях категории объектов друг за другом, чтобы вычислить подобие между изображением, которое должно быть категоризировано, и каждым усредненным изображением категории объектов соответственно; и
S504, на котором приписывают изображение, которое должно быть категоризировано, к категории Cn объектов, имеющей наибольшее подобие.
8. Способ по одному из пп. 1-5, который до этапа S1 дополнительно содержит этап предварительной обработки изображения для каждого изображения, причем этап предварительной обработки изображения содержит этапы:
S001, на котором пропорционально масштабируют изображение;
S002, на котором выполняют обработку фильтрации над пропорционально масштабированном изображением для удаления шума; и
S003, на котором выполняют обработку удаления цветности над изображением, подвергнутым обработке фильтрации.
9. Способ по одному из пп. 1-5, в котором:
способ извлечения точек признаков представляет собой алгоритм масштабно-инвариантной трансформации признаков (SIFT), с помощью которого извлекаются ключевые точки признаков SIFT каждого изображения и дескрипторы SIFT каждой ключевой точки признака;
алгоритм кластеризации представляет собой алгоритм k-средних, и ключевые точки признаков разделяются на N подмножеств посредством построения k-дерева, где k - положительное целое число, и k ∈ (1, N); и
алгоритм поиска представляет собой алгоритм поиска k ближайших соседей (KNN).
10. Устройство распознавания категории объекта изображения, содержащее:
блок извлечения признаков изображения, выполненный с возможностью извлекать точки признаков всех образцовых изображений в N известных категориях с помощью способа извлечения точек признаков и создавать соответствие "известная категория - образцовое изображение - точка признака", где N - натуральное число больше 1, причем каждая категория содержит по меньшей мере одно образцовое изображение;
блок кластерного анализа, выполненный с возможностью выполнять кластерный анализ всех извлеченных точек признаков с использованием алгоритма кластеризации и разделять точки признаков на N подмножеств;
блок определения для определения категории Cn объектов для каждого из подмножеств; и
блок сбора данных для сбора общих признаков среди изображений, включенных в каждую категорию Cn объектов, с помощью алгоритма поиска, где Cn - n-я категория объектов и n - положительное целое число не больше N;
причем блок сбора данных включает в себя по меньшей мере следующий подмодуль:
модуль поиска для поиска множества общих точек признаков, имеющих совместные общие признаки, среди изображений, включенных в каждую категорию объектов Cn посредством алгоритма поиска;
причем блок сбора данных дополнительно содержит:
модуль отображения для отображения образцовых изображений, имеющих наибольшее количество общих точек признаков среди множества общих точек признаков из каждой категории Cn объектов, посредством соответствия "известная категория - образцовое изображение - точка признака" и с использованием образцовых изображений в качестве усредненных изображений категории Cn объектов.
11. Устройство по п. 10, в котором блок определения содержит по меньшей мере следующие подмодули:
модуль подсчета для подсчета количества точек признаков, которые принадлежат разным известным категориям, для каждого подмножества из N подмножеств; и
модуль определения для определения известной категории, которая включает в себя наибольшее количество точек признаков, как категории Cn объекта.
12. Способ автоматической категоризации изображения, которое должно быть категоризировано, с помощью способа распознавания категории объекта изображения по п. 1, содержащий следующие этапы:
этап извлечения, на котором выполняют такую же обработку извлечения признаков изображения над изображением, которое должно быть категоризировано, как на этапе S1, чтобы извлечь визуальные признаки низкого уровня из изображения, которое должно быть категоризировано;
этап сравнения и вычисления, на котором сравнивают каждую точку признака, извлеченную из изображения, которое должно быть категоризировано, с каждой точкой признака в множестве общих точек признака для каждой категории объектов или в усредненных изображениях каждой категории объектов друг за другом с помощью алгоритма измерения подобия изображений, чтобы вычислить подобие между точками признаков изображения, которое должно быть категоризировано, и точками признаков каждой категории объектов; и
этап приписывания, на котором приписывают изображение, которое должно быть категоризировано, к категории объектов, имеющей наибольшее подобие.
13. Система распознавания изображений, содержащая по меньшей мере процессор, выполненный с возможностью содержать по меньшей мере следующие функциональные блоки:
блок извлечения признаков изображения, выполненный с возможностью извлекать точки признаков всех образцовых изображений в N известных категориях с помощью способа извлечения точек признаков и создавать соответствие "известная категория - образцовое изображение - точка признака", где N - натуральное число больше 1, причем каждая категория содержит по меньшей мере одно образцовое изображение;
блок кластерного анализа, выполненный с возможностью выполнять кластерный анализ всех извлеченных точек признаков с использованием алгоритма кластеризации и разделять точки признаков на N подмножеств;
блок определения для определения категории Cn объектов для каждого из подмножеств; и
блок сбора данных для сбора общих признаков среди изображений, включенных в каждую категорию Cn объектов, с помощью алгоритма поиска, где Cn - n-я категория объектов и n - положительное целое число не больше N;
причем блок сбора данных выполнен с возможностью содержать по меньшей мере следующий модуль:
модуль поиска для поиска множества общих точек признаков, имеющих совместные общие признаки среди изображений, включенных в каждую категорию Cn объектов, посредством алгоритма поиска;
причем блок сбора данных дополнительно выполнен с возможностью по меньшей мере содержать:
модуль отображения для дополнительного отображения образцовых изображений, имеющих наибольшее количество общих точек признаков среди множества общих точек признаков из каждой категории Cn объектов, на основе множества общих точек признаков, найденных посредством соответствия "известная категория - образцовое изображение - точка признака", и используют образцовые изображения в качестве усредненных изображений категории Cn объектов.
14. Система по п. 13, в которой блок определения выполнен с возможностью содержать по меньшей мере следующие модули:
модуль подсчета для подсчета количества точек признаков, которые принадлежат разным категориям Cn объектов, для каждого подмножества из N подмножеств; и
модуль определения для пометки категории Cn объектов категорией, которая включает в себя наибольшее количество точек признака.
15. Система по одному из пп. 13 и 14, в которой блок извлечения признаков изображения дополнительно используется для извлечения точек признаков из изображения, которое должно быть категоризировано; и
процессор выполнен с возможностью дополнительно содержать:
блок сравнения и вычисления для сравнения каждой точки признака, извлеченной из изображения, которое должно быть категоризировано, с каждой точкой признака в множестве общих точек признаков для каждой категории объектов или в усредненных изображениях каждой категории объектов друг за другом с помощью алгоритма измерения подобия изображений, чтобы вычислить подобие между точками признаков изображения, которое должно быть категоризировано, и точками признаков каждой категории объектов; и
блок приписывания для приписывания изображения, которое должно быть категоризировано, к категории Cn объектов, имеющей наибольшее подобие.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310537562.5 | 2013-11-04 | ||
CN201310537562.5A CN103559504B (zh) | 2013-11-04 | 2013-11-04 | 图像目标类别识别方法及装置 |
PCT/CN2014/087623 WO2015062384A1 (zh) | 2013-11-04 | 2014-09-26 | 图像目标类别识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2016122051A RU2016122051A (ru) | 2017-12-11 |
RU2648946C2 true RU2648946C2 (ru) | 2018-03-28 |
Family
ID=50013745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016122051A RU2648946C2 (ru) | 2013-11-04 | 2014-09-26 | Способ и устройство распознавания категории объекта изображения |
Country Status (7)
Country | Link |
---|---|
US (1) | US10013636B2 (ru) |
CN (1) | CN103559504B (ru) |
AU (1) | AU2014344497B2 (ru) |
CA (1) | CA2929180C (ru) |
RU (1) | RU2648946C2 (ru) |
TW (1) | TWI537841B (ru) |
WO (1) | WO2015062384A1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2737600C1 (ru) * | 2020-03-19 | 2020-12-01 | Общество с ограниченной ответственностью «ИНСПЕКТОР КЛАУД» | Способ сбора размеченного набора данных |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559504B (zh) | 2013-11-04 | 2016-08-31 | 北京京东尚科信息技术有限公司 | 图像目标类别识别方法及装置 |
CN103868935A (zh) * | 2014-02-14 | 2014-06-18 | 中国科学院合肥物质科学研究院 | 基于计算机视觉的烟支外观质量检测方法 |
US20170132457A1 (en) * | 2014-06-27 | 2017-05-11 | Beijing Qihoo Technology Company Limited | Human face similarity recognition method and system |
US10031928B2 (en) * | 2014-07-02 | 2018-07-24 | BicDroid Inc. | Display, visualization, and management of images based on content analytics |
CN104778951A (zh) * | 2015-04-07 | 2015-07-15 | 华为技术有限公司 | 语音增强的方法和装置 |
CN106203461B (zh) * | 2015-05-07 | 2020-02-25 | 中国移动通信集团公司 | 一种图像处理方法及装置 |
CN105021888B (zh) * | 2015-07-06 | 2018-09-18 | 广州供电局有限公司 | 基于数据聚类的谐波数据监测方法 |
CN106649296B (zh) * | 2015-07-20 | 2020-07-14 | 阿里巴巴集团控股有限公司 | 提供拍照提示信息、业务对象搜索方法及装置 |
CN106909931B (zh) * | 2015-12-23 | 2021-03-16 | 阿里巴巴集团控股有限公司 | 一种用于机器学习模型的特征生成方法、装置和电子设备 |
US11157798B2 (en) | 2016-02-12 | 2021-10-26 | Brainchip, Inc. | Intelligent autonomous feature extraction system using two hardware spiking neutral networks with spike timing dependent plasticity |
CN107229518B (zh) * | 2016-03-26 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 一种分布式集群训练方法和装置 |
CN105975971A (zh) * | 2016-04-22 | 2016-09-28 | 安徽大学 | 一种低内存的图像特征描述算法 |
CN106096009A (zh) * | 2016-06-23 | 2016-11-09 | 北京小米移动软件有限公司 | 消息生成方法及装置 |
CN106354850A (zh) * | 2016-08-31 | 2017-01-25 | 广州精点计算机科技有限公司 | 一种基于k‑近邻分类的图像识别方法 |
CN106650580B (zh) * | 2016-09-23 | 2020-04-17 | 南京理工大学 | 基于图像处理的货架快速清点方法 |
US10860898B2 (en) | 2016-10-16 | 2020-12-08 | Ebay Inc. | Image analysis and prediction based visual search |
CN106599051B (zh) * | 2016-11-15 | 2020-02-07 | 北京航空航天大学 | 一种基于生成图像标注库的图像自动标注的方法 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
CN108229509B (zh) * | 2016-12-16 | 2021-02-26 | 北京市商汤科技开发有限公司 | 用于识别物体类别的方法及装置、电子设备 |
CN108230232B (zh) * | 2016-12-21 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种图像处理的方法以及相关装置 |
TWI614723B (zh) * | 2016-12-29 | 2018-02-11 | 大仁科技大學 | 基於人體動作影像的分析系統 |
CN106778914A (zh) * | 2017-01-16 | 2017-05-31 | 湖南财政经济学院 | 一种大数据图像分类方法 |
US10534964B2 (en) * | 2017-01-30 | 2020-01-14 | Blackberry Limited | Persistent feature descriptors for video |
US11151441B2 (en) | 2017-02-08 | 2021-10-19 | Brainchip, Inc. | System and method for spontaneous machine learning and feature extraction |
CN108460389B (zh) | 2017-02-20 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 一种识别图像中对象的类型预测方法、装置及电子设备 |
CN108288208B (zh) | 2017-08-11 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于图像内容的展示对象确定方法、装置、介质及设备 |
CN108304435B (zh) * | 2017-09-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN109558887A (zh) * | 2017-09-27 | 2019-04-02 | 北京京东尚科信息技术有限公司 | 一种预测行为的方法和装置 |
TWI647658B (zh) * | 2017-09-29 | 2019-01-11 | 樂達創意科技有限公司 | 影像特徵自動辨識裝置、系統及方法 |
CN107748899B (zh) * | 2017-11-03 | 2020-09-11 | 哈尔滨工业大学深圳研究生院 | 一种基于lstm的二维图像的目标类别判识方法 |
CA3033030A1 (en) * | 2018-02-08 | 2019-08-08 | Flaschebottle Technologies Inc. | Estimating a number of containers by digital image analysis |
WO2019153245A1 (en) * | 2018-02-09 | 2019-08-15 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Systems and methods for deep localization and segmentation with 3d semantic map |
CN108737379A (zh) * | 2018-04-19 | 2018-11-02 | 河海大学 | 一种大数据传输处理算法 |
US11409985B2 (en) * | 2018-04-30 | 2022-08-09 | Bank Of America Corporation | Computer architecture for emulating a correlithm object converter in a correlithm object processing system |
US11615208B2 (en) * | 2018-07-06 | 2023-03-28 | Capital One Services, Llc | Systems and methods for synthetic data generation |
CN109190748B (zh) * | 2018-09-14 | 2021-09-17 | 上海哥瑞利软件股份有限公司 | 一种cp测试探针最佳路径的算法 |
CN109472307A (zh) * | 2018-11-07 | 2019-03-15 | 郑州云海信息技术有限公司 | 一种训练图像分类模型的方法和装置 |
CN109455527B (zh) * | 2018-11-29 | 2021-02-02 | 合肥泰禾智能科技集团股份有限公司 | 一种货物拆垛方法及装置 |
CN111382760B (zh) * | 2018-12-28 | 2023-08-25 | Tcl科技集团股份有限公司 | 图片类别的识别方法、装置及计算机可读存储介质 |
CN111382635B (zh) * | 2018-12-29 | 2023-10-13 | 杭州海康威视数字技术股份有限公司 | 一种商品类别识别方法、装置及电子设备 |
CN111626082A (zh) * | 2019-02-28 | 2020-09-04 | 佳能株式会社 | 检测装置和方法及图像处理装置和系统 |
CN110097011A (zh) * | 2019-05-06 | 2019-08-06 | 北京邮电大学 | 一种信号识别方法及装置 |
CN110119815B (zh) * | 2019-05-21 | 2021-08-13 | 深圳市腾讯网域计算机网络有限公司 | 模型训练方法、装置、存储介质及设备 |
US10998007B2 (en) * | 2019-09-30 | 2021-05-04 | Adobe Inc. | Providing context aware video searching |
CN112696372A (zh) * | 2019-10-22 | 2021-04-23 | 佛山市云米电器科技有限公司 | 风扇调节方法、风扇和存储介质 |
CN110888638A (zh) * | 2019-10-24 | 2020-03-17 | 泰康保险集团股份有限公司 | 一种用于绘制互联网界面的方法和系统 |
US11816149B2 (en) * | 2020-02-11 | 2023-11-14 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
CN112654883B (zh) * | 2020-03-25 | 2022-05-31 | 华为技术有限公司 | 一种雷达目标聚类方法及装置 |
US11709917B2 (en) * | 2020-05-05 | 2023-07-25 | Nanjing University | Point-set kernel clustering |
CN113627455A (zh) * | 2020-05-09 | 2021-11-09 | 阿里巴巴集团控股有限公司 | 图像类别确定方法及装置 |
CN111723820A (zh) * | 2020-06-10 | 2020-09-29 | 中天智导科技有限公司 | 一种图像处理方法及装置 |
CN111860588B (zh) * | 2020-06-12 | 2024-06-21 | 华为技术有限公司 | 一种用于图神经网络的训练方法以及相关设备 |
US11645733B2 (en) | 2020-06-16 | 2023-05-09 | Bank Of America Corporation | System and method for providing artificial intelligence architectures to people with disabilities |
CN111898550B (zh) * | 2020-07-31 | 2023-12-29 | 平安科技(深圳)有限公司 | 建立表情识别模型方法、装置、计算机设备及存储介质 |
CN112364843A (zh) * | 2021-01-11 | 2021-02-12 | 中国科学院自动化研究所 | 插拔式航拍图像目标定位检测方法、系统、设备 |
CN112766427A (zh) * | 2021-04-06 | 2021-05-07 | 浙江口碑网络技术有限公司 | 图像识别模型的训练方法、装置及设备 |
CN112886589B (zh) * | 2021-04-09 | 2022-09-20 | 华中科技大学 | 基于社区挖掘的供电分区方法、系统、终端、介质及配电网 |
JP2023086507A (ja) * | 2021-12-10 | 2023-06-22 | キオクシア株式会社 | 情報処理装置および方法 |
CN115223018B (zh) * | 2022-06-08 | 2023-07-04 | 东北石油大学 | 伪装对象协同检测方法及装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060195475A1 (en) * | 2005-02-28 | 2006-08-31 | Microsoft Corporation | Automatic digital image grouping using criteria based on image metadata and spatial information |
RU2302656C2 (ru) * | 2001-11-16 | 2007-07-10 | Байо-Ки Интернэшнл, Инк. | Система идентификации изображений |
CN102609719A (zh) * | 2012-01-19 | 2012-07-25 | 北京工业大学 | 基于改进概率主题模型的地点图像识别方法 |
CN102930296A (zh) * | 2012-11-01 | 2013-02-13 | 长沙纳特微视网络科技有限公司 | 一种图像识别方法及装置 |
US20130215264A1 (en) * | 2010-07-08 | 2013-08-22 | The Regents Of The University Of California | End-to-end visual recognition system and methods |
US20130238626A1 (en) * | 2010-10-17 | 2013-09-12 | Canon Kabushiki Kaisha | Systems and methods for cluster comparison |
RU2494566C2 (ru) * | 2009-04-30 | 2013-09-27 | Сони Корпорейшн | Устройство и способ управления отображением |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5365065B2 (ja) * | 2008-05-13 | 2013-12-11 | 富士通株式会社 | 辞書作成装置 |
JP5588165B2 (ja) * | 2009-12-24 | 2014-09-10 | キヤノン株式会社 | 画像処理装置、画像処理方法およびプログラム |
CN101807259B (zh) * | 2010-03-25 | 2012-08-22 | 复旦大学 | 一种基于视觉词汇本集体的不变性识别方法 |
CN101833672B (zh) * | 2010-04-02 | 2012-02-29 | 清华大学 | 基于约束采样与形状特征的稀疏表示人脸识别方法 |
WO2011152821A1 (en) * | 2010-06-01 | 2011-12-08 | Hewlett-Packard Development Company, L.P. | Clustering images |
US20120082385A1 (en) * | 2010-09-30 | 2012-04-05 | Sharp Laboratories Of America, Inc. | Edge based template matching |
CN102073738B (zh) * | 2011-01-20 | 2013-04-17 | 清华大学 | 基于智能检索视图选择的三维对象检索方法和装置 |
US8374386B2 (en) * | 2011-01-27 | 2013-02-12 | Polytechnic Institute Of New York University | Sensor fingerprint matching in large image and video databases |
US8712157B2 (en) * | 2011-04-19 | 2014-04-29 | Xerox Corporation | Image quality assessment |
CN102663092B (zh) * | 2012-04-11 | 2015-01-28 | 哈尔滨工业大学 | 一种基于服装组图的风格元素挖掘和推荐方法 |
US8837820B2 (en) * | 2012-05-25 | 2014-09-16 | Xerox Corporation | Image selection based on photographic style |
CN102968618A (zh) * | 2012-10-24 | 2013-03-13 | 浙江鸿程计算机系统有限公司 | 一种融合BoF模型和谱聚类算法的静态手势识别方法 |
CN103345645B (zh) | 2013-06-27 | 2016-09-28 | 复旦大学 | 面向网购平台的商品图像类别预测方法 |
CN103559504B (zh) | 2013-11-04 | 2016-08-31 | 北京京东尚科信息技术有限公司 | 图像目标类别识别方法及装置 |
-
2013
- 2013-11-04 CN CN201310537562.5A patent/CN103559504B/zh active Active
-
2014
- 2014-09-26 US US15/032,460 patent/US10013636B2/en active Active
- 2014-09-26 RU RU2016122051A patent/RU2648946C2/ru active
- 2014-09-26 AU AU2014344497A patent/AU2014344497B2/en active Active
- 2014-09-26 CA CA2929180A patent/CA2929180C/en active Active
- 2014-09-26 WO PCT/CN2014/087623 patent/WO2015062384A1/zh active Application Filing
- 2014-11-03 TW TW103137992A patent/TWI537841B/zh active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2302656C2 (ru) * | 2001-11-16 | 2007-07-10 | Байо-Ки Интернэшнл, Инк. | Система идентификации изображений |
US20060195475A1 (en) * | 2005-02-28 | 2006-08-31 | Microsoft Corporation | Automatic digital image grouping using criteria based on image metadata and spatial information |
RU2494566C2 (ru) * | 2009-04-30 | 2013-09-27 | Сони Корпорейшн | Устройство и способ управления отображением |
US20130215264A1 (en) * | 2010-07-08 | 2013-08-22 | The Regents Of The University Of California | End-to-end visual recognition system and methods |
US20130238626A1 (en) * | 2010-10-17 | 2013-09-12 | Canon Kabushiki Kaisha | Systems and methods for cluster comparison |
CN102609719A (zh) * | 2012-01-19 | 2012-07-25 | 北京工业大学 | 基于改进概率主题模型的地点图像识别方法 |
CN102930296A (zh) * | 2012-11-01 | 2013-02-13 | 长沙纳特微视网络科技有限公司 | 一种图像识别方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2737600C1 (ru) * | 2020-03-19 | 2020-12-01 | Общество с ограниченной ответственностью «ИНСПЕКТОР КЛАУД» | Способ сбора размеченного набора данных |
Also Published As
Publication number | Publication date |
---|---|
AU2014344497A1 (en) | 2016-05-26 |
US10013636B2 (en) | 2018-07-03 |
AU2014344497B2 (en) | 2018-07-05 |
CA2929180A1 (en) | 2015-05-07 |
US20160267359A1 (en) | 2016-09-15 |
RU2016122051A (ru) | 2017-12-11 |
TWI537841B (zh) | 2016-06-11 |
CN103559504B (zh) | 2016-08-31 |
TW201523462A (zh) | 2015-06-16 |
CA2929180C (en) | 2020-09-22 |
CN103559504A (zh) | 2014-02-05 |
WO2015062384A1 (zh) | 2015-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2648946C2 (ru) | Способ и устройство распознавания категории объекта изображения | |
US10438091B2 (en) | Method and apparatus for recognizing image content | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CA3066029A1 (en) | Image feature acquisition | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN113407694B (zh) | 客服机器人知识库歧义检测方法、装置及相关设备 | |
CN108280236B (zh) | 一种基于LargeVis的随机森林可视化数据分析方法 | |
CN112308115A (zh) | 一种多标签图像深度学习分类方法及设备 | |
WO2015146113A1 (ja) | 識別辞書学習システム、識別辞書学習方法および記録媒体 | |
CN113408581A (zh) | 一种多模态数据匹配方法、装置、设备及存储介质 | |
CN110458600A (zh) | 画像模型训练方法、装置、计算机设备及存储介质 | |
CN110413997B (zh) | 针对电力行业的新词发现方法及其系统、可读存储介质 | |
CN117992805A (zh) | 基于张量积图融合扩散的零样本跨模态检索方法、系统 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN110796260A (zh) | 一种基于类扩张学习的神经网络模型优化方法 | |
CN114168751B (zh) | 一种基于医学知识概念图的医学文本标签识别方法及系统 | |
CN115359541A (zh) | 人脸图像聚类方法、装置、电子设备及存储介质 | |
CN114820074A (zh) | 基于机器学习的目标用户群体预测模型构建方法 | |
CN114022698A (zh) | 一种基于二叉树结构的多标签行为识别方法及装置 | |
Xu et al. | Estimating similarity of rich internet pages using visual information | |
CN111353538B (zh) | 基于深度学习的相似图像匹配方法 | |
CN116958720A (zh) | 目标检测模型的训练方法、目标检测方法、装置及设备 | |
JP2020098521A (ja) | 情報処理装置、データ抽出方法およびデータ抽出プログラム | |
CN116975447B (zh) | 一种便携式学习机及其资源检索方法 | |
US20230289531A1 (en) | Deep Learning Systems and Methods to Disambiguate False Positives in Natural Language Processing Analytics |