RU2361273C2 - Method and device for identifying object images - Google Patents

Method and device for identifying object images Download PDF

Info

Publication number
RU2361273C2
RU2361273C2 RU2007109075/09A RU2007109075A RU2361273C2 RU 2361273 C2 RU2361273 C2 RU 2361273C2 RU 2007109075/09 A RU2007109075/09 A RU 2007109075/09A RU 2007109075 A RU2007109075 A RU 2007109075A RU 2361273 C2 RU2361273 C2 RU 2361273C2
Authority
RU
Russia
Prior art keywords
block
image
input
parameters
output
Prior art date
Application number
RU2007109075/09A
Other languages
Russian (ru)
Other versions
RU2007109075A (en
Inventor
Сергей Иванович Коростелев (RU)
Сергей Иванович Коростелев
Виталий Семенович Титов (RU)
Виталий Семенович Титов
Владимир Славиевич Панищев (RU)
Владимир Славиевич Панищев
Original Assignee
Государственное образовательное учреждение высшего профессионального образования Курский государственный технический университет
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Государственное образовательное учреждение высшего профессионального образования Курский государственный технический университет filed Critical Государственное образовательное учреждение высшего профессионального образования Курский государственный технический университет
Priority to RU2007109075/09A priority Critical patent/RU2361273C2/en
Publication of RU2007109075A publication Critical patent/RU2007109075A/en
Application granted granted Critical
Publication of RU2361273C2 publication Critical patent/RU2361273C2/en

Links

Abstract

FIELD: physics; computer engineering.
SUBSTANCE: invention relates to computer engineering and can be used in computer vision systems for identifying objects on images. Technical outcome is achieved due to that, the standard is stored not as a series of flat projections, which contain different aspect angles of the object, but its three-dimensional representation in vector form. During identification, the three-dimensional image is rotated, each time with generation of a series of flat images until a match is found. When solving the given task through direct search for all versions, computing time is long, therefore a series of parametres of the object are used, the class of which relates to the given object, overall dimensions. This set of parametres is determined for each model taking into account complexity of its shape. An image is sent to the input of the analyser, presented by an array of pixels in grey gradations, i.e. each element of the array assumes a value from 0 to 255. The array dimension depends on sampling parametres of the image.
EFFECT: increased accuracy of identifying images and provision for invariance to affine transformation of rotation and scaling.
2 cl, 1 dwg

Description

Изобретение относится к вычислительной технике и может быть использовано в системах технического зрения для идентификации объектов на изображении.The invention relates to computer technology and can be used in vision systems to identify objects in the image.

Известен способ распознавания сложного графического объекта (Патент №2005111353 Россия, кл. G06K9/62) заключающийся в том, что изображения всех эталонных объектов разбивают на пересекающиеся доменные блоки, представляющие собой часть изображения в виде квадрата, а изображение анализируемого объекта разбивают на непересекающиеся ранговые блоки, размер которых меньше доменных блоков, и производят поиск наилучшего сопоставления всех ранговых блоков анализируемого изображения и доменных блоков всех эталонных изображений с использованием сжимающих аффинных преобразований, результат подают на классификатор, а затем принимают решение о совпадении изображений анализируемого объекта с эталонным, отличающийся тем, что одновременно с поиском доменно-ранговых сопоставлений для каждого эталонного объекта формируют векторы расстояний между геометрическими центрами сопоставленных доменных, для эталонного объекта, и ранговых, для анализируемого объекта, блоков, записывают их в виде таблицы, после завершений сопоставления таблицу подают на классификатор, а решение о совпадении анализируемого изображения с одним из эталонных принимают по наименьшему расстоянию между анализируемым и эталонным изображением, полученному от классификатора.A known method for recognizing a complex graphic object (Patent No. 2005111353 Russia, class G06K9 / 62) is that the images of all reference objects are divided into intersecting domain blocks, which are part of the image in the form of a square, and the image of the analyzed object is divided into disjoint rank blocks , the size of which is smaller than the domain blocks, and search for the best comparison of all ranking blocks of the analyzed image and domain blocks of all the reference images using compression total affine transformations, the result is fed to the classifier, and then they decide on the coincidence of the images of the analyzed object with the reference one, characterized in that at the same time as searching for domain-rank comparisons for each reference object, distance vectors between the geometric centers of the associated domain for the reference object are formed, and ranking, for the analyzed object, blocks, write them in the form of a table, after completion of the comparison, the table is submitted to the classifier, and the decision on the coincidence of the analysis image with one of the reference take the smallest distance between the analyzed and the reference image received from the classifier.

Наиболее близким к предлагаемому является способ компьютерного распознавания объектов (Патент №2234127 Россия, кл. G06K 9/68). Способ компьютерного распознавания объектов, программа которого предусматривает предварительное приведение изображения объекта, вводимого в компьютер, к нормальному, стандартному для данного способа виду - изменению масштаба, поворот в требуемое положение, центрирование, вписание в прямоугольник требуемого размера, преобразование изображения объекта в изображение, выполненное в градациях - различных степенях яркости - одного цвета, на которое последовательно, поочередно накладываются изображения хранящихся в памяти компьютера шаблонов, отличающийся тем, что программа распознавания объектов может пошагово совмещать нормализованные изображения распознаваемых объектов, центрированных и вписанных в одинаковых размеров ячейки таблицы и шаблонов, центрированных и вписанных в аналогичные ячейки таблицы шаблонов, с шагом, равным высоте строки с ячейками или ширине столбца ячеек таблиц, причем в каждом из столбцов или в каждой из строк таблицы шаблонов, число которых равно числу столбцов или строк в таблице распознаваемых объектов, находится полный комплект шаблонов.Closest to the proposed is a method of computer recognition of objects (Patent No. 2234127 Russia, CL G06K 9/68). A method of computer recognition of objects, the program of which provides a preliminary reduction of the image of the object entered into the computer to a normal, standard form for this method - zooming, rotation to the desired position, centering, inscribing the rectangle of the required size, converting the image of the object into an image made in gradations - various degrees of brightness - one color, on which the images stored in the computer's memory are sequentially and alternately superimposed new, characterized in that the object recognition program can step by step combine normalized images of recognizable objects centered and inscribed in the same size of the table cell and patterns centered and inscribed in the same cells of the template table, with a step equal to the height of the row with cells or the column width of the table cells moreover, in each of the columns or in each of the rows of the template table, the number of which is equal to the number of columns or rows in the table of recognized objects, there is a complete set of templates.

Недостатками данного способа являются отсутствие инвариантности к аффинным преобразованиям поворота объекта в трехмерном пространстве и отсутствие возможности задавать параметры шаблона, а также необходимость полного перебора шаблонов при распознавании.The disadvantages of this method are the lack of invariance for affine transformations of the rotation of an object in three-dimensional space and the lack of the ability to set template parameters, as well as the need for a complete enumeration of templates during recognition.

Технической задачей является повышение точности и качества распознавания за счет использования трехмерной векторной модели эталона объекта.The technical task is to increase the accuracy and quality of recognition through the use of a three-dimensional vector model of the standard of the object.

Способ заключается в следующем: эталонное изображение хранят в виде векторной трехмерной модели; для каждой такой модели фиксируют набор параметров для аффинных преобразований: углы поворота по осям х, у, z и масштаб. Этот набор параметров определяют для каждой модели с учетом сложности ее формы: чем сложнее форма, тем большее количество ракурсов необходимо для наиболее полного описания возможных вариантов положения объекта в пространстве, с тем, чтобы наиболее точно произвести идентификацию.The method consists in the following: the reference image is stored in the form of a vector three-dimensional model; for each such model, a set of parameters for affine transformations is fixed: rotation angles along the x, y, z axes and scale. This set of parameters is determined for each model, taking into account the complexity of its shape: the more complex the shape, the greater the number of angles necessary for the most complete description of the possible options for the position of the object in space in order to most accurately identify.

Производят следующую последовательность действий: получают векторную трехмерную модель эталонного объекта путем геометрического построения, затем, изменяя ее положение в пространстве (поворот, отражение, масштабирование), получают ряд вышеуказанных параметров, которые сохраняют и используют в дальнейшем при распознавании для воссоздания соответствующего ракурса эталона объекта.The following sequence of actions is performed: a vector three-dimensional model of the reference object is obtained by geometric construction, then, changing its position in space (rotation, reflection, scaling), a number of the above parameters are obtained, which are saved and used in the future for recognition to recreate the corresponding angle of the object’s standard.

Плоское изображение представляют в виде двумерного массива, элементами которого являются значения от 0 до 255 - градации серого цвета.A flat image is represented as a two-dimensional array, the elements of which are values from 0 to 255 - gradations of gray.

Помимо указанных параметров в набор включают дополнительно соотношение сторон габаритного изображения контейнера объекта и кодированное представление объекта, которое позволяет определить его положение внутри габаритного контейнера. Под габаритным контейнером подразумевают минимальную прямоугольную область на плоскости, в которую вписывается изображение объекта. Кодирование производят разбиением габаритного контейнера на 25 одинаковых областей и определением наличия части объекта в каждой из них. Таким образом, получают 25-битный код данного ракурса объекта в двоичном виде: если часть изображения объекта находится в области, то ее помечают единицей; иначе нулем. Код получают перебором значений меток в областях слева направо, сверху вниз. Эти дополнительные параметры существенно уменьшают объем перебираемых при распознавании вариантов.In addition to these parameters, the set also includes the aspect ratio of the overall image of the container of the object and the encoded representation of the object, which allows you to determine its position inside the overall container. By a dimensional container is meant the minimum rectangular area on the plane into which the image of the object fits. Coding is performed by dividing the overall container into 25 identical areas and determining the presence of a part of the object in each of them. Thus, a 25-bit code of this aspect of the object is obtained in binary form: if a part of the image of the object is in the area, then it is marked with one; otherwise zero. The code is obtained by enumerating the values of labels in areas from left to right, from top to bottom. These additional parameters significantly reduce the amount of options searched during recognition.

На вход распознавателя подается изображение, представленное массивом пикселей в градациях серого, то есть каждый элемент массива имеет значение от 0 до 255. Размерность массива зависит от параметров дискретизации изображения. Распознавание производят следующим образом: определяют габаритный контейнер входного изображения объекта, затем кодируют вышеуказанным способом. Исходя из отношения сторон габаритного контейнера и полученного кода, выбирают набор параметров из базы эталонов. Затем выполняют преобразование векторной модели эталонного объекта соответственно установленным ранее параметрам: поворот и масштабирование. После этого строят плоское изображение модели эталона, которое сравнивают с поданным на вход изображением посредством нейросети типа персептрон. Сравнение производят путем анализа градаций серого для каждой дискретной области изображения: производят попиксельное сравнение. Находят модуль разности для каждой пары пикселей изображения, поданного на вход распознавателя, и полученной проекции векторной модели эталонного объекта и сравнивают его с пороговым значением. Полученные данные подают на вход нейросети типа персептрон, в зависимости от значения функции активации которой принимают решение о схожести проекции векторной модели эталонного объекта и входного изображений.An image presented by an array of pixels in grayscale is fed to the recognizer input, that is, each element of the array has a value from 0 to 255. The dimension of the array depends on the image sampling parameters. Recognition is performed as follows: the overall container of the input image of the object is determined, then encoded in the above manner. Based on the aspect ratio of the overall container and the resulting code, select a set of parameters from the database of standards. Then, the vector model of the reference object is transformed according to the previously established parameters: rotation and scaling. After that, they build a flat image of the model of the standard, which is compared with the input image by means of a perceptron-type neural network. Comparison is made by analyzing grayscale for each discrete image area: a pixel-by-pixel comparison is performed. Find the difference module for each pair of pixels of the image supplied to the input of the recognizer, and the resulting projection of the vector model of the reference object and compare it with a threshold value. The obtained data is fed to the input of a perceptron-type neural network, depending on the value of the activation function of which they decide on the similarity of the projection of the vector model of the reference object and the input image.

Известно устройство для распознавания объектов (Патент №2223545 Россия, кл. G06K 9/62). Изобретение относится к устройствам вычислительной техники и может быть использовано для распознавания объектов в случае, когда их эталонные и наблюдаемые двухмерные изображения заданы в виде нечетких множеств. Техническим результатом является возможность устройства принимать решения о соответствии изображения наблюдаемого объекта эталонному с использованием нечеткой информации по результатам сравнения совокупности соседних элементов, т.е. по более информативному признаку. Технический результат достигается за счет того, что устройство для распознавания объектов содержит блок формирования координат, блок формирования функций принадлежности эталонного изображения объекта, блок формирования модулей разностей функций принадлежности, три блока формирования минимума, блок вычитания, два последовательных сумматора, два регистра, блок формирования показателя степени достоверности, блок формирования функций принадлежности наблюдаемого изображения объекта, блок преобразования функций принадлежности эталонного изображения объекта, блок преобразования функций принадлежности наблюдаемого изображения объекта.A device for recognizing objects is known (Patent No. 2223545 Russia, CL G06K 9/62). The invention relates to computing devices and can be used to recognize objects in the case when their reference and observed two-dimensional images are specified in the form of fuzzy sets. The technical result is the ability of the device to make decisions about the correspondence of the image of the observed object to the reference using fuzzy information according to the results of comparing the totality of neighboring elements, i.e. on a more informative basis. The technical result is achieved due to the fact that the device for recognizing objects contains a coordinate generation unit, a unit for generating membership functions of a reference image of an object, a unit for generating modules of differences in membership functions, three minimum formation blocks, a subtraction unit, two sequential adders, two registers, an indicator generating unit confidence level, unit for forming membership functions of the observed image of the object, block for transforming membership functions reference th object image conversion unit of membership functions of the observed image of the object.

Наиболее близким к предлагаемому является устройство для распознавания объектов (Патент №2246762 Россия, кл. G06K 9/68). Изобретение относится к области устройств вычислительной техники и может быть использовано для распознавания объектов, когда эталонные и наблюдаемые двумерные изображения заданы в виде нечетких множеств. Техническим результатом является расширение функциональных возможностей устройства за счет обеспечения распознавания требуемого объекта в группе объектов или при пространственном положении наблюдаемого объекта. Указанный результат достигается за счет того, что устройство содержит блок формирования координат, блок формирования функций принадлежности эталонного изображения объекта, блок формирования модулей разностей функции принадлежности, три блока формирования минимума, блок вычитания, два последовательных сумматора, два регистра, блок формирования показателя степени достоверности, блок формирования функций принадлежности наблюдаемого изображения объекта, блок памяти, блок выделения признака объекта, входы которого соединены с выходами блока памяти, регистр признака объекта и дешифратор.Closest to the proposed is a device for object recognition (Patent No. 2246762 Russia, CL G06K 9/68). The invention relates to the field of computing devices and can be used to recognize objects when the reference and observed two-dimensional images are specified in the form of fuzzy sets. The technical result is to expand the functionality of the device by providing recognition of the desired object in the group of objects or in the spatial position of the observed object. The specified result is achieved due to the fact that the device contains a coordinate generation unit, a unit for generating membership functions of the reference image of the object, a block for generating modules of differences of the membership function, three minimum generation blocks, a subtraction block, two sequential adders, two registers, a confidence level indicator generation unit, a block for generating membership functions of the observed image of an object, a memory block, a block for allocating a feature of an object whose inputs are connected to outputs a memory block, an object attribute register, and a decoder.

Недостатком этого устройства является отсутствие инвариантности к аффинным преобразованиям и освещению объекта и, следовательно, низкая точность распознавания.The disadvantage of this device is the lack of invariance for affine transformations and illumination of the object and, therefore, low recognition accuracy.

Технической задачей устройства является повышение точности распознавания изображения и обеспечение инвариантности к аффинным преобразованиям поворота и масштабирования.The technical task of the device is to increase the accuracy of image recognition and ensure invariance to affine transformations of rotation and scaling.

Техническая задача решается тем, что в качестве эталона хранится не ряд плоских проекций, которые содержат различные ракурсы объекта, а его трехмерное представление в векторном виде. При распознавании трехмерный образ поворачивается, каждый раз генерируется ряд плоских изображений, пока не удастся найти совпадение. При решении данной задачи путем непосредственного перебора всех вариантов затраты машинного времени велики, поэтому для предварительной обработки используется ряд параметров объекта, класс, к которому относится данный объект, габаритные размеры.The technical problem is solved by the fact that, as a reference, not a series of flat projections that contain various angles of an object is stored, but its three-dimensional representation in vector form. Upon recognition, the three-dimensional image is rotated, each time a series of flat images are generated until a match can be found. When solving this problem by directly sorting through all the options, the cost of machine time is high, therefore, a number of object parameters, the class to which this object belongs, and overall dimensions are used for preliminary processing.

Сущность изобретения поясняется чертежом, где представлена структурная схема устройства распознавания изображения, использующего векторные эталонные изображения.The invention is illustrated in the drawing, which shows a structural diagram of an image recognition device using vector reference images.

Устройство для распознавания изображений объектов содержит блок ввода изображения (БВИ) 1, блок, обрабатывающий входное изображение (БОВИ) 2, который выделяет габаритный контейнер, просчитывает необходимые коэффициенты, блок анализа изображения и последующего кодирования (БАИиК) 3, блок, подсчитывающий разность в цвете пикселей в градациях серого исходного и эталонного изображений (БПРЦ) 4, персептронный блок (ПБ) 5, реализующий персептрон, используемый для распознавания изображения, блок сохранения параметров идентифицированного объекта (БСП) 6, блок, извлекающий данные из запоминающего устройства и производящий сравнение параметров (ИЗБиСП) 7, блок для просчета проекции (БПП) 8, выполняющий расчет проекции трехмерной векторной модели изображения эталонного объекта, генератор весов для персептрона (ГВП) 9, стек для накопления полученных изображений (СПИ) 10, запоминающее устройство с параметрами имеющихся эталонов (ЗУПЭ) 11, блок для преобразования векторного изображения (БПВИ) 12, выполняющий поворот и масштабирование векторного трехмерного объекта, блок, выбирающий трехмерный эталон по переданным параметрам и сохраняющий необходимые данные (БВЭиСД) 13, блок, пересылающий параметры "похожих" изображений (БПППИ) 14 в блок, выбирающий трехмерный эталон по переданным параметрам и сохраняющий необходимые данные (БВЭиСД), запоминающее устройство с эталонными изображениями в векторном формате (ЗУЭВИ) 15, устройство для коммуникации с ЭВМ (УКЭВМ) 16, причем выход блока ввода изображения (БВИ) является входом блока обрабатывающего входное изображение (БОВИ); первый выход блока, обрабатывающего входное изображение (БОВИ), является входом блока анализа изображения и последующего кодирования (БАИиК), а второй выход блока, обрабатывающего входное изображение (БОВИ), подсоединен к первому входу блока, подсчитывающего разность в цвете (БПРЦ); в свою очередь выход блока анализа изображения и последующего кодирования (БАИиК) соединен со входом блока, извлекающего данные из запоминающего устройства и производящего сравнение параметров (ИЗБиСП); выход блока, извлекающего данные из запоминающего устройства и производящего сравнение параметров (ИЗБиСП), соединен со входом запоминающего устройства, хранящего параметры имеющихся эталонов (ЗУПЭ); выход запоминающего устройства, хранящего параметры имеющихся эталонов (ЗУПЭ), соединен с первым входом запоминающего устройства с эталонными изображениями в векторном формате (ЗУЭВИ); первый выход запоминающего устройства с эталонными изображениями в векторном формате (ЗУЭВИ) является входом блока для преобразования векторного изображения (БПВИ), второй выход запоминающего устройства с эталонными изображениями в векторном формате (ЗУЭВИ) соединен с первым входом блока, выбирающего трехмерный эталон по переданным параметрам и сохраняющего необходимые данные (БВЭиСД); выход блока для преобразования векторного изображения (БПВИ) является входом блока для просчета проекции (БПП); первый выход блока для просчета проекции (БПП) соединен с вторым входом блока, подсчитывающего разность в цвете (БПРЦ), второй выход блока для просчета проекции (БПП) соединен с входом генератора весов персептрона (ГВП), а третий выход блока для просчета проекции (БПП) соединен с вторым входом блока, пересылающего параметры "похожих" изображений (БПППИ); выход блока, подсчитывающего разность в цвете (БПРЦ), является первым входом персептронного блока (ПБ); выход генератора весов персептрона (ГВП) соединен с вторым входом персептронного блока (ПБ); а выход персептронного блока (ПБ) является входом блока сохранения параметров (БСП); выход блока сохранения параметров (БСП) соединен со входом стека для накопления полученных изображений (СПИ); выход стека для накопления полученных изображений (СПИ) является первым входом блока, пересылающего параметры "похожих" изображений (БПППИ); выход блока, пересылающего параметры "похожих" изображений (БПППИ) является вторым входом блока, выбирающего трехмерный эталон по переданным параметрам и сохраняющего необходимые данные (БВЭиСД); первый выход блока, выбирающего трехмерный эталон по переданным параметрам и сохраняющего необходимые данные (БВЭиСД), подсоединен к второму входу запоминающего устройства с эталонными изображениями в векторном формате (ЗУЭВИ); второй выход блока, выбирающего трехмерный эталон по переданным параметрам и сохраняющего необходимые данные (БВЭиСД), является входом устройства для коммуникации с ЭВМ (УКЭВМ); устройство для коммуникации с ЭВМ (УКЭВМ) имеет порт сопряжения с ЭВМ. A device for recognizing images of objects contains an image input unit (BVI) 1, an input image processing unit (BOVI) 2 that selects a dimensional container, calculates the necessary coefficients, an image analysis and subsequent coding unit (BAIIK) 3, a unit that calculates the color difference pixels in the grayscale of the source and reference images (BPRC) 4, the perceptron block (PB) 5 that implements the perceptron used for image recognition, the unit for storing the parameters of the identified object (BSP) 6, a block that extracts data from the storage device and compares the parameters (ISBiSP) 7, a block for calculating the projection (BPP) 8, calculating the projection of a three-dimensional vector model image of the reference object, a weight generator for the perceptron (GWP) 9, stack for the accumulation of received images (SPI) 10, a storage device with the parameters of existing standards (ZUPE) 11, a block for converting a vector image (BPVI) 12, performing rotation and scaling of a vector three-dimensional object, a block that selects three-dimensional a standard according to the transferred parameters and storing the necessary data (BVEiSD) 13, a block that sends the parameters of "similar" images (BPPI) 14 to a block that selects a three-dimensional standard according to the transferred parameters and storing the necessary data (BVEiSD), a memory device with the reference images in vector format (ZUEVI) 15, a device for communication with a computer (UKEVM) 16, and the output of the image input unit (BVI) is the input of the block processing the input image (BOVI); the first output of the block that processes the input image (BOVI) is the input of the block for image analysis and subsequent coding (BAIIiK), and the second output of the block that processes the input image (BOVI) is connected to the first input of the block that calculates the color difference (BPRC); in turn, the output of the image analysis and subsequent coding unit (BAIiK) is connected to the input of the unit that extracts data from the storage device and compares the parameters (ISIS); the output of the unit that extracts data from the storage device and compares the parameters (IZBiSP), is connected to the input of the storage device that stores the parameters of existing standards (ZUPE); the output of the storage device storing the parameters of existing standards (ZUPE) is connected to the first input of the storage device with reference images in a vector format (ZUEVI); the first output of the storage device with reference images in a vector format (ZUEVI) is the input of a block for converting a vector image (BPVI), the second output of a storage device with reference images in a vector format (ZUEVI) is connected to the first input of a block that selects a three-dimensional standard according to the transferred parameters and storing the necessary data (BVEiSD); the output of the block for converting a vector image (BPVI) is the input of the block for calculating the projection (BPP); the first output of the block for calculating the projection (BPP) is connected to the second input of the block calculating the difference in color (BPRC), the second output of the block for calculating the projection (BPP) is connected to the input of the perceptron weights generator (GWP), and the third output of the block for calculating the projection ( BPP) is connected to the second input of the block sending parameters of "similar" images (BPPI); the output of the block that calculates the difference in color (BPRC) is the first input of the perceptron block (BOP); the output of the perceptron weight generator (GWP) is connected to the second input of the perceptron block (PB); and the output of the perceptron block (BSP) is the input of the parameter storage block (BSP); the output of the parameter storage unit (BSP) is connected to the input of the stack for the accumulation of received images (SPI); the output of the stack for the accumulation of received images (SPI) is the first input of the block that sends the parameters of "similar" images (BPPI); the output of the block that sends the parameters of "similar" images (BPPI) is the second input of the block that selects a three-dimensional standard according to the transferred parameters and stores the necessary data (BVEiSD); the first output of the block, which selects a three-dimensional standard according to the transferred parameters and stores the necessary data (BVEiSD), is connected to the second input of the storage device with the reference images in vector format (ZUEVI); the second output of the block, which selects a three-dimensional standard according to the transferred parameters and stores the necessary data (BVEiSD), is the input of a device for communication with a computer (UKEVM); a device for communication with a computer (UKEVM) has a port for interfacing with a computer.

Устройство работает следующим образом.The device operates as follows.

Входное изображение подается на блок ввода изображения (БВИ), который преобразует палитру изображения к градациям серого и передает полученные данные в блок, обрабатывающий входное изображение (БОВИ). Блок, обрабатывающий входное изображение (БОВИ), выделяет габаритный контейнер и просчитывает ряд коэффициентов: общее количество пикселей, отличных от цвета фона, соотношение сторон габаритного контейнера. После этого посредством блока анализа изображения и последующего кодирования (БАИиК) осуществляется кодирование изображения: разделение на 25 зон (5×5), в каждой из которых вычисляется количество пикселей, отличных от фона», если значение больше заданного порога, то зоне присваивается код «1», иначе «0». Получившаяся последовательность представляет собой двоичный код изображения. Далее блок, извлекающий данные из запоминающего устройства и производящий сравнение параметров (ИЗБиСП), извлекает из запоминающего устройства, содержащего параметры имеющихся эталонов (ЗУПЭ), хранящиеся там параметры имеющихся эталонов и сравнивает с данными, полученными в результате анализа блоком анализа изображения и последующего кодирования (БАИиК) и блока, обрабатывающего входное изображение (БОВИ). Если найдено соответствие, то из запоминающего устройства, содержащего эталонные изображения в векторном формате (ЗУЭВИ 15), извлекается соответствующая векторная модель эталонного объекта. Блок для преобразования векторного изображения (БПВИ) выполняет необходимые преобразования: поворот, масштабирование и передает данные в блок для просчета проекции (БПП), который преобразует векторное изображение в соответствующую плоскую проекцию: карты байтов, используя в качестве палитры градации серого со значениями в диапазоне от 0 до 256. На основе полученных из блока для просчета проекции (БПП) данных генератор весов персептрона (ГВП) генерирует веса для персептроного блока (ПБ). В качестве веса используется отношение количества пикселей, отличных от фона в заданной зоне, к общему количеству пикселей, изображения отличных от фона. Далее посредством блока, пересылающего параметры "похожих" изображений (БПППИ), выполняется попиксельно сравнение исходного изображения и проекции эталона. Сравнение производится в соответствии с заданным пороговым значением. В качестве входных данных для персептронного блока (ПБ) используется количество «схожих» пикселей зоны. Персептрон в персептронном блоке (ПБ) имеет 25 входов, соответственно изображение делится на 25 частей (5Х5), как упоминалось выше, и необходимые параметры вычисляются для каждой зоны. Решающий элемент персетронного блока (ПБ), реализующий пороговую либо сигмовидную функцию, определяет идентифицировано изображение или нет. Параметры всех идентифицированных изображений заносятся в стек для накопления полученных изображений (СПИ), откуда впоследствии извлекаются блоком, выбирающим трехмерный эталон» по переданным параметрам и сохраняющим необходимые данные (БВЭиСД), для передачи в устройство для коммуникации с ЭВМ (УКЭВМ), которое реализует интерфейс обмена данными с ЭВМ. Блок, выбирающий трехмерный эталон по переданным параметрам и сохраняющий необходимые данные (БВЭиСД), посредством запоминающего устройства, содержащего эталонные изображения в векторном формате (ЗУЭВИ), блока для преобразования векторного изображения (БПВИ) и блока для просчета проекции (БПП) может также передать в ЭВМ соответствующее векторное изображение либо проекцию идентифицированного объекта.The input image is fed to the image input block (BVI), which converts the image palette to grayscale and transfers the received data to the block processing the input image (BOVI). The block processing the input image (BOVI) selects the overall container and calculates a number of factors: the total number of pixels other than the background color, the aspect ratio of the overall container. After that, using the image analysis and subsequent coding unit (BAIiK), the image is encoded: divided into 25 zones (5 × 5), in each of which the number of pixels other than the background is calculated ", if the value is greater than a predetermined threshold, the code is assigned to the zone" 1 ", otherwise" 0 ". The resulting sequence is a binary image code. Next, the unit that extracts data from the storage device and compares the parameters (ISBiSP), extracts from the storage device containing the parameters of the available standards (ZUPE), the parameters of the available standards stored there and compares it with the data obtained as a result of the analysis by the image analysis unit and subsequent encoding ( BAIIK) and the block processing the input image (BOVI). If a match is found, then the corresponding vector model of the reference object is extracted from the storage device containing the reference images in a vector format (ZUEVI 15). The block for converting a vector image (BPVI) performs the necessary transformations: rotation, scaling, and transfers the data to a block for calculating the projection (BPP), which converts the vector image into the corresponding flat projection: byte maps, using gray as a palette with values ranging from 0 to 256. Based on the data received from the block for calculating the projection (BPP), the perceptron weight generator (GWP) generates weights for the perceptron block (PB). As the weight, the ratio of the number of pixels other than the background in a given area to the total number of pixels, images other than the background, is used. Further, by means of a block sending parameters of “similar” images (BIPPI), a comparison of the source image and the projection of the reference is performed pixel by pixel. Comparison is performed in accordance with a given threshold value. As input data for the perceptron block (PB), the number of “similar” pixels of the zone is used. The perceptron in the perceptron block (PB) has 25 inputs, respectively, the image is divided into 25 parts (5X5), as mentioned above, and the necessary parameters are calculated for each zone. The decisive element of the persetron block (SB), which implements a threshold or sigmoid function, determines whether the image is identified or not. The parameters of all identified images are pushed onto the stack to accumulate the received images (SPI), from where they are subsequently retrieved by the unit that selects the three-dimensional standard "according to the transferred parameters and stores the necessary data (BVEiSD), for transmission to a device for communication with a computer (UKEVM), which implements the interface computer data exchange. A block that selects a three-dimensional standard according to the transferred parameters and stores the necessary data (BVEiSD), through a storage device containing reference images in a vector format (ZUEVI), a block for converting a vector image (BPVI) and a block for calculating the projection (BPP) can also transmit Computer corresponding vector image or projection of the identified object.

Claims (2)

1. Способ компьютерного распознавания объектов, программа которого предусматривает предварительное приведение изображения объекта, вводимого в компьютер, к нормальному, стандартному для данного способа видоизменения масштаба, поворот в требуемое положение, центрирование, вписание в прямоугольник требуемого размера, преобразование изображения объекта в изображение, выполненное в градациях - различных степенях яркости одного цвета, на которое последовательно, поочередно накладываются изображения хранящихся в памяти компьютера шаблонов, отличающийся тем, что эталонное изображение хранят в виде векторной трехмерной модели, для каждой такой модели фиксируют набор параметров для аффинных преобразований: углы поворота по осям х, у, z, масштаб; этот набор параметров определяют для каждой модели с учетом сложности ее формы с тем, чтобы наиболее точно произвести идентификацию; производят следующую последовательность действий: получают векторную трехмерную модель эталонного объекта путем геометрического построения, затем, изменяя ее положение в пространстве (поворот, отражение, масштабирование), получают ряд вышеуказанных параметров, которые сохраняют и используют в дальнейшем при распознавании для воссоздания соответствующего ракурса эталона объекта; плоское изображение представляют в виде двумерного массива, элементами которого являются значения от 0 до 255 - градации серого цвета; помимо указанных параметров в набор включают дополнительно соотношение сторон габаритного изображения контейнера объекта и кодированное представление объекта, которое позволяет определить его положение внутри габаритного контейнера, кодирование производят разбиением габаритного контейнера на 25 одинаковых областей и определением наличия части объекта в каждой из них, таким образом получают 25-битный код данного ракурса объекта в двоичном виде: если часть изображения объекта находится в области, то ее помечают единицей; иначе нулем, код получают перебором значений меток в областях слева направо, сверху вниз, на вход распознавателя подают изображение, представленное массивом пикселей в градациях серого, то есть каждый элемент массива имеет значение от 0 до 255, размерность массива зависит от параметров дискретизации изображения, распознавание производят следующим образом: определяют габаритный контейнер входного изображения объекта, затем кодируют вышеуказанным способом, исходя из отношения сторон габаритного контейнера и полученного кода, выбирают набор параметров из базы эталонов, затем выполняют преобразование векторной модели эталонного объекта соответственно установленным ранее параметрам: поворот и масштабирование, после чего строят плоское изображение модели эталона, которое сравнивают с поданным на вход изображением посредством нейросети персептрон, сравнение производят путем анализа градаций серого для каждой дискретной области изображения, причем производят попиксельное сравнение, затем находят модуль разности для каждой пары пикселей изображения, поданного на вход распознавателя и полученной проекции векторной модели эталонного объекта, и сравнивают его с пороговым значением, полученные данные подают на вход нейросети персептрон, в зависимости от значения функции активации которой принимают решение о схожести проекции векторной модели эталонного объекта и входного изображений.1. A method of computer recognition of objects, the program of which provides a preliminary reduction of the image of the object entered into the computer to a normal, standard for this method of zooming, rotation to the desired position, centering, inscribing into the rectangle of the required size, converting the image of the object into an image made in gradations - various degrees of brightness of one color, on which images stored in the computer’s memory are sequentially and alternately overlapped s, characterized in that the reference image stored in the form of a three-dimensional vector model, a model for each set of fixed parameters for affine transformations of rotation angles of the axes x, y, z, zoom; this set of parameters is determined for each model, taking into account the complexity of its shape in order to most accurately identify; the following sequence of actions is performed: a vector three-dimensional model of the reference object is obtained by geometric construction, then, changing its position in space (rotation, reflection, scaling), a series of the above parameters are obtained, which are saved and used in the future for recognition to recreate the corresponding angle of the object’s standard; a flat image is represented in the form of a two-dimensional array, the elements of which are values from 0 to 255 - gradations of gray color; in addition to these parameters, the set also includes the aspect ratio of the overall image of the container of the object and the encoded representation of the object, which allows you to determine its position inside the overall container, coding is performed by dividing the overall container into 25 identical areas and determining the presence of a part of the object in each of them, thus obtaining 25 -bit code of this aspect of the object in binary form: if part of the image of the object is in the area, then it is marked with a unit; otherwise, zero, the code is obtained by enumerating the values of the labels in areas from left to right, from top to bottom, an image represented by an array of pixels in grayscale is fed to the input of the recognizer, that is, each element of the array has a value from 0 to 255, the dimension of the array depends on the image sampling parameters, recognition produced as follows: determine the overall container of the input image of the object, then encode the above method, based on the aspect ratio of the overall container and the resulting code, choose the parameters from the base of the standards, then the vector model of the reference object is converted according to the previously established parameters: rotation and scaling, after which a flat image of the model of the standard is constructed, which is compared with the input image via the perceptron neural network, the comparison is made by analyzing gray gradations for each discrete area of the image, and perform pixel-by-pixel comparison, then find the difference module for each pair of pixels of the image fed to the input p identifier and the obtained projection of the vector model of the reference object, and compare it with the threshold value, the received data is fed to the input of the perceptron neural network, depending on the value of the activation function of which they decide on the similarity of the projection of the vector model of the reference object and the input image. 2. Устройство для распознавания изображений объектов, отличающееся тем, что содержит блок ввода изображения (БВИ), блок, обрабатывающий входное изображение (БОВИ), выделяет габаритный контейнер, просчитывает необходимые коэффициенты, блок анализа изображения и последующего кодирования (БАИиК), блок, подсчитывающий разность в цвете пикселей в градациях серого (БПРЦ) исходного и эталонного изображений, персептронный блок (ПБ), реализующий персептрон, используемый для распознавания изображения, блок сохранения параметров (БСП) идентифицированного объекта, блок, извлекающий данные из запоминающего устройства и производящий сравнение параметров (ИЗБиСП), блок, выполняющий просчет 3D изображения и получения плоской проекции, блок для просчета проекции (БПП), генератор весов для персептрона (ГВП), стек для накопления полученных изображений (СПИ), запоминающее устройство с параметрами имеющихся эталонов (ЗУПЭ), блок для преобразования векторного изображения (БПВИ): поворот, масштаб, блок, выбирающий трехмерный эталон по переданным параметрам и сохраняющий необходимые данные (БВЭиСД), блок, пересылающий параметры "похожих" изображений (БПППИ) в блок, выбирающий трехмерный эталон по переданным параметрам и сохраняющий необходимые данные (БВЭиСД), запоминающее устройство с эталонными изображениями в векторном формате (ЗУЭВИ), устройство для коммуникации с ЭВМ (УКЭВМ), причем выход блока ввода изображения (БВИ) является входом блока, обрабатывающего входное изображение (БОВИ); первый выход блока, обрабатывающего входное изображение (БОВИ), является входом блока анализа изображения и последующего кодирования (БАИиК), а второй выход блока, обрабатывающего входное изображение (БОВИ), подсоединен к первому входу блока, подсчитывающего разность в цвете (БПРЦ); в свою очередь выход блока анализа изображения и последующего кодирования (БАИиК) соединен со входом блока, извлекающего данные из запоминающего устройства и производящего сравнение параметров (ИЗБиСП); выход блока, извлекающего данные из запоминающего устройства и производящего сравнение параметров (ИЗБиСП), соединен со входом запоминающего устройства, хранящего параметры имеющихся эталонов (ЗУПЭ); выход запоминающего устройства, хранящего параметры имеющихся эталонов, (ЗУПЭ) соединен с первым входом запоминающего устройства с эталонными изображениями в векторном формате (ЗУЭВИ); первый выход запоминающего устройства с эталонными изображениями в векторном формате (ЗУЭВИ) является входом блока для преобразования векторного изображения (БПВИ), второй выход запоминающего устройства с эталонными изображениями в векторном формате (ЗУЭВИ) соединен с первым входом блока, выбирающего трехмерный эталон по переданным параметрам и сохраняющего необходимые данные (БВЭиСД); выход блока для преобразования векторного изображения (БГТВИ) является входом блока для просчета проекции (БПП); первый выход блока для просчета проекции (БПП) соединен с вторым входом блока, подсчитывающего разность в цвете (БПРЦ), второй выход блока для просчета проекции (БПП) соединен с входом генератора весов персептрона (ГВП), а третий выход блока для просчета проекции (БПП) соединен с вторым входом блока, пересылающего параметры "похожих" изображений (БПППИ); выход блока, подсчитывающего разность в цвете (БПРЦ), является первым входом персептронного блока (ПБ); выход генератора весов персептрона (ГВП) соединен с вторым входом персептронного блока (ПБ); а выход персептронного блока (ПБ) является входом блока сохранения параметров (БСП); выход блока сохранения параметров (БСП) соединен со входом стека для накопления полученных изображений (СПИ); выход стека для накопления полученных изображений (СПИ) является первым входом блока, пересылающего параметры "похожих" изображений (БПППИ); выход блока, пересылающего параметры "похожих" изображений, (БПППИ) является вторым входом блока, выбирающего трехмерный эталон по переданным параметрам и сохраняющего необходимые данные (БВЭиСД); первый выход блока, выбирающего трехмерный эталон по переданным параметрам и сохраняющего необходимые данные (БВЭиСД), подсоединен к второму входу запоминающего устройства с эталонными изображениями в векторном формате (ЗУЭВИ); второй выход блока, выбирающего трехмерный эталон по переданным параметрам и сохраняющего необходимые данные (БВЭиСД), является входом устройства для коммуникации с ЭВМ (УКЭВМ); устройство для коммуникации с ЭВМ (УКЭВМ) имеет порт сопряжения с ЭВМ. 2. A device for recognizing images of objects, characterized in that it contains an image input unit (BVI), a block that processes the input image (BOVI), selects the overall container, calculates the necessary coefficients, an image analysis and subsequent coding unit (BAIIK), a block that counts the difference in the color of pixels in grayscale (BPRC) of the original and reference images, the perceptron block (BOP) that implements the perceptron used for image recognition, the parameter storage unit (BSP) identifications of an object, a block that extracts data from a storage device and compares parameters (IISB), a block that performs 3D image rendering and flat projection, a block for projection calculation (BPP), a perceptron (GWP) scale generator, a stack for accumulating received images (SPI), a storage device with the parameters of existing standards (ZUPE), a block for converting a vector image (BPVI): rotation, scale, a block that selects a three-dimensional standard according to the transferred parameters and stores the necessary data (BVEiS D), a unit that sends the parameters of "similar" images (BPPI) to a unit that selects a three-dimensional standard according to the transferred parameters and stores the necessary data (BVEiSD), a storage device with reference images in a vector format (ZUEVI), a device for communicating with a computer (UKEVM) ), and the output of the image input unit (BVI) is the input of the block processing the input image (BOVI); the first output of the block that processes the input image (BOVI) is the input of the block for image analysis and subsequent coding (BAIIiK), and the second output of the block that processes the input image (BOVI) is connected to the first input of the block that calculates the color difference (BPRC); in turn, the output of the image analysis and subsequent coding unit (BAIiK) is connected to the input of the unit that extracts data from the storage device and compares the parameters (ISIS); the output of the unit that extracts data from the storage device and compares the parameters (IZBiSP), is connected to the input of the storage device that stores the parameters of existing standards (ZUPE); the output of the storage device storing the parameters of existing standards (ZUPE) is connected to the first input of the storage device with reference images in a vector format (ZUEVI); the first output of the storage device with reference images in a vector format (ZUEVI) is the input of a block for converting a vector image (BPVI), the second output of a storage device with reference images in a vector format (ZUEVI) is connected to the first input of a block that selects a three-dimensional standard according to the transferred parameters and storing the necessary data (BVEiSD); the output of the block for converting a vector image (BHTV) is the input of the block for calculating the projection (BPP); the first output of the block for calculating the projection (BPP) is connected to the second input of the block calculating the difference in color (BPRC), the second output of the block for calculating the projection (BPP) is connected to the input of the perceptron weights generator (GWP), and the third output of the block for calculating the projection ( BPP) is connected to the second input of the block sending parameters of "similar" images (BPPI); the output of the block that calculates the difference in color (BPRC) is the first input of the perceptron block (BOP); the output of the perceptron weight generator (GWP) is connected to the second input of the perceptron block (PB); and the output of the perceptron block (BSP) is the input of the parameter storage block (BSP); the output of the parameter storage unit (BSP) is connected to the input of the stack for the accumulation of received images (SPI); the output of the stack for the accumulation of received images (SPI) is the first input of the block that sends the parameters of "similar" images (BPPI); the output of the block that sends the parameters of "similar" images (BPPI) is the second input of the block that selects a three-dimensional standard according to the transferred parameters and stores the necessary data (BVEiSD); the first output of the block, which selects a three-dimensional standard according to the transferred parameters and stores the necessary data (BVEiSD), is connected to the second input of the storage device with the reference images in vector format (ZUEVI); the second output of the block, which selects a three-dimensional standard according to the transferred parameters and stores the necessary data (BVEiSD), is the input of a device for communication with a computer (UKEVM); a device for communication with a computer (UKEVM) has a port for interfacing with a computer.
RU2007109075/09A 2007-03-12 2007-03-12 Method and device for identifying object images RU2361273C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2007109075/09A RU2361273C2 (en) 2007-03-12 2007-03-12 Method and device for identifying object images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2007109075/09A RU2361273C2 (en) 2007-03-12 2007-03-12 Method and device for identifying object images

Publications (2)

Publication Number Publication Date
RU2007109075A RU2007109075A (en) 2008-09-20
RU2361273C2 true RU2361273C2 (en) 2009-07-10

Family

ID=39867602

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2007109075/09A RU2361273C2 (en) 2007-03-12 2007-03-12 Method and device for identifying object images

Country Status (1)

Country Link
RU (1) RU2361273C2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8615137B2 (en) 2009-07-13 2013-12-24 Gurulogic Microsystems Oy Method for recognizing pattern, pattern recognizer and computer program
RU2538319C1 (en) * 2013-06-13 2015-01-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Южно-Российский государственный университет экономики и сервиса" (ФГБОУ ВПО "ЮРГУЭС") Device of searching image duplicates
EA022480B1 (en) * 2010-12-23 2016-01-29 Тельман Аббас Оглы Алиев Method of detection and identification of patterns and ornaments, and intelligent-information system for its implementation
US9598836B2 (en) 2012-03-29 2017-03-21 Harnischfeger Technologies, Inc. Overhead view system for a shovel
US9957690B2 (en) 2011-04-29 2018-05-01 Harnischfeger Technologies, Inc. Controlling a digging operation of an industrial machine
RU2672622C1 (en) * 2017-09-18 2018-11-16 Российская Федерация, от имени которой выступает Федеральное государственное казенное учреждение "Войсковая часть 68240" Method of recognition of graphic images of objects
RU2778906C1 (en) * 2021-03-23 2022-08-29 Акционерное общество Научно-производственное предприятие "Авиационная и Морская Электроника" Method for automatically recognizing scenes and objects in an image

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8615137B2 (en) 2009-07-13 2013-12-24 Gurulogic Microsystems Oy Method for recognizing pattern, pattern recognizer and computer program
EA022480B1 (en) * 2010-12-23 2016-01-29 Тельман Аббас Оглы Алиев Method of detection and identification of patterns and ornaments, and intelligent-information system for its implementation
US9957690B2 (en) 2011-04-29 2018-05-01 Harnischfeger Technologies, Inc. Controlling a digging operation of an industrial machine
US9598836B2 (en) 2012-03-29 2017-03-21 Harnischfeger Technologies, Inc. Overhead view system for a shovel
RU2625438C2 (en) * 2012-03-29 2017-07-13 Харнишфигер Текнолоджиз, Инк. Top imaging system for excavator
RU2538319C1 (en) * 2013-06-13 2015-01-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Южно-Российский государственный университет экономики и сервиса" (ФГБОУ ВПО "ЮРГУЭС") Device of searching image duplicates
RU2672622C1 (en) * 2017-09-18 2018-11-16 Российская Федерация, от имени которой выступает Федеральное государственное казенное учреждение "Войсковая часть 68240" Method of recognition of graphic images of objects
RU2778906C1 (en) * 2021-03-23 2022-08-29 Акционерное общество Научно-производственное предприятие "Авиационная и Морская Электроника" Method for automatically recognizing scenes and objects in an image

Also Published As

Publication number Publication date
RU2007109075A (en) 2008-09-20

Similar Documents

Publication Publication Date Title
Wang et al. Matchformer: Interleaving attention in transformers for feature matching
Zhou et al. To learn or not to learn: Visual localization from essential matrices
CN110738207B (en) Character detection method for fusing character area edge information in character image
CN110532920B (en) Face recognition method for small-quantity data set based on FaceNet method
CN112766244B (en) Target object detection method and device, computer equipment and storage medium
CN111310731B (en) Video recommendation method, device, equipment and storage medium based on artificial intelligence
US9811718B2 (en) Method and a system for face verification
CN110163193B (en) Image processing method, image processing device, computer-readable storage medium and computer equipment
CN112052839A (en) Image data processing method, apparatus, device and medium
CN107808129A (en) A kind of facial multi-characteristic points localization method based on single convolutional neural networks
RU2361273C2 (en) Method and device for identifying object images
US20150043828A1 (en) Method for searching for a similar image in an image database based on a reference image
CN108334805B (en) Method and device for detecting document reading sequence
CN110222718B (en) Image processing method and device
CN111507357B (en) Defect detection semantic segmentation model modeling method, device, medium and equipment
CN111783748A (en) Face recognition method and device, electronic equipment and storage medium
CN110598638A (en) Model training method, face gender prediction method, device and storage medium
CN111652273A (en) Deep learning-based RGB-D image classification method
Sun et al. Vicinity vision transformer
CN104598898B (en) A kind of Aerial Images system for rapidly identifying and its method for quickly identifying based on multitask topology learning
US11853394B2 (en) Image multiprocessing method for vision systems
Khan et al. Building discriminative features of scene recognition using multi-stages of inception-ResNet-v2
CN109784379B (en) Updating method and device of textile picture feature library
CN109583584B (en) Method and system for enabling CNN with full connection layer to accept indefinite shape input
CN116881886A (en) Identity recognition method, identity recognition device, computer equipment and storage medium

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20090529