WO2021118386A1 - Способ получения набора объектов трехмерной сцены - Google Patents

Способ получения набора объектов трехмерной сцены Download PDF

Info

Publication number
WO2021118386A1
WO2021118386A1 PCT/RU2019/000926 RU2019000926W WO2021118386A1 WO 2021118386 A1 WO2021118386 A1 WO 2021118386A1 RU 2019000926 W RU2019000926 W RU 2019000926W WO 2021118386 A1 WO2021118386 A1 WO 2021118386A1
Authority
WO
WIPO (PCT)
Prior art keywords
objects
image
point
scene
dimensional
Prior art date
Application number
PCT/RU2019/000926
Other languages
English (en)
French (fr)
Inventor
Андрей Владимирович НОВИКОВ
Владимир Николаевич ГЕРАСИМОВ
Роман Александрович ГОРБАЧЕВ
Никита Евгеньевич ШВИНДТ
Владимир Иванович НОВИКОВ
Андрей Евгеньевич ЕФРЕМЕНКО
Дмитрий Леонидович ШИШКОВ
Михаил Нилович ЗАРИПОВ
Филипп Александрович КОЗИН
Алексей Михайлович СТАРОСТЕНКО
Original Assignee
федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (национальный исследовательский университет)"
Общество С Ограниченной Ответственностью "Нейроассистивные Технологии"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (национальный исследовательский университет)", Общество С Ограниченной Ответственностью "Нейроассистивные Технологии" filed Critical федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (национальный исследовательский университет)"
Priority to PCT/RU2019/000926 priority Critical patent/WO2021118386A1/ru
Publication of WO2021118386A1 publication Critical patent/WO2021118386A1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation

Definitions

  • the invention relates to systems and methods for recognizing objects of a three-dimensional scene, in particular, determining the true dimensions of objects in a three-dimensional scene from its two-dimensional images, and can be used for vision systems in robotics and other fields of technology, including for systems for manipulating objects designed for assistance to users with reduced mobility.
  • a disparity map is a visual display of shifts between equally spaced fragments of images of the left and right cameras (the closer the scene point is, the greater these shifts).
  • this "discrepancy" can be represented as a numeric array, the elements of which show the difference in pixels of the points of the right and left images, tied to one of them. Rectification of images from different angles (alignment of the right and left images horizontally) allows you to reduce the dimension of the array - to reduce it to two-dimensional. For ease of perception, this matrix is presented in a graphical form: the greater the discrepancy between the images, the brighter the corresponding pixels in the image.
  • Local algorithms calculate disparity separately for each pixel, while taking into account information only from its narrow neighborhood.
  • the algorithms mainly use square or rectangular windows of a fixed size and, according to some metric, compare the sums of the absolute values of the brightness within these 2 windows.
  • Such algorithms are characterized by high speed and computational efficiency. However, acceptable performance is only ensured if the pixel intensity function is smooth. At the boundaries of objects, where the intensity function breaks, the algorithms make a significant number of errors. Further development of the methods led to the emergence of multi-window algorithms and windows with an adaptive structure, which improved the quality of disparity calculation. But the "payment" for this was a significant increase in operating time, which often leads to the impossibility of analyzing images in real time.
  • Global algorithms are based on calculating the disparity simultaneously for the entire image, with each pixel of the image influencing the decision in all other pixels. Global algorithms differ both in the form of unary and pair potentials, and in the minimization algorithms and the structure of the graph. Despite the fact that, as a rule, in terms of efficiency, global algorithms are superior to local ones, the obtained disparity maps are not free from errors caused by those simplifications that were originally incorporated into the formula for the energy functional. Moreover, global algorithms are slower.
  • Semi-global, or partially global, methods are a reasonable compromise between fast, but imprecise local methods and more accurate, but slow global, allowing rational use of their "strengths".
  • the idea of the methods consists in the independence of the solution for each pixel, taking into account the influence of all (or a part not limited by the local neighborhood) of the remaining pixels of the image.
  • One of the best known implementations of the partially global stereo matching method is the Semi-Global Matching (hereinafter also SGM) method, described, for example, in Heiko Hirschmuller. Accurate and Efficient Stereo Processing by Semi-Global Matching and Mutual Information. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), San Diego, CA, USA, June 20-26, 2005.
  • SGM Semi-Global Matching
  • the graph in the algorithm does not contain cycles and is a tree of a fixed shape: a collection of rays emanating from one point. Such a graph is constructed for each pixel, and then several passes are made along all rays emanating from this pixel.
  • the global minimum is calculated using dynamic programming methods.
  • the SGM method is considered to be the most practical or functional method for use in real-time systems. This provides both a high quality depth map and, compared to most other algorithms, a low need for processing power and memory.
  • the disparity map is constructed as follows:
  • the SGM method is applied to the obtained pair of images, or stereopair, in which for each point with coordinates in pixels (x, y) on the left image from the stereopair, the corresponding point on the right image of the stereopair is found, and the distribution d (x, y ) - disparity, which determines how many pixels on the right image this point is to the left than on the left image, that is, on the right image the coordinates of this point will be (xd, y). If each point of the left image (x, y) is compared with its disparity d, a disparity map is obtained.
  • An example of using the SGM method is a method for determining a depth map from pairs of stereo images disclosed in US patent US 10,223,802, in which the corresponding disparity for at least one corresponding pixel of one of the pairs of stereo images is determined from a discrete number of predetermined disparity values that are distributed throughout a predetermined the range of mismatch values with a distribution that has at least two different intervals between different adjacent disparity values.
  • a method for determining a depth map comprises the steps of obtaining one pair of stereo images; providing, in the estimator, a predetermined set of discrete disparity values that cover a range of disparity values, the intervals between successive disparity values including first intervals and second intervals, the first intervals having a value less than the value of the second intervals; determining the corresponding inequality for the corresponding pixel of the reference image of at least one pair of stereo images, containing the selection of the corresponding inequality from among discrete disparity values in a predetermined set; and determining the corresponding depth value for the corresponding pixel by calculating from the corresponding disparity that was determined for the corresponding pixel.
  • the known method of object recognition developed by P. Viola and M.J. Jones (R. Viola, MJ Jones. Robust Real-Time Face Detection International Journal of Computer Vision 57 (2), 137-154, 2004) (hereinafter also the Viola-Jones method), also known as Haar cascades, providing a relatively high speed and relatively low required computing power.
  • the disadvantage of this method is the increased sensitivity to training data, which in further may lead to the impossibility of identifying an object if such an object is located in conditions that are very different from the conditions of the training sample (for example, in low scene illumination, the presence of aperiodic noise in the form of shadows, etc.).
  • One such area is robotic systems designed to assist users, including those with low or limited mobility.
  • the invention according to US patent application US2007016425 is aimed at improving the quality of life of a user suffering from paralysis, and consists in real-time recognition of a three-dimensional scene registered by the stereoscopic module of the assistance system for the user, for subsequent transfer of the obtained data to the manipulation module of the specified assistance system.
  • Recognition includes identifying an object within a specified scene.
  • the assistance system contains a manipulation module, a vision module and a data processing and storage module. Through a vision module that includes an eye tracking module user, the scene is registered in which the intended object of interest of the user is located. The data obtained during the registration of the scene is processed and transmitted to the manipulation module.
  • the manipulation module may include at least one manipulator for manipulating an object.
  • the technical result of the claimed invention is to improve the recognition accuracy of objects of complex and random colors, transparent objects, complexly colored objects on a complexly colored background, including such patterns and colors that were not and could not be in the training set.
  • the claimed technical result is achieved in the claimed method for obtaining a set of objects of a three-dimensional scene, in which images of frames from the left camera and the right camera (as part of a stereo camera) are simultaneously obtained, for each image point with pixel coordinates a disparity map is formed by the method of semi-global establishment of stereo correspondences , according to it, the true coordinates of the specified point are determined, a map of the depths of points in true coordinates is formed, a two-dimensional image in a gray scale is formed, in which the brightness of a point depends on the true distance to a point, and on the obtained two-dimensional image in a gray scale, detection and identification of objects by one of methods selected from the Viola-Jones method, the SSD-mobilenet neural network method and the Mask R-CNN neural network method, with obtaining a set of objects of a three-dimensional scene.
  • the disparity map is formed by the method of semi-global establishment of stereo correspondences.
  • the true coordinates of a point are determined taking into account the focal lengths of the stereo camera cameras and the distance between them.
  • the brightness of a point is assumed to be zero if the true distance to it is outside the specified range.
  • the claimed method for obtaining a set of objects of a three-dimensional scene includes the following steps.
  • a disparity map is formed by the method of semi-global establishment of stereo correspondences with obtaining disparity d (x, y) for each image point with pixel coordinates (x, y).
  • a depth map D (x, y) is formed, where D is the true distance from the left camera or right camera to the point with pixel coordinates (x, y),
  • a two-dimensional gray-scale image is formed, in which the brightness F (x, y) of a point with pixel coordinates (x, y) is determined by the formulas:
  • ⁇ (x, y) 255, if D (x, y)> Dmax,
  • objects are detected and identified by one of the methods selected from the Viola-Jones method, the SSD-mobilenet neural network method and the Mask R-CNN neural network method, to obtain a set of objects in a three-dimensional scene.
  • the main feature of the claimed method which distinguishes it from known analogs, is that the detection and identification of objects is performed not on the image of points in pixel coordinates, but on a two-dimensional image in gray scale (preferably 8-bit), in which the brightness of the point depends on the true distance to the point, i.e. from the true coordinates of the point.
  • gray scale preferably 8-bit
  • the detection and identification of objects is performed not on the image of points in pixel coordinates, but on a two-dimensional image in gray scale (preferably 8-bit), in which the brightness of the point depends on the true distance to the point, i.e. from the true coordinates of the point.
  • not patterns, drawings, inscriptions on objects, etc. are subjected to detection and identification, but the dark silhouettes of objects on a light background. Since the background is more distant than objects, and there is some distance between the background and the objects, then the background in a two-dimensional image in grayscale is lighter than objects, and there is a contrasting border between the background and the objects
  • Objects appear compact, contrasting dark silhouettes precisely because they are closer to the background, and the closer the subject, the darker the silhouette of the subject.
  • periodic, quasi-periodic and stochastic patterns in general, the transparency properties of the background and objects do not affect the detection and identification process, because only the geometric silhouette obtained from the depth map is processed, and at this stage there is no data on the color and optical characteristics of the object. since they were eliminated at the stage of stereo reconstruction, when, instead of a visible two-dimensional image, they work with a depth map, which does not contain data on the coloring of the object.
  • stereo reconstruction is used as a filter that removes interference-generating factors of coloring and transparency of objects and the background, so that even a simple presentation of a flat image of an object, such as a photograph, to cameras, will be recognized as a flat photographic object.
  • the effectiveness of the method is due to the fact that the result of stereo reconstruction is incomparably more resistant to interference-generating factors than the stage of detection and identification of objects, and due to this, more stable and accurate detection and identification of objects with complex coloring, with full or partial transparency, etc. ...
  • the detection and identification of objects to obtain a set of objects of a three-dimensional scene is performed by one of the methods selected from the Viola-Jones method, the SSD-mobilenet neural network method and the Mask R-CNN neural network method.
  • Viola-Jones method it is preferable if the image area is viewed using a sliding procedure, since objects can be present anywhere in the image.
  • a sliding window is a window whose size first coincides with the scene image, then proportionally decreases with a given step, for example, 0.1 step from the window size in the previous step. For each window size, this window sequentially covers various parts of the scene image and checks for the presence of an object of interest in the window.
  • a sliding window is used in the tasks of detecting an object in an image to cover all areas that may be occupied by an object, with subsequent checking by the appropriate classifier of the location of objects in the window. It is also preferable if a training sample is formed and the classifier is trained before the stage of object detection and identification.
  • training the classifier includes the presentation of the test image by a vector of features, establishing the belonging of the image to a certain class of images, assessing the classification correctness, and in the event of an output error, at least one of the description of the image class and the object model is corrected, and the formation of an averaged object related class of images, and the rules by which the classification is carried out most accurately.
  • a color image is considered as a set of numbers (features), which are used to detect an object.
  • a trained object detector is a description of what the input image should be (size and color); a description of how the input image is converted into a set of features-numbers for feeding to the detector input (line-by-line reading and normalization); and the trained object detector itself, which gives either a binary judgment (Viola-Jones method) or a "correctness assessment", that is, the weight of an object belonging to a given category, for example: an object is 97% cat, 2% dog, 1% brick. Select the category with the maximum weight.
  • the formation of a training sample includes the selection of objects on a flat color image, the formation for each object of the first sample of the object from the flat color image and the second sample of the object from the corresponding section of the disparity map.
  • the training sample is applied until the recognition accuracy reaches a predetermined value, at which, in particular, the probability of an error of the first kind (not to detect an existing object) and the probability of an error of the second kind (detection of an object that is actually absent) is less than a predetermined value ( usually ranges from 0.001 to 0.01), and the relative positioning error (the ratio of the area of the difference between the frames of objects to the area of combining the frames), for example, is less than 0.1.
  • the choice of specific methods of neural networks SSD-mobilenet and Mask R-CNN is due to the fact that in this class of tasks SSD-mobilenet optimally combines the quality and speed of recognition when selecting an object with a rectangular frame, and Mask R-CNN optimally combines the quality and speed of recognition when building a binary a mask that covers the object as accurately as possible, when the relative difference between the area bounded by the boundary of the object and the area covered by the mask is minimal.
  • the relative difference of areas is the ratio of the area of the difference of areas to the area of their union.
  • a universal relative criterion for the proximity of two frames is used - the ratio of the area of the symmetric difference of the frames (that is, the areas that are inside one frame, but outside the other) to the area of the union of the two frames.
  • the method of detecting and identifying objects is used, which will ensure the maximum quality of object detection.
  • the choice of a method for detecting and identifying objects is carried out on the basis of scene analysis, background analysis and environmental analysis, in particular, on the basis of empirical data on the best detection method for a given scene structure. For example, if an object is classified as an object of a fixed known shape (for example, a round apple, a cylindrical glass), then the data of the Viola-Jones method classifier or the data of the SSD-mobilenet neural network method classifier is sufficient, since they will determine the class of the object and draw with sufficient accuracy the bounding box of the object.
  • a fixed known shape for example, a round apple, a cylindrical glass
  • the shape of an object can change greatly (protrusions, bends, depressions may appear in rather arbitrary places), it will be preferable to use the Mask R-CNN neural network method, which, among other things, will allow you to determine the shape of the object, indicating the true current shape with a binary mask object.
  • the claimed method was repeatedly tested on various objects of complex shapes and textures, including when recognizing transparent objects and objects of unknown (random) color, as well as a complex background.
  • a 640x480 video mode was used for the left camera and the right camera. stereo cameras.
  • the distance to the objects varied from 1 to 5 m, the characteristic dimensions of the objects were 0.03 to 0.5 meters.
  • the objects used were apples with a diameter of about 0.1 m, made of papier-mâché, cardboard and plastic glasses with a capacity of 0.25-0.5 liters, glass and plastic bottles of the same capacity, and others.
  • Panda-mâché apples were monochrome green, yellow, red; glasses and bottles were used transparent, monochrome, as well as with various colored patterns and designs on the side surfaces.
  • the left frame shows an image from a stereo camera
  • the right frame shows the corresponding depth map (color images were converted into grayscale images).
  • Rectangular frames mark the result of the work of the classifier, jointly processing the chromaticity and depth data (the frames on the left and right frames are identical).
  • the capture of transparent objects (plastic bottles) by the classifier is visible precisely due to their clear display on the depth map.
  • a drawing applied to an object can play a camouflage role, that is, interfere with the recognition of an object or cause recognition of the applied two-dimensional image instead of the actual object.
  • the claimed method is devoid of this drawback.
  • the claimed method for obtaining a set of objects of a three-dimensional scene performs recognition of objects of complex and random colors, transparent objects, complexly colored objects on a complexly colored background, and such patterns and colors that were not and could not be in the training set.
  • the method allows you to search for objects not only for a given purpose, but also for objects of a form factor convenient for packaging, convenient for manipulating a given manipulator model, etc.
  • the implementation of the method does not have special requirements for hardware resources, since it comes down to stereo reconstruction and methods for detecting and identifying objects such as Viola-Jones methods, SSD-mobilenet neural networks and Maek R-CNN, which means it is fast and easy to use.

Abstract

Изобретение относится к системам и способам распознавания объектов трехмерной сцены, в частности, определения истинных размеров объектов трехмерной сцены по ее двухмерным изображениям. Способ получения набора объектов трехмерной сцены включает одновременное получение изображения кадров с камер стереокамеры, формирование карты диспаратности методом полуглобального установления стереосоответствий для каждой точки изображения с пиксельными координатами, определение истинных координат указанной точки, формирование карты глубин точек в истинных координатах, формирование двухмерного изображения в шкале серого, в котором яркость точки зависит от истинного расстояния до точки, и выполнение детекции и идентификации объектов одним из методов, выбранных из метода Виолы-Джонса, метода нейронной сети SSD-mobilenet и метода нейронной сети Mask R-CNN, с получением набора объектов трехмерной сцены. При этом карту диспаратности формируют методом полуглобального установления стереосоответствий. Истинные координаты точки определяют с учетом фокусных расстояний камер стереокамеры и расстоянием между ними. Яркость точки принимается равной нулю, если истинное расстояние до нее выходит за заданный диапазон. Технический результат - повышение точности распознавания объектов сложной и случайной расцветки, прозрачных объектов, сложно окрашенных объектов на сложно окрашенном фоне, в том числе таких узоров и окрасок.

Description

СПОСОБ ПОЛУЧЕНИЯ НАБОРА ОБЪЕКТОВ ТРЕХМЕРНОЙ СЦЕНЫ
Изобретение относится к системам и способам распознавания объектов трехмерной сцены, в частности, определения истинных размеров объектов трехмерной сцены по ее двухмерным изображениям, и может быть использовано для систем технического зрения в робототехнике и других областях техники, в том числе для систем манипулирования объектами, предназначенными для помощи пользователям с ограниченной подвижностью.
Известно множество разных способов построения трехмерных сцен, в частности, получения трехмерной информации по множеству двухмерных изображений сцены. Эта задача является одной из наиболее сложных в компьютерном анализе изображений и в настоящий момент решена только для ряда частных случаев. Для ее решения требуется предварительное построение карты диспаратности.
Карта диспаратности - это визуальное отображение сдвигов между одинаково расположенными фрагментами снимков левой и правой камер (чем ближе находится точка сцены, тем эти сдвиги больше). Как известно, это «расхождение» можно представить как числовой массив, элементы которого показывают разность в пикселах точек правого и левого изображений, привязанную к одному из них. Ректификация разноракурсных изображений (выравнивание правого и левого снимков по горизонтали) позволяют уменьшить размерность массива - свести его к двумерному. Для удобства восприятия эта матрица представляется в графическом виде: чем больше расхождение между снимками, тем светлее соответствующие пикселы изображения.
Для построения карт диспаратности используется ряд алгоритмов, в целом подразделяющихся на три класса: локальные, глобальные и полуглобальные (частично глобальные).
Локальные алгоритмы рассчитывают диспаратность в отдельности для каждого пиксела, при этом учитывая информацию лишь из узкой его окрестности. Алгоритмы используют, в основном, квадратные или прямоугольные окна фиксированного размера и по какой-либо метрике сравнивают суммы абсолютных значений яркости внутри этих 2 окон. Такие алгоритмы характеризуются высокой скоростью и вычислительной эффективностью. Однако приемлемое качество работы обеспечивается только при условии гладкости функции интенсивности пикселей. На границах объектов, где функция интенсивности терпит разрыв, алгоритмы допускают значительное количество ошибок. Дальнейшее развитие методов привело к появлению многооконных алгоритмов и окон с адаптивной структурой, что улучшило качество расчета диспаратности. Но «платой» за это стало значительное увеличение времени работы, что зачастую приводит к невозможности анализа изображений в реальном времени.
Глобальные алгоритмы основаны на вычислении диспаратности одновременно для всего изображения, при этом каждый пиксел изображения оказывает влияние на решение во всех остальных пикселах. Глобальные алгоритмы различаются как видом унарного и парного потенциалов, так и алгоритмами минимизации и структурой графа. Несмотря на то, что, как правило, по результативности глобальные алгоритмы превосходят локальные, полученные карты диспаратности не свободны от ошибок, обусловленных теми упрощениями, которые изначально заложены в формулу для функционала энергии. При этом глобальные алгоритмы являются более медленными.
Полуглобальные, или частично глобальные, способы являются разумным компромиссом между быстрыми, но неточными локальными методами и более точными, но медленными глобальными, позволяющим рационально использовать их «сильные стороны». Идея методов состоит в независимости решения для каждого пиксела с учетом влияния всех (или части, не ограниченной локальной окрестностью) остальных пикселов изображения.
Одной из наиболее известных реализаций способа частично глобального установления стереосоответствий является метод Semi-Global Matching (далее также SGM), описанный, например, в Heiko Hirschmuller. Accurate and Efficient Stereo Processing by Semi-Global Matching and Mutual Information. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), San Diego, CA, USA, June 20-26, 2005. Граф в алгоритме не содержит циклов и представляет собой дерево фиксированной формы: совокупность лучей, выходящих из одной точки. Такой граф строится для каждого пиксела, а затем осуществляются несколько проходов по всем лучам, исходящим из этого пиксела. Глобальный минимум вычисляется методами динамического программирования.
Метод SGM считается наиболее практичным или функциональным методом для использования в системах реального времени. Это обеспечивает как высокое качество карты глубины, так и, по сравнению с большинством других алгоритмов, низкую потребность в вычислительной мощности и памяти.
Построение карты диспаратности осуществляют следующим образом:
1) получают два изображения с левой и правой монокамер стереокамеры;
2) к полученной паре изображений, или стереопаре, применяют метод SGM, при котором для каждой точки с координатами в пикселах (х,у) на левом снимке со стереопары находят соответствующую ей точку на правом снимке стереопары, и находят распределение d(x,y) - диспаратность, определяющую, на сколько пикселов на правом снимке эта точка левее, чем на левом снимке, то есть на правом снимке координаты этой точки будут (x-d,y). Если каждой точке левого снимка (х,у) сопоставить ее диспаратность d, получается карта диспаратности.
Далее, зная координаты точки (х, у) и диспаратность d, получают истинные координаты (C,U,Z) данной точки в пространстве по следующим формулам:
X=(X-Q00+Q03)/W,
Y=(yQll+Q13)/W,
Z=Q23/W, где W=d Q32+Q33, a Q00, Q03, Qll, Q13, Q23 - постоянные, вычисляемые по фокусным расстояниям монокамер стереокамеры и по расстоянию между монокамерами. Указанные постоянные вычисляются один раз и больше не меняются.
Примером использования метода SGM является способ определения карты глубины из пар стереоизображений, раскрытый в патенте США US 10223802, в котором соответствующее несоответствие, по меньшей мере, для одного соответствующего пикселя одной из пар стереоизображений определяется из дискретного количества предопределенных значений несоответствия, которые распределены по всему предопределенному диапазону значений несоответствия с распределением, которое имеет по меньшей мере два разных интервала между разными соседними значениями диспаратности. Еще в одном варианте реализации способ определения карты глубины содержит этапы получения одной пары стереоизображений; предоставления в блоке оценки предварительно определенного набора дискретных значений диспаратности, которые охватывают диапазон значений диспаратности, причем интервалы между последовательными значениями диспаратности включают в себя первые интервалы и вторые интервалы, причем первые интервалы имеют величину, меньшую, чем величина вторые интервалы; определения соответствующего неравенства для соответствующего пикселя опорного изображения, по меньшей мере, одной пары изображений стерео, содержащего выбор соответствующего неравенства из числа дискретных значений несоразмерности в заранее определенном наборе; и определения соответствующего значение глубины для соответствующего пикселя путем вычисления из соответствующего несоответствия, которое было определено для соответствующего пикселя.
С целью дальнейшей экономии вычислительных мощностей проводились разработки, направленные на оптимизацию метода SGM. Так, в патенте США US9704253 предлагается определять диспаратность для объектов, находящихся вдали от плоскости камеры, с удвоенным разрешением; а для объектов, находящихся вблизи от плоскости камеры, определение диспаратности проводят с обычным разрешением. Таким образом, удается получить более точную карту глубин, в том числе для объектов, находящихся на удалении от плоскости камеры.
Для решения задачи идентификации объекта на сформированной модулем технического зрения двумерной карте глубин применяются методы машинного обучения.
Известен способ распознавания объектов, разработанный П. Виолой и М.Дж. Джонсом (Р. Viola, M.J. Jones. Robust Real-Time Face Detection International Journal of Computer Vision 57(2), 137-154, 2004 ) (далее также метод Виолы-Джонса), также известный как каскады Хаара, обеспечивающий относительно высокую скорость и сравнительно низкую потребную вычислительную мощность. Недостатком этого способа является повышенная чувствительность к обучающим данным, что в дальнейшем может привести к невозможности идентификации объекта, если такой объект окажется расположенным в условиях, сильно отличающихся от условий обучающей выборки (например, при слабом освещении сцены, наличии апериодических помех в виде теней и т.п.).
Еще одним известным способом распознавания объектов является применение нейронных сетей. Так, в заявке на патент Китая CN109398688 раскрыто применение нейронной сети с архитектурой SSD-mobilenet для распознавания в режиме реального времени объекта с передачей полученных данных манипулятору транспортного средства. А в публикации Kaiming Не, Georgia Gkioxari, Piotr Dollar Ross Girshick. Mask R-CNN (опубликовано 24.01.2018, доступно по ссылке в сети Интернет https://arxiv.org/pdf/1703.06870.pdf) предложена нейронная сеть архитектуры Mask Region-Based Convolutional Neural Network (сокращенно Mask R-CNN), которая обеспечивает высокую точность распознавания объектов даже в неблагоприятной среде сцены. Однако в сравнении с методом Виолы-Джонса и нейронной сетью архитектуры SSD-mobilenet, сеть архитектуры Mask R-CNN требует, со слов разработчиков, ориентировочно в 20 раз больше вычислительного времени при равных вычислительных мощностях.
Указанные выше способы находят широкое применение в совершенно разных областях техники. Одной из таких областей являются роботизированные системы, предназначенные для помощи пользователям, в том числе с низкой или ограниченной подвижностью.
Так, изобретение согласно заявке на патент США US2007016425 направлено на повышение качества жизни пользователя, страдающего параличом, и заключается в распознавании в режиме реального времени трехмерной сцены, регистрируемой стереоскопическим модулем системы содействия пользователю, для последующей передачи полученных данных модулю манипуляции указанной системы содействия. Распознавание включает в себя идентификацию объекта, находящегося в пределах указанной сцены. Система содействия содержит модуль манипуляции, модуль технического зрения и модуль обработки и хранения данных. Посредством модуля технического зрения, который включает модуль отслеживания положения глаз пользователя, регистрируется сцена, в которой расположен предполагаемый объект интереса пользователя. Данные, полученные при регистрации сцены, обрабатываются и передаются модулю манипуляции. Модуль манипуляции может включать по меньшей мере один манипулятор для манипулирования объектом.
Применение системы технического зрения для содействия пользователю с нарушениями зрения раскрыто в заявке на патент США US2007016425. Предлагается распознавать положение объектов в пространстве и затем преобразовывать эти данные в сигналы, которые обеспечат тактильные ощущения пользователю, что позволит ощущать пространство и расположение предметов в пространстве. В качестве средства определения расстояния используется стереокамера, изображения с которой позволяют получить карту глубин. Для этого строят карту диспаратности, которую затем преобразуют в карту глубин. Данные с карты глубин далее направляются в тактильный интерфейс для формирования тактильных ощущений пациента. Недостатком этого известного решения является отсутствие средств и методов распознавания объектов, находящихся в пространстве. Другим недостатком является рекомендуемый алгоритм вычисления диспаратности и карты глубин, который требует большой вычислительной мощности.
У описанных выше, а также других известных способов распознавания объектов есть недостатки. Во-первых, для повышения точности и эффективности требуются мощные вычислительные системы. Во-вторых, известные способы с большими ошибками или вообще не работают со сложными объектами сцен, такими как объекты сложной и случайной расцветки, прозрачные объекты, сложно окрашенные объекты на сложно окрашенном фоне и т.п.
Таким образом, существует задача разработки такого способа распознавания объектов трехмерной сцены, который позволяет надежно работать со сложными объектами, как перечислены выше, не требуя при этом исключительных вычислительных ресурсов.
Техническим результатом заявленного изобретения является повышение точности распознавания объектов сложной и случайной расцветки, прозрачных объектов, сложно окрашенных объектов на сложно окрашенном фоне, в том числе таких узоров и окрасок, которых не было и не могло быть в обучающей выборке.
Поставленная задача решается, а заявленный технический результат достигается в заявленном способе получения набора объектов трехмерной сцены, в котором одновременно получают изображения кадров с левой камеры и правой камеры (в составе стереокамеры), для каждой точки изображения с пиксельными координатами формируют карту диспаратности методом полуглобального установления стереосоответствий, по ней определяют истинные координаты указанной точки, формируют карту глубин точек в истинных координатах, формируют двухмерное изображение в шкале серого, в котором яркость точки зависит от истинного расстояния до точки, и на полученном двухмерном изображении в шкале серого выполняют детекцию и идентификацию объектов одним из методов, выбранных из метода Виолы- Джонса, метода нейронной сети SSD-mobilenet и метода нейронной сети Mask R-CNN, с получением набора объектов трехмерной сцены. При этом карту диспаратности формируют методом полуглобального установления стереосоответствий. Истинные координаты точки определяют с учетом фокусных расстояний камер стереокамеры и расстояния между ними. Яркость точки принимается равной нулю, если истинное расстояние до нее выходит за заданный диапазон.
В частности, заявленный способ получения набора объектов трехмерной сцены включает следующие шаги.
Обеспечивают по существу одновременное получение левого кадра с левой камеры и правого кадра с правой камеры при съемке сцены.
Формируют карту диспаратности способом полуглобального установления стереосоответствий с получением диспаратности d(x,y) для каждой точки изображения с пиксельными координатами (х,у).
Определяют истинные координаты (C,U,Z) точки с пиксельными координатами (х,у) по формулам:
X=(X-Q00+Q03)/W,
Y=(yQll+Q13)/W,
Z=Q23/W, где W=d-Q32+Q33, a Q00, Q03, Q11, Q13, Q23 - постоянные, определяемые фокусными расстояниями левой камеры и правой камеры и расстоянием между левой камерой и правой камерой.
Формируют карту глубин D(x,y), где D - истинное расстояние от левой камеры или правой камеры до точки с пиксельными координатами (х,у),
Формируют двухмерное изображение в шкале серого, в котором яркость Ф(х,у) точки с пиксельными координатами (х,у) определяют по формулам:
Ф(х,у) = 0, если D(x,y) < Dmin,
Ф(х,у) = 255, если D(x,y) > Dmax,
Ф(х,у) = 255 (D(x,y) - Dmin)/(Dmax - Dmin) - в остальных случаях, где Dmin и Dmax - заданные соответственно минимальное и максимальное значения глубины, определяемые из контекста применения заявленного способа. Например, если стереокамера обслуживает манипулятор для захвата и перемещения объектов с диаметром рабочей зоны манипулятора 3 м, при этом находясь на расстоянии 1,5 м от центра рабочей зоны, можно взять Dmin=0,2 м, полагая, что в более ближней к стереокамере зоне манипуляции не планируются, a Dmax=5 м, чтобы гарантированно отображать рабочую зону манипулятора и ее окрестность, т.е. задав запас примерно 0,3 м и 0,5 м соответственно от ближней границы рабочей зоны манипулятора и от дальней границы рабочей зоны манипулятора.
На полученном двухмерном изображении в шкале серого выполняют детекцию и идентификацию объектов одним из методов, выбранных из метода Виолы- Джонса, метода нейронной сети SSD-mobilenet и метода нейронной сети Mask R-CNN, с получением набора объектов трехмерной сцены.
Главной особенностью заявленного способа, отличающего его от известных аналогов, является то, что детекцию и идентификацию объектов выполняют не на изображении точек в пиксельных координатах, а на двухмерном изображении в шкале серого (предпочтительно, 8-битного), в котором яркость точки зависит от истинного расстояния до точки, т.е. от истинных координат точки. При этом детектированию и идентификации подвергают не узоры, рисунки, надписи на объектах и т.п., а темные силуэты объектов на светлом фоне. Поскольку фон является более удаленным, чем объекты, и между фоном и объектами есть некоторое расстояние, то фон на двухмерном изображении в шкале серого светлее объектов, причем есть контрастная граница между фоном и объектами. Объекты выглядят компактными, контрастными темными силуэтами именно потому, что они расположены ближе, чем фон, и чем ближе объект, тем темнее силуэт объекта. Как следствие, периодические, квазипериодические и стохастические узоры, вообще свойства прозрачности фона и объектов не влияют на процесс детекции и идентификации, потому что обрабатывается только геометрический силуэт, полученный из карты глубин, а на этом этапе данные о цветовых и оптических характеристиках объекта уже отсутствуют, т.к. они были отсеяны на этапе стереореконструкции, когда вместо видимого двумерного изображения работают с картой глубин, на которой отсутствуют данные о раскраске объекта.
Устойчивость предложенного способа обусловлена тем, что при непосредственном анализе изображений, как это принято в аналогах, помехообразующие факторы раскраски и прозрачности влияют непосредственно на менее устойчивый к ошибкам алгоритм 20-распознавания. В заявленном способе изображения сначала проводят стереореконструкцию, результат которой несравнимо более устойчив к помехообразующим факторам, и получаемая карта глубин не подвержена данным факторам. Иными словами, стереореконструкция используется как фильтр, удаляющий помехообразующие факторы раскраски и прозрачности объектов и фона, так что даже простое поднесение к камерам плоского изображения объекта, например фотографии, будет распознано именно как плоский объект-фотография. При этом эффективность способа обусловлена тем, что результат стереореконструкции несравнимо более устойчив к помехообразующим факторам, чем этап детекции и идентификации объектов, и за счет этого производится более устойчивая и точная детекция и идентификация объектов со сложной раскраской, с полной или частичной прозрачностью и т.п.
Детекцию и идентификацию объектов для получения набора объектов трехмерной сцены выполняют одним из методов, выбранных из метода Виолы- Джонса, метода нейронной сети SSD-mobilenet и метода нейронной сети Mask R-CNN. При выборе метода Виолы- Джонса является предпочтительным, если область изображения просматривают с применением процедуры скользящего, поскольку объекты могут присутствовать в любом месте изображения. Скользящее окно - это окно, размер которого вначале совпадает с изображением сцены, затем пропорционально уменьшается с заданным шагом, например, шагом 0,1 от размеров окна на предыдущем шаге. При каждом размере окна данным окном последовательно накрывают различные участки изображения сцены и выполняют проверку наличия объекта интереса в окне. Скользящее окно применяется в задачах детектирования объекта на изображении для накрытия им всех участков, которые могут быть заняты объектом, с последующей проверкой соответствующим классификатором нахождения объектов в окне. Также предпочтительно, если формируют обучающую выборку и проводят обучение классификатора до этапа детекции и идентификации объектов. При этом обучение классификатора включает в себя представление тестового изображения вектором признаков, установление принадлежности изображения определенному классу изображений, оценку правильности классификации, причем в случае ошибки вывода корректируют по меньшей мере одно из описания класса изображений и модели объекта, и формирование усредненного объекта, относящегося к данному классу изображений, и правила, по которому классификация осуществляется наиболее точно. Например, цветное изображение рассматривается как набор чисел (признаков), по которым производится детектирование объекта. Обученный детектор объектов — это описание, каким должно быть входное изображение (размер и цветность); описание, каким способом входное изображение преобразуют в набор признаков-чисел для подачи на вход детектора (построчное чтение и нормировка); и собственно сам обученный детектор объектов, дающий либо бинарное суждение (метод Виолы- Джонса) либо «оценку правильности», то есть вес принадлежности объекта к заданной категории, например: объект на 97% кошка, на 2% собака, на 1% кирпич. Выбирают категорию, вес которой максимален.
Для реализации метода Виолы-Джонса можно использовать функцию cvHaarDetectObjectsQ открытой библиотеки OpenCV. При выборе метода нейронной сети SSD-mobilenet или метода нейронной сети Mask R-CNN также предпочтительно, если формируют обучающую выборку и проводят обучение классификатора до этапа детекции и идентификации объектов. При этом формирование обучающей выборки включает выделение объектов на плоском цветном изображении, формирование для каждого объекта первого образца объекта из плоского цветного изображения и второго образца объекта из соответствующего участка карты диспаратности. Обучающую выборку применяют до тех пор, пока точность распознавания не достигнет заданного значения, при котором, в частности, вероятность ошибки первого рода (не обнаружить наличествующий объект) и вероятность ошибки второго рода (детекция объекта, который на самом деле отсутствует) менее заданного значения (обычно варьируется от 0,001 до 0,01), а относительная ошибка позиционирования (отношение площади разности рамок объектов к площади объединения рамок), например, менее 0,1.
Выбор конкретных методов нейронный сетей SSD-mobilenet и Mask R-CNN обусловлен тем, что в данном классе задач SSD-mobilenet оптимально сочетает качество и скорость распознавания при выделении объекта прямоугольной рамкой, а Mask R-CNN оптимально сочетает качество и скорость распознавания при построении бинарной маски, максимально аккуратно накрывающей объект, когда относительная разность области, ограниченной границей объекта и области, накрытой маской, минимальна. Здесь относительная разность областей - это отношение площади разности областей к площади их объединения. Данные нейронные сети могут быть реализованы, например, в среде tensorflow как приложение на языке Python.
Так как для каждого используемого метода детекции и идентификации объектов обучение происходит не в реальном времени (т.е. затраты времени на него слабо лимитированы), а также обученный классификатор можно тиражировать столько раз, сколько нужно, целесообразно обучить все три классификатора, соответствующие указанным выше методам детекции и идентификации объектов.
Тогда появляется возможность использования классификатора, который обеспечит максимальное качество распознавания по следующим критериям: - устойчивость, минимальная зависимость от вида освещения и фоновых объектов сцены;
- минимизация ошибки первого рода, когда присутствующий на сцене объект не определяется, т.е. не распознается;
- минимизация ошибки второго рода, когда определяется объект, который на самом деле отсутствует;
- минимизация ошибок оценки форм-фактора, когда сформированная рамка объекта отличается от «истинной» рамки, ограничивающей объект. При этом используется универсальный относительный критерий близости двух рамок — отношение площади симметрической разности рамок (то есть участков, которые находятся внутри одной рамки, но вне другой), к площади объединения двух рамок.
В каждом случае применяется тот метод детекции и идентификации объектов, который обеспечит максимальное качество детектирования объектов. Выбор метода детекции и идентификации объектов осуществляют на основании анализа сцены, анализа фона и анализа окружения, в частности, на основании эмпирических данных о наилучшем методе детекции при данной структуре сцены. Например, если происходит классификация объекта как объекта фиксированной известной формы (например, круглое яблоко, цилиндрический стакан), то достаточно данных классификатора метода Виолы-Джонса или данных классификатора метода нейронной сети SSD- mobilenet, так как они определят класс объекта и с достаточной точностью отрисуют рамку, ограничивающую объект. В случае, если форма объекта может сильно меняться (могут появляться выступы, изгибы, впадины в достаточно произвольных местах), предпочтительней будет использовать метод нейронной сети Mask R-CNN, которая, помимо прочего, позволит определить формы объекта, указывая бинарной маской истинную текущую форму объекта.
Заявленный способ многократно испытывали на разных объектах сложной формы и текстуры, в том числе при распознавании прозрачных объектов и объектов неизвестной (случайной) окраски, а также сложном фоне.
При испытаниях заявленного способа получения набора объектов трехмерной сцены использовался видеорежим 640x480 для левой камеры и правой камеры стереокамеры. Расстояние до объектов варьировалось от 1 до 5 м, характерные размеры объектов составляли 0,03 до 0,5 метров. В качестве объектов использовались сделанные из папье-маше яблоки диаметром примерно 0,1 м, картонные и пластиковые стаканы емкостью 0, 25-0, 5л, стеклянные и пластиковые бутылки той же емкости, другое. Яблоки из папье-маше имели монохромную раскраску зеленого, желтого, красного цвета; стаканы и бутылки использовались прозрачные, монохромные, а также с различными цветными узорами и рисунками на боковых поверхностях.
Пример реализации заявленного способа приведен на фигуре. На левом кадре представлено изображение от стереокамеры, на правом кадре — соответствующая ему карта глубин (цветные изображения были переведены в изображения в градациях серого). Прямоугольными рамками выделен результат работы классификатора, совместно обрабатывающего данные цветности и глубины (рамки на левом и на правом кадре идентичны). Виден захват классификатором прозрачных объектов (пластиковых бутылок) именно за счет их четкого отображения на карте глубин.
При использовании способов-аналогов, основанных на распознавании двумерного изображения, прозрачные пластиковые бутылки не детектировались.
Кроме того, рисунок, нанесенный на объект, может выполнять маскировочную роль, то есть мешать распознаванию объекта либо вызвать распознавание нанесенного двумерного изображения вместо фактического объекта. Заявленный способ лишен и этого недостатка.
Таким образом, заявленный способ получения набора объектов трехмерной сцены выполняет распознавание объектов сложной и случайной расцветки, прозрачных объектов, сложно окрашенных объектов на сложно окрашенном фоне, причем таких узоров и окрасок, которых не было и не могло быть в обучающей выборке. Способ позволяет искать объекты не только заданного назначения, но и объекты форм-фактора, удобного для упаковки, удобного для манипуляций данной моделью манипулятора и т.д. При этом реализация способа не имеет особых требований к аппаратным ресурсам, поскольку сводится к стереореконструкции и методам детекции и идентификации объектов типа методов Виолы- Джонса, нейронных сетей SSD-mobilenet иМаэк R-CNN, а значит, быстр и прост в использовании.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ
1. Способ получения набора объектов трехмерной сцены, в котором выполняют следующие шаги: a) обеспечивают по существу одновременное получение левого кадра с левой камеры и правого кадра с правой камеры при съемке сцены,
B) формируют карту диспаратности способом полуглобального установления стереосоответствий с получением диспаратности d(x,y) для каждой точки изображения с пиксельными координатами (х,у), c) определяют истинные координаты (C,U,Z) точки с пиксельными координатами (х,у) по формулам
X=(x-Q00+Q03)/W,
Y=(yQll+Q13)/W,
Z=Q23/W, где W=d Q32+Q33, aQOO, Q03, Qll, Q13, Q23 - постоянные, определяемые фокусными расстояниями левой камеры и правой камеры и расстоянием между левой камерой и правой камерой, d) формируют карту глубин D(x,y), где D - истинное расстояние от левой камеры или правой камеры до точки с пиксельными координатами (х,у), e) формируют двухмерное изображение в шкале серого, в котором яркость Ф(х,у) точки с пиксельными координатами (х,у) определяют по формулам:
Ф(х,у)=0, если D(x,y)<Dmin,
Ф(х,у)=255, если D(x,y)>Dmax,
Ф(х,у)=255-(0(х,у)-Отт)/(Отах-Отт) - в остальных случаях, где Dmin и Dmax - заданные соответственно минимальное и максимальное значения глубины; f) на полученном двухмерном изображении в шкале серого выполняют детекцию и идентификацию объектов одним из методов, выбранных из метода Виолы- Джонса, метода нейронной сети SSD-mobilenet и метода нейронной сети Mask R-CNN, с получением набора объектов трехмерной сцены.
2. Способ по п. 1 , в котором этап f) выполняют методом Виолы- Джонса, причем область изображения просматривают с применением процедуры скользящего окна.
3. Способ по п. 2, в котором до начала этапа f) формируют обучающую выборку и проводят обучение классификатора.
4. Способ по п. 3, в котором обучение классификатора включает:
- представление тестового изображения вектором признаков, - установление принадлежности изображения определенному классу изображений,
- оценку правильности классификации, причем в случае ошибки вывода корректируют по меньшей мере одно из описания класса изображений и модели объекта, и
- формирование усредненного объекта, относящегося к данному классу изображений, и правила, по которому классификация осуществляется наиболее точно.
5. Способ по п. 1, в котором этап f) выполняют методом нейронной сети SSD-mobilenet.
6. Способ по п. 1, в котором этап f) выполняют методом нейронной сети Mask R-CNN.
7. Способ по п. 5 или 6, в котором до начала этапа f) формируют обучающую выборку и проводят обучение классификатора.
8. Способ по п. 7, в котором формирование обучающей выборки включает:
- выделение объектов на плоском цветном изображении, - формирование для каждого объекта первого образца объекта из плоского цветного изображения и второго образца объекта из соответствующего участка карты диспаратности.
9. Способ по п. 8, в котором обучение классификатора включает применение обучающей выборки до тех пор, пока точность распознавания не достигнет заданного значения.
10. Способ по п. 1, в котором на этапе 1) выбор метода детекции и идентификации объектов осуществляют на основании анализа сцены, анализа фона и анализа окружения.
PCT/RU2019/000926 2019-12-10 2019-12-10 Способ получения набора объектов трехмерной сцены WO2021118386A1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/RU2019/000926 WO2021118386A1 (ru) 2019-12-10 2019-12-10 Способ получения набора объектов трехмерной сцены

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2019/000926 WO2021118386A1 (ru) 2019-12-10 2019-12-10 Способ получения набора объектов трехмерной сцены

Publications (1)

Publication Number Publication Date
WO2021118386A1 true WO2021118386A1 (ru) 2021-06-17

Family

ID=76330532

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2019/000926 WO2021118386A1 (ru) 2019-12-10 2019-12-10 Способ получения набора объектов трехмерной сцены

Country Status (1)

Country Link
WO (1) WO2021118386A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568435A (zh) * 2021-09-24 2021-10-29 深圳火眼智能有限公司 一种基于无人机自主飞行态势感知趋势的分析方法与系统
CN116721109A (zh) * 2023-08-11 2023-09-08 合肥图迅电子科技有限公司 一种双目视觉图像半全局匹配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090226079A1 (en) * 2008-03-09 2009-09-10 Sagi Katz Identification of objects in a 3d video using non/over reflective clothing
US20170270680A1 (en) * 2013-01-14 2017-09-21 Conti Temic Microelectronic Gmbh Method for Determining Depth Maps from Stereo Images with Improved Depth Resolution in a Range

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090226079A1 (en) * 2008-03-09 2009-09-10 Sagi Katz Identification of objects in a 3d video using non/over reflective clothing
US20170270680A1 (en) * 2013-01-14 2017-09-21 Conti Temic Microelectronic Gmbh Method for Determining Depth Maps from Stereo Images with Improved Depth Resolution in a Range

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NEVIDIMOE ALEKSANDR VALENTINOVICH: "АНАЛИЗ И КОМБИНИРОВАНИЕ АЛГОРИТМОВ СТЕРЕОСОПОСТАВЛЕНИЯ", TOMSK, 2011, pages 1 - 34, XP055835703 *
VIOLA PAUL, JONES MICHAEL: "Rapid Object Detection using a Boosted Cascade of Simple Features", PROCEEDINGS OF THE 2001 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 14 December 2001 (2001-12-14), pages 1 - 9, XP055772450 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568435A (zh) * 2021-09-24 2021-10-29 深圳火眼智能有限公司 一种基于无人机自主飞行态势感知趋势的分析方法与系统
CN113568435B (zh) * 2021-09-24 2021-12-24 深圳火眼智能有限公司 一种基于无人机自主飞行态势感知趋势的分析方法与系统
CN116721109A (zh) * 2023-08-11 2023-09-08 合肥图迅电子科技有限公司 一种双目视觉图像半全局匹配方法
CN116721109B (zh) * 2023-08-11 2023-11-03 合肥图迅电子科技有限公司 一种双目视觉图像半全局匹配方法

Similar Documents

Publication Publication Date Title
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
US6768509B1 (en) Method and apparatus for determining points of interest on an image of a camera calibration object
CN108564109A (zh) 一种基于深度学习的遥感图像目标检测方法
CN106980852B (zh) 基于角点检测与匹配的药品识别系统及其识别方法
RU2431190C2 (ru) Способ и устройство распознавания рельефности лица
US20110025834A1 (en) Method and apparatus of identifying human body posture
CN109492714A (zh) 图像处理装置及其方法
CN106570491A (zh) 一种机器人智能互动的方法及智能机器人
JP2001524228A (ja) 機械視覚較正標的並びに画像内で標的の位置及び方向を決定する方法
CN108537286A (zh) 一种基于关键区域检测的复杂目标精准识别方法
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN111598065A (zh) 深度图像获取方法及活体识别方法、设备、电路和介质
CN111626241B (zh) 一种人脸检测方法及装置
WO2021118386A1 (ru) Способ получения набора объектов трехмерной сцены
CN115170792A (zh) 红外图像处理方法、装置及设备、存储介质
CN109344758B (zh) 基于改进局部二值模式的人脸识别方法
CN106625711A (zh) 一种定位机器人智能互动的方法
CN107145820B (zh) 基于hog特征和fast算法的双眼定位方法
RU2803287C1 (ru) Способ получения набора объектов трехмерной сцены
JPH11306348A (ja) 対象物検出装置及び対象物検出方法
KR101391667B1 (ko) 크기 변화에 강건한 범주 물체 인식을 위한 모델 학습 및 인식 방법
CN206363347U (zh) 基于角点检测与匹配的药品识别系统
KR20220118339A (ko) 치아색 결정 방법
CN105323460B (zh) 图像处理设备及其控制方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19955633

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19955633

Country of ref document: EP

Kind code of ref document: A1