WO2022146166A1 - Platform for step-by-step augmented reality technical instructions - Google Patents

Platform for step-by-step augmented reality technical instructions Download PDF

Info

Publication number
WO2022146166A1
WO2022146166A1 PCT/RU2020/000785 RU2020000785W WO2022146166A1 WO 2022146166 A1 WO2022146166 A1 WO 2022146166A1 RU 2020000785 W RU2020000785 W RU 2020000785W WO 2022146166 A1 WO2022146166 A1 WO 2022146166A1
Authority
WO
WIPO (PCT)
Prior art keywords
instructions
model
equipment
image
module
Prior art date
Application number
PCT/RU2020/000785
Other languages
French (fr)
Russian (ru)
Inventor
Дмитрий Анатольевич КУЗЬМЕНКО
Наталья Сергеевна ЛЕВЧЕНКО
Юрий Муратович НАБОКОВ
Егор Алексеевич НАРЫШКИН
Алексей Александрович ОСТРОВЕРХОВ
Тимофей Юрьевич САВИН
Иван Владимирович СОКОЛОВСКИЙ
Сергей Леонидович СОЛЯНИК
Юлия Петровна СОЛЯНИК
Original Assignee
Общество С Ограниченной Ответственностью "Спайдер Груп"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Спайдер Груп" filed Critical Общество С Ограниченной Ответственностью "Спайдер Груп"
Priority to PCT/RU2020/000785 priority Critical patent/WO2022146166A1/en
Publication of WO2022146166A1 publication Critical patent/WO2022146166A1/en

Links

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/22Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of characters or indicia using display control signals derived from coded signals representing the characters or indicia, e.g. with a character-code memory

Definitions

  • the invention relates to the field of computer analysis of images, in particular to the use of artificial intelligence (AI) to determine the types and models of objects of technology through the analysis of the image coming from the camera of the user's device, and the subsequent demonstration of instructions for the object of technology using augmented reality (AR) technology through visual linking hints to a real object of technology.
  • AI artificial intelligence
  • AR augmented reality
  • the presented solution can be used, at least in domestic conditions, when interacting with home appliances, as well as in industrial production when interacting with devices, including those requiring detailed study of regulatory documents.
  • US Pat. No. 9,324,229 B2, April 26, 2016, describes a head-mounted display by which a user looking at a suitably marked instrument panel can be provided with an overlay image with instructions for the operation and maintenance of the equipment directly superimposed on the instrument panel.
  • the head-mounted display provides the user with a magnified view of the object being viewed; a tracking mechanism, such as a camera, repeatedly determines the position and orientation of the head-mounted display relative to the object being viewed; and the computer system provides information for the expanded view and repeatedly updates the expanded view of the object being viewed based on the determined position and orientation of the display.
  • the tracking mechanism determines its position using one or more markers or beacons on the viewed object. Markers can be active or passive, including light-emitting diodes (LEDs) that emit invisible light.
  • LEDs light-emitting diodes
  • Patent KR 102171691 B1, 10/29/2020 describes a method and system for servicing a 3D printer based on augmented reality, which includes the steps of recognizing an auxiliary object of the 3D printer based on previously stored data when viewing the 3D printer through the camera of the user terminal; the formation of a virtual frame, including an auxiliary object; return of information about the camera coordinates for a certain point of the virtual frame; and outputting computer graphics with information about the auxiliary object recognized based on the coordinate information, and displaying it on the camera screen of the user terminal and captured on the camera screen of the user terminal based on augmented reality.
  • the closest analogue of the claimed invention is the technical solution disclosed in the application WO 2015125066 A1, 08/27/2015.
  • a system is described to facilitate the maintenance of equipment during field work by mobile technicians.
  • the system includes a server configured to store hardware configurations and service protocols; an equipment maintenance logger that communicates with a server, and a variety of smart glasses worn by field technicians, the system provides the field technician with interactive instructions that are displayed on the smart glass to help with field work.
  • this solution lacks the ability to recognize the type and model of equipment using computer technology, and the field technician determines the type and model of equipment manually on site, or performs maintenance on equipment whose type and model is already known and recognition is not required.
  • the technical problem to be solved by the claimed invention is to create a comprehensive scalable solution for determining the types and models of various objects of technology through image analysis, and then demonstrating instructions for the recognized model of technology using augmented reality (AR) technology, which, in addition to tools for issuing instructions for step-by-step manipulation also contains tools for creating content and determining the type and model of an object, which allows you to exclude the assistance of a user by a technical specialist from the service process, and also contains an AI-based tracking algorithm that does not require the creation of a 3D model and, at the same time, allows work with three-dimensional objects, track and bind marks from different sides of the object. Also, the problem to be solved is the qualitative identification of the model and the implementation of high-quality tracking (binding labels).
  • AR augmented reality
  • the technical result of the claimed invention is the implementation of operations for visualizing instructions for various models of equipment in the AR mode more quickly and efficiently, reducing the time it takes to search for and displaying instructions to the end user for various models of equipment, excluding from the maintenance and operation of the technique of assisting the end user by a technician, which in ultimately leads to the simplification of maintenance and operation, the acceleration of maintenance work, the reduction of errors to zero in the performance of maintenance operations and the operation of equipment by the end user, and also contributes to an increase in the life of the equipment.
  • the specified technical result is achieved due to the fact that in the method of demonstrating instructions for a technical object using augmented reality, the following steps are carried out: capturing an image of a technical object using the end user device; recognition of the type and model of the equipment object based on the current image frame; transferring to the end user device a data set for the recognized model of equipment, containing at least a reference image, coordinates of interface elements, a list of instructions, detailed information for instructions; extracting at least key points and descriptors for the reference image and the current frame, matching key points by descriptors; building a tomography matrix to obtain the coordinates of the interface elements on the current frame, projecting the coordinates of the interface elements onto the current frame; displaying instructions for the recognized model of the vehicle object on the current frame on the end user device.
  • the system for demonstrating instructions for a technical object using augmented reality comprises: an end user device containing an image capture means and a means for displaying information to the user; classification module; dataset of training images; tracking module; updated catalog of instructions; which carry out the capture of the image of the object of technology using the image capture means; based on the current image frame, the type and model of the technical object are recognized by means of the classification module; projecting the coordinates of the interface elements on the reference image of the recognized model of the technical object onto the current frame by means of the tracking module; display instructions for the recognized model of the vehicle object using augmented reality, where instruction step labels are linked to the real vehicle object displayed on the end user's device.
  • the end user device can be a smartphone, tablet, or AR glasses.
  • the image capture medium can be the built-in camera.
  • an object of equipment can be an object of household, professional, industrial equipment.
  • the classification module may include a technique type determination module and a technique model determination module.
  • the system can additionally determine the brand of equipment.
  • the module for determining the type of equipment and the tracking module can be implemented on the end user device, the module for determining the model of equipment and the catalog of instructions can be implemented on the server.
  • the system can store images of equipment objects for training the module for determining the model of equipment in a dataset of training images.
  • the system can recognize the model of the object of technology using neural networks.
  • the system can carry out initial training of neural networks based on 10 or more different photographs of a technical object.
  • data about the object of technology can come from various sources, at least from the internal product team and from end users.
  • the system can carry out, by means of the tracking module, at least tracking through the detection and short-term tracking of the technical object.
  • the system may further comprise an instruction creation interface, wherein the instruction catalog is replenished using the instruction creation interface.
  • the claimed invention provides a system in which it is possible to create and visualize instructions for a scalable catalog of machinery and equipment.
  • the end user simply points the phone at the equipment, and the system itself determines the type, brand and model of the equipment; without forcing the user to think about how to determine the model or, if it is impossible to determine the model of equipment by the user himself, seek the help of a technical specialist.
  • the system immediately gives the user a list of instructions for it, otherwise it offers a manual search in the catalog. After the user selects an instruction, the system displays instructions using AR technology, where instruction step labels are tied to a real object.
  • the user is shown instructions on a mobile phone using AR technology.
  • the claimed invention has its own tracking algorithm based on AI technology. This algorithm does not require the creation of a 3D model, unlike many other solutions, and, at the same time, allows you to work with volumetric objects, track and bind marks from different sides. object. Initially, the side of the object is identified and an arrow (or text hint) is shown to the user, which tells the user exactly where to point the camera (to which side of the object).
  • the system includes the following components:
  • the solution uses pre-trained neural networks, while each time receiving data from the user about the successful or unsuccessful definition of the model, additional training of networks can be carried out. This process allows you to get better results for the identification of objects.
  • the very process of initial training of neural networks takes place on the basis of at least 10 different photographs of the object.
  • the main goal in terms of model identification is to construct a neural network capable of learning from just a few photos (Single Shot Learning). That is, in order to determine a model of equipment previously unknown to the network, only a few photographs of equipment are needed, instead of hundreds or thousands of photos.
  • the collection of data about the models required for training, which are part of the neural network solution, is distributed.
  • the data comes from various sources: from the internal product team and from the end users of the solution. This allows the solution to develop faster in two directions: extensive (parallel collection of information about several models at once) and intensive (photos of the same model are received from different participants, but in different quality, lighting and camera angle) without the involvement of a highly specialized specialist.
  • the claimed invention also includes an algorithm for creating instructions, which involves several steps: marking all the elements of the object's interface on one or more photos, creating instructions using a simple visual editor.
  • the instruction creator simply specifies the sequence of object controls and adds text comments as needed.
  • the camera of the end user's device is pointed at the object of technology, a frame is captured on the user's mobile device, classified by type of equipment, the mobile device transmits the video stream in the form of frames to the server, the video server receives the video stream and parses it into separate frames, the frames from the video stream are stored on the Redis server .
  • the neural network algorithm recognizes the brand and specific model of equipment.
  • the neural network is implemented as a separate service (Daemon), which can be located both on the server itself and on separate recognition servers specially designed for this purpose.
  • the number of neural network servers is not limited in number - they can connect to the system as needed, ensuring the horizontal growth of the solution.
  • Each neural network server receives new frames from the Redis server for processing, removing the frame from the queue, with each frame marked with a label (stamp). After the object recognition is completed, the neural network server returns the result of its work to the Redis server with the same label (stamp) that was assigned to a particular frame.
  • the list of available instructions for the recognized model is displayed on the end user's device, the user initiates a transition to a specific instruction, the data is received for initialization, the instruction step is determined.
  • the tracking module looks for objects associated with the instruction step on frames and keeps track of them.
  • the tracking module first searches for the descriptors of the frame received from the client, then compares it with the descriptor corresponding to the selected step, searches for the homography matrix, and maps the marker image objects to the received frame.
  • Marker image objects are selected rectangular fragments on the image.
  • Descriptors are a deep description of the frame points found using superpoints (a pre-trained neural network that extracts the key points of the given frame, and they are the same for the marker and the incoming frame). That is, a frame is input, the output is a set of "special" (according to the neural network) points with descriptions extracted by the neural network.
  • the result of the work of the neural network is the coordinates of the desired object on the frame.
  • the model is defined on the server, and the object is tracked on the mobile device.
  • Fig. 1 - illustrates the decision context diagram
  • Fig. 2 the algorithm of the tracking module
  • FIG. 4 is a general diagram of a computing device.
  • Figure 1 shows the overall design of the solution, consisting of 4 main components:
  • the end user device (1) can be a smartphone, tablet or AR glasses.
  • the main requirement for the device is the ability to capture a frame using the built-in camera, as well as the subsequent output of information to the user.
  • the component is designed to capture an image and display instructions for the model.
  • the server part (4) includes a module for determining the model of equipment (5) and a catalog of instructions (6).
  • the module for determining the model of technology (5) is implemented on the basis of the algorithm for classifying and clarifying the coordinates of objects and the algorithm for generating applicants.
  • the instruction catalog (6) is stored in the cloud.
  • the server part component (4) is designed to implement the model definition logic separately from the end user device.
  • the instruction creation interface (7) may be a web platform for facilitating the staff creation process.
  • An alternative to the web platform is the import of pre-prepared instructions by a script in csv / xml format.
  • the training image dataset (8) can be a cloud space or any other medium that stores vehicle images in JPG and/or PNG formats for training the vehicle model definition module (5).
  • Fig.1 The interaction of the main components in Fig.1 can be carried out using wired and/or wireless communication using REST and/or HTTP data transfer protocols.
  • FIG. 2 shows the algorithm of the tracking module.
  • the current algorithm is used only to set the object of interest at the beginning of work, change of the interface element or side, or when tracking is lost.
  • the tracking itself will be carried out using short-term tracking methods.
  • the algorithm consists of the following steps:
  • the input of the tracking module is a reference image in a single-channel format with a resolution of 640 by 480 pixels, for a certain model of equipment, the coordinates of the interface elements on this image and the current frame.
  • Feature points are matched by descriptors using a pre-trained SuperGlue neural network.
  • a homography matrix is built to obtain the coordinates of interface features of interest in the input image.
  • any two images of the same flat object in space are connected by homography. Having a set of points on the reference image and a set of points in the scene associated with it, it is possible to find a correspondence between them in the form of a homography matrix H using the RANSAC algorithm.
  • the algorithm evaluates homography for randomly selected points and does so until a sufficient match between coordinates is achieved.
  • a perspective matrix transformation of vectors is performed - multiplication of the homography matrix by the coordinates of points on the reference image. This operation allows you to find the desired coordinates on the frame.
  • the following are passed to the tracking module: an instruction, an instruction step, and a frame received from the user. Descriptors are extracted from the received frame and pre-prepared descriptors corresponding to the instruction step are loaded.
  • the marker descriptors and descriptors of the received frame are passed to the matcher, which matches the points of 2 descriptors and, at the output, looks for a homography matrix between images.
  • Descriptors are built according to the same principle both for marker images and for incoming frames from the user.
  • marked objects are displayed from the marker image to the submitted frame, drawn and served to the client.
  • mapping of the marker image into the given frame all objects of interest are also built and displayed.
  • the coordinates of the object are extracted already from the space of the user frame. These coordinates are transferred to the client, and already on the client side, rectangular objects are drawn according to the transferred coordinates.
  • the instruction output interface is rendered according to the step.
  • any convolutional artificial neural network is structurally divided into two parts.
  • the first one consists of convolutional and unifying layers and forms a feature matrix based on the original image.
  • the second part of the network is the classifier, which, having taken a set of features, produces a vector with probabilities for each class.
  • the definition of the brand of technology is carried out on the available limited set of images.
  • the best solution for classifying equipment by brand, taking into account the fact that almost all presented logos contain text, is to implement the module in two stages: text recognition on the frame and text comparison with logo templates. Training is continuous and is carried out for a large number of classes with a small sample size (1-10 photographs).
  • one or more photos of a vehicle model are uploaded, indicating its properties (type of vehicle, brand, model number).
  • the actor defines the area of the device marker and marks in it all the necessary controls and/or controls. For each of them, it specifies the type (for example, button, lever, switch, etc.) and how to interact with it (for example, press the button).
  • the actor saves the vehicle model with a set of controls in the catalog.
  • the model of equipment can have an identifier for linking to it the data received from the SCADA systems of industrial enterprises. This helps to visualize the data received from SCADA in relation to the control and / or control body.
  • the step of the instruction and the required control and/or control element are indicated.
  • the actor specifies a textual description of the instruction step when using the chain of blocks “action - control - value” from existing directories or by entering manually.
  • the previous step is repeated within a set of instruction steps.
  • the actor stores the instruction in the directory.
  • the camera of the end user device is aimed at the object.
  • the current frame is determined.
  • the probability vector of belonging to each of the given types of equipment is determined. Information about the frame and the probability vector is transmitted to the server side.
  • the neural network algorithm sequentially determines the brand and model of the equipment. If the vehicle model is not recognized, only the vehicle brand and category are reported to the end user (based on the probability vector). After determining the vehicle model, the server sends a set of data to the end user device: a reference image of the vehicle model, coordinates of its buttons, a list of instructions for this model.
  • the list of available instructions for the recognized model is displayed on the end user's device.
  • the user initiates a jump to a particular instruction.
  • markup means finding the coordinates of the rectangles that bound any part of the image that is significant for us at the current step, such a significant part of the image can be a button on a washing machine, kettle, and any other equipment.
  • the marker descriptors are passed to the marker tracking component for image detection.
  • the user determines the step of the instruction, then the process of matching the marker occurs when the camera is pointed at the object of interest to the user.
  • Information about the displayed step of the instruction is retrieved - it is the coordinates of the rectangle on the marker image (marked coordinates in the space of the marker image).
  • the marker image and the image submitted by the user are actually tensors (matrices) with the following dimensions - (3,640,480), which are further converted from RGB to Grayscale and get simply (1,640,480).
  • a homomorphism is constructed that maps the marker image to the space of the submitted frame, and through this homomorphism the frame coordinates are converted from the space of the marker to the space of the frame submitted by the user.
  • FIG. 4 shows an option for displaying an instruction step to the end user, for example, step 2/11 "Display” and step 5/11 "Socket".
  • FIG. 5 shows a general diagram of a computing device (N00) that provides the data processing necessary to implement the claimed solution.
  • a device contains components such as: one or more processors (N01), at least one memory (N02), storage media (N03), I/O interfaces (N04), I/O ( N05), networking tools (N06).
  • processors N01
  • memory N02
  • storage media N03
  • I/O interfaces N04
  • I/O N05
  • networking tools N06
  • the processor (N01) of the device performs the basic computing operations necessary for the operation of the device (N00) or the functionality of one or more of its components.
  • the processor (N01) executes the necessary machine-readable instructions contained in the main memory (N02).
  • Memory (N02), as a rule, is made in the form of RAM and contains the necessary software logic that provides the required functionality.
  • the data storage facility (N03) can be implemented in the form of HDD, SSD disks, raid array, network storage, flash memory, optical storage media (CD, DVD, MD, Blue-Ray disks), etc.
  • the tool (N03) allows you to perform long-term storage of various types of information.
  • Interfaces (N04) are standard means for connecting and working with the server part, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire, etc.
  • the choice of interfaces (N04) depends on the specific version of the device (N00), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.
  • the keyboard should be used as data I/O (N05) in any implementation of the system.
  • the keyboard hardware can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server, or other computer device.
  • the connection can be either wired, in which the keyboard connection cable is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports.
  • I/O devices can also use: joystick, display (touchscreen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.
  • Means of network interaction are selected from devices that provide network reception and transmission of data, for example, an Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc.
  • N05 the organization of data exchange over a wired or wireless data transmission channel, for example, WAN, PAN, LAN (LAN), Intranet, Internet, WLAN, WMAN or GSM, 3G, 4G, 5G, is provided.
  • the device components (N00) are connected via a common data bus (N10).

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Optics & Photonics (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

The invention relates to the field of using artificial intelligence to identify types and models of technical appliances. The technical result of the claimed invention is that of providing faster and better quality visualization of instructions for different technical models in augmented reality (AR), reducing the time taken to search for and output instructions, and obviating the need for assistance from a technical specialist. This technical result is achieved in that a method for displaying instructions for a technical appliance with the aid of AR includes: capturing an image of an appliance; identifying the type and model of said technical appliance; extracting and correlating special points; displaying instructions for the identified model of appliance.

Description

ПЛАТФОРМА ПОШАГОВЫХ ИНСТРУКЦИЙ ДОПОЛНЕННОЙ РЕАЛЬНОСТИ ДЛЯ ТЕХНИКИ AUGMENTED REALITY STEP-BY-STEP INSTRUCTION PLATFORM FOR ENGINEERING
ОБЛАСТЬ ТЕХНИКИ FIELD OF TECHNOLOGY
Изобретение относится к области компьютерного анализа изображений, в частности к использованию искусственного интеллекта (AI) для определения типов и моделей объектов техники через анализ изображения, поступающего с камеры устройства пользователя, и последующей демонстрации инструкции для объекта техники средствами технологии дополненной реальности (AR) через визуальную привязку подсказок к реальному объекту техники. The invention relates to the field of computer analysis of images, in particular to the use of artificial intelligence (AI) to determine the types and models of objects of technology through the analysis of the image coming from the camera of the user's device, and the subsequent demonstration of instructions for the object of technology using augmented reality (AR) technology through visual linking hints to a real object of technology.
Представленное решение может быть использовано, по меньшей мере, в бытовых условиях, при взаимодействии с домашней техникой, а также в промышленном производстве при взаимодействии с устройствами, в том числе требующими детального изучения регламентирующих документов. The presented solution can be used, at least in domestic conditions, when interacting with home appliances, as well as in industrial production when interacting with devices, including those requiring detailed study of regulatory documents.
УРОВЕНЬ ТЕХНИКИ BACKGROUND OF THE INVENTION
В патенте US 9324229 В2, 26.04.2016 описан монтируемый на голове дисплей, с помощью которого пользователю, смотрящему на соответственно отмеченную приборную панель, может быть предоставлено накладываемое изображение с инструкциями по эксплуатации и обслуживанию оборудования, непосредственно наложенное на приборную панель. Монтируемый на голове дисплей предоставляет пользователю увеличенное изображение просматриваемого объекта; механизм отслеживания, такой как камера, многократно определяет положение и ориентацию закрепленного на голове дисплея относительно просматриваемого объекта; и компьютерная система предоставляет информацию для расширенного обзора и многократно обновляет расширенный вид просматриваемого объекта на основе определенного положения и ориентации дисплея. Механизм слежения определяет свое положение с помощью одного или нескольких маркеров или маяков на просматриваемом объекте. Маркеры могут быть активными или пассивными, включая светодиоды (LED), излучающие невидимый свет. US Pat. No. 9,324,229 B2, April 26, 2016, describes a head-mounted display by which a user looking at a suitably marked instrument panel can be provided with an overlay image with instructions for the operation and maintenance of the equipment directly superimposed on the instrument panel. The head-mounted display provides the user with a magnified view of the object being viewed; a tracking mechanism, such as a camera, repeatedly determines the position and orientation of the head-mounted display relative to the object being viewed; and the computer system provides information for the expanded view and repeatedly updates the expanded view of the object being viewed based on the determined position and orientation of the display. The tracking mechanism determines its position using one or more markers or beacons on the viewed object. Markers can be active or passive, including light-emitting diodes (LEDs) that emit invisible light.
В патенте KR 102171691 В1 , 29.10.2020 описаны способ и система обслуживания ЗО-принтера на основе дополненной реальности, которые включает в себя этапы распознавания вспомогательного объекта ЗО-принтера на основе предварительно сохраненных данных при просмотре ЗО-принтера через камеру пользовательского терминала; формирование виртуального каркаса, включающего вспомогательный объект; возврат информации о координатах камеры для определенной точки виртуального кадра; и вывод компьютерной графики с информацией о вспомогательном объекте, распознанной на основе информации о координатах, и отображение ее на экране камеры пользовательского терминала и захваченное на экране камеры пользовательского терминала на основе дополненной реальности. Patent KR 102171691 B1, 10/29/2020 describes a method and system for servicing a 3D printer based on augmented reality, which includes the steps of recognizing an auxiliary object of the 3D printer based on previously stored data when viewing the 3D printer through the camera of the user terminal; the formation of a virtual frame, including an auxiliary object; return of information about the camera coordinates for a certain point of the virtual frame; and outputting computer graphics with information about the auxiliary object recognized based on the coordinate information, and displaying it on the camera screen of the user terminal and captured on the camera screen of the user terminal based on augmented reality.
Наиболее близким аналогом заявляемого изобретения является техническое решение, раскрытое в заявке WO 2015125066 А1 , 27.08.2015. Описана система для облегчения обслуживания оборудования при выполнении полевых работ выездными техниками. Система содержит сервер, сконфигурированный для хранения конфигураций оборудования и протоколов обслуживания; средство создания протоколов обслуживания оборудования, обменивающееся данными с сервером, и множество умных очков, которые носят выездные техники, система предоставляет полевому технику интерактивные инструкции, которые отображаются на смарт-стекле, чтобы помочь в выполнении полевых работ. The closest analogue of the claimed invention is the technical solution disclosed in the application WO 2015125066 A1, 08/27/2015. A system is described to facilitate the maintenance of equipment during field work by mobile technicians. The system includes a server configured to store hardware configurations and service protocols; an equipment maintenance logger that communicates with a server, and a variety of smart glasses worn by field technicians, the system provides the field technician with interactive instructions that are displayed on the smart glass to help with field work.
Однако в данном решении отсутствует возможность распознавания типа и модели оборудования с помощью компьютерных технологий, и выездной технический специалист определяет тип и модель оборудования вручную на месте, либо осуществляет обслуживание оборудования, тип и модель которого уже известны и распознавание не требуется. However, this solution lacks the ability to recognize the type and model of equipment using computer technology, and the field technician determines the type and model of equipment manually on site, or performs maintenance on equipment whose type and model is already known and recognition is not required.
Также при создании дополненной реальности существующие аналоги опираются в основном на ЗО-модель. Использование ЗО-модели подразумевает создание цифрового двойника устройства. Подготовка такой модели занимает много времени и средств. Также ее трудно поддерживать в актуальном состоянии - при любых, даже косметических изменениях исходного устройства, ЗО-модель потребуется дорабатывать, что повлечет за собой временные и денежные расходы. Тогда как использование плоского маркера в заявленном изобретении позволяет работать с объемными моделями без необходимости создания 3D копии объекта, что приводит к снижению временных и денежных затрат. Кроме того, плоский маркер позволяет работать как с интерфейсами, так и с каждой стороной объекта (для каждой стороны используется свой маркер). Also, when creating augmented reality, existing analogues rely mainly on the 3D model. The use of the 3D model implies the creation of a digital twin of the device. The preparation of such a model takes a lot of time and money. It is also difficult to keep it up to date - with any, even cosmetic changes to the original device, the 3D model will need to be finalized, which will entail time and money costs. Whereas the use of a flat marker in the claimed invention allows you to work with three-dimensional models without the need to create a 3D copy object, which leads to a reduction in time and cost. In addition, a flat marker allows you to work both with interfaces and with each side of the object (each side uses its own marker).
Также существующие аналоги предоставляют решения, каждое из которых предназначено для обслуживания только определенного типа техники. Заявленное изобретение предназначено для обслуживания различных типов техники. Also, existing analogues provide solutions, each of which is designed to service only a certain type of equipment. The claimed invention is intended for maintenance of various types of equipment.
Техническая проблема, на решение которой направлено заявляемое изобретение, заключается в создании комплексного масштабируемого решения для определения типов и моделей различных объектов техники через анализ изображения, и последующей демонстрации инструкций для распознанной модели техники средствами технологии дополненной реальности (AR), которое кроме инструментов выдачи инструкций для пошаговых манипуляций также содержит инструменты создания контента и определения типа и модели объекта, которое позволяет исключить из процесса обслуживания ассистирование пользователя техническим специалистом, а также которое содержит алгоритм трекинга, базирующийся на AI, который не требует создания ЗЮ-модели и, в тоже время, позволяет работать с объемными объектами, осуществлять трекинг и привязку меток с разных сторон объекта. Также решаемая задача заключается в качественной идентификации модели и реализации качественного трекинга (привязки меток). The technical problem to be solved by the claimed invention is to create a comprehensive scalable solution for determining the types and models of various objects of technology through image analysis, and then demonstrating instructions for the recognized model of technology using augmented reality (AR) technology, which, in addition to tools for issuing instructions for step-by-step manipulation also contains tools for creating content and determining the type and model of an object, which allows you to exclude the assistance of a user by a technical specialist from the service process, and also contains an AI-based tracking algorithm that does not require the creation of a 3D model and, at the same time, allows work with three-dimensional objects, track and bind marks from different sides of the object. Also, the problem to be solved is the qualitative identification of the model and the implementation of high-quality tracking (binding labels).
СУЩНОСТЬ ИЗОБРЕТЕНИЯ SUMMARY OF THE INVENTION
Техническим результатом заявляемого изобретения является выполнение операций по визуализации инструкций для различных моделей техники в режиме AR более быстро и качественно, сокращение времени поиска и вывода инструкции конечному пользователю для различных моделей техники, исключение из процесса обслуживания и эксплуатации техники ассистирования конечного пользователя техническим специалистом, что в конечном итоге приводит к упрощению обслуживания и эксплуатации, ускорению работы по обслуживанию, снижению ошибок до нуля при выполнении операций обслуживания и эксплуатации техники конечным пользователем, а также способствует увеличению срока эксплуатации техники. The technical result of the claimed invention is the implementation of operations for visualizing instructions for various models of equipment in the AR mode more quickly and efficiently, reducing the time it takes to search for and displaying instructions to the end user for various models of equipment, excluding from the maintenance and operation of the technique of assisting the end user by a technician, which in ultimately leads to the simplification of maintenance and operation, the acceleration of maintenance work, the reduction of errors to zero in the performance of maintenance operations and the operation of equipment by the end user, and also contributes to an increase in the life of the equipment.
Указанный технический результат достигается за счёт того, что в способе демонстрации инструкций для объекта техники при помощи дополненной реальности осуществляют следующие шаги: захват изображения объекта техники с помощью устройства конечного пользователя; распознавание типа и модели объекта техники на основании текущего фрейма изображения; передача на устройство конечного пользователя набора данных для распознанной модели техники, содержащего, по меньшей мере, эталонное изображение, координаты элементов интерфейса, список инструкций, детальную информацию для инструкций; извлечение, по меньшей мере, особых точек и дескрипторов для эталонного изображения и текущего фрейма, сопоставление особых точек по дескрипторам; построение матрицы томографии для получения координат элементов интерфейса на текущем фрейме, проецирование на текущий фрейм координат элементов интерфейса; отображение инструкции для распознанной модели объекта техники на текущий фрейм на устройстве конечного пользователя. The specified technical result is achieved due to the fact that in the method of demonstrating instructions for a technical object using augmented reality, the following steps are carried out: capturing an image of a technical object using the end user device; recognition of the type and model of the equipment object based on the current image frame; transferring to the end user device a data set for the recognized model of equipment, containing at least a reference image, coordinates of interface elements, a list of instructions, detailed information for instructions; extracting at least key points and descriptors for the reference image and the current frame, matching key points by descriptors; building a tomography matrix to obtain the coordinates of the interface elements on the current frame, projecting the coordinates of the interface elements onto the current frame; displaying instructions for the recognized model of the vehicle object on the current frame on the end user device.
Система демонстрации инструкций для объекта техники при помощи дополненной реальности содержит: устройство конечного пользователя, содержащее средство захвата изображения и средство отображения информации пользователю; модуль классификации; датасет обучающих изображений; модуль трекинга; пополняемый каталог инструкций; в которой осуществляют захват изображения объекта техники с помощью средства захвата изображения; на основании текущего фрейма изображения распознают тип и модель объекта техники посредством модуля классификации; проецируют координаты элементов интерфейса на эталонном изображении распознанной модели объекта техники на текущий фрейм посредством модуля трекинга; отображают инструкцию для распознанной модели объекта техники при помощи дополненной реальности, где метки шагов инструкции привязываются к реальному объекту техники, отображаемому на устройстве конечного пользователя. The system for demonstrating instructions for a technical object using augmented reality comprises: an end user device containing an image capture means and a means for displaying information to the user; classification module; dataset of training images; tracking module; updated catalog of instructions; which carry out the capture of the image of the object of technology using the image capture means; based on the current image frame, the type and model of the technical object are recognized by means of the classification module; projecting the coordinates of the interface elements on the reference image of the recognized model of the technical object onto the current frame by means of the tracking module; display instructions for the recognized model of the vehicle object using augmented reality, where instruction step labels are linked to the real vehicle object displayed on the end user's device.
В системе устройством конечного пользователя может быть смартфон, планшет или AR-очки. In the system, the end user device can be a smartphone, tablet, or AR glasses.
В системе средством захвата изображения может быть встроенная камера.In the system, the image capture medium can be the built-in camera.
В системе объектом техники может быть объект бытовой, профессиональной, индустриальной техники. In the system, an object of equipment can be an object of household, professional, industrial equipment.
В системе модуль классификации может включать в себя модуль определения типа техники и модуль определения модели техники. In the system, the classification module may include a technique type determination module and a technique model determination module.
В системе могут дополнительно определять бренд техники. The system can additionally determine the brand of equipment.
В системе модуль определения типа техники и модуль трекинга могут быть реализованы на устройстве конечного пользователя, модуль определения модели техники и каталог инструкций могут быть реализованы на сервере. В системе могут хранить изображения объектов техники для обучения модуля определения модели техники в датасет обучающих изображений. In the system, the module for determining the type of equipment and the tracking module can be implemented on the end user device, the module for determining the model of equipment and the catalog of instructions can be implemented on the server. The system can store images of equipment objects for training the module for determining the model of equipment in a dataset of training images.
В системе могут распознавать модель объекта техники с помощью нейронных сетей. The system can recognize the model of the object of technology using neural networks.
В системе могут осуществлять первоначальное обучение нейронных сетей на основании 10 и более различных фотографий объекта техники. The system can carry out initial training of neural networks based on 10 or more different photographs of a technical object.
В системе данные об объекте техники могут поступать из различных источников, по меньшей мере от внутренней продуктовой команды и от конечных пользователей. In the system, data about the object of technology can come from various sources, at least from the internal product team and from end users.
В системе каждый раз при получении от пользователя данных об удачном или неудачном определении модели может проводиться дообучение сетей. In the system, each time when receiving data from the user about the successful or unsuccessful definition of the model, additional training of networks can be carried out.
В системе могут осуществлять посредством модуля трекинга по меньшей мере трекинг через детектирование и краткосрочный трекинг объекта техники. The system can carry out, by means of the tracking module, at least tracking through the detection and short-term tracking of the technical object.
Система дополнительно может содержать интерфейс создания инструкций, причем пополняют каталог инструкций с помощью интерфейса создания инструкций. The system may further comprise an instruction creation interface, wherein the instruction catalog is replenished using the instruction creation interface.
Заявляемое изобретение обеспечивает систему, в которой можно создавать и визуализировать инструкции по масштабируемому каталогу техники и оборудования. The claimed invention provides a system in which it is possible to create and visualize instructions for a scalable catalog of machinery and equipment.
Конечный пользователь просто наводит телефон на технику, и система сама определяет тип, бренд и модель техники; не заставляя пользователя думать над тем, как ему определить модель или, в случае невозможности определить модель техники самому пользователю, обращаться к помощи технического специалиста. The end user simply points the phone at the equipment, and the system itself determines the type, brand and model of the equipment; without forcing the user to think about how to determine the model or, if it is impossible to determine the model of equipment by the user himself, seek the help of a technical specialist.
Если модель определена, то система сразу выдает пользователю список инструкций к ней, в противном случае предлагает ручной поиск в каталоге. После выбора инструкции пользователем система отображает инструкции при помощи технологии AR, где метки шагов инструкции привязываются к реальному объекту. If the model is defined, the system immediately gives the user a list of instructions for it, otherwise it offers a manual search in the catalog. After the user selects an instruction, the system displays instructions using AR technology, where instruction step labels are tied to a real object.
Чтобы максимально упростить обслуживание и эксплуатацию техники, которую конечный пользователь использует в своей повседневной жизни, например, дома или на работе, пользователю демонстрируют инструкции на мобильном телефоне при помощи AR-технологии. In order to simplify the maintenance and operation of equipment that the end user uses in their daily life, for example, at home or at work, the user is shown instructions on a mobile phone using AR technology.
Заявленное изобретение обладает собственным алгоритмом трекинга, базирующемся на технологии AI. Этот алгоритм не требует создания ЗЭ-модели в отличии от многих других решений и, в тоже время, позволяет работать с объемными объектами, осуществлять трекинг и привязку меток с разных сторон объекта. Первоначально осуществляется идентификация стороны объекта и пользователю показывается стрелка (или текстовая подсказка), которая сообщает пользователю куда именно необходимо направить камеру (на какую именно сторону объекта). The claimed invention has its own tracking algorithm based on AI technology. This algorithm does not require the creation of a 3D model, unlike many other solutions, and, at the same time, allows you to work with volumetric objects, track and bind marks from different sides. object. Initially, the side of the object is identified and an arrow (or text hint) is shown to the user, which tells the user exactly where to point the camera (to which side of the object).
Система включает в себя компоненты: The system includes the following components:
- нейронных сетей для распознавания объектов техники; - neural networks for recognition of objects of technology;
- датасета изображений для обучения нейронных сетей; - image dataset for training neural networks;
- интерфейса создания инструкций по моделям техники; - interface for creating instructions for equipment models;
- модуль трекинга (AR). - tracking module (AR).
В качестве эталона для идентификации объекта и последующей демонстрации инструкции используют фотографии объекта (одну или несколько), что значительно упрощает процесс подготовки данных. Использование в качестве инструментов детектирования объектов алгоритмов AI, отказ от узкопрофильного специалиста для определения типа и модели техники в пользу AI технологий распознавания приводит к сокращению времени и усилий на подготовку и поддержку необходимых входных данных для распознавания типа и модели техники. Instructions use photographs of the object (one or several) as a reference for object identification and subsequent demonstration, which greatly simplifies the data preparation process. The use of AI algorithms as object detection tools, the rejection of a narrow-profile specialist for determining the type and model of equipment in favor of AI recognition technologies leads to a reduction in time and effort to prepare and maintain the necessary input data for recognizing the type and model of equipment.
Для идентификации моделей решение использует предобученные нейронные сети, при этом, каждый раз получая от пользователя данные об удачном или неудачном определении модели может проводиться дообучение сетей. Этот процесс позволяет получать более качественные результаты по идентификации объектов. To identify models, the solution uses pre-trained neural networks, while each time receiving data from the user about the successful or unsuccessful definition of the model, additional training of networks can be carried out. This process allows you to get better results for the identification of objects.
Сам процесс первоначального обучения нейронных сетей происходит на основании всего минимум 10 различных фотографий объекта. Основная цель в разрезе идентификации модели состоит в конструировании нейронной сети, способной обучаться всего по нескольким фото (Single Shot Learning). То есть, для того чтобы определить модель техники, ранее неизвестную сети, необходимо всего несколько фотографий техники, вместо сотен или тысяч фото. The very process of initial training of neural networks takes place on the basis of at least 10 different photographs of the object. The main goal in terms of model identification is to construct a neural network capable of learning from just a few photos (Single Shot Learning). That is, in order to determine a model of equipment previously unknown to the network, only a few photographs of equipment are needed, instead of hundreds or thousands of photos.
Сбор данных о моделях, необходимых для обучения, входящих в состав решения нейронных сетей, распределен. Данные поступают из различных источников: от внутренней продуктовой команды и от конечных пользователей решения. Это позволяет решению быстрее развиваться в двух направлениях: экстенсивном (параллельный сбор информации о нескольких моделях сразу) и интенсивном (от разных участников поступают фотографии одной модели, но в различном качестве, освещении и угле камеры) без привлечения узкопрофильного специалиста. The collection of data about the models required for training, which are part of the neural network solution, is distributed. The data comes from various sources: from the internal product team and from the end users of the solution. This allows the solution to develop faster in two directions: extensive (parallel collection of information about several models at once) and intensive (photos of the same model are received from different participants, but in different quality, lighting and camera angle) without the involvement of a highly specialized specialist.
В заявленное изобретение также входит алгоритм создания инструкций, который предусматривает несколько шагов: разметка всех элементов интерфейса объекта на одном или нескольких фото, создание инструкций используя простой визуальный редактор. Создатель инструкций просто указывает последовательность элементов управления объектом и вносит, при необходимости, текстовые комментарии. The claimed invention also includes an algorithm for creating instructions, which involves several steps: marking all the elements of the object's interface on one or more photos, creating instructions using a simple visual editor. The instruction creator simply specifies the sequence of object controls and adds text comments as needed.
При разработке алгоритма создания инструкций учитывалось то, что при подготовке набора инструкций было обнаружено, что описание инструкций во многом типовое. Данное решение позволяет унифицировать процесс создания инструкций, так как модель техники размечается только один раз при ее первом добавлении, и не нужно размечать ее повторно каждый раз создавая инструкции для нее. Также сам процесс предлагается ускорить при помощи автогенерируемого списка подходящих соответствий для каждого действия и его значения, то есть создание инструкции представлено в виде конструктора. Дополнительно это позволяет легко редактировать инструкции и поддерживать их в актуальном состоянии. When developing an algorithm for creating instructions, it was taken into account that when preparing a set of instructions, it was found that the description of instructions is largely typical. This solution allows you to unify the process of creating instructions, since the vehicle model is marked up only once when it is first added, and there is no need to mark it up again each time creating instructions for it. It is also proposed to speed up the process itself using an auto-generated list of suitable matches for each action and its value, that is, the creation of an instruction is presented as a constructor. Additionally, this makes it easy to edit instructions and keep them up to date.
Процесс поиска модели техники и отображения инструкции осуществляется следующим образом. The process of searching for a model of equipment and displaying instructions is carried out as follows.
Камера устройства конечного пользователя наводится на объект техники, на мобильном устройстве пользователя осуществляют захват кадра, проводят классификацию по типу техники, мобильное устройство передает видеопоток в виде фреймов на сервер, видеосервер принимает видеопоток и разбирает его на отдельные фреймы, фреймы из видеопотока сохраняются на Redis server. The camera of the end user's device is pointed at the object of technology, a frame is captured on the user's mobile device, classified by type of equipment, the mobile device transmits the video stream in the form of frames to the server, the video server receives the video stream and parses it into separate frames, the frames from the video stream are stored on the Redis server .
Алгоритм нейронных сетей распознает бренд и конкретную модель техники. Нейросеть реализована в виде отдельного сервиса (Демона), который может быть расположен как на самом сервере, так и на отдельных специально предназначенных для этого серверах распознавания. Количество серверов нейросети не ограничено по численности - они могут подключаться к системе по мере необходимости, обеспечивая горизонтальный рост решения. Каждый сервер нейросети получает новые фреймы из Redis server для обработки, удаляя фрейм из очереди, при этом каждый фрейм помечен меткой (stamp). После завершения распознавания объекта сервер нейросети возвращает результат своей работы в Redis server с той же меткой (stamp), которая была присвоена конкретному фрейму. На устройстве конечного пользователя выводится список доступных инструкций по опознанной модели, пользователь инициирует переход к определенной инструкции, данные поступают на инициализацию, определяется шаг инструкции. The neural network algorithm recognizes the brand and specific model of equipment. The neural network is implemented as a separate service (Daemon), which can be located both on the server itself and on separate recognition servers specially designed for this purpose. The number of neural network servers is not limited in number - they can connect to the system as needed, ensuring the horizontal growth of the solution. Each neural network server receives new frames from the Redis server for processing, removing the frame from the queue, with each frame marked with a label (stamp). After the object recognition is completed, the neural network server returns the result of its work to the Redis server with the same label (stamp) that was assigned to a particular frame. The list of available instructions for the recognized model is displayed on the end user's device, the user initiates a transition to a specific instruction, the data is received for initialization, the instruction step is determined.
Модуль трекинга ищет объекты, ассоциированные с шагом инструкции на фреймах и следит за ними. The tracking module looks for objects associated with the instruction step on frames and keeps track of them.
Верхнеуровневое описание модуля трекинга: Top-level description of the tracking module:
Модуль трекинга сначала ищет дескрипторы полученного от клиента фрейма, далее сравнивает его с дескриптором, соответствующим выбранному шагу, ищет матрицу гомографии, и отображает объекты маркерного изображения на полученный фрейм. Объекты маркерного изображения - это выделенные прямоугольные фрагменты на изображении. Дескрипторы - это глубокое описание точек фрейма, найденных с помощью суперпойнт (предобученной нейронной сети, извлекающей ключевые точки поданного фрейма, причем для маркера и входящего фрейма они одинаковые). То есть, подают на вход фрейм, на выходе получают извлеченный нейронной сетью набор "особых" (по мнению нейронной сети) точек с описаниями. Результатом работы нейросети являются координаты искомого объекта на фрейме. The tracking module first searches for the descriptors of the frame received from the client, then compares it with the descriptor corresponding to the selected step, searches for the homography matrix, and maps the marker image objects to the received frame. Marker image objects are selected rectangular fragments on the image. Descriptors are a deep description of the frame points found using superpoints (a pre-trained neural network that extracts the key points of the given frame, and they are the same for the marker and the incoming frame). That is, a frame is input, the output is a set of "special" (according to the neural network) points with descriptions extracted by the neural network. The result of the work of the neural network is the coordinates of the desired object on the frame.
При этом определение модели происходит на сервере, а трекинг объекта происходит на мобильном устройстве. In this case, the model is defined on the server, and the object is tracked on the mobile device.
ОПИСАНИЕ ЧЕРТЕЖЕЙ DESCRIPTION OF THE DRAWINGS
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. The implementation of the invention will be described hereinafter in accordance with the accompanying drawings, which are presented to explain the essence of the invention and in no way limit the scope of the invention.
Заявляемое изобретение проиллюстрировано фигурами 1-5, на которых изображены: The claimed invention is illustrated by figures 1-5, which depict:
Фиг. 1 - иллюстрирует контекстную диаграмму решения: Fig. 1 - illustrates the decision context diagram:
(1) - устройство конечного пользователя, (2) - модуль определения типа техники, (3) - модуль трекинга, (4) - серверная часть, (5) - модуль определения модели техники, (6) - каталог инструкций, (7) - интерфейс создания инструкций, (8) - датасет обучающих изображений; (1) - end user device, (2) - vehicle type identification module, (3) - tracking module, (4) - server part, (5) - vehicle model identification module, (6) - instructions catalog, (7) - interface for creating instructions, (8) - dataset of training images;
Фиг. 2 - алгоритм работы модуля трекинга; Fig. 2 - the algorithm of the tracking module;
Фиг. 3 - алгоритм работы модуля классификации; Fig. 3 - algorithm of the classification module;
Фиг. 4 - вариант отображения шага инструкции конечному пользователю; Фиг. 5 - общая схема вычислительного устройства. Fig. 4 - option for displaying an instruction step to the end user; Fig. 5 is a general diagram of a computing device.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ DETAILED DESCRIPTION OF THE INVENTION
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения. In the following detailed description of the implementation of the invention, numerous implementation details are provided to provide a clear understanding of the present invention. However, one skilled in the art will appreciate how the present invention can be used, both with and without these implementation details. In other instances, well-known methods, procedures, and components have not been described in detail so as not to unduly obscure the features of the present invention.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов. Furthermore, it will be clear from the foregoing that the invention is not limited to the present implementation. Numerous possible modifications, changes, variations and substitutions that retain the spirit and form of the present invention will be apparent to those skilled in the subject area.
На Фиг.1 изображено общее устройство решения, состоящее из 4 основных компонентов: Figure 1 shows the overall design of the solution, consisting of 4 main components:
(1) - устройство конечного пользователя; (1) - end user device;
(4) - серверная часть; (4) - server part;
(7) - интерфейс создания инструкций; (7) - interface for creating instructions;
(8) - датасет обучающих изображений. (8) - dataset of training images.
Устройством конечного пользователя (1) может являться смартфон, планшет или AR-очки. Основное требование к устройству - возможность захвата кадра при помощи встроенной камеры, а также последующего вывода информации пользователю. Компонент предназначен для захвата изображения и вывода инструкции для модели. The end user device (1) can be a smartphone, tablet or AR glasses. The main requirement for the device is the ability to capture a frame using the built-in camera, as well as the subsequent output of information to the user. The component is designed to capture an image and display instructions for the model.
Серверная часть (4) включает в себя модуль определения модели техники (5) и каталог инструкций (6). Модуль определения модели техники (5) реализуется на алгоритме классификации и уточнения координат объектов и алгоритме генерации претендентов. Хранение каталога инструкций (6) осуществляется в облаке. Компонент серверной части (4) предназначен для реализации логики определения модели отдельно от устройства конечного пользователя. The server part (4) includes a module for determining the model of equipment (5) and a catalog of instructions (6). The module for determining the model of technology (5) is implemented on the basis of the algorithm for classifying and clarifying the coordinates of objects and the algorithm for generating applicants. The instruction catalog (6) is stored in the cloud. The server part component (4) is designed to implement the model definition logic separately from the end user device.
Интерфейс создания инструкции (7) может являться веб-платформой для упрощения процесса создания контента персоналом. Альтернативой веб- платформе является импортирование заранее подготовленных инструкций скриптом в формате csv/xml. The instruction creation interface (7) may be a web platform for facilitating the staff creation process. An alternative to the web platform is the import of pre-prepared instructions by a script in csv / xml format.
Датасет обучающих изображений (8) может являться облачным пространством или любым другим носителем, в котором хранятся изображения техники в форматах JPG и/или PNG для обучения модуля определения модели техники (5). The training image dataset (8) can be a cloud space or any other medium that stores vehicle images in JPG and/or PNG formats for training the vehicle model definition module (5).
Взаимодействие основных компонентов на Фиг.1 может осуществляться при помощи проводной и/или беспроводной связи с использованием протоколов передачи данных REST и/или HTTP. The interaction of the main components in Fig.1 can be carried out using wired and/or wireless communication using REST and/or HTTP data transfer protocols.
На Фиг. 2 показан алгоритм работы модуля трекинга. On FIG. 2 shows the algorithm of the tracking module.
Чтобы отслеживать объект, его нужно сначала указать, а в конкретном случае - найти. Задача решается через сопоставление особых точек фреймов и шаблона. Но поскольку мы научились обнаруживать объект, то можно так и решать задачу: детектировать объект на каждом фрейме. Этот подход называется трекинг через детектирование. To track an object, you must first specify it, and in a specific case, find it. The problem is solved by matching the singular points of the frames and the template. But since we have learned how to detect an object, we can solve the problem in this way: detect an object on each frame. This approach is called tracking through detection.
Текущий алгоритм используется только для задания интересующего объекта в начале работы, смене элемента интерфейса или стороны, или при потере трекинга. Сам же трекинг будет осуществляться методами краткосрочного трекинга. The current algorithm is used only to set the object of interest at the beginning of work, change of the interface element or side, or when tracking is lost. The tracking itself will be carried out using short-term tracking methods.
Как показано на Фиг.2, алгоритм состоит из следующих шагов: As shown in Figure 2, the algorithm consists of the following steps:
1. На вход модуля трекинга подаётся эталонное изображение в одноканальном формате с разрешением 640 на 480 пикселов, для определённой модели техники, координаты элементов интерфейса на этом изображении и текущий фрейм. 1. The input of the tracking module is a reference image in a single-channel format with a resolution of 640 by 480 pixels, for a certain model of equipment, the coordinates of the interface elements on this image and the current frame.
2. Для эталонного изображения и фрейма извлекаются особые точки и дескрипторы с помощью предобученной нейронной сети SuperPoint. 2. For the reference image and frame, special points and descriptors are extracted using a pre-trained SuperPoint neural network.
3. Осуществляется сопоставление особых точек по дескрипторам с использованием предобученной нейронной сети SuperGlue. 3. Feature points are matched by descriptors using a pre-trained SuperGlue neural network.
4. Строят матрицу гомографии, чтобы получить координаты интересующих деталей интерфейса на входном изображении. 4. A homography matrix is built to obtain the coordinates of interface features of interest in the input image.
В компьютерном зрении любые два изображения одного и того же плоского объекта в пространстве связаны гомографией. Имея набор точек на эталонном изображении и сопоставленный ему набор точек в сцене, можно найти между ними соответствие в виде матрицы гомографии Н, используя алгоритм RANSAC. Алгоритм оценивает гомографию для случайно выбранных точек и делает это до тех пор, пока не будет достигнуто достаточное соответствие между координатами. In computer vision, any two images of the same flat object in space are connected by homography. Having a set of points on the reference image and a set of points in the scene associated with it, it is possible to find a correspondence between them in the form of a homography matrix H using the RANSAC algorithm. The algorithm evaluates homography for randomly selected points and does so until a sufficient match between coordinates is achieved.
После вычисления матрицы гомографии выполняют перспективное матричное преобразование векторов - перемножение матрицы гомографии на координаты точек на эталонном изображении. Эта операция позволяет найти искомые координаты на фрейме. After calculating the homography matrix, a perspective matrix transformation of vectors is performed - multiplication of the homography matrix by the coordinates of points on the reference image. This operation allows you to find the desired coordinates on the frame.
Получение матрицы гомографии и перспективное преобразование координат выполняется с помощью функций библиотеки OpenCV. Obtaining the homography matrix and perspective transformation of coordinates is performed using the functions of the OpenCV library.
5. Осуществляют краткосрочный трекинг объекта. 5. Carry out short-term tracking of the object.
6. Координаты элементов интерфейса на эталонной фотографии проецируют на текущий фрейм. 6. The coordinates of the interface elements on the reference photo are projected onto the current frame.
7. Получают координаты элементов интерфейса на текущем фрейме. 7. Get the coordinates of interface elements on the current frame.
Подробное описание модуля трекинга: Detailed description of the tracking module:
В модуль трекинга передаются: инструкция, шаг инструкции, и фрейм, полученный от пользователя. Из полученного фрейма извлекаются дескрипторы и подгружаются заранее подготовленные дескрипторы, соответствующие шагу инструкции. The following are passed to the tracking module: an instruction, an instruction step, and a frame received from the user. Descriptors are extracted from the received frame and pre-prepared descriptors corresponding to the instruction step are loaded.
Далее дескрипторы маркера и дескрипторы полученного фрейма передаются в матчер, который сопоставляет точки 2-х дескрипторов и на выходе ищет матрицу гомографии между изображениями. Дескрипторы строятся по одному принципу как для маркерных изображений, так и для входящих от пользователя фреймов. С помощью полученной матрицы отображают размеченные объекты с маркерного изображения на поданный фрейм, отрисовывают и подают клиенту. Строя отображение маркерного изображения в поданный фрейм также строят и отображают все интересующие объекты. Получив отображение объекта из маркера в поданный фрейм, извлекают координаты объекта уже из пространства пользовательского фрейма. Эти координаты передаются клиенту, и уже на стороне клиента идет отрисовка прямоугольных объектов по переданным координатам. Next, the marker descriptors and descriptors of the received frame are passed to the matcher, which matches the points of 2 descriptors and, at the output, looks for a homography matrix between images. Descriptors are built according to the same principle both for marker images and for incoming frames from the user. Using the resulting matrix, marked objects are displayed from the marker image to the submitted frame, drawn and served to the client. By building the mapping of the marker image into the given frame, all objects of interest are also built and displayed. Having received the mapping of the object from the marker to the submitted frame, the coordinates of the object are extracted already from the space of the user frame. These coordinates are transferred to the client, and already on the client side, rectangular objects are drawn according to the transferred coordinates.
Осуществляется рендеринг интерфейса вывода инструкции в соответствии с шагом. The instruction output interface is rendered according to the step.
Описание работы модуля классификации. Description of the classification module.
Под классификацией будем понимать сопоставление объектов (наблюдений, событий) с одним из заранее известных классов. Задача классификации сводится к поиску алгоритма (решающей функции), определяющей соответствие модели техники на входном изображении определенному виду техники, бренду, номеру модели. Для решения задачи классификации, в частном варианте решения, предлагается использовать технологию искусственных нейронных сетей. By classification we will understand the comparison of objects (observations, events) with one of the previously known classes. The task of classification is reduced to finding an algorithm (decisive function) that determines the compliance of the model of equipment on the input image with a certain type of equipment, brand, number models. To solve the classification problem, in a particular solution, it is proposed to use the technology of artificial neural networks.
Для задачи классификации объектов любая свёрточная искусственная нейронная сеть структурно разделяется на две части. Первая состоит из свёрточных и объединяющих слоёв и по исходной картинке формирует матрицу признаков. Вторая часть сети - классификатор, который, взяв набор признаков, выдаёт вектор с вероятностями для каждого класса. For the task of classifying objects, any convolutional artificial neural network is structurally divided into two parts. The first one consists of convolutional and unifying layers and forms a feature matrix based on the original image. The second part of the network is the classifier, which, having taken a set of features, produces a vector with probabilities for each class.
Описание работы модуля классификации представлено на Фиг.З. A description of the operation of the classification module is shown in Fig.3.
Определение бренда техники осуществляют на имеющемся ограниченном наборе изображений. Наилучшим решением для классификации техники по бренду с учётом того, что почти все представленные логотипы имеют в своём составе текст, является реализация модуля в два этапа: распознавание текста на фрейме и сравнивание текста с шаблонами логотипов. Обучение является непрерывным и осуществляется для большого числа классов с маленьким объемом выборки (1-10 фотографий). The definition of the brand of technology is carried out on the available limited set of images. The best solution for classifying equipment by brand, taking into account the fact that almost all presented logos contain text, is to implement the module in two stages: text recognition on the frame and text comparison with logo templates. Training is continuous and is carried out for a large number of classes with a small sample size (1-10 photographs).
Процесс создания инструкции. The process of creating instructions.
При помощи интерфейса создания инструкций (позиция (7) на Фиг. 1) можно пополнять каталог следующим образом. Using the interface for creating instructions (position (7) in Fig. 1), you can replenish the catalog as follows.
При добавлении модели техники: When adding a vehicle model:
С помощью рабочего устройства загружается одна или несколько фотографий модели техники с указанием ее свойств (тип техники, бренд, номер модели). Действующее лицо определяет область маркера устройства и размечает в ней все необходимые органы управления и/или контроля. Для каждого из них он указывает тип (например, кнопка, рычаг, переключатель и т.д.) и способ взаимодействия с ним (например, нажмите кнопку). With the help of a working device, one or more photos of a vehicle model are uploaded, indicating its properties (type of vehicle, brand, model number). The actor defines the area of the device marker and marks in it all the necessary controls and/or controls. For each of them, it specifies the type (for example, button, lever, switch, etc.) and how to interact with it (for example, press the button).
Действующее лицо сохраняет модель техники с набором элементов управления в каталоге. После сохранения модель техники может иметь идентификатор для привязки к ней данных, получаемых из SCADA систем предприятий промышленного использования. Это помогает визуализировать получаемые из SCADA данные в привязке к органу управления и/или контроля. The actor saves the vehicle model with a set of controls in the catalog. After saving, the model of equipment can have an identifier for linking to it the data received from the SCADA systems of industrial enterprises. This helps to visualize the data received from SCADA in relation to the control and / or control body.
При добавлении инструкции к конкретной модели техники: When adding instructions to a specific model of equipment:
Указывается наименование инструкции. Specifies the name of the instruction.
Указывается шаг инструкции и необходимый орган управления и/или контроля. Действующее лицо указывает текстовое описание шага инструкции при помощи цепочки блоков “действие - элемент управления - значение” из существующих справочников или вводом вручную. The step of the instruction and the required control and/or control element are indicated. The actor specifies a textual description of the instruction step when using the chain of blocks “action - control - value” from existing directories or by entering manually.
Предыдущий этап повторяется в рамках набора шагов инструкции. Действующее лицо сохраняет инструкцию в каталоге. The previous step is repeated within a set of instruction steps. The actor stores the instruction in the directory.
Детальное описание процесса поиска инструкции по модели. Detailed description of the process of searching for instructions on the model.
Детализация процесса поиска модели техники и отображения инструкции:Detailing the process of searching for a model of equipment and displaying instructions:
1. Камера устройства конечного пользователя наводится на объект.1. The camera of the end user device is aimed at the object.
2. На основании изображения в видеопотоке камеры определяется текущий фрейм. Для объекта на фрейме определяется вектор вероятностей принадлежности каждому из заданных типов техники. Информация о фрейме и векторе вероятностей передается на серверную часть. 2. Based on the image in the camera's video stream, the current frame is determined. For an object on the frame, the probability vector of belonging to each of the given types of equipment is determined. Information about the frame and the probability vector is transmitted to the server side.
3. При поступлении фрейма на сервер алгоритм нейронных сетей последовательно определяет бренд и модель техники. Если модель техники не распознана, конечному пользователю сообщается только бренд и категория техники (на основе вектора вероятностей). После определения модели техники сервер передает на устройство конечного пользователя набор данных: эталонное изображение модели техники, координаты ее кнопок, список инструкций для данной модели. 3. When a frame arrives at the server, the neural network algorithm sequentially determines the brand and model of the equipment. If the vehicle model is not recognized, only the vehicle brand and category are reported to the end user (based on the probability vector). After determining the vehicle model, the server sends a set of data to the end user device: a reference image of the vehicle model, coordinates of its buttons, a list of instructions for this model.
4. На устройстве конечного пользователя выводится список доступных инструкций по распознанной модели. 4. The list of available instructions for the recognized model is displayed on the end user's device.
5. Пользователь инициирует переход к определенной инструкции. 5. The user initiates a jump to a particular instruction.
6. После выбора инструкции загружается детальная информация по инструкции и изображение маркера (размеченного изображения). В данном случае под разметкой понимается нахождение координат прямоугольников, ограничивающих какую-либо часть изображения имеющую для нас значимость на текущем шаге, такой значимой частью изображения может быть кнопка на стиральной машине, чайнике и любом другом оборудовании. Далее дескрипторы маркера передаются в компонент трекинга маркера для детектирования изображения. 6. After selecting an instruction, the detailed information on the instruction and the image of the marker (marked up image) are loaded. In this case, markup means finding the coordinates of the rectangles that bound any part of the image that is significant for us at the current step, such a significant part of the image can be a button on a washing machine, kettle, and any other equipment. Next, the marker descriptors are passed to the marker tracking component for image detection.
7. Пользователем определяется шаг инструкции, далее происходит процесс сопоставления маркера при наведении камеры на интересующий пользователя объект. 7. The user determines the step of the instruction, then the process of matching the marker occurs when the camera is pointed at the object of interest to the user.
8. Извлекается информация об отображаемом шаге инструкции - она представляет собой координаты прямоугольника на изображении маркера (размеченные координаты в пространстве маркерного изображения). 9. Маркерное изображение и поданное от пользователя изображение - это на самом деле тензоры (матрицы), имеющие следующие размерности - (3,640,480), которые переводятся в дальнейшем из RGB в Grayscale и получают просто (1 ,640,480). Затем строится гомоморфизм, отображающий маркерное изображение в пространство поданного фрейма, и через этот гомоморфизм преобразуют координаты рамки из пространства маркера в пространство поданного от пользователя фрейма. 8. Information about the displayed step of the instruction is retrieved - it is the coordinates of the rectangle on the marker image (marked coordinates in the space of the marker image). 9. The marker image and the image submitted by the user are actually tensors (matrices) with the following dimensions - (3,640,480), which are further converted from RGB to Grayscale and get simply (1,640,480). Then a homomorphism is constructed that maps the marker image to the space of the submitted frame, and through this homomorphism the frame coordinates are converted from the space of the marker to the space of the frame submitted by the user.
10. Преобразованные координаты прямоугольников накладываются на пользовательский видеоряд, поступающий с камеры в режиме реального времени. 10. The transformed coordinates of the rectangles are superimposed on the user's video sequence coming from the camera in real time.
11 . Пользователь проходит инструкцию в рамках набора ее шагов. eleven . The user goes through the instruction within the set of its steps.
На Фиг. 4 показан вариант отображения шага инструкции конечному пользователю, например, шага 2/11 «Дисплей» и шага 5/11 «Розетка». On FIG. 4 shows an option for displaying an instruction step to the end user, for example, step 2/11 "Display" and step 5/11 "Socket".
Приведённые примеры являются частными случаями и не исчерпывают всех возможных реализаций заявляемого изобретения. The examples given are special cases and do not exhaust all possible implementations of the claimed invention.
На Фиг. 5 представлена общая схема вычислительного устройства (N00), обеспечивающего обработку данных, необходимую для реализации заявленного решения. On FIG. 5 shows a general diagram of a computing device (N00) that provides the data processing necessary to implement the claimed solution.
В общем случае устройство (N00) содержит такие компоненты, как: один или более процессоров (N01), по меньшей мере одну память (N02), средство хранения данных (N03), интерфейсы ввода/вывода (N04), средство В/В (N05), средства сетевого взаимодействия (N06). In general, a device (N00) contains components such as: one or more processors (N01), at least one memory (N02), storage media (N03), I/O interfaces (N04), I/O ( N05), networking tools (N06).
Процессор (N01) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (N00) или функциональности одного или более его компонентов. Процессор (N01) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (N02). The processor (N01) of the device performs the basic computing operations necessary for the operation of the device (N00) or the functionality of one or more of its components. The processor (N01) executes the necessary machine-readable instructions contained in the main memory (N02).
Память (N02), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. Memory (N02), as a rule, is made in the form of RAM and contains the necessary software logic that provides the required functionality.
Средство хранения данных (N03) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (N03) позволяет выполнять долгосрочное хранение различного вида информации. The data storage facility (N03) can be implemented in the form of HDD, SSD disks, raid array, network storage, flash memory, optical storage media (CD, DVD, MD, Blue-Ray disks), etc. The tool (N03) allows you to perform long-term storage of various types of information.
Интерфейсы (N04) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п. Выбор интерфейсов (N04) зависит от конкретного исполнения устройства (N00), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п. Interfaces (N04) are standard means for connecting and working with the server part, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire, etc. The choice of interfaces (N04) depends on the specific version of the device (N00), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.
В качестве средств В/В данных (N05) в любом воплощении системы должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п. The keyboard should be used as data I/O (N05) in any implementation of the system. The keyboard hardware can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server, or other computer device. In this case, the connection can be either wired, in which the keyboard connection cable is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports. In addition to the keyboard, I/O devices can also use: joystick, display (touchscreen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.
Средства сетевого взаимодействия (N06) выбираются из устройств, обеспечивающих сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (N05) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM, 3G, 4G, 5G. Means of network interaction (N06) are selected from devices that provide network reception and transmission of data, for example, an Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc. With the help of tools (N05) the organization of data exchange over a wired or wireless data transmission channel, for example, WAN, PAN, LAN (LAN), Intranet, Internet, WLAN, WMAN or GSM, 3G, 4G, 5G, is provided.
Компоненты устройства (N00) сопряжены посредством общей шины передачи данных (N10). The device components (N00) are connected via a common data bus (N10).
В настоящих материалах заявки представлено предпочтительное раскрытие осуществления заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники. The present application materials provide a preferred disclosure of the implementation of the claimed technical solution, which should not be used as limiting other, private embodiments of its implementation, which do not go beyond the scope of the requested legal protection and are obvious to specialists in the relevant field of technology.
Специалисту в данной области техники должно быть понятно, что различные вариации заявляемого способа и системы не изменяют сущность изобретения, а лишь определяют его конкретные воплощения и применения. It should be clear to a person skilled in the art that various variations of the proposed method and system do not change the essence of the invention, but only determine its specific embodiments and applications.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ Способ демонстрации инструкций для объекта техники при помощи дополненной реальности, содержащий следующие шаги: INVENTION FORMULA A method for demonstrating instructions for a technical object using augmented reality, containing the following steps:
- захват изображения объекта техники с помощью устройства конечного пользователя; - capturing an image of a technical object using an end user device;
- распознавание типа и модели объекта техники на основании текущего фрейма изображения; - recognition of the type and model of the equipment object based on the current image frame;
- передача на устройство конечного пользователя набора данных для распознанной модели техники, содержащего, по меньшей мере, эталонное изображение, координаты элементов интерфейса, список инструкций, детальную информацию для инструкций; - transfer to the end user device of a data set for the recognized model of equipment, containing at least a reference image, coordinates of interface elements, a list of instructions, detailed information for instructions;
- извлечение, по меньшей мере, особых точек и дескрипторов для эталонного изображения и текущего фрейма, сопоставление особых точек по дескрипторам; - extracting at least key points and descriptors for the reference image and the current frame, matching key points by descriptors;
- построение матрицы гомографии для получения координат элементов интерфейса на текущем фрейме, проецирование на текущий фрейм координат элементов интерфейса; - building a homography matrix to obtain the coordinates of the interface elements on the current frame, projecting the coordinates of the interface elements onto the current frame;
- отображение инструкции для распознанной модели объекта техники на текущий фрейм на устройстве конечного пользователя. Система демонстрации инструкций для объекта техники при помощи дополненной реальности для реализации способа по п. 1 , содержащая:- displaying instructions for the recognized model of the vehicle object on the current frame on the end user device. A system for demonstrating instructions for a technical object using augmented reality for implementing the method according to claim 1, comprising:
- устройство конечного пользователя, содержащее средство захвата изображения и средство отображения информации пользователю; - an end user device containing an image capture means and a means for displaying information to the user;
- модуль классификации; - classification module;
- датасет обучающих изображений; - training images dataset;
- модуль трекинга; - tracking module;
- пополняемый каталог инструкций; в которой осуществляют захват изображения объекта техники посредством средства захвата изображения; на основании текущего фрейма изображения распознают модель объекта техники посредством модуля классификации; проецируют координаты элементов интерфейса на эталонном изображении распознанной модели объекта техники на текущий фрейм посредством модуля трекинга; - updated catalog of instructions; in which carry out the capture of the image of the object of technology by means of capturing the image; based on the current image frame, a model of a technical object is recognized by means of a classification module; projecting the coordinates of the interface elements on the reference image of the recognized model of the technical object onto the current frame by means of the tracking module;
16 16
ЗАМЕНЯЮЩИЙ ЛИСТ (ПРАВИЛО 26) отображают инструкцию для распознанной модели объекта техники при помощи дополненной реальности, где метки шагов инструкции привязываются к реальному объекту техники, отображаемому на устройстве конечного пользователя. Система по п. 2, характеризующаяся тем, что устройством конечного пользователя является смартфон, планшет или AR-очки. Система по п. 2, характеризующаяся тем, что средством захвата изображения является встроенная камера. Система по п. 2, характеризующаяся тем, что объектом техники является объект бытовой, профессиональной, индустриальной техники. Система по п. 2, характеризующаяся тем, что модуль классификации включает в себя, по меньшей мере, модуль определения типа техники и модуль определения модели техники. Система по п. 6, характеризующаяся тем, что дополнительно определяют бренд техники. Система по п. 6, характеризующаяся тем, что модуль определения типа техники и модуль трекинга реализованы на устройстве конечного пользователя, модуль определения модели техники и каталог инструкций реализованы на сервере. Система по п. 6, характеризующаяся тем, что хранят изображения объектов техники для обучения модуля определения модели техники в датасет обучающих изображений. Система по п. 2, характеризующаяся тем, что распознают модель объекта техники с помощью нейронных сетей. Система по п. 10, характеризующаяся тем, что первоначальное обучение нейронных сетей происходит на основании 10 и более различных фотографий объекта техники. Система по п. 11 , характеризующаяся тем, что данные об объекте техники поступают из различных источников, по меньшей мере, от внутренней продуктовой команды и от конечных пользователей. Система по п. 11 , характеризующаяся тем, что каждый раз при получении от пользователя данных об удачном или неудачном определении модели проводится дообучение сетей. SUBSTITUTE SHEET (RULE 26) display instructions for the recognized model of the vehicle object using augmented reality, where instruction step labels are linked to the real vehicle object displayed on the end user's device. The system according to claim 2, characterized in that the end user device is a smartphone, tablet or AR glasses. The system according to claim 2, characterized in that the means of capturing the image is a built-in camera. The system according to claim 2, characterized by the fact that the object of technology is an object of household, professional, industrial equipment. The system according to claim 2, characterized in that the classification module includes at least a technique type determination module and a technique model determination module. The system according to claim 6, characterized in that the brand of equipment is additionally determined. The system according to claim 6, characterized in that the module for determining the type of equipment and the tracking module are implemented on the end user device, the module for determining the model of equipment and the catalog of instructions are implemented on the server. The system according to claim 6, characterized in that they store images of equipment objects for training the module for determining the equipment model in a dataset of training images. The system according to claim 2, characterized in that the model of the object of technology is recognized using neural networks. The system according to claim 10, characterized in that the initial training of neural networks occurs on the basis of 10 or more different photographs of the technical object. The system according to claim 11, characterized in that the data about the technical object comes from various sources, at least from the internal product team and from end users. The system according to claim 11, characterized in that each time the user receives data about the successful or unsuccessful definition of the model, additional training of the networks is carried out.
17 17
ЗАМЕНЯЮЩИЙ ЛИСТ (ПРАВИЛО 26) Система по п. 2, характеризующаяся тем, что осуществляют посредством модуля трекинга по меньшей мере трекинг через детектирование и краткосрочный трекинг объекта техники. Система по п. 2, характеризующаяся тем, что система дополнительно содержит интерфейс создания инструкций, причем пополняют каталог инструкций с помощью интерфейса создания инструкций. SUBSTITUTE SHEET (RULE 26) The system according to claim 2, characterized in that at least tracking through the detection and short-term tracking of the technical object is carried out by means of the tracking module. The system according to claim. 2, characterized in that the system additionally contains an interface for creating instructions, and the catalog of instructions is replenished using the interface for creating instructions.
18 eighteen
ЗАМЕНЯЮЩИЙ ЛИСТ (ПРАВИЛО 26) SUBSTITUTE SHEET (RULE 26)
PCT/RU2020/000785 2020-12-30 2020-12-30 Platform for step-by-step augmented reality technical instructions WO2022146166A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/RU2020/000785 WO2022146166A1 (en) 2020-12-30 2020-12-30 Platform for step-by-step augmented reality technical instructions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2020/000785 WO2022146166A1 (en) 2020-12-30 2020-12-30 Platform for step-by-step augmented reality technical instructions

Publications (1)

Publication Number Publication Date
WO2022146166A1 true WO2022146166A1 (en) 2022-07-07

Family

ID=82260947

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2020/000785 WO2022146166A1 (en) 2020-12-30 2020-12-30 Platform for step-by-step augmented reality technical instructions

Country Status (1)

Country Link
WO (1) WO2022146166A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8814691B2 (en) * 2010-02-28 2014-08-26 Microsoft Corporation System and method for social networking gaming with an augmented reality
US8947456B2 (en) * 2012-03-22 2015-02-03 Empire Technology Development Llc Augmented reality process for sorting materials

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8814691B2 (en) * 2010-02-28 2014-08-26 Microsoft Corporation System and method for social networking gaming with an augmented reality
US8947456B2 (en) * 2012-03-22 2015-02-03 Empire Technology Development Llc Augmented reality process for sorting materials

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "How to Train YOLOv5 On a Custom Dataset", ROBOFLOW, 10 June 2020 (2020-06-10), pages 1 - 13, XP055953753, Retrieved from the Internet <URL:https://blog.roboflow.com/how-to-train-yolov5-on-a-custom-dataset/> [retrieved on 20220823] *
SINEM GUVEN KAYA ET AL., FINE-GRAINED VISUAL RECOGNITION FOR MOBILE AR TECHNICAL SUPPORT, 21 November 2020 (2020-11-21), Retrieved from the Internet <URL:https://web.archive.org/web/20201121150226> [retrieved on 20210907] *
ZHOU BING; GUVEN SINEM: "Fine-Grained Visual Recognition in Mobile Augmented Reality for Technical Support", IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS, IEEE, USA, vol. 26, no. 12, 17 September 2020 (2020-09-17), USA, pages 3514 - 3523, XP011819358, ISSN: 1077-2626, DOI: 10.1109/TVCG.2020.3023635 *

Similar Documents

Publication Publication Date Title
US11321583B2 (en) Image annotating method and electronic device
Zimmermann et al. Learning to estimate 3d hand pose from single rgb images
JP6397144B2 (en) Business discovery from images
WO2019245768A1 (en) System for predicting articulated object feature location
WO2013175792A1 (en) Person attribute estimation system and learning-use data generation device
WO2015135324A1 (en) Picture sorting method and terminal
US11094079B2 (en) Determining a pose of an object from RGB-D images
US11681409B2 (en) Systems and methods for augmented or mixed reality writing
CN111667005B (en) Human interactive system adopting RGBD visual sensing
CN110516707B (en) Image labeling method and device and storage medium thereof
CN114782901B (en) Sand table projection method, device, equipment and medium based on visual change analysis
CN110942511B (en) Indoor scene model reconstruction method and device
CN115008454A (en) Robot online hand-eye calibration method based on multi-frame pseudo label data enhancement
CN112328088B (en) Image presentation method and device
JP7126586B2 (en) Face composite image detection method, face composite image detection device, electronic device, storage medium, and computer program
KR20150022158A (en) Apparatus and method for learning mechanical drawing
CN111638792A (en) AR effect presentation method and device, computer equipment and storage medium
WO2022146166A1 (en) Platform for step-by-step augmented reality technical instructions
CN115661254A (en) Multi-person attitude estimation method and related device
CN111124106A (en) Method for tracking virtual reality system
US11861899B2 (en) Systems and methods for augmented reality using web browsers
CN117173731B (en) Model training method, image processing method and related device
JP2019185349A (en) Search device, search method, and program
CN114973294B (en) Image-text matching method, device, equipment and storage medium
CN112749292B (en) User tag generation method and device, computer device and storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20968107

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20968107

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 11.12.2023)