RU2659493C1 - Method of forming catalog of celestial objects of large arrays of astronomic images - Google Patents

Method of forming catalog of celestial objects of large arrays of astronomic images Download PDF

Info

Publication number
RU2659493C1
RU2659493C1 RU2017104445A RU2017104445A RU2659493C1 RU 2659493 C1 RU2659493 C1 RU 2659493C1 RU 2017104445 A RU2017104445 A RU 2017104445A RU 2017104445 A RU2017104445 A RU 2017104445A RU 2659493 C1 RU2659493 C1 RU 2659493C1
Authority
RU
Russia
Prior art keywords
images
sky
celestial objects
celestial
catalog
Prior art date
Application number
RU2017104445A
Other languages
Russian (ru)
Inventor
Сергей Валерьевич Герасимов
Александр Валерьевич Мещеряков
Валентина Владимировна Глазкова
Андрей Николаевич Терехин
Иван Сергеевич Попов
Original Assignee
Федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный университет имени М.В. Ломоносова" (МГУ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный университет имени М.В. Ломоносова" (МГУ) filed Critical Федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный университет имени М.В. Ломоносова" (МГУ)
Priority to RU2017104445A priority Critical patent/RU2659493C1/en
Application granted granted Critical
Publication of RU2659493C1 publication Critical patent/RU2659493C1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

FIELD: astronomy.
SUBSTANCE: invention relates to the formation of a system for storing, processing and intellectual analysis of large data sets of astronomical observations. Method of forming electronic catalog of celestial objects of astronomical images large arrays is disclosed, which includes the following steps: a) determination of the target image of the sky, followed by its splitting into rectangular cells of equal area, containing images of parts of the target fragment of the sky in the specified cartographic projections, while the cell sizes and the overlap, the type and parameters of the cartographic projection for each cell are pre-defined as input parameters, and upon partitioning each cell is assigned a unique identifier, representing the coordinate of the cell in the target fragment of the sky; b) obtaining primary observations that represent an array of unprocessed astronomical images and their calibrations; saving them in a distributed file system; c) processing of an array of astronomical images using the mapping-convolution model; e) formation of a catalog of celestial objects of the target fragment of the sky by detecting celestial objects on the final images, removing artifacts and measuring the values of the attributes of celestial objects, with the assignment of coordinates to the detected celestial object and a unique identifier using the Mapping step; e) saving generated catalog containing the values of the attributes of celestial objects in the distributed file system, in a columnar format that allows statistical processing of a large number of attributes of celestial objects using the Mapping-Convolution model; the steps a)–e) are repeated many times for each target fragment of the sky and each spectral range, after which the cross-identification of celestial objects in the generated catalogs is performed using the step of Convolution and the formation of a master catalog, containing for each celestial object a combined list of attribute values from different catalogs generated in step e) for the target sky fragments and spectral ranges or derived from external sources.
EFFECT: technical result is to ensure the possibility of increasing the efficiency of statistical processing, as well as incremental processing of data.
7 cl, 7 dwg

Description

Область техникиTechnical field

Изобретение относится к области вычислительной техники, в частности, к формированию системы хранения, обработки и интеллектуального анализа больших массивов данных астрономических наблюдений.The invention relates to the field of computer technology, in particular, to the formation of a storage system, processing and intelligent analysis of large amounts of astronomical observation data.

Способ предназначен для использования коллективами астрофизиков в научной деятельности в качестве ключевого инструмента для решения задач, требующих:The method is intended for use by teams of astrophysicists in scientific activity as a key tool for solving problems requiring:

- массовой обработки с помощью специализированных алгоритмов сырых данных наблюдений, включая данные, полученные из нескольких проектов цифровых небесных обзоров, данные наблюдений в разных спектральных диапазонах;- mass processing using specialized algorithms of raw observation data, including data obtained from several projects of digital celestial surveys, observation data in different spectral ranges;

- использования методов машинного обучения, таких как обучение с и без учителя для больших выборок небесных объектов.- the use of machine learning methods, such as teaching with and without a teacher for large samples of celestial objects.

Уровень техникиState of the art

Процесс обработки данных современных небесных обзоров состоит из следующих традиционных этапов:The processing of data from modern celestial surveys consists of the following traditional steps:

1. Базовая обработка сырых данных наблюдений - изображений: калибровка изображений, удаление артефактов и фоновой компоненты, проецирование изображений в единую систему координат, заданную параметрами картографической проекции выбранного фрагмента неба.1. Basic processing of raw observation data - images: calibration of images, removal of artifacts and background components, projection of images into a single coordinate system specified by the parameters of the cartographic projection of the selected sky fragment.

2. Сложение повторных снимков перекрывающихся участков неба.2. The addition of repeated shots of overlapping parts of the sky.

3. Детектирование объектов на сложенных изображениях.3. Detecting objects in folded images.

4. Измерение характеристик небесных объектов и формирование каталогов небесных объектов.4. Measurement of the characteristics of celestial objects and the formation of catalogs of celestial objects.

5. Отождествление объектов сформированного каталога с объектами каталогов других небесных обзоров.5. Identification of the objects of the generated catalog with the catalog objects of other celestial surveys.

Заявляемый способ интегрирует в этот процесс этапы применения методов интеллектуального анализа данных и статистического анализа, регламентирует методику применения на вычислительном кластере модели вычислений Отображение-Свертка для обработки и распределенной файловой системы для надежного хранения данных наблюдений. За счет предложенной архитектуры достигается возможность реализации горизонтально масштабируемых сценариев настраиваемой обработки и интеллектуального анализа больших массивов сырых данных наблюдений, включающих любые шаги обработки: от алгоритмов анализа изображений до применения методов машинного обучения и статистического анализа результатов. Предложенная архитектура обеспечивает высокий уровень сохранности данных и возможность продолжения вычислений после выхода из строя части вычислительных узлов кластера.The inventive method integrates the steps of applying data mining and statistical analysis methods into this process, regulates the methodology of applying the Display-Convolution model for processing and a distributed file system for reliable storage of observations on a computing cluster. Due to the proposed architecture, it is possible to implement horizontally scalable scenarios of customizable processing and intelligent analysis of large arrays of raw observation data, including any processing steps: from image analysis algorithms to the application of machine learning methods and statistical analysis of results. The proposed architecture provides a high level of data security and the ability to continue computing after the failure of part of the computing nodes of the cluster.

Существующие средства обработки астрономических данных, находящиеся в открытом доступе, автоматизируют лишь часть этапов обработки и анализа данных или не предоставляют возможности горизонтального масштабирования вычислений. Например, система Montage [1] реализует только этап сложения откалиброванных изображений на базе интерфейса передачи сообщений (англ., Message Passing Interface, MPI) с планированием запуска заданий на стандартном диспетчере грид-ресурсов. Система TOPCAT/STILTS [2] обеспечивает возможность кросс-отождествления объектов из нескольких каталогов на одном вычислителе. Система Large Survey Database (LSD) [3] реализует ограниченные возможности кросс-отождествления и фильтрации объектов из нескольких каталогов на мультипроцессорной системе с общей памятью. Система AstroML [4] реализует алгоритмы машинного обучения для обработки данных наблюдений, но не является масштабируемой.The existing means of processing astronomical data, which are in the public domain, automate only a part of the stages of data processing and analysis or do not provide the possibility of horizontal scaling of calculations. For example, the Montage system [1] implements only the stage of adding calibrated images based on the message passing interface (English, Message Passing Interface, MPI) with scheduling the launch of tasks on the standard grid resource manager. The TOPCAT / STILTS system [2] provides the ability to cross-identify objects from several directories on a single calculator. The Large Survey Database (LSD) system [3] implements the limited possibilities of cross-identification and filtering of objects from several directories on a multiprocessor system with shared memory. The AstroML system [4] implements machine learning algorithms for processing observational data, but is not scalable.

В патенте US 8995789 описан способ объединения изображений на параллельных вычислителях путем оптимизации расходования ресурсов за счет выполнения части операций в оперативной памяти отдельных вычислителей.US 8,995,789 describes a method for combining images on parallel computers by optimizing the consumption of resources by performing part of the operations in the RAM of individual computers.

Кроме того, из уровня техники известны технические решения, направленные на использование средств MapReduce при обработке больших объемов данных, в том числе и больших массивов астрономических данных.In addition, technical solutions are known from the prior art that are aimed at using MapReduce tools for processing large amounts of data, including large arrays of astronomical data.

Так, известен патент US 8799269 «Optimizing map/reduce searches by using synthetic events», раскрывающий использование алгоритма MapReduce при выполнении поиска документов среди большого массива данных альтернативно использованию структурированного языка запросов SQL и стандартному поиску по базе данных.So, the patent US 8799269 “Optimizing map / reduce searches by using synthetic events” is known, which discloses the use of the MapReduce algorithm when searching for documents among a large data array, alternative to using a structured SQL query language and standard database search.

Известен патент CN 102768675 «Parallel astronomical cross identification method», раскрывающий техническое решение, основанное на применении алгоритма MapReduce при кросс-отождествлении астрономических объектов. В рамках технического решения авторами предлагается разделить таблицы астрономических каталогов на части, соответствующие клеткам в сферической системе координат с углами RA и DEC (0<RA<360, -90<DEC<90), и распределить данные клеток по узлам кластера. Кросс-отождествление объектов внутри каждой клетки делается независимо на своем узле кластера, затем результаты собираются вместе. Серьезным недостатком данного подхода является игнорирование авторами патента проблемы кросс-идентификации объектов расположенных на границах клеток, что делает предложенный метод кросс-отождествления каталогов неполным. Далее, авторы предлагают разделение на клетки в плоскости RA, DEC - площадь соответствующих таким клеткам областей на сфере оказывается разной вблизи полюсов (DEC=-90, +90) и у экватора (DEC=0), что приводит к неравномерному распределению объектов по клеткам, что в свою очередь, может порождать несбалансированную нагрузку на узлы кластера при выполнении кросс-идентификации каталогов.The patent CN 102768675 “Parallel astronomical cross identification method” is known, which discloses a technical solution based on the use of the MapReduce algorithm for cross-identification of astronomical objects. As part of a technical solution, the authors propose to divide the tables of astronomical catalogs into parts corresponding to cells in a spherical coordinate system with angles RA and DEC (0 <RA <360, -90 <DEC <90), and distribute cell data among the nodes of the cluster. Cross-identification of objects within each cell is done independently on its cluster node, then the results are collected together. A serious drawback of this approach is that the patent authors ignore the problem of cross-identification of objects located at the borders of cells, which makes the proposed method of cross-identification of directories incomplete. Further, the authors propose separation into cells in the RA, DEC plane — the area of the regions corresponding to such cells on the sphere turns out to be different near the poles (DEC = -90, +90) and at the equator (DEC = 0), which leads to an uneven distribution of objects over the cells , which, in turn, can create an unbalanced load on the cluster nodes when performing cross-identification of directories.

Раскрытие сущности изобретенияDisclosure of the invention

Задачей заявляемого изобретения является создание способа обработки и анализа больших массивов данных астрономических наблюдений для поддержки автоматизации научных исследований в наблюдательной астрофизике.The task of the invention is to provide a method for processing and analyzing large amounts of astronomical observation data to support the automation of scientific research in observational astrophysics.

Технический результат, достигаемый при использовании заявляемого изобретения, заключается в обеспечении возможности повышения эффективности статистической обработки, а также инкрементальной обработки данных.The technical result achieved by using the claimed invention is to provide the possibility of increasing the efficiency of statistical processing, as well as incremental data processing.

Отличительной особенностью построения способа является архитектура, основанная на модели вычислений Отображение-Свертка (англ. MapReduce) и использование распределенной файловой системы, обеспечивающих возможность горизонтального масштабирования производительности всех этапов обработки и интеллектуального анализа данных астрономических наблюдений.A distinctive feature of the method construction is the architecture based on the Display-Convolution model (MapReduce) and the use of a distributed file system that enables horizontal scaling of the performance of all stages of processing and intelligent analysis of astronomical observation data.

Технический результат достигается за счет единой горизонтально масштабируемой архитектуры, основанной на модели вычислений Отображение-Свертка и использовании распределенной файловой системы. Для каждого из шагов процесса обработки и анализа астрономических данных - применения калибровок, удаления артефактов и фоновой компоненты, проецировании в единую систему координат и сложении изображений, детектировании объектов и создании каталогов объектов за счет измерения значений их атрибутов, обработки фильтрующих и статистических запросов к каталогам, кросс-идентификации их объектов и применении методов интеллектуального анализа данных - реализуют соответствующие алгоритмы в модели вычислений Свертка-Отображение.The technical result is achieved through a single horizontally scalable architecture based on the Display-Convolution model and using a distributed file system. For each step of the process of processing and analyzing astronomical data - applying calibrations, deleting artifacts and the background component, projecting into a single coordinate system and adding images, detecting objects and creating catalogs of objects by measuring their attribute values, processing filtering and statistical queries to catalogs, cross-identification of their objects and application of data mining methods - implement the corresponding algorithms in the convolution-mapping calculation model.

Поставленная задача решается, тем, что заявляемый способ формирования электронного каталога небесных объектов из больших массивов астрономических изображений, включает следующие этапы:The problem is solved, in that the inventive method of forming an electronic catalog of celestial objects from large arrays of astronomical images includes the following steps:

а) определение целевого фрагмента изображения неба с последующим его разбиением внахлест на прямоугольные клетки равной площади в заданной картографической проекции сферы на плоскость, содержащие изображения частей целевого фрагмента неба, при этом размеры клетки, величину нахлеста, а также тип и параметры картографической проекции для каждой клетки предварительно задают в качестве входных параметров, а при разбиении каждой клетке присваивают уникальный идентификатор, представляющий собой координату клетки в целевом фрагменте неба;a) determination of the target fragment of the image of the sky with its subsequent overlapping into rectangular cells of equal area in a given cartographic projection of the sphere onto a plane containing images of parts of the target fragment of the sky, while the cell size, the size of the overlap, as well as the type and parameters of the cartographic projection for each cell pre-set as input parameters, and when divided, each cell is assigned a unique identifier, which is the coordinate of the cell in the target fragment of the sky;

б) получение первичных данных наблюдений, представляющих собой массив необработанных астрономических изображений и калибровок (фотометрической и астрометрической) для каждого изображения; сохранение их в распределенной файловой системе;b) obtaining primary observational data, which is an array of raw astronomical images and calibrations (photometric and astrometric) for each image; saving them in a distributed file system;

в) обработку массива астрономических изображений, полученных на шаге б) с использованием модели вычислений Отображение-Свертка, при этом на шаге Отображения каждое изображение из массива первичных данных наблюдений связывают с уникальным идентификатором клетки, определенной на этапе а), по принципу пересечения необработанного изображения и изображения, содержащегося в клетке или группе клеток, после чего необработанные изображения калибруют (записывают калибровочные коэффициенты в метаданные изображения), из изображений удаляют артефакты и фоновые компоненты, а затем преобразованные калиброванные изображения с присвоенным идентификатором, представляющим собой ключ, проецируют в систему координат клетки, используя заданные на этапе а) параметры картографической проекции клетки, и формируют пары ключ - спроецированное изображение;c) processing the array of astronomical images obtained in step b) using the Display-Convolution calculation model, and in the Display step, each image from the array of primary observation data is associated with a unique cell identifier determined in step a), according to the principle of intersection of the raw image and image contained in a cell or group of cells, after which the raw images are calibrated (write calibration coefficients in the image metadata), art is removed from the images Facts and background components and then converted calibrated image with the assigned identifier, constituting the key projecting in the cell coordinate system, using the specified in step a) the cell parameters of map projection, and form a key pair - the projected image;

на шаге Свертки группируют сформированные пары по ключу, выполняют попиксельное сложение спроецированных изображений, имеющих одинаковый ключ, с получением массива итоговых изображений, составляющих мозаику целевого фрагмента неба, которые сохраняют в распределенной файловой системе;at the Convolution step, the generated pairs are grouped by key, pixel-by-pixel addition of projected images having the same key is performed to obtain an array of final images that make up the mosaic of the target sky fragment, which are stored in a distributed file system;

д) формирование каталога небесных объектов целевого фрагмента неба посредством детектирования небесных объектов на итоговых изображениях, удаления координат детектированному небесному объекту и уникального идентификатора с использованием шага Отображения;e) the formation of a catalog of celestial objects of the target fragment of the sky by detecting celestial objects in the final images, removing the coordinates of the detected celestial object and a unique identifier using the Display step;

е) сохранение в распределенной файловой системе сформированного каталога, содержащего значения атрибутов небесных объектов, в поколоночном формате, обеспечивающем возможность статистической обработки большого числа атрибутов небесных объектов с использованием модели вычислений Отображение-Свертка;f) saving in a distributed file system the generated catalog containing the attributes of celestial objects in a batch format that enables statistical processing of a large number of attributes of celestial objects using the Display-Convolution calculation model;

при этом этапы а)-е) повторяют многократно для каждого целевого фрагмента неба и для наблюдений в каждом спектральном диапазоне, после чего осуществляют кросс-отождествление небесных объектов в сформированных каталогах с использованием шага Свертка и формирование сводного каталога, содержащего для каждого небесного объекта объединенный перечень значений атрибутов из разных каталогов, сформированных на этапе д) для целевых фрагментов неба и спектральных диапазонов или полученных из внешних источников.in this case, steps a) -e) are repeated many times for each target sky fragment and for observations in each spectral range, after which cross-identification of celestial objects in the generated catalogs is performed using the Convolution step and the formation of a consolidated catalog containing a combined list for each celestial object attribute values from different directories generated in step e) for target sky fragments and spectral ranges or obtained from external sources.

Под статистической обработкой при реализации способа понимают фильтрацию, группировку и агрегацию данных по запросу. В качестве атрибутов небесного объекта понимают всевозможные характеристики объекта измеренные по его изображению: координаты центра объекта (на спроецированном изображении и небесные координаты в сферической системе координат), эффективный радиус объекта, его вытянутость и позиционный угол (ориентация), полный поток и поверхностная яркость объекта, а также, профиль поверхностной яркости объекта измеренный для набора концентрических окружностей различного радиуса от центра объекта, класс объекта (протяженный/точечный) и множество других характеристик, которые могут быть измерены специализированной программой анализа астрономических изображений. В качестве атрибутов объекта в каталоге, также могут выступать общие характеристики изображения, на котором обнаружен объект - параметры функции отклика телескопа на изображении с телескопа, уровень фоновой компоненты, значение воздушной массы атмосферы для данного изображения с телескопа и другие характеристики изображения в целом. В качестве атрибутов небесного объекта в сводном каталоге, также могут выступать целевые атрибуты, полученные в результате применения моделей регрессии и классификации на этапе интеллектуального анализа данных каталогов. Возможность статистической обработки сформированных каталогов небесных объектов обеспечивают с использованием языка SQL. При выполнении этапа в) на шаге Свертки при попиксельном сложении спроецированных изображений, имеющих одинаковый ключ, используют изображения из наблюдений в одном спектральном диапазоне, принадлежащие одному целевому фрагменту неба.Under statistical processing when implementing the method understand filtering, grouping and aggregation of data on request. As attributes of a celestial object, we understand all kinds of characteristics of the object measured by its image: the coordinates of the center of the object (in the projected image and the celestial coordinates in the spherical coordinate system), the effective radius of the object, its elongation and position angle (orientation), the total flux and surface brightness of the object, as well as the profile of the surface brightness of the object measured for a set of concentric circles of different radii from the center of the object, the class of the object (extended / point) and many others other characteristics that can be measured by a specialized program for analyzing astronomical images. The attributes of the object in the catalog can also be the general characteristics of the image on which the object is detected - the parameters of the response function of the telescope in the image from the telescope, the level of the background component, the air mass of the atmosphere for a given image from the telescope, and other characteristics of the image as a whole. The attributes of a celestial object in the composite catalog can also be target attributes obtained as a result of applying regression and classification models at the stage of data mining of catalogs. The possibility of statistical processing of the generated catalogs of celestial objects is provided using the SQL language. When performing step c) in the Convolution step, pixel-by-pixel summation of projected images having the same key uses images from observations in the same spectral range belonging to the same target fragment of the sky.

Также поставленная задача решается с использованием способа интеллектуального анализа данных каталогов небесных объектов, включающего формирование каталогов небесных объектов в соответствии с описанным выше способом, содержащего последующие этапы:Also, the problem is solved using the method of data mining of catalogs of celestial objects, including the formation of catalogs of celestial objects in accordance with the method described above, containing the following steps:

а) обучение модели регрессии и классификации на известных значениях атрибутов каталогов и целевых атрибутах, предварительно заданных, при этом в ходе обучения на шаге Отображения параллельно и распределенно проверяется точность модели для предварительно заданных комбинаций значений гиперпараметров алгоритмов,a) training the regression and classification model on known values of directory attributes and target attributes predefined, while during the training at the Display step, the model accuracy for predefined combinations of algorithm hyperparameter values is checked in parallel and distributed,

б) применение обученной модели для небесных объектов каталога с неизвестным значением целевого атрибута с использованием шага Отображения, на котором параллельно и распределенно на частях каталога происходит прогнозирование неизвестного значения целевого атрибута.b) the application of the trained model for celestial objects of the catalog with an unknown value of the target attribute using the Display step, in which the unknown value of the target attribute is predicted in parallel and distributed on parts of the catalog.

В процессе обучения используют кросс-валидацию для подбора оптимальных значений гиперпараметров алгоритмов, характеризующуюся использованием одной части входных данных для обучения, а другой части входных данных для тестирования.In the learning process, cross-validation is used to select the optimal values of the hyperparameters of the algorithms, characterized by the use of one part of the input data for training, and the other part of the input data for testing.

Описание чертежейDescription of drawings

Сущность изобретения также поясняется чертежами, гдеThe invention is also illustrated by drawings, where

на фиг. 1 представлена структурная схема системы, реализующей заявляемый способ,in FIG. 1 presents a structural diagram of a system that implements the inventive method,

на фиг. 2 представлена общая структурная схема работы модуля обработки изображений,in FIG. 2 presents a General block diagram of the operation of the image processing module,

на фиг. 3 приведена схема алгоритма работы модуля обработки запросов к каталогам,in FIG. 3 shows a diagram of the operation algorithm of the directory query processing module,

на фиг. 4 проиллюстрирован метод разбиения на клетки с учетом границ,in FIG. 4 illustrates the method of dividing into cells, taking into account the boundaries,

на фиг. 5 приведена схема работы модуля обработки изображений при создании каталога,in FIG. 5 is a diagram of the image processing module when creating a directory,

на фиг. 6 схематично изображен целевой фрагмент неба, исходные изображения и разбиение на клетки,in FIG. 6 schematically depicts a target fragment of the sky, the source image and the division into cells,

на фиг. 7 схематично представлены уровни пикселизации на сфере.in FIG. 7 schematically shows pixelization levels on a sphere.

Для однозначной трактовки положений настоящей заявки ниже приведены основные определения, используемые при описании изобретения.For an unambiguous interpretation of the provisions of this application, the following are the main definitions used in the description of the invention.

Небесные объекты - физические тела (астероиды, планеты, звезды, галактики и др.), расположенные в космосе за пределами атмосферы земли.Celestial objects - physical bodies (asteroids, planets, stars, galaxies, etc.) located in space outside the atmosphere of the earth.

Каталог небесных объектов - таблицы чисел, содержащие значения свойств небесных объектов, обнаруженных на изображениях.Catalog of celestial objects - tables of numbers containing the values of the properties of celestial objects found in images.

Астрометрическая калибровка изображения - набор коэффициентов, которые однозначно задают тип и параметры картографической проекции куска неба на плоскость изображения; астрометрическая калибровка связывает координаты (X, Y) центров пикселов на изображении с их небесными координатами (RA, DEC), представляющие собой углы в заданной системе сферических координат.Astrometric image calibration - a set of coefficients that uniquely specify the type and parameters of the cartographic projection of a piece of sky onto the image plane; astrometric calibration connects the coordinates (X, Y) of the centers of the pixels in the image with their celestial coordinates (RA, DEC), which are the angles in a given system of spherical coordinates.

Фотометрическая калибровка изображения - набор коэффициентов, которые однозначно связывают значения каждого пикселя на изображении и его яркость в физических единицах измерения.Photometric image calibration is a set of coefficients that uniquely relate the values of each pixel in the image and its brightness in physical units.

Артефакты - следы объектов искусственного происхождения (спутники, самолеты) либо следы частиц космических лучей на матрице телескопа или следы производственных дефектов на матрице телескопа (т.н. "мертвые пикселы" - пиксели, которые постоянно присутствуют на изображении в виде черных или белых точек), или блики от ярких звезд, или другие детали астрономических изображений напрямую не связанные с видимыми на них небесными объектами, которые затрудняют детектирование и измерение свойств небесных объектов по изображению с телескопа.Artifacts - traces of objects of artificial origin (satellites, planes) or traces of cosmic ray particles on a telescope matrix or traces of manufacturing defects on a telescope matrix (so-called "dead pixels" - pixels that are constantly present in the image as black or white dots) , or glare from bright stars, or other details of astronomical images not directly related to celestial objects visible on them, which make it difficult to detect and measure the properties of celestial objects from an image from a telescope.

Фоновая компонента изображения - крупномасштабные вариации яркости пикселов по изображению, не связанные с видимыми на изображении небесными объектами.The background component of the image is large-scale variations in the brightness of pixels in the image that are not related to celestial objects visible in the image.

Осуществление изобретенияThe implementation of the invention

Ниже представлено подробное пошаговое описание заявляемого способа, а также схематичное описание схемы устройства, предназначенного для реализации данного способа.Below is a detailed step-by-step description of the proposed method, as well as a schematic description of the circuit device designed to implement this method.

В настоящее время объем астрономических изображений, хранящихся в открытых архивах в центрах обработки данных обсерваторий по всему миру, составляет несколько петабайт, это сотни миллионов астрономических изображений.Currently, the volume of astronomical images stored in open archives in observatory data centers around the world is several petabytes, hundreds of millions of astronomical images.

Рост объемов данных наблюдений, повышение качества астрономических данных открывает перед астрофизиками новые горизонты, однако требует применения новых современных инженерных и математических подходов к их обработки, среди которых технологии больших данных, облачные вычисления.An increase in the volume of observational data, an increase in the quality of astronomical data opens up new horizons for astrophysicists, but it requires the use of new modern engineering and mathematical approaches to their processing, including big data technologies and cloud computing.

Для реализации способа:To implement the method:

Определяют целевой участок (фрагмент) небесной сферы, для которого выполняют обработку, разделяют его на части равной площади и проецируют в прямоугольные клетки с фиксированными сторонами и выбранной картографической проекцией целевого участка сферы на плоскость изображения клетки. Клетки нумеруют двумя индексами, соответствующими строке и столбцу и присваивают каждой клетке уникальный идентификатор, представляющий собой координату клетки (фиг. 6). Разбиение целевого фрагмента неба на клетки производится внахлест, таким образом решается проблема обработки объектов, находящихся на границе клеток. На фиг. 4 проиллюстрирован метод разбиения на клетки, жирной линией выделена граница первой клетки, дан пример граничного объекта, который попадет в часть каталога, сформированную первой клеткой.The target portion (fragment) of the celestial sphere for which the processing is performed is determined, it is divided into parts of equal area and projected into rectangular cells with fixed sides and the selected cartographic projection of the target portion of the sphere onto the image plane of the cell. Cells are numbered with two indices corresponding to the row and column and assign each cell a unique identifier representing the cell coordinate (Fig. 6). The splitting of the target fragment of the sky into cells is overlapped, thus solving the problem of processing objects located on the border of the cells. In FIG. 4, the method of dividing into cells is illustrated, the boundary of the first cell is marked with a bold line, and an example of a boundary object that falls into the part of the catalog formed by the first cell is given.

Размер клеток может выбираться от нескольких угловых минут до нескольких градусов, при этом величина нахлеста должна быть не менее максимального размера обрабатываемых объектов на границе клеток (например, для объектов с максимальным размером 0.5 градуса величина нахлеста должна быть более 0.5 градуса); площадь нахлеста должна составлять не более 100% от площади клетки. Картографическая проекция может выбираться как индивидуально для каждой клетки, так и общей для всего фрагмента неба.The size of the cells can be selected from several angular minutes to several degrees, while the overlap should be at least the maximum size of the processed objects at the cell boundary (for example, for objects with a maximum size of 0.5 degrees, the overlap should be more than 0.5 degrees); the overlap area should be no more than 100% of the cell area. Cartographic projection can be selected both individually for each cell, and common to the entire fragment of the sky.

Проводят обработку массива первичных необработанных астрономических изображений участка неба, для чего используют принципы алгоритма Отображение-Свертка. При этом на этапе Отображения производят операции фильтрации изображений по попаданию в целевой участок неба, а также удаление артефактов и фоновой компоненты, проецирование, объединение изображений. Все перечисленные операции, кроме объединения, могут быть проведены как независимо над каждым исходным изображением, так и параллельно. В случае попадания обрабатываемого изображения в целевой участок неба, модифицируют изображение и присваивают изображению ключ, представляющий собой номер клетки, к которой принадлежит изображение, формируя тем самым пары идентификатор - ключ и значение - само модифицированное изображение. Следует отметить, что изображение может пересекаться сразу с несколькими клетками, в этом случае изображению присваивают соответствующее число пар: номер клетки, модифицированное изображение.The array of primary raw astronomical images of the sky area is processed, for which they use the principles of the Display-Convolution algorithm. At the same time, at the Display stage, operations are performed on filtering images by hitting the target area of the sky, as well as removing artifacts and background components, projecting, combining images. All of these operations, except for combining, can be carried out both independently on each source image and in parallel. If the processed image falls into the target sky, the image is modified and the key is assigned to the image, which is the number of the cell to which the image belongs, thereby forming the identifier - key and value - modified image pairs. It should be noted that the image can intersect immediately with several cells, in this case the image is assigned the corresponding number of pairs: cell number, modified image.

На этапе Свертка изображения, принадлежащие одной клетке, объединяют, а именно выполняют поиск пар с одним ключом, группируют сформированные пары по ключу, выполняют попиксельное сложение спроецированных изображений, имеющих одинаковый ключ, в результате чего получают массив итоговых изображений, составляющих мозаику целевого фрагмента неба, которые сохраняют в распределенной файловой системе.At the Convolution stage, images belonging to the same cell are combined, namely, they search for pairs with one key, group the generated pairs by key, perform pixel-by-pixel addition of projected images that have the same key, resulting in an array of final images that make up the mosaic of the target sky fragment, which are stored in a distributed file system.

На итоговых изображениях детектируют небесные объекты, проводят очистку изображений, - удаляют артефакты и измеряют значения атрибутов небесных объектов. В результате формируют каталог небесных объектов целевого фрагмента неба с присвоением координат детектированным небесным объектам и уникального идентификатора с использованием шага Отображения. В качестве атрибутов небесного объекта понимают всевозможные характеристики измеренные по изображению: координаты центра объекта (на спроецированном изображении X, Y и на небесной сфере RA, DEC), эффективный радиус, вытянутость и ориентация объекта, яркость объекта, а также, профиль яркости объекта измеренный для набора концентрических окружностей различного радиуса от центра, класс объекта (протяженный/точечный) и другие признаки, которые могут быть измерены специализированной программой анализа астрономических изображений, а также, целевые признаки полученные на этапе интеллектуального анализа каталога в результате применения моделей регрессии и классификации.On the final images, celestial objects are detected, images are cleaned, artifacts are deleted and the attributes of celestial objects are measured. As a result, a catalog of celestial objects of the target fragment of the sky is formed with the assignment of coordinates to the detected celestial objects and a unique identifier using the Display step. As attributes of a celestial object, understand all kinds of characteristics measured by the image: the coordinates of the center of the object (on the projected image X, Y and the celestial sphere RA, DEC), effective radius, elongation and orientation of the object, brightness of the object, and also, the brightness profile of the object measured for a set of concentric circles of different radii from the center, the class of the object (extended / dotted) and other features that can be measured by a specialized program for analyzing astronomical images, as well as, first signs obtained at the stage of catalog mining as a result of applying regression and classification models.

Полученный таким образом каталог сохраняют в распределенной файловой системе. При этом каталог содержит значения атрибутов небесных объектов в поколоночном формате, обеспечивающем возможность статистической обработки большого числа атрибутов небесных объектов с использованием модели вычислений Отображение-Свертка.The directory thus obtained is stored in a distributed file system. The catalog contains the values of the attributes of celestial objects in a layout format, which provides the possibility of statistical processing of a large number of attributes of celestial objects using the Display-Convolution calculation model.

Приведенные шаги 1-5 повторяют для каждого целевого фрагмента неба, после чего осуществляют кросс-отождествление сформированных каталогов с использованием шага Свертка и формирование сводного каталога, содержащего объединенный перечень значений атрибутов каждого небесного объекта из разных каталогов, сформированных на этапе д) для каждого целевого фрагмента неба или полученных из внешних источников.The above steps 1-5 are repeated for each target fragment of the sky, after which cross-identification of the generated catalogs is carried out using the Convolution step and the formation of a consolidated catalog containing a combined list of attribute values of each celestial object from different catalogs generated in step e) for each target fragment sky or obtained from external sources.

Способ интеллектуального анализа данных каталогов небесных объектов выполняют на основе каталогов небесных объектов, созданных в соответствии с описанным выше способом или каталогов, полученных из внешних источников.The method of data mining of catalogs of celestial objects is performed based on catalogs of celestial objects created in accordance with the method described above or catalogs obtained from external sources.

а) обучение модели регрессии и классификации на известных значениях атрибутов каталогов и целевых атрибутах, предварительно заданных, при этом в ходе обучения на шаге Отображения параллельно и распределенно проверяется точность модели для предварительно заданных комбинаций значений гиперпараметров алгоритмов. На данном шаге формируют сетку из проверяемых комбинаций значений гиперпараметров алгоритма классификации или регрессии. В качестве ключа функция Отображения получает комбинацию значений гиперпараметров и номер блока данных (из N-блочной кросс-валидации), выступающего в роли теста. Функция выполняет построение модели для заданных гиперапарметров на оставшихся N-1 блоках данных и возвращает значение метрики качества, посчитанной на тестовом блоке, в качестве значения. В качестве алгоритмов регрессии и классификации предлагается использовать современные алгоритмы семейства случайный лес деревьев решений (англ., random forest of decision trees), обеспечивающие как высокую точность прогнозирования, так и допускающие возможность параллельного и распределенного обучения. В качестве дополнительных шагов анализа данных используются:a) training the regression and classification model on known values of catalog attributes and target attributes predefined, while during training at the Display step, the model accuracy for predefined combinations of algorithm hyperparameter values is checked in parallel and distributed. At this step, a grid is formed of the verified combinations of the hyperparameter values of the classification or regression algorithm. As a key, the Display function receives a combination of hyperparameter values and the number of a data block (from N-block cross-validation) that acts as a test. The function builds the model for the given hyperameter on the remaining N-1 data blocks and returns the value of the quality metric calculated on the test block as the value. It is proposed to use modern algorithms of the random forest of decision trees family as regression and classification algorithms, which provide both high accuracy of forecasting and allow the possibility of parallel and distributed training. As additional data analysis steps are used:

1. оценка достоверности прогноза в задачи регрессии с помощью определения степени принадлежности прогнозов деревьев решений, входящих в ансамбль, доверительному интервалу;1. assessment of the reliability of the forecast in the regression task by determining the degree to which the forecasts of decision trees included in the ensemble belong to the confidence interval;

2. формирование контрольной выборки с помощью завешивания объектов тренировочной выборки с целью повторения статистического распределения целевой выборки.2. the formation of the control sample by hanging objects of the training sample in order to repeat the statistical distribution of the target sample.

б) применение обученной модели для небесных объектов каталога большого объема с неизвестным значением целевого атрибута с использованием шага Отображения, на котором параллельно и распределенно на частях каталога происходит прогнозирование неизвестного значения целевого атрибута. На данном шаге построенная модель клонируется на Отображатели (Mappers) и происходит параллельное вычисление прогнозов на локальных данных Отображателей.b) application of the trained model for celestial objects of a large-volume catalog with an unknown value of the target attribute using the Display step, in which the unknown value of the target attribute is predicted in parallel and distributed on parts of the catalog. At this step, the constructed model is cloned to Mappers, and the forecasts are calculated on the local data of the Mappers in parallel.

Для реализации способа интеллектуального анализа данных каталогов небесных объектов используются программные библиотеки scikit-learn, pandas и PySpark.To implement the method of data mining of catalogs of celestial objects, the program libraries scikit-learn, pandas and PySpark are used.

Описанный выше способ, а также способ интеллектуального анализа данных реализуют при помощи системы (фиг. 1), содержащейThe method described above, as well as the method of data mining, are implemented using a system (Fig. 1) containing

- модуль обработки изображений 1, реализующий обработку сырых данных астрономических наблюдений - применение калибровок (запись имеющихся калибровочных коэффициентов в метаданные изображения), удаление артефактов и фоновой компоненты, проецирование в заданную систему координат, сложение изображений, детектирование объектов и создание каталогов объектов за счет измерения значений их атрибутов - содержащий вход для получения массива изображений, и выход, на который передаются созданные каталоги объектов,- image processing module 1, which implements processing of raw astronomical observation data - applying calibrations (recording the available calibration coefficients in the image metadata), deleting artifacts and background components, projecting into a given coordinate system, adding images, detecting objects and creating object catalogs by measuring values their attributes - containing an input for receiving an array of images, and an output to which created catalogs of objects are transferred,

- модуль обработки запросов к каталогам 2 для фильтрации и статистической обработки данных каталогов, а также кросс-отождествления данных нескольких каталогов, принимающий на вход каталоги, построенные модулем обработки изображений и каталоги, построенные модулем интеллектуального анализа данных 3, а также опционально готовые каталоги из существующих проектов небесных обзоров и формирующий выходные данные в виде результата обработки запросов и объединенных каталогов, и- a directory query processing module 2 for filtering and statistical processing of catalog data, as well as cross-identification of data from several catalogs, receiving directories built by the image processing module and catalogs built by the data mining module 3, as well as optional ready-made catalogs from existing catalogs projects of celestial reviews and generating output data in the form of the result of processing requests and integrated catalogs, and

- модуль интеллектуального анализа данных 3, содержащий алгоритмы машинного обучения с и без учителя, принимающий в качестве входных данных каталоги и формирующий выходные данные в виде построенных моделей и результатов их применения в виде каталогов с результатами прогнозов моделей регрессии и классификации в качестве атрибутов.- Data Mining Module 3, containing machine learning algorithms with and without a teacher, which takes catalogs as input and generates output data in the form of constructed models and the results of their application in the form of catalogs with the results of predictions of regression models and classification as attributes.

На фиг. 1 показаны информационные входы системы 1 и 3, а также информационный выход системы 6.In FIG. 1 shows the information inputs of system 1 and 3, as well as the information output of system 6.

Работа системы при этом построена следующим образом. На информационный вход системы 1 подаются исходные данные наблюдений - изображения и данные их калибровок. Модуль 1 выполняет обработку изображений и формирует каталоги небесных объектов - таблицы значений характеристик небесных объектов измеренных на изображениях. Далее каталоги небесных объектов попадают на информационный вход 2 модуля 2, в котором производится соединение каталогов объектов путем отождествления их объектов по значениям небесных координат или уникального идентификатора объекта, а также фильтрация по заданным условиям на значения характеристик. Кроме этого система поддерживает сценарий соединения каталогов, построенных модулем 1 с каталогами построенных модулем 3 или с каталогами, которые были поданы на информационный вход 3 системы. Отфильтрованные записи из объединенных каталогов направляются на вход 4 модуля 2, который производит интеллектуальный анализ данных. Результаты работы алгоритмов машинного обучения в виде каталога попадают на вход 5 модуля обработки запросов к каталогам, в котором производится их соединение с каталогами поданных на вход 2 модуля 2 или информационный вход 3 системы, производится конечная фильтрация по заданным условиям, попадают на вход 5 модуля обработки запросов к каталогам, в котором производится статистический анализ результатов и формируется отчет о работе, попадающий на выход 6 системы.The operation of the system is constructed as follows. At the information input of system 1, the initial data of observations — images and their calibration data — are supplied. Module 1 performs image processing and generates catalogs of celestial objects - a table of values of the characteristics of celestial objects measured in images. Then the catalogs of celestial objects fall on the information input 2 of module 2, in which the catalogs of objects are connected by identifying their objects according to the values of celestial coordinates or a unique identifier of the object, as well as filtering according to specified conditions to the values of characteristics. In addition, the system supports the scenario of connecting directories built by module 1 with directories built by module 3 or with directories that were submitted to the information input 3 of the system. Filtered entries from the combined directories are sent to input 4 of module 2, which performs data mining. The results of the operation of machine learning algorithms in the form of a catalog go to input 5 of the directory query processing module, in which they are connected to the directories submitted to input 2 of module 2 or information input 3 of the system, final filtering is performed according to the given conditions, and they go to input 5 of the processing module queries to catalogs, in which a statistical analysis of the results is performed and a work report is generated, which falls on the output of the 6th system.

Схема работы модуля 1 (фиг. 1) обработки изображений представлена на фиг. 2. Модуль представлен подмодулем 1а (фиг. 2) обработки сырых изображений и подмодулем 2а (фиг. 2) создания каталогов. Подмодуль 1а получает на вход 1а сырые изображения и их калибровки и в результате обработки формирует значение выхода 2а - совмещенные изображения в заданных картографических проекциях. Подмодуль 2а получает на вход 2а обработанные изображения в заданных картографических проекциях и в результате работы формирует значение выхода 3а - каталоги небесных объектов.The operation diagram of module 1 (FIG. 1) of image processing is shown in FIG. 2. The module is represented by a submodule 1a (Fig. 2) of raw image processing and a submodule 2a (Fig. 2) of creating directories. Submodule 1a receives raw images and their calibrations at input 1a and, as a result of processing, generates the output value 2a - combined images in predetermined map projections. Submodule 2a receives processed images in predetermined cartographic projections at input 2a and, as a result of operation, generates output value 3a - catalogs of celestial objects.

Схема работы подмодуля 1а в модели вычислений Отображение-Свертка представлена на фиг. 3. Хранение полученных на вход изображений и калибровок производится в распределенной файловой системе. Базовая обработка N изображений - применение калибровки изображения (запись имеющихся калибровочных коэффициентов в метаданные изображения), удаление артефактов и фоновой компоненты, проецирование в единую систему координат - производится в функции отображения, принимающей в качестве пары ключ-значение идентификатор клетки (pi) - прямоугольного фрагмента неба в заданной картографической проекции, содержащего изображение, и само изображение (A_i). Функция отображения возвращает идентификатор клетки и обработанное спроецированное изображения (Б_i). Сложение изображений выполняется функцией свертки, принимающей на вход идентификатор клетки (общее число клеток - М) и изображения, принадлежащие данной клетке, и возвращает идентификатор клетки и сложенное изображение (B_i).The operation diagram of submodule 1a in the Display-Convolution calculation model is shown in FIG. 3. Storage of input images and calibrations is performed in a distributed file system. Basic processing of N images — applying image calibration (recording available calibration coefficients into image metadata), deleting artifacts and a background component, projecting into a single coordinate system — is performed in the display function, which takes as a key-value pair the cell identifier (pi) - a rectangular fragment sky in a given cartographic projection containing the image, and the image itself (A_i). The display function returns the cell identifier and the processed projected image (B_i). Addition of images is performed by the convolution function, which receives a cell identifier (total number of cells - M) and images belonging to this cell as input, and returns a cell identifier and a folded image (B_i).

Схема работы подмодуля 2а в модели вычислений Отображение-Свертка представлена на фиг. 5. Создание каталога - детектирование объектов на изображениях, удаление артефактов и измерение значений свойств объектов - производится в функции отображения, принимающей в качестве пары ключ-значение идентификатор пикселя (pi), сложенное изображение (B_i). Функция отображения возвращает идентификатор пикселя и фрагмент каталога (K_i).The operation diagram of submodule 2a in the Display-Convolution calculation model is shown in FIG. 5. Creating a catalog — detecting objects in images, deleting artifacts, and measuring property values of objects — is performed in the display function, which takes as a key-value pair the pixel identifier (p i ), the folded image (B_i). The display function returns the pixel identifier and catalog fragment (K_i).

Модуль 2 (фиг. 1) реализует хранение каталогов, функции фильтрующих и статистических запросов к каталогам и кросс-отождествление объектов нескольких каталогов. Хранение данных каталогов производится в распределенной файловой системе с использованием поколоночного формата хранения. Для формулировки фильтрующих и статистических запросов используется интерфейс языка SQL, для их исполнения - модель вычислений Отображение-Свертка, работающая с поколоночным форматом хранения. Для кросс-идентификации каталогов используется алгоритм для модели Отображение-Свертка, основанный на индексировании объектов с помощью пикселизации сферы - предварительному отнесению каждого объекта к пикселю - некоторой области сферы. Для пикселизации предлагается использовать схему пикселизации HealPix.Module 2 (Fig. 1) implements the storage of directories, the functions of filtering and statistical queries to directories and cross-identification of objects of several directories. Directory data is stored in a distributed file system using a multi-part storage format. For the formulation of filtering and statistical queries, the SQL language interface is used; for their execution, the Display-Convolution calculation model working with the storage-based format is used. For cross-identification of directories, the algorithm for the Display-Convolution model is used, based on indexing objects using pixelization of a sphere — preliminary assigning each object to a pixel — a certain region of the sphere. For pixelization, it is proposed to use the HealPix pixelization scheme.

Описание алгоритма кросс-идентификации каталогов представлено ниже.The cross-directory identification algorithm is described below.

1) Объекты двух исходных каталогов пикселизируются 2 раза. При этом используются два разных уровня иерархической пикселизации А и В, где В>А (фиг. 7 - темно-серым и светло серым показаны 2 пикселя из схемы пикселизации А, белые пиксели принадлежат схеме пикселизации В). Иерархичность пикселизации означает, что каждый пиксель более высокого уровня пикселизации В целиком находится в каком-то пикселе меньшего уровня пикселизации А. Двойная пикселизация позволяет использовать (при кросс-идентификации объектов лежащих на границе пикселей уровня А) пиксели меньшего размера из В, являющиеся соседями данного пикселя из пикселизации А.1) Objects of two source directories are pixelated 2 times. In this case, two different levels of hierarchical pixelation A and B are used, where B> A (Fig. 7 - dark pixels and light gray show 2 pixels from pixelization scheme A, white pixels belong to pixelization scheme B). Pixel hierarchy means that each pixel of a higher pixelization level B is entirely located in a pixel of a lower pixelization level A. Double pixelation allows using (for cross-identification of objects lying on the border of level A pixels) pixels of a smaller size from B that are neighbors of this pixel from pixelization A.

2) Выполняется шаг Свертки. Ключами свертки являются пиксели пикселизации А. Значениями - объекты из каждого пикселя уровня А 1-го и 2-го каталога, а также объекты из пикселей пикселизации уровня В 2-го каталога, являющихся соседними для данного пикселя уровня А. На шаге свертке для каждого объекта 1-го каталога из пикселя уровня А ищется ближайший объект из 2-го каталога, находящийся в пикселе уровня А и его соседних пикселях из пикселизации уровня В. Функция свертки возвращает все пары найденных таким способом объектов 1-го и 2-го каталога для рассматриваемого пикселя уровня А.2) The Convolution step is performed. The convolution keys are pixels of pixelation A. Values are objects from each pixel of level A of the 1st and 2nd catalog, as well as objects from pixels of pixelation of level B of the 2nd catalog that are adjacent to this pixel of level A. At the convolution step for each of the object of the 1st directory from a level A pixel, the closest object from the 2nd directory located in the pixel of level A and its neighboring pixels from the pixelation of level B is searched for. The convolution function returns all pairs of objects of the 1st and 2nd directory found in this way for considered pixel ur vnya A.

Псевдокод алгоритма:Algorithm Pseudocode:

ВХОД: К1, К2 - каталоги объектов, где

Figure 00000001
ENTRANCE: To 1 , To 2 - catalogs of objects, where
Figure 00000001

d(k1, k2) - мера сходства между координатами k1, k2 d (k 1 , k 2 ) is a measure of similarity between the coordinates k 1 , k 2

P(A)(k) - функция иерархической пикселизации уровня АP (A) (k) - level A hierarchical pixelation function

P(B)(k) - функция иерархической пикселизации уровня ВP (B) (k) - level B hierarchical pixelization function

В>АB> A

border(A,B)(p) - функция, возвращающая множество пикселей уровня В, являющихся граничными для пикселя р уровня А.border (A, B) (p) is a function that returns the set of pixels of level B that are boundary for a pixel p of level A.

ВЫХОД:EXIT:

АЛГОРИТМ:ALGORITHM:

K1={}, K2={}K 1 = {}, K 2 = {}

для каждого i=1, 2:for each i = 1, 2:

для каждого

Figure 00000002
for everybody
Figure 00000002

Figure 00000003
Figure 00000003

К'i. добавить

Figure 00000004
K ' i . add
Figure 00000004

К'=K'1. соединить (K'2)K '= K' 1 . connect (K ' 2 )

результат = К'. отображение

Figure 00000005
result = K '. display
Figure 00000005

функция f(pj,V).function f (p j , V).

Figure 00000006
Figure 00000006

Figure 00000007
Figure 00000007

вернуть

Figure 00000008
return
Figure 00000008

Модуль 3 (фиг. 1) реализует функционал интеллектуального анализа данных. Модуль реализует алгоритмы для решения задач обучения с учителем: задачи регрессии и классификации. Непосредственно тренировка алгоритмов обучения с учителем реализована нераспределенно, ввиду небольшого числа тренировочных объектов в астрономических каталогах. Подбор оптимальных значений внешних параметров алгоритмов при кросс-валидации производится с использованием модели вычислений Отображение-Свертка: за счет стадии "отображение" происходит горизонтальное масштабирование построения моделей при различных значениях внешних параметров. Применение моделей обучение с учителем на больших выборках реализуется с использованием модели вычислений Отображение-Свертка: на стадии "свертка" применение модели производится параллельно и распределенно по частям. Результат применения моделей регрессии и классификации представляет собой каталог объектов, атрибутами которых являются прогнозы моделей. Хранение каталогов производится в распределенной файловой системе с использованием поколоночного формата хранения.Module 3 (Fig. 1) implements data mining functionality. The module implements algorithms for solving teaching problems with a teacher: regression and classification problems. Directly training teaching algorithms with a teacher is implemented redistributed, due to the small number of training objects in astronomical catalogs. The selection of the optimal values of the external parameters of the algorithms during cross-validation is performed using the Display-Convolution calculation model: due to the "display" stage, the model construction is scaled horizontally at various external parameters. The use of teaching-teacher models in large samples is implemented using the Display-Convolution calculation model: at the “convolution” stage, the model is applied in parallel and distributed in parts. The result of applying regression and classification models is a catalog of objects whose attributes are model predictions. Directories are stored in a distributed file system using a multi-part storage format.

Источники информацииInformation sources

1. G.В. Berriman, J.С. Good, D. Curkendall, J. Jacob, D.S. Katz, T.A. Prince, and R. Williams "Montage: An On-Demand Image Mosaic Service for the NVO" // Astronomical Data Analysis Software and Systems, Paper and Presentation for ADASS XII, Oct. 2002.1. G.V. Berriman, J.C. Good, D. Curkendall, J. Jacob, D.S. Katz, T.A. Prince, and R. Williams "Montage: An On-Demand Image Mosaic Service for the NVO" // Astronomical Data Analysis Software and Systems, Paper and Presentation for ADASS XII, Oct. 2002.

2. Сайт "TOPCAT: Tool for OPerations on Catalogues And Tables" http://www.star.bris.ac.uk/~mbt/topcat/.2. Website "TOPCAT: Tool for OPerations on Catalogs and Tables" http://www.star.bris.ac.uk/~mbt/topcat/.

3. Mario Juric "Large Survey Database: A Distributed Framework for Storage and Analysis of Large Datasets" // American Astronomical Society, AAS Meeting #217, id.433.19; Bulletin of the American Astronomical Society, Vol. 43, 2011.3. Mario Juric "Large Survey Database: A Distributed Framework for Storage and Analysis of Large Datasets" // American Astronomical Society, AAS Meeting # 217, id.433.19; Bulletin of the American Astronomical Society, Vol. 43, 2011.

4. J. VanderPlas, A.J. Connolly,

Figure 00000009
, A. Gray "Introduction to astroML: Machine learning for astrophysics" // Intelligent Data Understanding (CIDU), 2012.4. J. VanderPlas, AJ Connolly,
Figure 00000009
, A. Gray "Introduction to astroML: Machine learning for astrophysics" // Intelligent Data Understanding (CIDU), 2012.

Claims (17)

1. Способ формирования электронного каталога небесных объектов из больших массивов астрономических изображений, включающий следующие этапы:1. A method of forming an electronic catalog of celestial objects from large arrays of astronomical images, comprising the following steps: а) определение целевого фрагмента изображения неба с последующим его разбиением внахлест на прямоугольные клетки равной площади, содержащие изображения частей целевого фрагмента неба в заданных картографических проекциях, при этом размеры клетки и величину нахлеста, тип и параметры картографической проекции для каждой клетки предварительно задают в качестве входных параметров, а при разбиении каждой клетке присваивают уникальный идентификатор, представляющий собой координату клетки в целевом фрагменте неба;a) determining the target fragment of the image of the sky with its subsequent lapping into rectangular cells of equal area containing images of the parts of the target fragment of the sky in predetermined cartographic projections, while the cell size and overlap size, type and parameters of the cartographic projection for each cell are pre-set as input parameters, and when divided, each cell is assigned a unique identifier, which is the coordinate of the cell in the target fragment of the sky; б) получение первичных данных наблюдений, представляющих собой массив необработанных астрономических изображений и их калибровок; сохранение их в распределенной файловой системе;b) obtaining primary observational data, which is an array of raw astronomical images and their calibrations; saving them in a distributed file system; в) обработку массива астрономических изображений с использованием модели вычислений Отображение-Свертка,c) processing an array of astronomical images using the Display-Convolution calculation model, при этом на шаге Отображения каждое изображение из массива первичных данных наблюдений связывают с уникальным идентификатором клетки, определенной на этапе а), по принципу пересечения необработанного изображения и изображения, содержащегося в клетке или группе клеток, после чего необработанные изображения калибруют, из них удаляют артефакты и фоновые компоненты, затем преобразованные изображения с присвоенным идентификатором, представляющим собой ключ, проецируют на плоскость клетки в заданной на этапе а) картографической проекции, и формируют пары ключ - спроецированное изображение;at the same time, at the Display step, each image from the array of primary observation data is associated with a unique cell identifier determined in step a), according to the principle of intersection of the raw image and the image contained in the cell or group of cells, after which the raw images are calibrated, artifacts are removed from them and background components, then the converted images with the assigned identifier representing the key are projected onto the cell plane in the cartographic projection specified in step a), forming a pair of key - the projected image; на шаге Свертки группируют сформированные пары по ключу, выполняют попиксельное сложение спроецированных изображений, имеющих одинаковый ключ, с получением массива итоговых изображений, составляющих мозаику целевого фрагмента неба, которые сохраняют в распределенной файловой системе;at the Convolution step, the generated pairs are grouped by key, pixel-by-pixel addition of projected images having the same key is performed to obtain an array of final images that make up the mosaic of the target sky fragment, which are stored in a distributed file system; д) формирование каталога небесных объектов целевого фрагмента неба посредством детектирования небесных объектов на итоговых изображениях, удаления артефактов и измерения значений атрибутов небесных объектов, с присвоением координат детектированному небесному объекту и уникального идентификатора с использованием шага Отображения;e) creating a catalog of celestial objects of the target fragment of the sky by detecting celestial objects in the final images, removing artifacts and measuring attribute values of celestial objects, assigning coordinates to the detected celestial object and a unique identifier using the Display step; е) сохранение в распределенной файловой системе сформированного каталога, содержащего значения атрибутов небесных объектов, в поколоночном формате, обеспечивающем возможность статистической обработки большого числа атрибутов небесных объектов с использованием модели вычислений Отображение-Свертка;f) saving in a distributed file system the generated catalog containing the attributes of celestial objects in a batch format that enables statistical processing of a large number of attributes of celestial objects using the Display-Convolution calculation model; при этом этапы а)-е) повторяют многократно для каждого целевого фрагмента неба и каждого спектрального диапазона, после чего осуществляют кросс-отождествление небесных объектов в сформированных каталогах с использованием шага Свертка и формирование сводного каталога, содержащего для каждого небесного объекта объединенный перечень значений атрибутов из разных каталогов, сформированных на этапе д) для целевых фрагментов неба и спектральных диапазонов или полученных из внешних источников.in this case, steps a) -e) are repeated many times for each target fragment of the sky and each spectral range, after which cross-identification of celestial objects in the generated catalogs is carried out using the Convolution step and the formation of a consolidated catalog containing for each celestial object a combined list of attribute values from different directories generated in step e) for target sky fragments and spectral ranges or obtained from external sources. 2. Способ по п. 1, характеризующийся тем, что под статистической обработкой понимают фильтрацию, группировку и агрегацию данных по запросу.2. The method according to claim 1, characterized in that statistical processing is understood to mean filtering, grouping and aggregation of data upon request. 3. Способ по п. 1, характеризующийся тем, что в качестве атрибутов небесных объектов понимают характеристики, измеренные по изображению с телескопа с использованием специализированной программы анализа астрономических изображений, а именно координаты центра объекта на спроецированном изображении и на небе, и/или эффективный радиус, и/или вытянутость, и/или ориентация объекта, и/или полный поток и поверхностная яркость объекта, и/или профиль поверхностной яркости объекта, измеренный для набора концентрических окружностей различного радиуса от центра, и/или класс объекта.3. The method according to p. 1, characterized in that as the attributes of celestial objects understand the characteristics measured by the image from a telescope using a specialized program for the analysis of astronomical images, namely the coordinates of the center of the object in the projected image and in the sky, and / or effective radius and / or elongation and / or orientation of an object and / or total flux and surface brightness of an object and / or surface brightness profile of an object measured for a set of concentric circles of different radii sa from the center, and / or object class. 4. Способ по п. 1, характеризующийся тем, что возможность статистической обработки сформированных каталогов небесных объектов обеспечивают с использованием языка SQL.4. The method according to p. 1, characterized in that the possibility of statistical processing of the generated catalogs of celestial objects is provided using the SQL language. 5. Способ по п. 1, характеризующийся тем, что при выполнении этапа в) на шаге Свертки при попиксельном сложении спроецированных изображений, имеющих одинаковый ключ, используют изображения, принадлежащие одному целевому фрагменту неба.5. The method according to p. 1, characterized in that when performing step c) in the Convolution step, using pixel-by-pixel addition of projected images having the same key, images belonging to the same target sky fragment are used. 6. Способ интеллектуального анализа данных каталогов небесных объектов, включающий формирование каталогов небесных объектов в соответствии с п. 1, содержащие последующие этапы:6. A method of data mining of catalogs of celestial objects, including the formation of catalogs of celestial objects in accordance with paragraph 1, containing the following steps: а) обучение модели регрессии и классификации на известных значениях атрибутов каталогов и целевых атрибутах, предварительно заданных, при этом в ходе обучения на шаге Отображения параллельно и распределенно проверяется точность модели для предварительно заданных комбинаций значений гиперпараметров алгоритмов,a) training the regression and classification model on known values of directory attributes and target attributes predefined, while during the training at the Display step, the model accuracy for predefined combinations of algorithm hyperparameter values is checked in parallel and distributed, б) применение обученной модели для небесных объектов каталога с неизвестным значением целевого атрибута с использованием шага Отображения, на котором параллельно и распределенно на частях каталога происходит прогнозирование неизвестного значения целевого атрибута.b) application of the trained model for celestial objects of the catalog with an unknown value of the target attribute using the Display step, in which the unknown value of the target attribute is predicted in parallel and distributed on parts of the catalog. 7. Способ интеллектуального анализа по п. 7, характеризующийся тем, что в процессе обучения используют кросс-валидацию для подбора оптимальных значений гиперпараметров алгоритмов, характеризующуюся использованием одной части входных данных для обучения, а другой части входных данных для тестирования.7. The method of mining according to claim 7, characterized in that in the learning process, cross-validation is used to select the optimal values of the hyperparameters of the algorithms, characterized by the use of one part of the input data for training and the other part of the input data for testing.
RU2017104445A 2017-02-10 2017-02-10 Method of forming catalog of celestial objects of large arrays of astronomic images RU2659493C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2017104445A RU2659493C1 (en) 2017-02-10 2017-02-10 Method of forming catalog of celestial objects of large arrays of astronomic images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2017104445A RU2659493C1 (en) 2017-02-10 2017-02-10 Method of forming catalog of celestial objects of large arrays of astronomic images

Publications (1)

Publication Number Publication Date
RU2659493C1 true RU2659493C1 (en) 2018-07-02

Family

ID=62815410

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2017104445A RU2659493C1 (en) 2017-02-10 2017-02-10 Method of forming catalog of celestial objects of large arrays of astronomic images

Country Status (1)

Country Link
RU (1) RU2659493C1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114285564A (en) * 2021-12-27 2022-04-05 中国电信股份有限公司 Key determination method and device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2238586C2 (en) * 2000-03-27 2004-10-20 Лук Дайнэмикс, Инк. Device and method for describing, encoding, string and searching images on basis of their geometry
US20060132608A1 (en) * 2004-12-22 2006-06-22 Bendaniel Matt Automated system and method for processing of astronomical images
US8923551B1 (en) * 2014-07-16 2014-12-30 Interactive Memories, Inc. Systems and methods for automatically creating a photo-based project based on photo analysis and image metadata
WO2016077834A1 (en) * 2014-11-14 2016-05-19 Zorroa Corporation Systems and methods of building and using an image catalog

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2238586C2 (en) * 2000-03-27 2004-10-20 Лук Дайнэмикс, Инк. Device and method for describing, encoding, string and searching images on basis of their geometry
US20060132608A1 (en) * 2004-12-22 2006-06-22 Bendaniel Matt Automated system and method for processing of astronomical images
US8923551B1 (en) * 2014-07-16 2014-12-30 Interactive Memories, Inc. Systems and methods for automatically creating a photo-based project based on photo analysis and image metadata
WO2016077834A1 (en) * 2014-11-14 2016-05-19 Zorroa Corporation Systems and methods of building and using an image catalog

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114285564A (en) * 2021-12-27 2022-04-05 中国电信股份有限公司 Key determination method and device
CN114285564B (en) * 2021-12-27 2024-05-10 中国电信股份有限公司 Key determination method and device

Similar Documents

Publication Publication Date Title
Li et al. A spatiotemporal indexing approach for efficient processing of big array-based climate data with MapReduce
CN112115198B (en) Urban remote sensing intelligent service platform
Wang et al. A theoretical approach to the use of cyberinfrastructure in geographical analysis
US11561943B2 (en) Feature-based deduplication of metadata for places
Zhang et al. A GPU-accelerated adaptive kernel density estimation approach for efficient point pattern analysis on spatial big data
US8949196B2 (en) Systems and methods for matching similar geographic objects
CN109376205B (en) Method, device, equipment and storage medium for mining address interest point relation
JP2020531970A (en) Fusion of scalable space-time density data
EP3410315B1 (en) Systems and methods for using tiled data
Zhang et al. Dart: A geographic information system on hadoop
Ginardi et al. WebGIS for asset management of land and building of Madiun city government
Guo et al. A universal parallel scheduling approach to polyline and polygon vector data buffer analysis on conventional GIS platforms
Singla et al. Experimental study of big raster and vector database systems
RU2659493C1 (en) Method of forming catalog of celestial objects of large arrays of astronomic images
Gardoll et al. Classification of tropical cyclone containing images using a convolutional neural network: Performance and sensitivity to the learning dataset
Singla et al. Raptor: large scale analysis of big raster and vector data
Cui et al. An algorithm for finding functional modules and protein complexes in protein-protein interaction networks
Jo et al. Constructing national geospatial big data platform: current status and future direction
Yu et al. Geospatial data management in apache spark: A tutorial
Alkathiri et al. Kluster: Application of k-means clustering to multidimensional GEO-spatial data
Mou et al. Visflow: A visual database integration and workflow querying system
Zhang et al. High-performance spatial join processing on gpgpus with applications to large-scale taxi trip data
Mitra et al. Confluence: adaptive spatiotemporal data integration using distributed query relaxation over heterogeneous observational datasets
Carlson et al. Resource efficient profiling of spatial variability in performance of regression models
Zhang et al. Data Parallel Quadtree Indexing and Spatial Query Processing of Complex Polygon Data on GPUs.