RU2745492C1 - Method and system for the search for analogues of oil and gas fields - Google Patents

Method and system for the search for analogues of oil and gas fields Download PDF

Info

Publication number
RU2745492C1
RU2745492C1 RU2020133332A RU2020133332A RU2745492C1 RU 2745492 C1 RU2745492 C1 RU 2745492C1 RU 2020133332 A RU2020133332 A RU 2020133332A RU 2020133332 A RU2020133332 A RU 2020133332A RU 2745492 C1 RU2745492 C1 RU 2745492C1
Authority
RU
Russia
Prior art keywords
sample
records
attributes
deposits
type
Prior art date
Application number
RU2020133332A
Other languages
Russian (ru)
Inventor
Станислав Сергеевич Сливкин
Полина Анатольевна Харитонцева
Илья Игоревич Чурочкин
Николай Николаевич Богословский
Никита Владимирович Буханов
Original Assignee
Общество с ограниченной ответственностью «Газпромнефть Научно-Технический Центр»
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью «Газпромнефть Научно-Технический Центр» filed Critical Общество с ограниченной ответственностью «Газпромнефть Научно-Технический Центр»
Priority to RU2020133332A priority Critical patent/RU2745492C1/en
Application granted granted Critical
Publication of RU2745492C1 publication Critical patent/RU2745492C1/en

Links

Images

Classifications

    • EFIXED CONSTRUCTIONS
    • E21EARTH OR ROCK DRILLING; MINING
    • E21BEARTH OR ROCK DRILLING; OBTAINING OIL, GAS, WATER, SOLUBLE OR MELTABLE MATERIALS OR A SLURRY OF MINERALS FROM WELLS
    • E21B49/00Testing the nature of borehole walls; Formation testing; Methods or apparatus for obtaining samples of soil or well fluids, specially adapted to earth drilling or wells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mining & Mineral Resources (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Geology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Environmental & Geological Engineering (AREA)
  • Fluid Mechanics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • Geochemistry & Mineralogy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

FIELD: oil and gas.SUBSTANCE: group of inventions relates to the field of searching for analogs of reservoirs with similar properties and filling in the missing values ​​of descriptive attributes of the reservoir. A computer-implemented method for searching for analogs of deposits includes at least the following steps: get the first and second sample of records from at least one database of deposits and their attributes. Moreover, the first sample of records contains deposits of the first type, described by the first group of attributes, and the second sample of records contains deposits of the second type, described by the second group of attributes. The first sample to be marked out is formed; then a second one; the first and second sample to be marked out are marked with the help of at least two experts. Moreover, for each entry in a subgroup, experts mark whether this entry characterizes a deposit, which is an analogue of the target deposit in this subgroup. The first and second training samples are formed from the first and second labeled samples, respectively. The first classifier is trained using gradient boosting using the transformed attributes of the records of the first training sample; the second classifier is trained using gradient boosting using the transformed attributes of the records of the second training sample. Then the type of field is received from a user as well as the values ​​of its attributes to determine its analogues; transforming the obtained attributes for use by the field classifier and searching for analogues using the trained classifier corresponding to the field type; then the user is presented with information about the search results.EFFECT: increased efficiency of searching for oil reservoir analogs.26 cl, 6 dwg

Description

Техническое решение относится к области поиска аналогов коллекторов со схожими свойствами и заполнения пропуска пропущенных значений описательных атрибутов коллектора.The technical solution relates to the field of searching for analogs of reservoirs with similar properties and filling in the missing values of descriptive attributes of the reservoir.

Выявление аналогичных коллекторов важно при планировании разработки нового месторождения либо при оценке неопределенностей разрабатываемого коллектора, в случае малого количества исходных данных. Обычно информация о новом районе ограничена или вообще отсутствует. Традиционно поиск аналогичных коллекторов ведется опытными геологами. Этот поиск зависит от наличия специалистов, а результаты во многом зависят от геологии местности и количества исходных данных.Identification of similar reservoirs is important when planning the development of a new field or when assessing the uncertainties of the reservoir under development, in the case of a small amount of initial data. Usually there is little or no information about a new area. Traditionally, the search for similar reservoirs is carried out by experienced geologists. This search depends on the availability of specialists, and the results largely depend on the geology of the area and the amount of source data.

Известно техническое решение для автоматического восстановления отсутствующих параметров месторождения для сопоставления с аналогами, опубликованное в патенте US9159022B2, опубл. 13.10.2015, Repsol SA, International Business Machines Corp. Описываемое решение включает систему извлечения параметров, интерактивно идентифицирующую управляющие ключевые параметры (CKP) в сохраненном списке месторождений/скважин и автоматически извлекает оценочное значение для отсутствующих значений параметров и выборочно заменяет иерархические параметры, хронологические параметры и параметры ранжирования. После чего производится отбор скважин-аналогов с учетом предыдущих шагов. Общим признаком с заявляемым изобретением является использование записей с параметрами месторождений.Known technical solution for automatic restoration of missing parameters of the field for comparison with analogues, published in patent US9159022B2, publ. 10/13/2015, Repsol SA, International Business Machines Corp. The disclosed solution includes a parameter extraction system that interactively identifies Control Key Parameters (CKPs) in a stored field / well list and automatically extracts an estimate for missing parameter values and selectively replaces hierarchical parameters, historical parameters, and ranking parameters. After that, the selection of analogous wells is carried out taking into account the previous steps. A common feature with the claimed invention is the use of records with parameters of deposits.

Известно техническое решение опубликованное в журнале «SPE Economics & Management» - «New Approach to Identify Analogous Reservoirs» (https://www.onepetro.org/journal-paper/SPE-166449-PA), опубликовано в октябре 2014 года. Описываемое решение включает четыре шага: предварительную обработку данных, выбор ключевых параметров, многомерный анализ и ранжирование сходства. Первый шаг включает анализ и предварительную обработку данных. При выборе ключевых параметров определяются переменные, оказывающие наибольшее влияние на оцениваемый случай. При многомерном анализе применяется несколько методов, таких как анализ главных компонентов (PCA) и кластерный анализ. На этапе ранжирования по сходству применяется функцию подобия к группе ранее выбранных «аналогичных резервуаров», создавая рейтинг сходства аналогичных резервуаров. Общим признаком с заявляемым изобретением является использование записей с параметрами месторождений.Known technical solution published in the journal "SPE Economics & Management" - "New Approach to Identify Analogous Reservoirs" (https://www.onepetro.org/journal-paper/SPE-166449-PA), published in October 2014. The described solution includes four steps: data preprocessing, selection of key parameters, multivariate analysis, and similarity ranking. The first step involves data analysis and preprocessing. When choosing the key parameters, the variables that have the greatest impact on the evaluated case are determined. Multivariate analysis employs several techniques such as principal component analysis (PCA) and cluster analysis. The similarity ranking step applies a similarity function to a group of previously selected “similar reservoirs”, creating a similarity rating for similar reservoirs. A common feature with the claimed invention is the use of records with parameters of deposits.

Недостатком описанных подходов является меньшая точность определения месторождений аналогов, отсутствие имплементации наработанного экспертного опыта.The disadvantage of the described approaches is the lower accuracy of identifying analogous deposits, the lack of implementation of the accumulated expert experience.

Техническая задача – создание способа (средства) для поиска аналогов месторождения и способа обучения классификатора для поиска аналогов месторождения с высокой точностью, эффективностью, учитывающее экспертный опыт.The technical task is to create a method (means) for searching for field analogues and a method for training a classifier to search for field analogues with high accuracy, efficiency, taking into account expert experience.

Технический результат – повышение точности и эффективности поиска аналогов месторождения, повышение точности классифицирования схожести (является аналогом или нет) месторождений. Заявленный технический результат достигается всеми заявленными вариантами (вариациями) технического решения.The technical result is an increase in the accuracy and efficiency of searching for analogs of a field, an increase in the accuracy of classifying the similarity (is it analogous or not) of deposits. The claimed technical result is achieved by all the stated options (variations) of the technical solution.

Компьютерно-реализуемый способ поиска аналогов месторождений, включает по крайней мере следующие шаги: получают первую и вторую выборку записей из по крайней мере одной базы данных месторождений и их атрибутов, причем первая выборка записей содержит месторождения первого типа, описываемые первой группой атрибутов, а вторая выборка записей содержит месторождения второго типа, описываемые второй группой атрибутов; формируют первую размечаемую выборку путём: группировки записей по общности осадконакопления в первой выборке; разбиения групп записей Gi первой выборки на подгруппы Gij размером Gij_cnt и случайным образом выбирают в каждой подгруппе Gij целевое месторождение, где Gij_cnt функционально зависит от количества записей в группе Gi_cnt; формируют вторую размечаемую выборку путём: группировки записей по общности осадконакопления во второй выборке; разбиения групп записей Gi второй выборки на подгруппы Gij размером Gij_cnt и случайным образом выбирают в каждой подгруппе j Gij целевое месторождение, где Gij_cnt функционально зависит от количества записей в группе Gi_cnt; производят разметку первой и второй размечаемой выборки при помощи по крайней мере двух экспертов, причем для каждой записи в подгруппе эксперты помечают характеризует ли данная запись месторождение, которое является аналогом целевого месторождения в данной подгруппе; формируют первую и вторую обучающие выборки из соответственно первой и второй размеченной выборки путём: отбора только тех записей, которые помечены в качестве аналогов целевого месторождения в подгруппе двумя и более экспертами; восстановления пропущенных значений атрибутов в записях выборки; преобразования атрибутов записей выборки для использования классификатором градиентного бустинга; производят обучение первого классификатора при помощи градиентного бустинга с использованием преобразованных атрибутов записей первой обучающей выборки; производят обучение второго классификатора при помощи градиентного бустинга с использованием преобразованных атрибутов записей второй обучающей выборки; получают от пользователя тип месторождения и значения его атрибутов, для определения его аналогов; производят преобразование полученных атрибутов месторождения для использования классификатором и осуществляют поиск аналогов с использованием обученного классификатора, соответствующего типу месторождения; предъявляют пользователю информацию о результатах поиска. В некоторых вариантах реализации технического решения первым типом месторождения является терригенное месторождение, а вторым типом - карбонатное месторождение.A computer-implemented method for searching for analogs of deposits includes at least the following steps: get the first and second sample of records from at least one database of deposits and their attributes, and the first sample of records contains deposits of the first type described by the first group of attributes, and the second sample records contains deposits of the second type, described by the second group of attributes; form the first sample to be marked by: grouping records according to the generality of sedimentation in the first sample; dividing the groups of records Gi of the first sample into subgroups Gij of size Gij_cnt and randomly selecting a target deposit in each subgroup Gij, where Gij_cnt functionally depends on the number of records in the group Gi_cnt; form the second sample to be marked by: grouping records according to the generality of sedimentation in the second sample; dividing the groups of records Gi of the second sample into subgroups Gij of size Gij_cnt and randomly selecting a target deposit in each subgroup j Gij, where Gij_cnt functionally depends on the number of records in the group Gi_cnt; mark the first and second sample to be marked with the help of at least two experts, and for each entry in the subgroup, the experts mark whether this entry characterizes a deposit, which is an analogue of the target deposit in this subgroup; form the first and second training samples from the first and second labeled sample, respectively, by: selecting only those records that are marked as analogs of the target field in the subgroup by two or more experts; restoring missing attribute values in selection records; transforming the attributes of the sample records for use by the gradient boosting classifier; the first classifier is trained using gradient boosting using the transformed attributes of the records of the first training sample; the second classifier is trained using gradient boosting using the transformed attributes of the records of the second training sample; receive from the user the type of field and the values of its attributes to determine its analogues; transforming the obtained attributes of the field for use by the classifier and searching for analogs using the trained classifier corresponding to the type of the field; present the user with information about the search results. In some embodiments of the technical solution, the first type of deposit is a terrigenous deposit, and the second type is a carbonate deposit.

В некоторых вариантах реализации технического решения первая группа атрибутов включает по крайней мере следующие атрибуты: структурная принадлежность, основной литологический состав коллектора, основная система осадконакопления, основная обстановка осадконакопления, основной тип пористости, среднее значение общей толщины коллектора, среднее значение эффективной углеводородонасыщенной толщины коллектора, среднее значение пористости матрицы, среднее значение проницаемости по воздуху, среднее значение водонасыщенности, тектонический режим формирования комплексов (structural_setting, main_lithology, main_depositional_system, main_depositional_environment, porosity_type_main, gross_thickness_average, net_pay_thickness_average, porosity_matrix_average, permeability_air_average, water_saturation_average, tectonic_regime).In some embodiments of the technical solution, the first group of attributes includes at least the following attributes: structural affiliation, main lithological composition of the reservoir, main sedimentation system, main sedimentation environment, main type of porosity, average value of total reservoir thickness, average value of effective hydrocarbon-saturated reservoir thickness, average matrix porosity value, average air permeability value, average water saturation value, tectonic mode of complex formation (structural_setting, main_lithology, main_depositional_system, main_depositional_environment, porosity_type_main, gross_thickness_average, net_pay_thickness_avemerage, porosity_type_main.

В некоторых вариантах реализации технического решения вторая группа атрибутов включает по крайней мере следующие атрибуты: структурная принадлежность, основной литологический состав коллектора, основная система осадконакопления, основная обстановка осадконакопления, основной тип пористости, среднее значение общей толщины коллектора, среднее значение эффективной углеводородонасыщенной толщины коллектора, среднее значение пористости матрицы, среднее значение проницаемости по воздуху, среднее значение водонасыщенности, тектонический режим формирования комплексов, основная структура карбонатных пород по r.j. dunham modified 1971, литогенетический тип коллектора, тип трещинного коллектора (structural_setting, main_lithology, main_depositional_system, main_depositional_environment, porosity_type_main, gross_thickness_average, net_pay_thickness_average, porosity_matrix_average, permeability_air_average, water_saturation_average, tectonic_regime, tectonic_regime, main depositional texture for carbonate, diagenetic_reservoir_type, fractured_reservoir_type).In some embodiments of the technical solution, the second group of attributes includes at least the following attributes: structural affiliation, the main lithological composition of the reservoir, the main sedimentation system, the main sedimentation environment, the main type of porosity, the average value of the total reservoir thickness, the average value of the effective hydrocarbon-saturated reservoir thickness, the average matrix porosity, average air permeability, average water saturation, tectonic regime of formation of complexes, basic structure of carbonate rocks by rj dunham modified 1971 lithogeneous collector type, fractured reservoir (structural_setting, main_lithology, main_depositional_system, main_depositional_environment, porosity_type_main, gross_thickness_average, net_pay_thickness_average, porosity_matrix_average, permeability_air_average, water_saturation_average, tectonic_regime, tectonic_regime, main depositional texture for carbonate, diagenetic_reservoir_type, fractured_reservoir_type).

В некоторых вариантах реализации технического решения восстановление пропущенных значений атрибутов осуществляют с использованием метода градиентного бустингаIn some embodiments of the technical solution, the missing attribute values are restored using the gradient boosting method

В некоторых вариантах реализации технического решения восстановление пропущенных значений атрибутов осуществляют с использованием алгоритма машинного обучения Random Forest.In some embodiments of the technical solution, missing attribute values are restored using the Random Forest machine learning algorithm.

В некоторых вариантах реализации технического решения для градиентного бустинга используется Catboost или xgboost или Adaboost.In some implementations of the gradient boosting solution, Catboost or xgboost or Adaboost are used.

В некоторых вариантах реализации технического решения для выбора гиперпараметров градиентного бустинга используется случайное сэмплирование значений гиперпараметров для определения минимумов значений лосс функции и затем в определенных случайным сэмплированием диапазонах гиперпараметров для уточнения минимальных значений лосс функции выполняется поиск по сетке Grid Search.In some embodiments of the technical solution for the selection of gradient boosting hyperparameters, random sampling of the hyperparameter values is used to determine the minima of the loss of the function, and then, in the ranges of hyperparameters determined by the random sampling, to refine the minimum values of the loss of the function, a Grid Search is performed.

В некоторых вариантах реализации технического решения для выбора гиперпараметров алгоритма машинного обучения Random Forest используется случайное сэмплирование значений гиперпараметров для определения минимумов значений лосс функции и затем в определенных случайным сэмплированием диапазонах гиперпараметров для уточнения минимальных значений лосс функции выполняется поиск по сетке Grid Search.In some implementations of the technical solution to select the hyperparameters of the Random Forest machine learning algorithm, random sampling of the values of the hyperparameters is used to determine the minima of the loss values of the function, and then in the ranges of hyperparameters determined by the random sampling to refine the minimum values of the loss of the function, a search is performed on the Grid Search grid.

В некоторых вариантах реализации технического решения компьютерно-реализуемый способ обучения классификатора для поиска аналогов месторождений, включает по крайней мере следующие шаги:In some embodiments of the technical solution, a computer-implemented method for training a classifier to search for field analogues includes at least the following steps:

- получают выборку записей из по крайней мере одной базы данных месторождений и их атрибутов, причем выборка записей содержит месторождения одного типа, описываемые группой атрибутов; формируют размечаемую выборку путём: группировки записей по общности осадконакопления в выборке; разбиения групп записей Gi выборки на подгруппы Gij размером Gij_cnt и случайным образом выбирают в каждой подгруппе Gij целевое месторождение, где Gij_cnt функционально зависит от количества записей в группе Gi_cnt; производят разметку размечаемой выборки при помощи по крайней мере двух экспертов, причем для каждой записи в подгруппе эксперты помечают характеризует ли данная запись месторождение, которое является аналогом целевого месторождения в данной подгруппе; формируют обучающую выборку из размеченной выборки путём: отбора только тех записей, которые помечены в качестве аналогов целевого месторождения в подгруппе двумя и более экспертами; восстановления пропущенных значений атрибутов в записях выборки; преобразования атрибутов записей выборки для использования классификатором градиентного бустинга; производят обучение классификатора при помощи градиентного бустинга с использованием преобразованных атрибутов записей обучающей выборки.- get a selection of records from at least one database of deposits and their attributes, and the sample of records contains deposits of the same type, described by a group of attributes; form a tagged sample by: grouping records according to the generality of sedimentation in the sample; dividing the groups of records Gi of the sample into subgroups Gij of size Gij_cnt and randomly selecting a target deposit in each subgroup Gij, where Gij_cnt functionally depends on the number of records in the group Gi_cnt; mark up the sample to be marked with the help of at least two experts, and for each entry in the subgroup, the experts mark whether this entry characterizes a deposit, which is an analogue of the target deposit in this subgroup; form a training sample from the marked sample by: selecting only those records that are marked as analogs of the target field in the subgroup by two or more experts; restoring missing attribute values in selection records; transforming the attributes of the sample records for use by the gradient boosting classifier; the classifier is trained using gradient boosting using the transformed attributes of the training sample records.

В некоторых вариантах реализации технического решения типом месторождения является терригенное месторождение или карбонатное месторождение.In some embodiments of the technical solution, the type of deposit is a terrigenous deposit or a carbonate deposit.

В некоторых вариантах реализации технического решения группы атрибутов для терригенных месторождений включает по крайней мере следующие атрибуты: структурная принадлежность, основной литологический состав коллектора, основная система осадконакопления, основная обстановка осадконакопления, основной тип пористости, среднее значение общей толщины коллектора, среднее значение эффективной углеводородонасыщенной толщины коллектора, среднее значение пористости матрицы, среднее значение проницаемости по воздуху, среднее значение водонасыщенности, тектонический режим формирования комплексов.In some embodiments of the technical solution, the group of attributes for terrigenous fields includes at least the following attributes: structural affiliation, main lithological composition of the reservoir, main sedimentation system, main sedimentation environment, main type of porosity, average value of total reservoir thickness, average value of effective hydrocarbon-saturated reservoir thickness , average value of matrix porosity, average value of air permeability, average value of water saturation, tectonic regime of formation of complexes.

В некоторых вариантах реализации технического решения группа атрибутов для карбонатных месторождений включает по крайней мере следующие атрибуты: структурная принадлежность, основной литологический состав коллектора, основная система осадконакопления, основная обстановка осадконакопления, основной тип пористости, среднее значение общей толщины коллектора, среднее значение эффективной углеводородонасыщенной толщины коллектора, среднее значение пористости матрицы, среднее значение проницаемости по воздуху, среднее значение водонасыщенности, тектонический режим формирования комплексов, основная структура карбонатных пород по r.j. dunham modified 1971, литогенетический тип коллектора, тип трещинного коллектора.In some embodiments of the technical solution, the group of attributes for carbonate fields includes at least the following attributes: structural affiliation, main lithological composition of the reservoir, main sedimentation system, main sedimentation environment, main type of porosity, average value of total reservoir thickness, average value of effective hydrocarbon-saturated reservoir thickness , average value of matrix porosity, average value of air permeability, average value of water saturation, tectonic regime of formation of complexes, basic structure of carbonate rocks by rj dunham modified 1971, lithogenetic reservoir type, fractured reservoir type.

В некоторых вариантах реализации технического решения компьютерно-реализуемый способ поиска аналогов месторождений, выполненный с использованием способа обучения классификатора для поиска аналогов месторождений описанного ранее, включает по крайней мере следующие шаги: Получают выборку записей терригенных месторождений и обучают первый классификатор для поиска аналогов месторождений; Получают выборку записей карбонатных месторождений и обучают второй классификатор для поиска аналогов месторождений; Получают от пользователя тип месторождения и значения его атрибутов, для определения его аналогов; Производят преобразование полученных атрибутов месторождения и осуществляют поиск аналогов с использованием обученного первого или второго классификатора, соответствующего типу месторождения; Предъявляют пользователю информацию о результатах поиска.In some embodiments of the technical solution, a computer-implemented method for searching for analogs of deposits, performed using the method of training a classifier for searching for analogs of deposits described earlier, includes at least the following steps: A sample of records of terrigenous deposits is obtained and the first classifier is trained to search for analogs of deposits; A sample of records of carbonate deposits is obtained and the second classifier is trained to search for analogs of deposits; Receive from the user the type of field and the values of its attributes to determine its analogues; The obtained attributes of the field are converted and analogs are searched using the trained first or second classifier corresponding to the type of the field; Provide information about search results to the user.

В некоторых вариантах реализации технического решения система для поиска аналогов месторождений, включает по крайней мере один процессор, оперативную память, и машиночитаемые инструкции для выполнения способа поиска аналогов согласно способу описанному ранее.In some embodiments of the technical solution, a system for searching for analogs of deposits includes at least one processor, random access memory, and computer-readable instructions for performing a method for searching for analogs according to the method described earlier.

В некоторых вариантах реализации технического решения система для обучения классификатора для поиска аналогов месторождений, включающая по крайней мере один процессор, оперативную память, и машиночитаемые инструкции для выполнения способа обучения классификатора для поиска аналогов месторождений согласно способу, описанному ранее.In some embodiments of the technical solution, a system for training a classifier to search for analogs of deposits, including at least one processor, random access memory, and machine-readable instructions for performing a method of training a classifier to search for analogs of deposits according to the method described earlier.

В некоторых вариантах реализации технического решения машиночитаемый носитель, содержит машинные инструкции способа поиска аналогов согласно вариантам реализации описанным ранее, выполненный с возможностью чтения данных инструкций и исполнения их процессором.In some embodiments of the technical solution, a computer-readable medium contains machine instructions of a method for searching for analogs according to the embodiments described earlier, configured to read these instructions and execute them by a processor.

Машиночитаемый носитель, содержит машинные инструкции способа обучения классификатора для поиска аналогов месторождений согласно способу, описанному ранее, выполненный с возможностью чтения данных инструкций и исполнения их процессором.The computer-readable medium contains machine instructions of a method for training a classifier to search for analogs of deposits according to the method described earlier, made with the ability to read these instructions and execute them by the processor.

Все описанные в данном техническом решении шаги способа (а так же все шаги/действия что указаны на фиг.1 – 3) могут выполняться процессором (одним или более), который загружает инструкции и данные из памяти (ОЗУ, ПЗУ) и производит их выполнение/обработку.All the steps of the method described in this technical solution (as well as all the steps / actions that are indicated in Figs. 1 - 3) can be performed by a processor (one or more), which loads instructions and data from memory (RAM, ROM) and executes them / processing.

На фиг. 1 показан примерный вариант осуществления способа обучения классификатора в одном из вариантов реализации.FIG. 1 shows an exemplary embodiment of a method for training a classifier in one embodiment.

На фиг. 2 показан примерный вариант осуществления поиска аналога месторождения.FIG. 2 shows an exemplary embodiment of searching for an analogue of a deposit.

На фиг. 3 показана иллюстративная общая схема технического решения, показывающая все этапы работы (выполнения, исполнения), согласно одному из вариантов реализации.FIG. 3 shows an illustrative general diagram of a technical solution showing all stages of work (execution, execution), according to one of the embodiments.

На фиг. 4 показан иллюстративный пример пользовательского интерфейса с введенными атрибутами месторождения, для которого будет производиться поиск аналогов.FIG. 4 shows an illustrative example of a user interface with the entered attributes of a field for which an analog search will be performed.

На фиг. 5 показан иллюстративный пример пользовательского интерфейса отображения результатов поиска аналогов, введенного пользователем месторождения.FIG. 5 shows an illustrative example of a user interface for displaying analog search results entered by a user of a field.

На фиг. 6 показан иллюстративный пример системы, используемой для выполнения (исполнения) технического решения, согласно описанным вариантам реализации.FIG. 6 shows an illustrative example of a system used to implement (execute) a technical solution in accordance with the described implementation options.

Ниже даны некоторые термины и их определения, используемые в рамках описываемого технического решения.Below are some of the terms and their definitions used in the described technical solution.

По литологическому составу коллекторами нефти и газа являются терригенные (пески, алевриты, песчаники, алевролиты и некоторые глинистые породы), карбонатные (известняки, мел, доломиты), вулканогенно- осадочные и кремнистые породы.According to the lithological composition, oil and gas reservoirs are terrigenous (sands, silts, sandstones, siltstones and some clay rocks), carbonate (limestones, chalk, dolomites), volcanic-sedimentary and siliceous rocks.

Карбонатные коллекторы отличаются от терригенных по характеру происходящих в них преобразований в постседиментационный период.Carbonate reservoirs differ from terrigenous ones in the nature of the transformations occurring in them in the postsedimentary period.

Классификация Dunham – это классификация, позволяющая разделить карбонатный коллектор на породы в зависимости от долевого соотношения карбонатных зерен и матрикса. Классификации Dunham была первоначально разработана R.J. Dunham в 1962 году, и впоследствии модифицирована Embry и Klovan в 1971 году, чтобы дополнительно включать в себя крупнозернистые известняки и отложения, которые были органически связаны во время осаждения.The Dunham classification is a classification that allows you to divide a carbonate reservoir into rocks depending on the proportion of carbonate grains and matrix. The Dunham classification was originally developed by R.J. Dunham in 1962, and subsequently modified by Embry and Klovan in 1971 to additionally include coarse limestones and sediments that were organically bound during deposition.

Бустинг (англ. boosting — усиление) — композиционный метаалгоритм машинного обучения, применяется, главным образом, для уменьшения смещения, а также дисперсии в обучении с учителем. Также определяется как семейство алгоритмов машинного обучения, преобразующих слабые обучающие алгоритмы к сильным.Boosting is a compositional machine learning meta-algorithm used mainly to reduce bias and variance in supervised learning. Also defined as a family of machine learning algorithms that transform weak learning algorithms to strong ones.

Random forest (с англ. — «случайный лес») — алгоритм/способ машинного обучения, заключающийся в использовании комитета (ансамбля) решающих деревьев. Алгоритм/способ сочетает в себе две основные идеи: метод бэггинга Бреймана, и метод случайных подпространств. Алгоритм/способ применяется для задач классификации, регрессии и кластеризации. Основная идея заключается в использовании большого ансамбля решающих деревьев, каждое из которых само по себе даёт очень невысокое качество классификации, но за счёт их большого количества результат получается хорошим.Random forest (from English - "random forest") - an algorithm / method of machine learning, which consists in using a committee (ensemble) of decision trees. The algorithm / method combines two main ideas: the Breiman bagging method, and the random subspace method. The algorithm / method is used for classification, regression and clustering problems. The main idea is to use a large ensemble of decision trees, each of which by itself gives a very low quality of classification, but due to their large number, the result is good.

Функция потерь (лосс функция) — функция, которая в теории статистических решений характеризует потери при неправильном принятии решений на основе наблюдаемых данных.Loss function (loss function) - a function that, in the theory of statistical decisions, characterizes the loss in case of incorrect decision-making based on the observed data.

В машинном обучении гиперпараметр — это параметр, значение которого используется для управления процессом обучения.In machine learning, a hyperparameter is a parameter whose value is used to control the learning process.

Кросс - валидация, перекрёстная проверка (кросс-проверка, скользящий контроль, англ. cross-validation) - метод оценки аналитической модели и её поведения на независимых данных. При оценке модели имеющиеся в наличии данные разбиваются на k частей. Затем на k−1 частях данных производится обучение модели, а оставшаяся часть данных используется для тестирования. Процедура повторяется k раз; в итоге каждая из k частей данных используется для тестирования. В результате получается оценка эффективности выбранной модели с наиболее равномерным использованием имеющихся данных.Cross-validation, cross-validation (cross-validation, cross-validation) is a method for evaluating an analytical model and its behavior on independent data. When evaluating the model, the available data is split into k parts. Then the model is trained on k − 1 pieces of data, and the rest of the data is used for testing. The procedure is repeated k times; as a result, each of the k pieces of data is used for testing. The result is an assessment of the effectiveness of the selected model with the most even use of the available data.

Компьютерно-реализуемый способ поиска аналогов месторождений, включает по крайней мере следующие шаги:A computer-implemented method for searching for field analogues includes at least the following steps:

Получают первую и вторую выборку (записей) из по крайней мере одной базы данных месторождений и их атрибутов.Get the first and second sample (of records) from at least one database of deposits and their attributes.

Причем первая выборка (записей) содержит месторождения первого типа, например терригенного, описываемые первой группой атрибутов, а вторая выборка (записей) содержит карбонатные месторождения, описываемые второй группой атрибутов.Moreover, the first sample (records) contains deposits of the first type, for example, terrigenous, described by the first group of attributes, and the second sample (records) contains carbonate deposits described by the second group of attributes.

В качестве атрибутов первой группы месторождений (терригенных) могут использоваться, в частности:The attributes of the first group of deposits (terrigenous) can be used, in particular:

структурная принадлежность, основной литологический состав коллектора, основная система осадконакопления, основная обстановка осадконакопления, основной тип пористости, среднее значение общей толщины коллектора, среднее значение эффективной углеводородонасыщенной толщины коллектора, среднее значение пористости матрицы, среднее значение проницаемости по воздуху, среднее значение водонасыщенности, тектонический режим формирования комплексов.structural affiliation, the main lithological composition of the reservoir, the main sedimentation system, the main sedimentation environment, the main type of porosity, the average value of the total reservoir thickness, the average value of the effective hydrocarbon-saturated reservoir thickness, the average value of the matrix porosity, the average value of air permeability, the average value of water saturation, tectonic regime the formation of complexes.

В качестве атрибутов второй группы месторождений, например карбонатных, могут использоваться атрибуты терригенных и по крайней мере следующие дополнительный атрибуты: основная структура карбонатных пород по r.j. dunham modified, 1971, литогенетический тип коллектора, тип трещинного коллектора.Terrigenous attributes and at least the following additional attributes can be used as attributes of the second group of deposits, for example carbonate deposits: basic structure of carbonate rocks according to r.j. dunham modified, 1971, lithogenetic reservoir type, fractured reservoir type.

В общем виде на данном шаге (фиг.1, 101) получают выборку записей («строки записей таблицы») из базы данных месторождений и ее атрибуты/группы атрибутов («столбцы записей таблицы»).In general, at this step (FIGS. 1, 101), a selection of records (“table record rows”) from the field database and its attributes / attribute groups (“table record columns”) are obtained.

Значение каждого атрибута характеризует все месторождение (или пласт месторождения) в целом.The value of each attribute characterizes the entire field (or reservoir layer) as a whole.

В качестве базы данных (хранилища данных) может выступать любой источник данных, но не ограничиваясь, файл, плоский файл, реляционная, иерархическая, объектно-ориентированная база данных, key-value хранилище. Используемое хранилище/база данных не влияют на суть технического решения. Используемые хранилища могут быть локальными или внешними/удаленными (remote).Any data source can act as a database (data store), but not limited to file, flat file, relational, hierarchical, object-oriented database, key-value storage. The used storage / database does not affect the essence of the technical solution. Stores used can be local or external / remote (remote).

Группируют записи первой и второй выборки по общности осадконакопленияThe records of the first and second samples are grouped according to the generality of sedimentation

Группировка записей выборки (формируются группы записей выборки по общности осадконакопления) производится (осуществляется) по полю (атрибуту) основная обстановка осадконакопления (фиг.1, 102).The grouping of the sampling records (groups of sampling records are formed according to the generality of sedimentation) is performed (carried out) by the field (attribute) of the basic sedimentation environment (Figs. 1, 102).

В некоторых вариантах реализации технического решения группировка может производиться средствами СУБД, например, при помощи команды GROUP BY языка SQL или любыми аналогичными средствами.In some variants of the implementation of the technical solution, the grouping can be performed by means of the DBMS, for example, using the GROUP BY command of the SQL language or by any similar means.

Формируют первую размечаемую выборку из сгруппированных записей первой выборки, причем каждую группу Gi разбивают на подгруппы Gij размером Gij_cnt и для каждой подгруппы Gij задают случайным образом целевое месторождение, где Gij_cnt функционально зависит от количества записей в группе Gi_cnt.The first markup sample is formed from the grouped records of the first sample, and each group Gi is divided into subgroups Gij of size Gij_cnt and for each subgroup Gij the target deposit is randomly set, where Gij_cnt functionally depends on the number of records in the group Gi_cnt.

Формируют вторую размечаемую выборку из сгруппированных записей второй выборки, причем каждую группу Gi разбивают на подгруппы Gij размером Gij_cnt и для каждой подгруппы Gij задают случайным образом целевое месторождение, где Gij_cnt функционально зависит от количества записей в группе Gi_cnt.A second markup sample is formed from the grouped records of the second sample, and each group Gi is divided into subgroups Gij of size Gij_cnt and for each subgroup Gij the target deposit is randomly set, where Gij_cnt functionally depends on the number of records in the group Gi_cnt.

В некоторых вариантах реализации технического решения индексы (итераторы) i,j являются целыми числами (натуральными), большими нуля и ограничены только объемом выборки (количеством записей) базы данных (могут быть например, 200, 300, 400, 500, но не ограничиваясь).In some implementations of the technical solution, the indices (iterators) i, j are integers (natural), greater than zero and are limited only by the sample size (number of records) of the database (for example, 200, 300, 400, 500, but not limited to) ...

В некоторых вариантах реализации технического решения Gi_cnt, Gij_cnt являются целыми числами (натуральными), большими или равными нулю (могут быть например, 5, 10, 100, но не ограничиваясь).In some implementations of the technical solution, Gi_cnt, Gij_cnt are integers (natural), greater than or equal to zero (may be, for example, 5, 10, 100, but not limited to).

Например, в выборке может находится 200 записей, причем 20 записей первой группы осадконакопления, 64 записи второй группы осадконакопления и 116 записей третьей группы осадконакопления. Таким образом индекс(итератор) i (Gi) будет находится в диапазоне от 1 до 3, Gi_cnt = 3. Пусть задана функциональная зависимость в виде целочисленного деления на константу Kst = 5. Тогда каждая группа Gi будет разбита на подгруппы: G1 – 4 подгруппы, G2 – 12 подгрупп, G3 – 23 подгруппы. Таким образом индекс(итератор) j для G1 находится в диапазоне 1..4, для G2 – 1..12, для G3 – 1..23. Следовательно максимальное значение для итераторов в данном примере будет i =3, j = 23For example, the sample may contain 200 records, with 20 records of the first sedimentation group, 64 records of the second sedimentation group, and 116 records of the third sedimentation group. Thus, the index (iterator) i (Gi) will be in the range from 1 to 3, Gi_cnt = 3. Let the functional dependence be given in the form of integer division by the constant Kst = 5. Then each group Gi will be divided into subgroups: G 1 - 4 subgroups, G 2 - 12 subgroups, G 3 - 23 subgroups. Thus, the index (iterator) j for G 1 is in the range 1..4, for G 2 - 1..12, for G 3 - 1..23. Therefore, the maximum value for iterators in this example will be i = 3, j = 23

В общем виде на данном шаге формируют размечаемую выборку из сгруппированных записей выборки, причем каждую группу Gi разбивают на подгруппы Gij размером Gij_cnt и для каждой подгруппы Gij задают случайным образом целевое месторождение, где Gij_cnt функционально зависит от количества записей в группе Gi_cnt (фиг.1, 103).In general, at this step, a markup sample is formed from the grouped records of the sample, and each group Gi is divided into subgroups Gij of size Gij_cnt and for each subgroup Gij the target deposit is randomly set, where Gij_cnt functionally depends on the number of records in the group Gi_cnt (Fig. 1, 103).

В некоторых вариантах реализации функциональная зависимость Gij_cnt описывается как количество записей в группе Gi_cnt деленное на некоторую заданную пользователем или разработчиком системы константу Kst (например, Kst может находится в диапазоне от [2..Gi_cnt-1]).In some implementations, the functional dependence Gij_cnt is described as the number of entries in the Gi_cnt group divided by some constant Kst specified by the user or the system developer (for example, Kst can range from [2..Gi_cnt-1]).

В некоторых вариантах реализации функциональная зависимость Ki имеет логарифмический вид Ki = Ln(Gi_cnt). Для функциональной зависимости могут использоваться любые функции и их комбинации, дающие итоговый целочисленный результат. В некоторых вариантах реализации в качестве функциональной зависимости может использоваться генератор случайных чисел с ограничением диапазона выдаваемых значений [2..Gi_cnt-1].In some embodiments, the functional relationship Ki has a logarithmic form Ki = Ln (Gi_cnt). For functional dependence, any functions and their combinations can be used that give the final integer result. In some implementations, a random number generator with a limited range of output values [2..Gi_cnt-1] can be used as a functional dependency.

В некоторых вариантах реализации формируют первую/вторую размечаемую выборку путём: группировки записей по общности осадконакопления (в соответствующей) первой/второй выборке; разбиения групп записей Gi первой/второй выборки на подгруппы Gij размером Gij_cnt и случайным образом выбирают в каждой подгруппе Gij целевое месторождение Target_Gij, где Gij_cnt функционально зависит от количества записей в группе Gi_cnt.In some implementations, the first / second sample to be sampled is formed by: grouping the records according to the generality of sedimentation (in the corresponding) first / second sample; splitting the groups of records Gi of the first / second sample into subgroups Gij of size Gij_cnt and randomly selecting the target field Target_Gij in each subgroup Gij, where Gij_cnt functionally depends on the number of records in the group Gi_cnt.

Производят разметку первой и второй размечаемой выборки при помощи по крайней мере двух экспертов, причем для каждой записи эксперты выбирают месторождения-аналоги целевого месторождения.Marking of the first and second sample to be marked is carried out with the help of at least two experts, and for each record the experts select deposits-analogs of the target deposit.

В общем виде в данном шаге производят разметку размечаемой выборки при помощи по крайней мере двух экспертов, причем для каждой записи эксперты (эксперты-геологи) выбирают месторождения-аналоги целевого месторождения (фиг.1, 104).In general, in this step, the markup sample is marked with the help of at least two experts, and for each record the experts (geological experts) select the analogous deposits of the target deposit (Figs. 1, 104).

В некоторых вариантах реализации технического решения для эксперта (эксперта-геолога) (их может быть два и более) отображается интерфейс, где выводится (отображается) размечаемые (первая и вторая) выборки. Так как выборки состоят из подгрупп Gij для каждой из которых назначено свое целевое месторождение, то в интерфейсе эксперта-геолога отдельно выделяется (отображается, помечается) целевое месторождение, для которого эксперты-геологи отмечают/устанавливают (в интерфейсе) месторождения-аналоги в рамках подгруппы Gij. Формат отображения данных, целевого месторождения не влияют на суть технического решения. Эксперты-геологи могут работать как в одном, едином интерфейсе, так и отдельно друг от друга. Работы по разметке могут вестись как последовательно (каждый следующий эксперт начинает после завершения предыдущего) так и параллельно, но независимо друг от друга (эксперты-геологи не видят/не умеют доступа к ответам других экспертов-геологов).In some embodiments of the technical solution for an expert (expert-geologist) (there may be two or more of them), an interface is displayed, where the marked (first and second) samples are displayed (displayed). Since the samples consist of subgroups Gij for each of which its own target deposit is assigned, then in the expert-geologist's interface the target deposit is separately selected (displayed, marked), for which the experts-geologists mark / set (in the interface) analogous deposits within the subgroup Gij. The data display format of the target field does not affect the essence of the technical solution. Geological experts can work both in a single, unified interface, and separately from each other. Work on marking can be carried out both sequentially (each next expert starts after the completion of the previous one) and in parallel, but independently of each other (experts-geologists do not see / do not know how to access the answers of other experts-geologists).

В некоторых вариантах реализации технического решения производят разметку первой и второй размечаемой выборки при помощи по крайней мере двух экспертов, причем для каждой записи k в подгруппе Gij эксперты помечают характеризует ли данная запись k месторождение, которое является аналогом целевого месторождения Target_Gij в данной подгруппе Gij.In some embodiments of the technical solution, the first and second markup samples are marked with the help of at least two experts, and for each record k in the subgroup Gij, the experts mark whether this record k characterizes a deposit that is analogous to the target deposit Target_Gij in this subgroup Gij.

В некоторых вариантах реализации технического решения производят разметку первой и второй размечаемой выборки при помощи по крайней мере двух экспертов, причем для каждого месторождения (характеризующей его записи) в подгруппе Gij эксперты помечают является оно аналогом целевого месторождения Target_Gij в данной подгруппе Gij.In some embodiments of the technical solution, the first and second markup samples are marked with the help of at least two experts, and for each field (characterizing its records) in the Gij subgroup, the experts mark it as an analogue of the Target_Gij target field in this Gij subgroup.

Данные о месторождениях-аналогах целевого месторождения (подгруппы Gij) могут храниться в различных форматах данных (числовые, логические, текстовые) и должны однозначно показывать (быть связаны) с подгруппой Gij и целевым месторождением данной подгруппы. В итоге по факту разметки получаются первая и вторая размеченные выборки, где для каждой подгруппы Gij указаны аналоги целевого месторождения.Data on deposits-analogs of the target deposit (subgroups Gij) can be stored in various data formats (numeric, logical, text) and must unambiguously show (be associated) with the subgroup Gij and the target deposit of this subgroup. As a result, according to the fact of marking, the first and second marked samples are obtained, where analogs of the target field are indicated for each subgroup Gij.

Формируют первую обучающую выборку из первой размеченной выборки и вторую обучающую выборку из второй размеченной выборки путем отбора только тех записей, в которых аналоги в одной и той же записи совпали у двух и более экспертовThe first training sample is formed from the first labeled sample and the second training sample from the second labeled sample by selecting only those records in which analogs in the same record coincided in two or more experts

В общем виде на данном шаге формируют обучающую выборку из размеченной выборки путем отбора только тех записей, в которых аналоги в одной и той же записи совпали у двух и более экспертов (фиг.1, 105).In general, at this step, a training sample is formed from a labeled sample by selecting only those records in which analogs in the same record coincided in two or more experts (Figs. 1, 105).

После этапа разметки первой и второй выборки двумя или более экспертами-геологами происходит отбор записей, где мнения двух и более экспертов-геологов совпали. Если одно и то же месторождение в группе Gij было отмечено как аналог целевого месторождения двумя и более экспертами, то запись, включающая данное месторождение, попадет в обучающую выборку.After the stage of marking the first and second hauls by two or more geological experts, records are selected where the opinions of two or more geological experts coincided. If the same deposit in the Gij group was marked as an analogue of the target deposit by two or more experts, then the record including this deposit will be included in the training set.

Восстанавливают пропущенные значения атрибутов в первой и второй обучающей выборки.The missing attribute values in the first and second training samples are restored.

В общем виде на данном шаге восстанавливают пропущенные значения атрибутов в обучающей выборке (фиг.1, 106).In general, at this step, the missing attribute values in the training sample are restored (Figs. 1, 106).

В некоторых случаях данные в выборке могут содержать пропущенные значения атрибутов. Для более эффективной работы необходимо заполнить/восстановить эти пропущенные значения.In some cases, the data in the selection may contain missing attribute values. For more efficient operation it is necessary to fill / restore these missing values.

Одни и те же виды моделей машинного обучения могут требовать различные предположения, веса или скорости обучения для различных видов данных. Эти параметры называются гиперпараметрами и их следует настраивать так, чтобы модель могла оптимально решить задачу обучения. Для этого находится кортеж гиперпараметров, который даёт оптимальную модель, оптимизирующую заданную функцию потерь на заданных независимых данных.The same kinds of machine learning models may require different assumptions, weights, or learning rates for different kinds of data. These parameters are called hyperparameters and should be tuned so that the model can optimally solve the training problem. For this, a tuple of hyperparameters is found, which gives an optimal model that optimizes a given loss function on given independent data.

Для каждого из атрибутов выборки (столбцов таблицы) производилось обучение модели с использованием градиентного бустинга (например, CatBoost, xgBoost, Adaboost и д.р.) и алгоритма машинного обучения Random Forest, на вход каждой модели которых подавались все остальные атрибуты выборки, кроме тех, значения которых необходимо восстановить (предсказать).For each of the sample attributes (table columns), the model was trained using gradient boosting (for example, CatBoost, xgBoost, Adaboost, etc.) and the Random Forest machine learning algorithm, to the input of which all other sample attributes were fed, except for those , the values of which need to be restored (predicted).

Так, например, если у нас имеется выборка, включающая следующие атрибуты: a, b, c, d, e, и имеются записи в которых пропущены значения атрибута b, то для обучения указанных моделей будут использоваться атрибуты a, c, d, e для предсказания/восстановления значения b. После обучения для каждой из моделей определяют величину ошибки при восстановлении/предсказании пропущенного значения атрибута. Для дальнейшей обработки оставляют (используют) ту модель, где величина ошибки наименьшая.So, for example, if we have a sample that includes the following attributes: a, b, c, d, e, and there are records in which the values of the attribute b are missing, then to train these models, the attributes a, c, d, e will be used for prediction / restoration of the value b. After training, for each of the models, the magnitude of the error in recovering / predicting the missing attribute value is determined. For further processing, leave (use) the model where the magnitude of the error is the smallest.

В качестве метрик качества может использоваться среднеквадратичная ошибка (RMSE) и относительная ошибка (MAPE):Root mean square error (RMSE) and relative error (MAPE) can be used as quality metrics:

Для числовых атрибутов в качестве функции потерь (лосс функции) используется среднеквадратичная ошибка MSE, а метрика – среднеквадратичное отклонение RMSE.For numeric attributes, the MSE root-mean-square error is used as the loss function (loss function), and the metric is the RMSE root-mean-square deviation.

Для категориальных атрибутов (например, структурная принадлежность, основной литологический состав коллектора, основная система осадконакопления, основная обстановка осадконакопления, основной тип пористости, тектонический режим формирования комплексов. основная структура карбонатных пород по r.j. dunham modified, 1971, литогенетический тип коллектора, тип трещинного коллектора) используется мультилейбл softmax, а метрика – accuracy.For categorical attributes (e.g. structural affiliation, main lithological composition of the reservoir, main sedimentation system, main sedimentation environment, main type of porosity, tectonic mode of formation of complexes. Main structure of carbonate rocks according to rj dunham modified, 1971, lithogenetic type of reservoir, type of fractured reservoir) the multi-label softmax is used, and the metric is accuracy.

Softmax - это обобщение логистической функции для многомерного случая. Функция Softmax применяется в машинном обучении для задач классификации, когда количество возможных классов больше двух.Softmax is a generalization of the logistic function for the multidimensional case. The Softmax function is used in machine learning for classification problems when the number of possible classes is more than two.

Для выбора гиперпараметров градиентного бустинга и Random Forest в некоторых вариантах реализации технического решения используется случайное сэмплирование значений гиперпараметров для определения минимумов значений лосс функции (Randomized Search). Затем в определенных случайным сэмплированием диапазонах гиперпараметров для уточнения минимальных значений лосс функции выполняется (используется) поиск по сетке (или вариация параметров) Grid Search.To select the gradient boosting and Random Forest hyperparameters, some technical solution implementations use random sampling of the hyperparameter values to determine the minimums of the loss function values (Randomized Search). Then, in the ranges of hyperparameters determined by random sampling, a grid search (or variation of parameters) is performed (used) to refine the minimum values of the loss function.

В некоторых вариантах реализации технического решения при обучении модели используется кросс-валидация.In some implementations of the technical solution, cross-validation is used when training the model.

Производят преобразование атрибутов записей первой обучающей выборки и второй обучающей выборкиTransform the attributes of the records of the first training sample and the second training sample

В общем виде на данном шаге производят преобразование атрибутов записей обучающей выборки (фиг.1, 107).In general, at this step, the attributes of the records of the training sample are transformed (Figs. 1, 107).

Преобразование атрибутов записей первой и второй обучающей выборки производится (осуществляется следующим образом):The transformation of the attributes of the records of the first and second training set is performed (carried out as follows):

- для категориальных признаков проверяют (осуществляют, смотрят) соответствие категории у пары месторождений (формируются новые записи в количестве равном

Figure 00000001
сочетаний без повторений, где m-количество месторождений в обучающей выборке). Если категории одинаковые, новый признак устанавливается = 1 (или true для логических типов данных), если разные = 0 (false);- for categorical features, they check (carry out, watch) the correspondence of the category for a pair of deposits (new records are formed in an amount equal to
Figure 00000001
combinations without repetitions, where m is the number of deposits in the training sample). If the categories are the same, the new attribute is set = 1 (or true for logical data types), if different = 0 (false);

- для числовых атрибутов формируют и вычисляют новый признак равный модулю разности значений соответствующего признака у пары месторождений, таким образом для каждой пары числовых атрибутов x и y посчитан новый атрибут по следующей формуле:- for numeric attributes, a new attribute is formed and calculated equal to the modulus of the difference in the values of the corresponding attribute for a pair of fields, thus, for each pair of numeric attributes x and y, a new attribute is calculated using the following formula:

Figure 00000002
Figure 00000002

где xi, xj – значения признака “x” пары месторождений i, j;where xi, xj - values of the attribute “x” of the pair of deposits i, j;

yi, yj – значения признака “y” пары месторождений i, j.yi, yj - values of the attribute “y” of the pair of deposits i, j.

Таким образом, будет вычислено

Figure 00000003
(сочетания без повторений из n по 2, где n – количество числовых признаков) пар признаков.Thus, it will be calculated
Figure 00000003
(combinations without repetitions from n to 2, where n is the number of numerical features) pairs of features.

Предположим, что у нас четыре числовых атрибута a, b, c, d, то будут рассмотрены (вычислены) модули разности у следующих пар атрибутов: (a, b); (a, c); (b, c); (a, d); (b;d); (c;d). Для каждой пары атрибутов будет вычислен новый атрибут, например, для пары (b,c):Suppose that we have four numeric attributes a, b, c, d, then the modules of the difference for the following pairs of attributes will be considered (calculated): (a, b); (a, c); (b, c); (a, d); (b; d); (c; d). For each pair of attributes, a new attribute will be calculated, for example, for a pair (b, c):

Z =

Figure 00000004
Z =
Figure 00000004

В некоторых вариантах реализации преобразованные записи выборки сохраняют в хранилище данных для последующего использования производят обучение первого классификатора при помощи градиентного бустинга с использованием преобразованных атрибутов записей первой обучающей выборки,In some implementations, the transformed sample records are stored in the data store for later use, the first classifier is trained using gradient boosting using the transformed attributes of the records of the first training sample,

производят обучение второго классификатора при помощи градиентного бустинга с использованием преобразованных атрибутов записей второй обучающей выборки.the second classifier is trained using gradient boosting using the transformed attributes of the records of the second training sample.

В общем виде на данном шаге производят обучение классификатора при помощи градиентного бустинга с использованием преобразованных атрибутов записей обучающей выборки (фиг.1, 108).In general, at this step, the classifier is trained using gradient boosting using the transformed attributes of the training sample records (Figs. 1, 108).

Преобразованные атрибуты записей первой обучающей выборки (соответствующей терригенным месторождениям) и второй обучающей выборки (соответствующей карбонатным месторождениям) подаются на вход соответствующего классификатора с (каждый классификатор обучается раздельно на своей обучающей выборке) и производят обучение классификатора методом градиентного бустинга. На вход классификатора подаются пары месторождений с указанием являются ли данные месторождения аналогами по отношению друг к другу или нет.The transformed attributes of the records of the first training set (corresponding to terrigenous deposits) and the second training set (corresponding to carbonate deposits) are fed to the input of the corresponding classifier c (each classifier is trained separately on its own training set) and the classifier is trained using the gradient boosting method. Pairs of deposits are fed to the input of the classifier, indicating whether these deposits are analogous to each other or not.

В качестве используемых библиотек/алгоритмов/способов градиентного бустинга могут использоваться Catboost, xgboost, Adaboost и другие.As used libraries / algorithms / methods of gradient boosting, Catboost, xgboost, Adaboost and others can be used.

Для выбора гиперпараметров градиентного бустинга в некоторых вариантах реализации технического решения используется случайное сэмплирование значений гиперпараметров для определения минимумов значений лосс функции (Randomized Search). Затем в определенных случайным сэмплированием диапазонах гиперпараметров для уточнения минимальных значений лосс функции выполняется (используется) поиск по сетке (или вариация параметров) Grid Search.To select the gradient boosting hyperparameters, in some technical solutions, random sampling of the hyperparameter values is used to determine the minima of the loss function values (Randomized Search). Then, in the ranges of hyperparameters determined by random sampling, a grid search (or variation of parameters) is performed (used) to refine the minimum values of the loss function.

В некоторых вариантах реализации технического решения при обучении классификатора используется кросс-валидация.In some implementations of the technical solution, cross-validation is used when training the classifier.

Получают от пользователя тип месторождения и значения его атрибутов для определения его аналогов.Receive from the user the type of field and the values of its attributes to determine its analogues.

На данном этапе (фиг.2, 203) пользователь вводит имеющиеся у него данные о месторождении, аналоги которого он хочет найти (фиг.4). Пользователь может ввести как часть значений атрибутов, так и все значения атрибутов в соответствии с описанными ранее списками атрибутов для каждого типа месторождения. Ввод может осуществляться как при помощи средств ввода/вывода, так и из источников данных (файлы, таблицы, базы данных, хранилища данных и т.д.).At this stage (Fig. 2, 203), the user enters the data he has about the field, the analogs of which he wants to find (Fig. 4). The user can enter both part of the attribute values and all the attribute values in accordance with the previously described attribute lists for each type of deposit. Input can be carried out both by means of input / output, and from data sources (files, tables, databases, data stores, etc.).

Производят преобразование полученных атрибутов месторождения и осуществляют поиск аналогов с использованием обученного классификатора, соответствующего типу месторождения.The obtained attributes of the field are converted and analogs are searched using a trained classifier corresponding to the type of field.

Преобразования (фиг.2, 204) полученных от пользователя атрибутов месторождения (числовых и категориальных) осуществляют согласно описанным ранее последовательностям действий (фиг.1, 107).The transformations (FIGS. 2, 204) of the attributes of the field (numerical and categorical) obtained from the user are carried out according to the previously described sequences of actions (FIGS. 1, 107).

Далее итеративно проходят по всем записям базы данных месторождений (которая использовалась на шаге 101 с преобразованием атрибутов каждой записи согласно шагу 107 или сохранена на шаге 107) и передают на вход соответствующего обученного классификатора (терригенного, карбонатного или иного) преобразованные атрибуты пользовательского месторождения и запись текущей итерации (текущую запись, запись на которой стоит курсор базы данных, запись на которую указывает итератор и т.д.). Получив данные записи на входе классификатор производит необходимую обработку и выдает результат является ли запись текущей итерации аналогом пользовательского месторождения. Пройдя итеративно по всем записям, получается (формируется) список аналогов пользовательского месторождения. В случае отсутствия аналогов список может быть пуст (содержать пустое значение, nil, Null, []) или может содержать информацию обо всех месторождениях с указанием, что они не являются аналогами.Then, iteratively go through all the records of the field database (which was used at step 101 with transforming the attributes of each record according to step 107 or saved at step 107) and transmit the transformed attributes of the user deposit and the current record to the input of the corresponding trained classifier (terrigenous, carbonate or other). iterations (the current record, the record at which the database cursor is positioned, the record pointed to by the iterator, etc.). Having received the record data at the input, the classifier performs the necessary processing and returns the result whether the record of the current iteration is an analogue of the user field. After iteratively going through all the records, a list of analogs of the custom field is obtained (formed). If there are no analogs, the list can be empty (contain an empty value, nil, Null, []) or it can contain information about all deposits indicating that they are not analogs.

Предъявляют пользователю информацию о результатах поиска.Provide information about search results to the user.

Полученные результаты поиска (фиг.2, 205) отображаются/предъявляются (фиг.5) пользователю в текстовом или графическом виде, при помощи текстового (CUI) или графического интерфейса (GUI) или в виде результата (списка найденных скважин и их характеристик/атрибутов), доступного для внешних сервисов, внешних вызовов функций. В некоторых вариантах реализации отображаемые результаты могут ранжироваться/сортироваться по «степени близости» скважин-аналогов к искомой скважине. Степень близости может вычисляться по метрикам на основании характеристик найденных скважин.The obtained search results (Fig. 2, 205) are displayed / presented (Fig. 5) to the user in text or graphical form, using a text (CUI) or graphical interface (GUI) or as a result (a list of found wells and their characteristics / attributes ) available for external services, external function calls. In some implementations, the displayed results may be ranked / sorted by the "closeness" of the analog wells to the target well. The degree of proximity can be calculated by metrics based on the characteristics of the found wells.

Фиг. 6 представляет пример компьютерной системы общего назначения используемой для реализации описанного способа, персональный компьютер или сервер 20, содержащий центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами персонального компьютера 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.FIG. 6 shows an example of a general-purpose computer system used to implement the described method, a personal computer or server 20 containing a central processor 21, a system memory 22 and a system bus 23 that contains various system components, including memory associated with the central processor 21. System bus 23 is implemented as any bus structure known in the art, which in turn contains a bus memory or bus memory controller, a peripheral bus and a local bus that is capable of interfacing with any other bus architecture. System memory contains read-only memory (ROM) 24, random access memory (RAM) 25. The main input / output system (BIOS) 26 contains basic procedures that transfer information between the elements of the personal computer 20, for example, at the time of loading the operating room. systems using ROM 24.

Персональный компьютер 20 в свою очередь содержит жёсткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жёсткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жёсткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных персонального компьютера 20.The personal computer 20, in turn, contains a hard disk 27 for reading and writing data, a magnetic disk drive 28 for reading and writing to removable magnetic disks 29 and an optical drive 30 for reading and writing to removable optical disks 31, such as CD-ROM, DVD -ROM and other optical media. The hard disk 27, the magnetic disk drive 28, and the optical drive 30 are connected to the system bus 23 via the hard disk interface 32, the magnetic disk interface 33 and the optical drive interface 34, respectively. Drives and corresponding computer storage media are non-volatile storage media for computer instructions, data structures, program modules and other data of a personal computer 20.

Настоящее описание раскрывает реализацию системы, которая использует жёсткий диск 27, , но следует понимать, что возможно применение иных типов компьютерных носителей информации, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23.The present description discloses an implementation of a system that uses a hard disk 27, but it should be understood that it is possible to use other types of computer storage media that are capable of storing data in a computer readable form (solid state drives, flash memory cards, digital disks, memory with arbitrary access (RAM), etc.), which are connected to the system bus 23.

Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через интерфейс USB 46, который в свою очередь подсоединён к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта. Монитор 47 или иной тип устройства отображения также подсоединён к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащён другими периферийными устройствами вывода (не отображены).Computer 20 has a file system 36, where the recorded operating system 35 is stored, as well as additional software applications 37, other program modules 38 and program data 39. The user has the ability to enter commands and information into the personal computer 20 through input devices (keyboard 40, manipulator " mouse "42). Other input devices may be used (not shown): microphone, joystick, game console, scanner, etc. Such input devices, according to their custom, are connected to the computer system 20 via the USB interface 46, which in turn is connected to the system bus, but can be connected in another way, for example, using a parallel port, a game port. A monitor 47 or other type of display device is also connected to the system bus 23 via an interface such as a video adapter 48. In addition to the monitor 47, the personal computer may be equipped with other peripheral output devices (not displayed).

Персональный компьютер 20 способен работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удалёнными компьютерами 49. Удалённый компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа персонального компьютера 20, представленного на Фиг. 6. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы.The personal computer 20 is capable of operating in a networked environment using a network connection with other or more remote computers 49. The remote computer (or computers) 49 are the same personal computers or servers that have most or all of the elements mentioned earlier in the description of the creature the personal computer 20 shown in FIG. 6. There may also be other devices on a computer network, such as routers, network stations, peer-to-peer devices, or other network nodes.

Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях персональный компьютер 20 подключён к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать роутер 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Роутер 54, который является внутренним или внешним устройством, подключён к системной шине 23 посредством USB порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.Network connections can form a local area network (LAN) 50 and a wide area network (WAN). Such networks are used in corporate computer networks, internal networks of companies and, as a rule, have access to the Internet. In LAN or WAN networks, the personal computer 20 is connected to the local network 50 via a network adapter or network interface 51. When using networks, the personal computer 20 can use a router 54 or other means of providing communication with a global computer network, such as the Internet. Router 54, which is an internal or external device, is connected to the system bus 23 via USB port 46. It should be noted that the network connections are indicative only and are not required to reflect the exact configuration of the network, i.e. in fact, there are other ways of establishing a connection by technical means of communication of one computer with another.

В заключение следует отметить, что приведённые в описании сведения являются примерами, которые не ограничивают объём настоящего технического решения, определённого формулой.In conclusion, it should be noted that the information given in the description are examples that do not limit the scope of this technical solution defined by the formula.

Claims (58)

1. Компьютерно-реализуемый способ поиска аналогов месторождений включает по крайней мере следующие шаги:1. A computer-implemented method for searching for field analogues includes at least the following steps: - получают первую и вторую выборку записей из по крайней мере одной базы данных месторождений и их атрибутов, причем первая выборка записей содержит месторождения первого типа, описываемые первой группой атрибутов, а вторая выборка записей содержит месторождения второго типа, описываемые второй группой атрибутов;- get the first and second sample of records from at least one database of deposits and their attributes, and the first sample of records contains deposits of the first type, described by the first group of attributes, and the second sample of records contains deposits of the second type, described by the second group of attributes; - формируют первую размечаемую выборку с помощью:- form the first sample to be marked out using: - группировки записей по общности осадконакопления в первой выборке;- grouping of records according to the generality of sedimentation in the first sample; - разбиения групп записей Gi первой выборки на подгруппы Gij размером Gij_cnt и случайным образом выбирают в каждой подгруппе Gij целевое месторождение, где Gij_cnt функционально зависит от количества записей в группе Gi_cnt;- splitting the groups of records Gi of the first sample into subgroups Gij of size Gij_cnt and randomly selecting a target deposit in each subgroup Gij, where Gij_cnt functionally depends on the number of records in the group Gi_cnt; - формируют вторую размечаемую выборку с помощью:- form the second sample to be marked out using: - группировки записей по общности осадконакопления во второй выборке;- grouping of records according to the generality of sedimentation in the second sample; - разбиения групп записей Gi второй выборки на подгруппы Gij размером Gij_cnt и случайным образом выбирают в каждой подгруппе j Gij целевое месторождение, где Gij_cnt функционально зависит от количества записей в группе Gi_cnt;- splitting the groups of records Gi of the second sample into subgroups Gij of size Gij_cnt and randomly selecting a target deposit in each subgroup j Gij, where Gij_cnt functionally depends on the number of records in the group Gi_cnt; - производят разметку первой и второй размечаемой выборки при помощи по крайней мере двух экспертов, причем для каждой записи в подгруппе эксперты помечают, характеризует ли данная запись месторождение, которое является аналогом целевого месторождения в данной подгруппе;- markup the first and second sample to be marked with the help of at least two experts, and for each entry in the subgroup, the experts mark whether this entry characterizes a deposit, which is an analogue of the target deposit in this subgroup; - формируют первую и вторую обучающие выборки из соответственно первой и второй размеченной выборки с помощью:- form the first and second training samples from the first and second labeled sample, respectively, using: - отбора только тех записей, которые помечены в качестве аналогов целевого месторождения в подгруппе двумя и более экспертами;- selection of only those records that are marked as analogs of the target field in a subgroup by two or more experts; - восстановления пропущенных значений атрибутов в записях выборки;- restoration of missing attribute values in sample records; - преобразования атрибутов записей выборки для использования классификатором градиентного бустинга;- transforming the attributes of the sample records for use by the gradient boosting classifier; - производят обучение первого классификатора при помощи градиентного бустинга с использованием преобразованных атрибутов записей первой обучающей выборки;- the first classifier is trained using gradient boosting using the transformed attributes of the records of the first training sample; - производят обучение второго классификатора при помощи градиентного бустинга с использованием преобразованных атрибутов записей второй обучающей выборки;- the second classifier is trained using gradient boosting using the transformed attributes of the records of the second training sample; - получают от пользователя тип месторождения и значения его атрибутов, для определения его аналогов;- receive from the user the type of the field and the values of its attributes, to determine its analogues; - производят преобразование полученных атрибутов месторождения для использования классификатором и осуществляют поиск аналогов с использованием обученного классификатора, соответствующего типу месторождения;- transform the obtained attributes of the field for use by the classifier and search for analogs using a trained classifier corresponding to the type of field; - предъявляют пользователю информацию о результатах поиска.- present the user with information about the search results. 2. Способ по п.1, в котором первым типом месторождения является терригенное месторождение, а вторым типом - карбонатное месторождение.2. The method of claim 1, wherein the first type of deposit is a terrigenous deposit and the second type is a carbonate deposit. 3. Способ по п.1, в котором первая группа атрибутов включает по крайней мере следующие атрибуты: структурная принадлежность, основной литологический состав коллектора, основная система осадконакопления, основная обстановка осадконакопления, основной тип пористости, среднее значение общей толщины коллектора, среднее значение эффективной углеводородонасыщенной толщины коллектора, среднее значение пористости матрицы, среднее значение проницаемости по воздуху, среднее значение водонасыщенности, тектонический режим формирования комплексов.3. The method according to claim 1, in which the first group of attributes includes at least the following attributes: structural affiliation, the main lithological composition of the reservoir, the main sedimentation system, the main sedimentation environment, the main type of porosity, the average value of the total reservoir thickness, the average value of the effective hydrocarbon-saturated reservoir thickness, average matrix porosity, average air permeability, average water saturation, tectonic mode of formation of complexes. 4. Способ по п.1, в котором вторая группа атрибутов включает по крайней мере следующие атрибуты: структурная принадлежность, основной литологический состав коллектора, основная система осадконакопления, основная обстановка осадконакопления, основной тип пористости, среднее значение общей толщины коллектора, среднее значение эффективной углеводородонасыщенной толщины коллектора, среднее значение пористости матрицы, среднее значение проницаемости по воздуху, среднее значение водонасыщенности, тектонический режим формирования комплексов, основная структура карбонатных пород по r.j. dunham modified 1971, литогенетический тип коллектора, тип трещинного коллектора.4. The method according to claim 1, in which the second group of attributes includes at least the following attributes: structural affiliation, the main lithological composition of the reservoir, the main sedimentation system, the main sedimentation environment, the main type of porosity, the average value of the total reservoir thickness, the average value of the effective hydrocarbon-saturated reservoir thickness, average value of matrix porosity, average value of air permeability, average value of water saturation, tectonic mode of formation of complexes, basic structure of carbonate rocks by rj dunham modified 1971, lithogenetic reservoir type, fractured reservoir type. 5. Способ по п.1, в котором восстановление пропущенных значений атрибутов осуществляют с использованием метода градиентного бустинга.5. The method of claim 1, wherein the restoration of missing attribute values is performed using a gradient boosting technique. 6. Способ по п.1, в котором восстановление пропущенных значений атрибутов осуществляют с использованием алгоритма машинного обучения Random Forest.6. The method of claim 1, wherein missing attribute values are reconstructed using the Random Forest machine learning algorithm. 7. Способ по п.1, в котором для градиентного бустинга используется Catboost или xgboost или Adaboost.7. The method of claim 1, wherein Catboost or xgboost or Adaboost is used for the gradient boosting. 8. Способ по п.1 или 5, в котором для выбора гиперпараметров градиентного бустинга используется случайное сэмплирование значений гиперпараметров для определения минимумов значений лосс функции и затем в определенных случайным сэмплированием диапазонах гиперпараметров для уточнения минимальных значений лосс функции выполняется поиск по сетке Grid Search.8. A method according to claim 1 or 5, wherein random sampling of the hyperparameter values is used to select the gradient boosting hyperparameters to determine the minima of the loss values of the function, and then a Grid Search is performed in the randomly sampled ranges of hyperparameters to refine the minimum values of the loss of the function. 9. Способ по п.6, в котором для выбора гиперпараметров алгоритма машинного обучения Random Forest используется случайное сэмплирование значений гиперпараметров для определения минимумов значений лосс функции и затем в определенных случайным сэмплированием диапазонах гиперпараметров для уточнения минимальных значений лосс функции выполняется поиск по сетке Grid Search.9. The method of claim 6, wherein random sampling of hyperparameter values is used to select hyperparameters of the Random Forest machine learning algorithm to determine the minima of the loss values of the function, and then a Grid Search is performed in the randomly sampled ranges of hyperparameters to refine the minimum values of the loss of the function. 10. Компьютерно-реализуемый способ обучения классификатора для поиска аналогов месторождений включает по крайней мере следующие шаги:10. A computer-implemented method of training a classifier to search for field analogues includes at least the following steps: - получают выборку записей из по крайней мере одной базы данных месторождений и их атрибутов, причем выборка записей содержит месторождения одного типа, описываемые группой атрибутов;- get a selection of records from at least one database of deposits and their attributes, and the sample of records contains deposits of the same type, described by a group of attributes; - формируют размечаемую выборку с помощью:- form the sample to be marked up using: - группировки записей по общности осадконакопления в выборке;- grouping of records according to the generality of sedimentation in the sample; - разбиения групп записей Gi выборки на подгруппы Gij размером Gij_cnt и случайным образом выбирают в каждой подгруппе Gij целевое месторождение, где Gij_cnt функционально зависит от количества записей в группе Gi_cnt;- splitting the groups of records Gi of the sample into subgroups Gij of size Gij_cnt and randomly selecting the target field in each subgroup Gij, where Gij_cnt functionally depends on the number of records in the group Gi_cnt; - производят разметку размечаемой выборки при помощи по крайней мере двух экспертов, причем для каждой записи в подгруппе эксперты помечают, характеризует ли данная запись месторождение, которое является аналогом целевого месторождения в данной подгруппе;- mark up the sample to be marked with the help of at least two experts, and for each entry in the subgroup, the experts mark whether this entry characterizes a deposit, which is an analogue of the target deposit in this subgroup; - формируют обучающую выборку из размеченной выборки с помощью:- form a training sample from the labeled sample using: - отбора только тех записей, которые помечены в качестве аналогов целевого месторождения в подгруппе двумя и более экспертами;- selection of only those records that are marked as analogs of the target field in a subgroup by two or more experts; - восстановления пропущенных значений атрибутов в записях выборки;- restoration of missing attribute values in sample records; - преобразования атрибутов записей выборки для использования классификатором градиентного бустинга;- transforming the attributes of the sample records for use by the gradient boosting classifier; - производят обучение классификатора при помощи градиентного бустинга с использованием преобразованных атрибутов записей обучающей выборки.- the classifier is trained using gradient boosting using the transformed attributes of the training sample records. 11. Способ по п.10, в котором типом месторождения является терригенное месторождение.11. The method of claim 10, wherein the deposit type is a terrigenous deposit. 12. Способ по п.10, в котором типом месторождения является карбонатное месторождение.12. The method of claim 10, wherein the deposit type is a carbonate deposit. 13. Способ по п.11, в котором группа атрибутов для терригенных месторождений включает по крайней мере следующие атрибуты: структурная принадлежность, основной литологический состав коллектора, основная система осадконакопления, основная обстановка осадконакопления, основной тип пористости, среднее значение общей толщины коллектора, среднее значение эффективной углеводородонасыщенной толщины коллектора, среднее значение пористости матрицы, среднее значение проницаемости по воздуху, среднее значение водонасыщенности, тектонический режим формирования комплексов.13. The method according to claim 11, in which the group of attributes for terrigenous deposits includes at least the following attributes: structural affiliation, main lithological composition of the reservoir, main sedimentation system, main sedimentation environment, main porosity type, average value of total reservoir thickness, average value effective hydrocarbon-saturated reservoir thickness, average matrix porosity, average air permeability, average water saturation, tectonic regime of formation of complexes. 14. Способ по п.12, в котором группа атрибутов для карбонатных месторождений включает по крайней мере следующие атрибуты: структурная принадлежность, основной литологический состав коллектора, основная система осадконакопления, основная обстановка осадконакопления, основной тип пористости, среднее значение общей толщины коллектора, среднее значение эффективной углеводородонасыщенной толщины коллектора, среднее значение пористости матрицы, среднее значение проницаемости по воздуху, среднее значение водонасыщенности, тектонический режим формирования комплексов, основная структура карбонатных пород по r.j. dunham modified 1971, литогенетический тип коллектора, тип трещинного коллектора.14. The method according to claim 12, in which the group of attributes for carbonate deposits includes at least the following attributes: structural affiliation, main lithological composition of the reservoir, main sedimentation system, main sedimentation environment, main porosity type, average value of total reservoir thickness, average value effective hydrocarbon-saturated reservoir thickness, average matrix porosity, average air permeability, average water saturation, tectonic mode of formation of complexes, basic structure of carbonate rocks by rj dunham modified 1971, lithogenetic reservoir type, fractured reservoir type. 15. Способ по п.10, в котором восстановление пропущенных значений атрибутов осуществляют с использованием метода градиентного бустинга.15. The method of claim 10, wherein the restoration of missing attribute values is performed using a gradient boosting technique. 16. Способ по п.10, в котором восстановление пропущенных значений атрибутов осуществляют с использованием алгоритма машинного обучения Random Forest.16. The method of claim 10, wherein missing attribute values are reconstructed using the Random Forest machine learning algorithm. 17. Способ по п.10, в котором для градиентного бустинга используется Catboost или xgboost или Adaboost.17. The method of claim 10, wherein Catboost or xgboost or Adaboost is used for the gradient boosting. 18. Способ по п.10 или 15, в котором для выбора гиперпараметров градиентного бустинга используется случайное сэмплирование значений гиперпараметров для определения минимумов значений лосс функции и затем в определенных случайным сэмплированием диапазонах гиперпараметров для уточнения минимальных значений лосс функции выполняется поиск по сетке Grid Search.18. A method according to claim 10 or 15, wherein random sampling of the hyperparameter values is used to select the gradient boosting hyperparameters to determine the minimums of the loss function values, and then a Grid Search is performed in the randomly sampled hyperparameter ranges to refine the minimum loss values of the function. 19. Способ по п.16, в котором для выбора гиперпараметров алгоритма машинного обучения Random Forest используется случайное сэмплирование значений гиперпараметров для определения минимумов значений лосс функции и затем в определенных случайным сэмплированием диапазонах гиперпараметров для уточнения минимальных значений лосс функции выполняется поиск по сетке Grid Search.19. The method of claim 16, wherein random sampling of the hyperparameter values is used to select the hyperparameters of the Random Forest machine learning algorithm to determine the minima of the loss values of the function, and then a Grid Search is performed in the randomly sampled ranges of hyperparameters to refine the minimum values of the loss of the function. 20. Компьютерно-реализуемый способ поиска аналогов месторождений включает по крайней мере следующие шаги:20. A computer-implemented method for searching for field analogues includes at least the following steps: - получают выборку записей терригенных месторождений и обучают первый классификатор для поиска аналогов месторождений согласно способу по п.10;- get a sample of records of terrigenous deposits and train the first classifier to search for analogs of deposits according to the method according to claim 10; - получают выборку записей карбонатных месторождений и обучают второй классификатор для поиска аналогов месторождений согласно способу по п.10;- get a sample of records of carbonate deposits and train the second classifier to search for analogues of deposits according to the method according to claim 10; - получают от пользователя тип месторождения и значения его атрибутов, для определения его аналогов;- receive from the user the type of the field and the values of its attributes, to determine its analogues; - производят преобразование полученных атрибутов месторождения и осуществляют поиск аналогов с использованием обученного первого или второго классификатора, соответствующего типу месторождения;- transform the obtained attributes of the field and search for analogs using the trained first or second classifier corresponding to the type of field; - предъявляют пользователю информацию о результатах поиска.- present the user with information about the search results. 21. Система для поиска аналогов месторождений, включающая по крайней мере один процессор, оперативную память и машиночитаемые инструкции для выполнения способа поиска аналогов согласно способу по пп.1-9.21. A system for searching for analogs of deposits, including at least one processor, random access memory and computer-readable instructions for performing the method for searching for analogs according to the method according to claims 1-9. 22. Система для обучения классификатора для поиска аналогов месторождений, включающая по крайней мере один процессор, оперативную память и машиночитаемые инструкции для выполнения способа обучения классификатора для поиска аналогов месторождений согласно способу по пп.10-19.22. A system for training a classifier to search for analogs of deposits, including at least one processor, random access memory and machine-readable instructions for performing the method of training the classifier to search for analogs of deposits according to the method according to claims 10-19. 23. Система для поиска аналогов месторождений, включающая по крайней мере один процессор, оперативную память и машиночитаемые инструкции для выполнения способа поиска аналогов согласно способу по п.20.23. A system for searching for analogs of deposits, including at least one processor, random access memory and computer-readable instructions for performing the method for searching for analogs according to the method of claim 20. 24. Машиночитаемый носитель, содержащий машинные инструкции способа поиска аналогов согласно пп.1-9, выполненный с возможностью чтения данных инструкций и исполнения их процессором.24. A computer-readable medium containing machine instructions of the analog search method according to claims 1-9, adapted to read these instructions and execute them by the processor. 25. Машиночитаемый носитель, содержащий машинные инструкции способа обучения классификатора для поиска аналогов месторождений согласно пп.10-19, выполненный с возможностью чтения данных инструкций и исполнения их процессором.25. A computer-readable medium containing machine instructions of a method for training a classifier for searching for analogs of deposits according to claims 10-19, made with the ability to read these instructions and execute them by the processor. 26. Машиночитаемый носитель, содержащий машинные инструкции способа поиска аналогов согласно п.20, выполненный с возможностью чтения данных инструкций и исполнения их процессором.26. A computer-readable medium containing machine instructions of the analog search method according to claim 20, adapted to read these instructions and execute them by the processor.
RU2020133332A 2020-10-09 2020-10-09 Method and system for the search for analogues of oil and gas fields RU2745492C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2020133332A RU2745492C1 (en) 2020-10-09 2020-10-09 Method and system for the search for analogues of oil and gas fields

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020133332A RU2745492C1 (en) 2020-10-09 2020-10-09 Method and system for the search for analogues of oil and gas fields

Publications (1)

Publication Number Publication Date
RU2745492C1 true RU2745492C1 (en) 2021-03-25

Family

ID=75159257

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020133332A RU2745492C1 (en) 2020-10-09 2020-10-09 Method and system for the search for analogues of oil and gas fields

Country Status (1)

Country Link
RU (1) RU2745492C1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468822A (en) * 2021-07-23 2021-10-01 中海石油(中国)有限公司 Drilling rate prediction method and system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899253B2 (en) * 2006-09-08 2011-03-01 Mitsubishi Electric Research Laboratories, Inc. Detecting moving objects in video by classifying on riemannian manifolds
US9031331B2 (en) * 2012-07-30 2015-05-12 Xerox Corporation Metric learning for nearest class mean classifiers
RU2649792C2 (en) * 2016-09-09 2018-04-04 Общество С Ограниченной Ответственностью "Яндекс" Method and learning system for machine learning algorithm
RU2681356C1 (en) * 2018-03-23 2019-03-06 Общество с ограниченной ответственностью "Аби Продакшн" Classifier training used for extracting information from texts in natural language

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899253B2 (en) * 2006-09-08 2011-03-01 Mitsubishi Electric Research Laboratories, Inc. Detecting moving objects in video by classifying on riemannian manifolds
US9031331B2 (en) * 2012-07-30 2015-05-12 Xerox Corporation Metric learning for nearest class mean classifiers
RU2649792C2 (en) * 2016-09-09 2018-04-04 Общество С Ограниченной Ответственностью "Яндекс" Method and learning system for machine learning algorithm
RU2681356C1 (en) * 2018-03-23 2019-03-06 Общество с ограниченной ответственностью "Аби Продакшн" Classifier training used for extracting information from texts in natural language

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
H. MARTIN RODRIGUEZ, New Approach To Identify Analogous Reservoirs, журнал "SPE Economics & Management", Volume 6, Issue 04, October 2014. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468822A (en) * 2021-07-23 2021-10-01 中海石油(中国)有限公司 Drilling rate prediction method and system

Similar Documents

Publication Publication Date Title
US6212526B1 (en) Method for apparatus for efficient mining of classification models from databases
Orton Sampling in archaeology
Veregin Developing and testing of an error propagation model for GIS overlay operations
Rahman et al. Discretization of continuous attributes through low frequency numerical values and attribute interdependency
Demisse et al. Data mining attribute selection approach for drought modeling: A case study for Greater Horn of Africa
Kulkarni et al. Evolve systems using incremental clustering approach
Calders et al. Searching for dependencies at multiple abstraction levels
RU2745492C1 (en) Method and system for the search for analogues of oil and gas fields
Saxena Educational data mining: performance evaluation of decision tree and clustering techniques using weka platform
Kumar et al. Application of genetic algorithms for the prioritization of association rules
Hamad et al. Knowledge-driven decision support system based on knowledge warehouse and data mining for market management
Muliono et al. Analysis of frequent itemsets mining algorithm againts models of different datasets
Olech et al. Hierarchical gaussian mixture model with objects attached to terminal and non-terminal dendrogram nodes
Singh et al. Knowledge based retrieval scheme from big data for aviation industry
Malik et al. A comprehensive approach towards data preprocessing techniques & association rules
Nguyen et al. A method for efficient clustering of spatial data in network space
Hassan et al. Sampling technique selection framework for knowledge discovery
Shelokar et al. A multiobjective variant of the Subdue graph mining algorithm based on the NSGA-II selection mechanism
Yao et al. Applying an improved DBSCAN clustering algorithm to network intrusion detection
Kumar et al. Applying Data Analytics & Machine Learning Methods for Recovery Factor Prediction and Uncertainty Modelling
Gerges et al. Machine-Learning-Assisted Well-Log Data Quality Control and Preprocessing Lab
CN117539920B (en) Data query method and system based on real estate transaction multidimensional data
Subbulakshmi et al. Recent weighted maximal frequent itemsets mining
Li et al. Reservoir parameter prediction using optimized seismic attributes based on gamma test
Sumathi et al. Data mining and data warehousing