RU2785704C1

RU2785704C1 - Способ формирования обучающей выборки для систем управления беспилотных электропоездов

Info

Publication number: RU2785704C1
Application number: RU2022111696A
Authority: RU
Inventors: Александра Валентиновна Афанасьева; Сергей Валентинович Беззатеев; Наталия Викторовна Волошина
Original assignee: Открытое Акционерное Общество "Российские Железные Дороги"
Filing date: 2022-04-28
Publication date: 2022-12-12

Abstract

Изобретение относится к способу машинного обучения, специально адаптированное для изображений. Способ формирования обучающей выборки для систем управления беспилотных электропоездов заключается в приеме информации от сканирующих окружающее пространство датчиков, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации. При этом осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов. Для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров. Далее выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, завершая ее формирование. Технический результат изобретения заключается в повышении качества формирования обучающей выборки.

Description

Изобретение относится к области технологий глубокого обучения и может быть использовано для формирования обучающей выборки для систем управления беспилотных электропоездов.

Известно техническое решение, в котором создание обучающей выборки предполагает использование аугментации изображения для получения выборки обладающей заданными свойствами. Обрабатывающее устройство формирует одно или более исходных изображений, ассоциированных с обучающей выборкой, для обучения, после чего полученные одно или более первых исходных данных подают на вход первых слоев вычислительных блоков, использующих фильтры изображений. Результат, полученный на выходе первых слоев вычислительных блоков подают на вход второго слоя вычислительных блоков, при этом второй слой использует в процессе вычислений случайные наборы параметров. Полученные параметры искажений с выхода второго слоя вычислительных блоков и результат обработки изображения со второго слоя вычислительных блоков подается на вход третьего слоя вычислительных блоков. Полученный на выходе третьего слоя результат добавляется к обучающей выборке изображений для обучения модели машинного обучения (RU 2716322, G06N 3/08, 11.03.2020).

Основным недостатком этого технического решения является отсутствие проверки качества полученной выборки и соответственно доведение ее до требуемых критериев качества. Кроме того, при улучшении качества выборки в данном техническом решении используется только один процесс - аугментация.

В качестве прототипа принято техническое решение по патенту RU 2711125, G06K 9/62, 15.01.2020. Известный способ формирования набора обучающих объектов для алгоритма машинного обучения включает в себя получение из журнала поиска данных о поисковых запросах, каждый из которых связывается с первым набором результатом поиска изображений, формирование вектора признаков для каждого поискового запроса, получение набора меток, каждая из которых указывает на действия пользователя с соответствующим результатом поиска изображений, формирование набора обучающих объектов путем сохранения для каждого подмножества векторов запроса каждого результата поиска изображений в виде обучающего объекта в наборе обучающих объектов.

Основным недостатком этого способа является отсутствие проверки качества полученной выборки и соответственно доведение ее до требуемых критериев качества.

Технический результат изобретения заключается в повышении качества формирования обучающей выборки.

Технический результат достигается тем, что в способе формирования обучающей выборки для систем управления беспилотных электропоездов, заключающемся в приеме информации от сканирующих окружающее пространство датчиков, установленных на подвижном транспортном средстве, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации, по заранее определенным признакам, согласно изобретению дополнительно осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов, для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров, далее по выбранному алгоритму выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, тем самым, завершая ее формирование, при получении значений критериев качества не соответствующих требуемым процесс формирования выборки повторяют с учетом выявленных несоответствий.

Способ формирования обучающей выборки для систем управления беспилотных электропоездов реализуется следующим образом.

Информация об окружающих объектах поступает с оборудования захвата кадров, установленного на подвижном транспортном средстве. В качестве датчиков, сканирующих окружающее пространство, могут быть, например, видеокамера, радар или лидар, используемые либо отдельно, либо совместно. Принятая информация предварительно обрабатывается и записывается в электронную память.

Далее для формирования выборки из записанной в электронную память последовательности кадров разделяют исходную видеопоследовательность на кадры, из которых далее формируют датасет таким образом, чтобы коэффициент корреляции (1) каждого следующего кадра с предыдущим не превышал бы некоторого заданного порога (определяется техническим заданием или параметрами нейронной сети). Сформированный датасет сохраняется в электронной памяти, и далее осуществляют выделение заданных объектов на кадрах, относящихся к обнаруживаемым классам.

где n - размер кадра равный произведению высоты на ширину, x[i] и y[i] значения i-тых пикселей двух последовательных кадров, для которых необходимо вычислить коэффициент корреляции.

При этом набор правил разметки и аннотирования кадров, определяется техническим заданием или требованиями используемой нейронной сети. На основании этих правил на отобранных в выборку кадрах осуществляется выделение объектов, относящихся к обнаруживаемым классам. Для каждого такого объекта информация о переменных класса сохраняется в специальном файле аннотации. В результате получаем сформированный набор размеченных кадров и аннотации к каждому из них. Далее из полученной выборки (набора размеченных кадров) осуществляется отбор случайного подмножества кадров таким образом, чтобы в нем были представлены объекты всех классов в равных количествах. После чего проверяется выполняется ли условие, что количество всех имеющихся в таком подмножестве объектов удовлетворяет критерию полноты.

Полнота обучающей выборки характеризует обеспеченность классов обучающими наборами. Считается, что для каждого класса количество обучающих наборов должно хотя бы в 3-5 раз превосходить количество признаков класса, используемое в этих наборах. Для расчета полноты обучающей выборки можно воспользоваться следующей формулой:

где N_F - число классов, удовлетворяющих вышеописанному правилу, а N - общее число классов.

В случае, если условие не выполняется возвращаются назад и повторяют процедуру отбора случайного подмножества кадров до тех пор, пока критерий полноты не выполнится.

При выполнении условия далее для каждого класса обнаруживаемых объектов выполняется проверка соответствия эмпирического распределения всех переменных требуемым законам распределения по критерию согласия, например по критерию согласия Пирсона:

где m - количество интервалов на которых производят оценку частоты реализации переменной класса, n - объем выборки, n_i/n - эмпирическая оценка частоты, p_i - теоретическая оценка частоты по заданному закону распределения вероятностей,

и в случае отклонения эмпирического распределения от теоретического

производят фильтрацию выбранных кадров.

Далее с полученной выборкой выполняются различные процедуры, позволяющие обеспечить целостность полученной в результате преобразований и дополнений выборки. Для этого вычисляются различные контрольные суммы, хэш-функции или электронная подпись для различных элементов выборки и для файла выборки в целом. Результаты вычисления сохраняются вместе с выборкой и далее выполняется анализ размеченных кадров выборки для расчета значений переменных класса (например средняя яркость, размер объекта, и т.д.), опираясь на результаты анализа размеченных кадров и содержание файла аннотации оценивают критерии качества полученной выборки. Для этого вычисляют по соответствующим стандартным формулам такие критерии качества как полнота, репрезентативность, непротиворечивость, однородность и целостность. Полученные значения проверяют на соответствие требуемым значениям критериев качества. Если они соответствуют процесс доформирования исходной выборки заканчивают и результирующую выборку записывают в отдельную электронную память (блок памяти для итоговой выборки). Если же полученные значения критериев качества не соответствуют требуемым, то процесс доформирования продолжается.

Исходя из количества обнаруженных отклонений в значениях критериев качества оценивается число необходимых дополнительных кадров, которые следует добавить в выборку. В случае необходимости выполняется доразметка уже имеющихся в выборке кадров и/или аугментация и ее повторная обработка в соответствии с вышеприведенной последовательностью действий.

Определения основных критериев качества проверки сформированной выборки:

Репрезентативность

Достаточность: число обучающих примеров должно быть достаточным для обучения. Для достижения нулевой ошибки необходимо, чтобы число обучающих примеров было в несколько раз больше, чем число весов межнейронных связей, в противном случае модель может не приобрести способности к обобщению. Величина зависит от типа нейронной сети, например, для сверточной сети нужно 3000 размеченных изображений для каждого класса объектов для предобученной сети, и 100000-200000 размеченных изображений объектов, относящихся к максимально большому доступному набору классов, превосходящему набор классов для решаемой задачи, для не предобученной сети

Разнообразие: Сочетает два требования:

1. коэффициент разнообразия

, где n_d - количество изображений с различными сочетаниями объектов разных классов, а N - количество классов объектов,

- число сочетаний из N по i.

2. max(R)=0,1, где R - коэффициент попарной корреляции.

равномерность представления классов: 1/N - доля объектов каждого класса в общем количестве объектов в выборке, где N - количество классов объектов.

Непротиворечивость выборки определяется количеством обучающих наборов, содержащих объекты, отнесенные к различным классам, но имеющие при этом одинаковые классификационные признаки. Пусть два обучающих набора заданы парами вида

- свойства i-го объекта в k-мерном пространстве, образующие вектор входных значений для нейронной сети, а A_m - соответственно центроид m-го класса - эталонное значение в обучающем наборе. Тогда

- расстояние между центроидами соответственно m-го и n-го классов. А расстояние между объектами этих классов будет вычисляться по следующей формуле:

где

, Da_k - дисперсия свойства k-го измерения по всей обучающей выборке. Теперь, введя два расстояния: расстояние между объектами и между центроидами классов, к которым они принадлежат, можно определить понятие непротиворечивости. Пусть C_ij - парная непротиворечивость - непротиворечивость двух обучающих наборов i-го и j-го, принадлежащих соответственно классам A_m и A_n. Тогда очевидно, что Су возрастает, если возрастает ΔA_mn или убывает Δa_ij. На основании данных рассуждений предложена следующая формула для вычисления C_ij:

Согласно этой формуле, непротиворечивость двух объектов лежит в диапазоне [0;1] и достигает максимума при совпадении характеристик объектов, принадлежащих разным классам. Непротиворечивость становится равной нулю в случае, если рассматриваются объекты одного класса. Непротиворечивостью всей обучающей выборки (ОВ) будет среднее всех C_ij:

где n - количество всех парных непротиворечивостей в обучающей выборке.

Однородность.

Критерий однородности оценивается при помощи критерия согласия [см. формулу (3)] Если все переменные проходят проверку по критерию согласия, то критерий однородности считается достигнутым.

Целостность.

Для оценки критерия целостности проверяют, что все контрольные суммы верны, если проверка пройдена, критерий качества считается достигнутым.

Claims

Способ формирования обучающей выборки для систем управления беспилотных электропоездов, заключающийся в приеме информации от сканирующих окружающее пространство датчиков, установленных на подвижном транспортном средстве, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации, по заранее определенным признакам, отличающийся тем, что дополнительно осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов, для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров, далее по выбранному алгоритму выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, тем самым завершая ее формирование, при получении значений критериев качества, не соответствующих требуемым, процесс формирования выборки повторяют с учетом выявленных несоответствий.