RU2785704C1 - Способ формирования обучающей выборки для систем управления беспилотных электропоездов - Google Patents

Способ формирования обучающей выборки для систем управления беспилотных электропоездов Download PDF

Info

Publication number
RU2785704C1
RU2785704C1 RU2022111696A RU2022111696A RU2785704C1 RU 2785704 C1 RU2785704 C1 RU 2785704C1 RU 2022111696 A RU2022111696 A RU 2022111696A RU 2022111696 A RU2022111696 A RU 2022111696A RU 2785704 C1 RU2785704 C1 RU 2785704C1
Authority
RU
Russia
Prior art keywords
frames
sample
objects
class
integrity
Prior art date
Application number
RU2022111696A
Other languages
English (en)
Inventor
Александра Валентиновна Афанасьева
Сергей Валентинович Беззатеев
Наталия Викторовна Волошина
Original Assignee
Открытое Акционерное Общество "Российские Железные Дороги"
Filing date
Publication date
Application filed by Открытое Акционерное Общество "Российские Железные Дороги" filed Critical Открытое Акционерное Общество "Российские Железные Дороги"
Application granted granted Critical
Publication of RU2785704C1 publication Critical patent/RU2785704C1/ru

Links

Abstract

Изобретение относится к способу машинного обучения, специально адаптированное для изображений. Способ формирования обучающей выборки для систем управления беспилотных электропоездов заключается в приеме информации от сканирующих окружающее пространство датчиков, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации. При этом осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов. Для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров. Далее выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, завершая ее формирование. Технический результат изобретения заключается в повышении качества формирования обучающей выборки.

Description

Изобретение относится к области технологий глубокого обучения и может быть использовано для формирования обучающей выборки для систем управления беспилотных электропоездов.
Известно техническое решение, в котором создание обучающей выборки предполагает использование аугментации изображения для получения выборки обладающей заданными свойствами. Обрабатывающее устройство формирует одно или более исходных изображений, ассоциированных с обучающей выборкой, для обучения, после чего полученные одно или более первых исходных данных подают на вход первых слоев вычислительных блоков, использующих фильтры изображений. Результат, полученный на выходе первых слоев вычислительных блоков подают на вход второго слоя вычислительных блоков, при этом второй слой использует в процессе вычислений случайные наборы параметров. Полученные параметры искажений с выхода второго слоя вычислительных блоков и результат обработки изображения со второго слоя вычислительных блоков подается на вход третьего слоя вычислительных блоков. Полученный на выходе третьего слоя результат добавляется к обучающей выборке изображений для обучения модели машинного обучения (RU 2716322, G06N 3/08, 11.03.2020).
Основным недостатком этого технического решения является отсутствие проверки качества полученной выборки и соответственно доведение ее до требуемых критериев качества. Кроме того, при улучшении качества выборки в данном техническом решении используется только один процесс - аугментация.
В качестве прототипа принято техническое решение по патенту RU 2711125, G06K 9/62, 15.01.2020. Известный способ формирования набора обучающих объектов для алгоритма машинного обучения включает в себя получение из журнала поиска данных о поисковых запросах, каждый из которых связывается с первым набором результатом поиска изображений, формирование вектора признаков для каждого поискового запроса, получение набора меток, каждая из которых указывает на действия пользователя с соответствующим результатом поиска изображений, формирование набора обучающих объектов путем сохранения для каждого подмножества векторов запроса каждого результата поиска изображений в виде обучающего объекта в наборе обучающих объектов.
Основным недостатком этого способа является отсутствие проверки качества полученной выборки и соответственно доведение ее до требуемых критериев качества.
Технический результат изобретения заключается в повышении качества формирования обучающей выборки.
Технический результат достигается тем, что в способе формирования обучающей выборки для систем управления беспилотных электропоездов, заключающемся в приеме информации от сканирующих окружающее пространство датчиков, установленных на подвижном транспортном средстве, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации, по заранее определенным признакам, согласно изобретению дополнительно осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов, для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров, далее по выбранному алгоритму выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, тем самым, завершая ее формирование, при получении значений критериев качества не соответствующих требуемым процесс формирования выборки повторяют с учетом выявленных несоответствий.
Способ формирования обучающей выборки для систем управления беспилотных электропоездов реализуется следующим образом.
Информация об окружающих объектах поступает с оборудования захвата кадров, установленного на подвижном транспортном средстве. В качестве датчиков, сканирующих окружающее пространство, могут быть, например, видеокамера, радар или лидар, используемые либо отдельно, либо совместно. Принятая информация предварительно обрабатывается и записывается в электронную память.
Далее для формирования выборки из записанной в электронную память последовательности кадров разделяют исходную видеопоследовательность на кадры, из которых далее формируют датасет таким образом, чтобы коэффициент корреляции (1) каждого следующего кадра с предыдущим не превышал бы некоторого заданного порога (определяется техническим заданием или параметрами нейронной сети). Сформированный датасет сохраняется в электронной памяти, и далее осуществляют выделение заданных объектов на кадрах, относящихся к обнаруживаемым классам.
Figure 00000001
где n - размер кадра равный произведению высоты на ширину, x[i] и y[i] значения i-тых пикселей двух последовательных кадров, для которых необходимо вычислить коэффициент корреляции.
При этом набор правил разметки и аннотирования кадров, определяется техническим заданием или требованиями используемой нейронной сети. На основании этих правил на отобранных в выборку кадрах осуществляется выделение объектов, относящихся к обнаруживаемым классам. Для каждого такого объекта информация о переменных класса сохраняется в специальном файле аннотации. В результате получаем сформированный набор размеченных кадров и аннотации к каждому из них. Далее из полученной выборки (набора размеченных кадров) осуществляется отбор случайного подмножества кадров таким образом, чтобы в нем были представлены объекты всех классов в равных количествах. После чего проверяется выполняется ли условие, что количество всех имеющихся в таком подмножестве объектов удовлетворяет критерию полноты.
Полнота обучающей выборки характеризует обеспеченность классов обучающими наборами. Считается, что для каждого класса количество обучающих наборов должно хотя бы в 3-5 раз превосходить количество признаков класса, используемое в этих наборах. Для расчета полноты обучающей выборки можно воспользоваться следующей формулой:
Figure 00000002
где NF - число классов, удовлетворяющих вышеописанному правилу, а N - общее число классов.
В случае, если условие не выполняется возвращаются назад и повторяют процедуру отбора случайного подмножества кадров до тех пор, пока критерий полноты не выполнится.
При выполнении условия далее для каждого класса обнаруживаемых объектов выполняется проверка соответствия эмпирического распределения всех переменных требуемым законам распределения по критерию согласия, например по критерию согласия Пирсона:
Figure 00000003
где m - количество интервалов на которых производят оценку частоты реализации переменной класса, n - объем выборки, ni/n - эмпирическая оценка частоты, pi - теоретическая оценка частоты по заданному закону распределения вероятностей,
и в случае отклонения эмпирического распределения от теоретического
Figure 00000004
производят фильтрацию выбранных кадров.
Далее с полученной выборкой выполняются различные процедуры, позволяющие обеспечить целостность полученной в результате преобразований и дополнений выборки. Для этого вычисляются различные контрольные суммы, хэш-функции или электронная подпись для различных элементов выборки и для файла выборки в целом. Результаты вычисления сохраняются вместе с выборкой и далее выполняется анализ размеченных кадров выборки для расчета значений переменных класса (например средняя яркость, размер объекта, и т.д.), опираясь на результаты анализа размеченных кадров и содержание файла аннотации оценивают критерии качества полученной выборки. Для этого вычисляют по соответствующим стандартным формулам такие критерии качества как полнота, репрезентативность, непротиворечивость, однородность и целостность. Полученные значения проверяют на соответствие требуемым значениям критериев качества. Если они соответствуют процесс доформирования исходной выборки заканчивают и результирующую выборку записывают в отдельную электронную память (блок памяти для итоговой выборки). Если же полученные значения критериев качества не соответствуют требуемым, то процесс доформирования продолжается.
Исходя из количества обнаруженных отклонений в значениях критериев качества оценивается число необходимых дополнительных кадров, которые следует добавить в выборку. В случае необходимости выполняется доразметка уже имеющихся в выборке кадров и/или аугментация и ее повторная обработка в соответствии с вышеприведенной последовательностью действий.
Определения основных критериев качества проверки сформированной выборки:
Репрезентативность
Достаточность: число обучающих примеров должно быть достаточным для обучения. Для достижения нулевой ошибки необходимо, чтобы число обучающих примеров было в несколько раз больше, чем число весов межнейронных связей, в противном случае модель может не приобрести способности к обобщению. Величина зависит от типа нейронной сети, например, для сверточной сети нужно 3000 размеченных изображений для каждого класса объектов для предобученной сети, и 100000-200000 размеченных изображений объектов, относящихся к максимально большому доступному набору классов, превосходящему набор классов для решаемой задачи, для не предобученной сети
Разнообразие: Сочетает два требования:
1. коэффициент разнообразия
Figure 00000005
, где nd - количество изображений с различными сочетаниями объектов разных классов, а N - количество классов объектов,
Figure 00000006
- число сочетаний из N по i.
2. max(R)=0,1, где R - коэффициент попарной корреляции.
равномерность представления классов: 1/N - доля объектов каждого класса в общем количестве объектов в выборке, где N - количество классов объектов.
Полнота обучающей выборки характеризует обеспеченность классов обучающими наборами. Считается, что для каждого класса количество обучающих наборов должно хотя бы в 3-5 раз превосходить количество признаков класса, используемое в этих наборах. Для расчета полноты обучающей выборки можно воспользоваться следующей формулой:
Figure 00000007
где NF - число классов, удовлетворяющих вышеописанному правилу, а N - общее число классов.
Непротиворечивость выборки определяется количеством обучающих наборов, содержащих объекты, отнесенные к различным классам, но имеющие при этом одинаковые классификационные признаки. Пусть два обучающих набора заданы парами вида
Figure 00000008
- свойства i-го объекта в k-мерном пространстве, образующие вектор входных значений для нейронной сети, а Am - соответственно центроид m-го класса - эталонное значение в обучающем наборе. Тогда
Figure 00000009
- расстояние между центроидами соответственно m-го и n-го классов. А расстояние между объектами этих классов будет вычисляться по следующей формуле:
Figure 00000010
где
Figure 00000011
, Dak - дисперсия свойства k-го измерения по всей обучающей выборке. Теперь, введя два расстояния: расстояние между объектами и между центроидами классов, к которым они принадлежат, можно определить понятие непротиворечивости. Пусть Cij - парная непротиворечивость - непротиворечивость двух обучающих наборов i-го и j-го, принадлежащих соответственно классам Am и An. Тогда очевидно, что Су возрастает, если возрастает ΔAmn или убывает Δaij. На основании данных рассуждений предложена следующая формула для вычисления Cij:
Figure 00000012
Согласно этой формуле, непротиворечивость двух объектов лежит в диапазоне [0;1] и достигает максимума при совпадении характеристик объектов, принадлежащих разным классам. Непротиворечивость становится равной нулю в случае, если рассматриваются объекты одного класса. Непротиворечивостью всей обучающей выборки (ОВ) будет среднее всех Cij:
Figure 00000013
где n - количество всех парных непротиворечивостей в обучающей выборке.
Однородность.
Критерий однородности оценивается при помощи критерия согласия [см. формулу (3)] Если все переменные проходят проверку по критерию согласия, то критерий однородности считается достигнутым.
Целостность.
Для оценки критерия целостности проверяют, что все контрольные суммы верны, если проверка пройдена, критерий качества считается достигнутым.

Claims (1)

  1. Способ формирования обучающей выборки для систем управления беспилотных электропоездов, заключающийся в приеме информации от сканирующих окружающее пространство датчиков, установленных на подвижном транспортном средстве, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации, по заранее определенным признакам, отличающийся тем, что дополнительно осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов, для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров, далее по выбранному алгоритму выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, тем самым завершая ее формирование, при получении значений критериев качества, не соответствующих требуемым, процесс формирования выборки повторяют с учетом выявленных несоответствий.
RU2022111696A 2022-04-28 Способ формирования обучающей выборки для систем управления беспилотных электропоездов RU2785704C1 (ru)

Publications (1)

Publication Number Publication Date
RU2785704C1 true RU2785704C1 (ru) 2022-12-12

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2711125C2 (ru) * 2017-12-07 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Система и способ формирования обучающего набора для алгоритма машинного обучения
DE102019105363A1 (de) * 2019-02-09 2020-08-13 Elmos Semiconductor Aktiengesellschaft Verfahren für ein Messsystem im Fahrzeug zur Erkennung und Klassifizierung von Objekten im Umfeld des Fahrzeugs mit Hilfe eines Deep-Learning Verfahrens mit einem selbstlernenden Entscheider
RU2730112C1 (ru) * 2020-03-02 2020-08-17 ООО "Ай Ти Ви групп" Система и способ идентификации объектов в составном объекте
RU2763215C2 (ru) * 2020-04-10 2021-12-28 Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" Способы и системы формирования обучающих данных для нейронной сети

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2711125C2 (ru) * 2017-12-07 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Система и способ формирования обучающего набора для алгоритма машинного обучения
DE102019105363A1 (de) * 2019-02-09 2020-08-13 Elmos Semiconductor Aktiengesellschaft Verfahren für ein Messsystem im Fahrzeug zur Erkennung und Klassifizierung von Objekten im Umfeld des Fahrzeugs mit Hilfe eines Deep-Learning Verfahrens mit einem selbstlernenden Entscheider
RU2730112C1 (ru) * 2020-03-02 2020-08-17 ООО "Ай Ти Ви групп" Система и способ идентификации объектов в составном объекте
RU2763215C2 (ru) * 2020-04-10 2021-12-28 Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" Способы и системы формирования обучающих данных для нейронной сети

Similar Documents

Publication Publication Date Title
CN112801146B (zh) 一种目标检测方法及系统
Shi et al. Image manipulation detection and localization based on the dual-domain convolutional neural networks
CN108154133B (zh) 基于非对称联合学习的人脸画像-照片识别方法
CN113269149B (zh) 活体人脸图像的检测方法、装置、计算机设备及存储介质
CN113095156B (zh) 一种基于逆灰度方式的双流网络签名鉴定方法及装置
Suvarnam et al. Combination of CNN-GRU model to recognize characters of a license plate number without segmentation
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
CN111915595A (zh) 图像质量评价方法、图像质量评价模型的训练方法和装置
RU2785704C1 (ru) Способ формирования обучающей выборки для систем управления беспилотных электропоездов
CN117132919A (zh) 一种多尺度高维特征分析无监督学习视频异常检测方法
CN109784291B (zh) 基于多尺度的卷积特征的行人检测方法
CN112699809B (zh) 痘痘类别识别方法、装置、计算机设备及存储介质
Hudec et al. Texture similarity evaluation via siamese convolutional neural network
CN115273202A (zh) 一种人脸比对方法、系统、设备及存储介质
CN109241864A (zh) 情感预测方法、装置、计算机设备和存储介质
CN114330650A (zh) 基于进化元学习模型训练的小样本特征分析方法及装置
Jain et al. Natural scene statistics and CNN based parallel network for image quality assessment
CN113837174A (zh) 目标对象识别方法、装置及计算机设备
CN112686088A (zh) 基于行人重识别的跨镜头的行人检索方法
Cortes et al. Joint Neural Networks for One-shot Object Recognition and Detection.
CN116777947B (zh) 一种用户轨迹识别预测方法、装置及电子设备
Suvorov et al. Mathematical model of the biometric iris recognition system
CN116740385B (zh) 一种设备质检方法、装置和系统
CN112084960B (zh) 一种基于稀疏图的人脸表情识别方法