RU2785704C1 - Способ формирования обучающей выборки для систем управления беспилотных электропоездов - Google Patents
Способ формирования обучающей выборки для систем управления беспилотных электропоездов Download PDFInfo
- Publication number
- RU2785704C1 RU2785704C1 RU2022111696A RU2022111696A RU2785704C1 RU 2785704 C1 RU2785704 C1 RU 2785704C1 RU 2022111696 A RU2022111696 A RU 2022111696A RU 2022111696 A RU2022111696 A RU 2022111696A RU 2785704 C1 RU2785704 C1 RU 2785704C1
- Authority
- RU
- Russia
- Prior art keywords
- frames
- sample
- objects
- class
- integrity
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 5
- 238000005755 formation reaction Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 4
- 239000000126 substance Substances 0.000 abstract 1
- 230000001537 neural Effects 0.000 description 4
- 230000003416 augmentation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000000875 corresponding Effects 0.000 description 1
- 230000003585 interneuronal Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming Effects 0.000 description 1
Abstract
Изобретение относится к способу машинного обучения, специально адаптированное для изображений. Способ формирования обучающей выборки для систем управления беспилотных электропоездов заключается в приеме информации от сканирующих окружающее пространство датчиков, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации. При этом осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов. Для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров. Далее выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, завершая ее формирование. Технический результат изобретения заключается в повышении качества формирования обучающей выборки.
Description
Изобретение относится к области технологий глубокого обучения и может быть использовано для формирования обучающей выборки для систем управления беспилотных электропоездов.
Известно техническое решение, в котором создание обучающей выборки предполагает использование аугментации изображения для получения выборки обладающей заданными свойствами. Обрабатывающее устройство формирует одно или более исходных изображений, ассоциированных с обучающей выборкой, для обучения, после чего полученные одно или более первых исходных данных подают на вход первых слоев вычислительных блоков, использующих фильтры изображений. Результат, полученный на выходе первых слоев вычислительных блоков подают на вход второго слоя вычислительных блоков, при этом второй слой использует в процессе вычислений случайные наборы параметров. Полученные параметры искажений с выхода второго слоя вычислительных блоков и результат обработки изображения со второго слоя вычислительных блоков подается на вход третьего слоя вычислительных блоков. Полученный на выходе третьего слоя результат добавляется к обучающей выборке изображений для обучения модели машинного обучения (RU 2716322, G06N 3/08, 11.03.2020).
Основным недостатком этого технического решения является отсутствие проверки качества полученной выборки и соответственно доведение ее до требуемых критериев качества. Кроме того, при улучшении качества выборки в данном техническом решении используется только один процесс - аугментация.
В качестве прототипа принято техническое решение по патенту RU 2711125, G06K 9/62, 15.01.2020. Известный способ формирования набора обучающих объектов для алгоритма машинного обучения включает в себя получение из журнала поиска данных о поисковых запросах, каждый из которых связывается с первым набором результатом поиска изображений, формирование вектора признаков для каждого поискового запроса, получение набора меток, каждая из которых указывает на действия пользователя с соответствующим результатом поиска изображений, формирование набора обучающих объектов путем сохранения для каждого подмножества векторов запроса каждого результата поиска изображений в виде обучающего объекта в наборе обучающих объектов.
Основным недостатком этого способа является отсутствие проверки качества полученной выборки и соответственно доведение ее до требуемых критериев качества.
Технический результат изобретения заключается в повышении качества формирования обучающей выборки.
Технический результат достигается тем, что в способе формирования обучающей выборки для систем управления беспилотных электропоездов, заключающемся в приеме информации от сканирующих окружающее пространство датчиков, установленных на подвижном транспортном средстве, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации, по заранее определенным признакам, согласно изобретению дополнительно осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов, для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров, далее по выбранному алгоритму выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, тем самым, завершая ее формирование, при получении значений критериев качества не соответствующих требуемым процесс формирования выборки повторяют с учетом выявленных несоответствий.
Способ формирования обучающей выборки для систем управления беспилотных электропоездов реализуется следующим образом.
Информация об окружающих объектах поступает с оборудования захвата кадров, установленного на подвижном транспортном средстве. В качестве датчиков, сканирующих окружающее пространство, могут быть, например, видеокамера, радар или лидар, используемые либо отдельно, либо совместно. Принятая информация предварительно обрабатывается и записывается в электронную память.
Далее для формирования выборки из записанной в электронную память последовательности кадров разделяют исходную видеопоследовательность на кадры, из которых далее формируют датасет таким образом, чтобы коэффициент корреляции (1) каждого следующего кадра с предыдущим не превышал бы некоторого заданного порога (определяется техническим заданием или параметрами нейронной сети). Сформированный датасет сохраняется в электронной памяти, и далее осуществляют выделение заданных объектов на кадрах, относящихся к обнаруживаемым классам.
где n - размер кадра равный произведению высоты на ширину, x[i] и y[i] значения i-тых пикселей двух последовательных кадров, для которых необходимо вычислить коэффициент корреляции.
При этом набор правил разметки и аннотирования кадров, определяется техническим заданием или требованиями используемой нейронной сети. На основании этих правил на отобранных в выборку кадрах осуществляется выделение объектов, относящихся к обнаруживаемым классам. Для каждого такого объекта информация о переменных класса сохраняется в специальном файле аннотации. В результате получаем сформированный набор размеченных кадров и аннотации к каждому из них. Далее из полученной выборки (набора размеченных кадров) осуществляется отбор случайного подмножества кадров таким образом, чтобы в нем были представлены объекты всех классов в равных количествах. После чего проверяется выполняется ли условие, что количество всех имеющихся в таком подмножестве объектов удовлетворяет критерию полноты.
Полнота обучающей выборки характеризует обеспеченность классов обучающими наборами. Считается, что для каждого класса количество обучающих наборов должно хотя бы в 3-5 раз превосходить количество признаков класса, используемое в этих наборах. Для расчета полноты обучающей выборки можно воспользоваться следующей формулой:
где NF - число классов, удовлетворяющих вышеописанному правилу, а N - общее число классов.
В случае, если условие не выполняется возвращаются назад и повторяют процедуру отбора случайного подмножества кадров до тех пор, пока критерий полноты не выполнится.
При выполнении условия далее для каждого класса обнаруживаемых объектов выполняется проверка соответствия эмпирического распределения всех переменных требуемым законам распределения по критерию согласия, например по критерию согласия Пирсона:
где m - количество интервалов на которых производят оценку частоты реализации переменной класса, n - объем выборки, ni/n - эмпирическая оценка частоты, pi - теоретическая оценка частоты по заданному закону распределения вероятностей,
и в случае отклонения эмпирического распределения от теоретического
производят фильтрацию выбранных кадров.
Далее с полученной выборкой выполняются различные процедуры, позволяющие обеспечить целостность полученной в результате преобразований и дополнений выборки. Для этого вычисляются различные контрольные суммы, хэш-функции или электронная подпись для различных элементов выборки и для файла выборки в целом. Результаты вычисления сохраняются вместе с выборкой и далее выполняется анализ размеченных кадров выборки для расчета значений переменных класса (например средняя яркость, размер объекта, и т.д.), опираясь на результаты анализа размеченных кадров и содержание файла аннотации оценивают критерии качества полученной выборки. Для этого вычисляют по соответствующим стандартным формулам такие критерии качества как полнота, репрезентативность, непротиворечивость, однородность и целостность. Полученные значения проверяют на соответствие требуемым значениям критериев качества. Если они соответствуют процесс доформирования исходной выборки заканчивают и результирующую выборку записывают в отдельную электронную память (блок памяти для итоговой выборки). Если же полученные значения критериев качества не соответствуют требуемым, то процесс доформирования продолжается.
Исходя из количества обнаруженных отклонений в значениях критериев качества оценивается число необходимых дополнительных кадров, которые следует добавить в выборку. В случае необходимости выполняется доразметка уже имеющихся в выборке кадров и/или аугментация и ее повторная обработка в соответствии с вышеприведенной последовательностью действий.
Определения основных критериев качества проверки сформированной выборки:
Репрезентативность
Достаточность: число обучающих примеров должно быть достаточным для обучения. Для достижения нулевой ошибки необходимо, чтобы число обучающих примеров было в несколько раз больше, чем число весов межнейронных связей, в противном случае модель может не приобрести способности к обобщению. Величина зависит от типа нейронной сети, например, для сверточной сети нужно 3000 размеченных изображений для каждого класса объектов для предобученной сети, и 100000-200000 размеченных изображений объектов, относящихся к максимально большому доступному набору классов, превосходящему набор классов для решаемой задачи, для не предобученной сети
Разнообразие: Сочетает два требования:
1. коэффициент разнообразия , где nd - количество изображений с различными сочетаниями объектов разных классов, а N - количество классов объектов, - число сочетаний из N по i.
2. max(R)=0,1, где R - коэффициент попарной корреляции.
равномерность представления классов: 1/N - доля объектов каждого класса в общем количестве объектов в выборке, где N - количество классов объектов.
Полнота обучающей выборки характеризует обеспеченность классов обучающими наборами. Считается, что для каждого класса количество обучающих наборов должно хотя бы в 3-5 раз превосходить количество признаков класса, используемое в этих наборах. Для расчета полноты обучающей выборки можно воспользоваться следующей формулой:
где NF - число классов, удовлетворяющих вышеописанному правилу, а N - общее число классов.
Непротиворечивость выборки определяется количеством обучающих наборов, содержащих объекты, отнесенные к различным классам, но имеющие при этом одинаковые классификационные признаки. Пусть два обучающих набора заданы парами вида - свойства i-го объекта в k-мерном пространстве, образующие вектор входных значений для нейронной сети, а Am - соответственно центроид m-го класса - эталонное значение в обучающем наборе. Тогда - расстояние между центроидами соответственно m-го и n-го классов. А расстояние между объектами этих классов будет вычисляться по следующей формуле:
где , Dak - дисперсия свойства k-го измерения по всей обучающей выборке. Теперь, введя два расстояния: расстояние между объектами и между центроидами классов, к которым они принадлежат, можно определить понятие непротиворечивости. Пусть Cij - парная непротиворечивость - непротиворечивость двух обучающих наборов i-го и j-го, принадлежащих соответственно классам Am и An. Тогда очевидно, что Су возрастает, если возрастает ΔAmn или убывает Δaij. На основании данных рассуждений предложена следующая формула для вычисления Cij:
Согласно этой формуле, непротиворечивость двух объектов лежит в диапазоне [0;1] и достигает максимума при совпадении характеристик объектов, принадлежащих разным классам. Непротиворечивость становится равной нулю в случае, если рассматриваются объекты одного класса. Непротиворечивостью всей обучающей выборки (ОВ) будет среднее всех Cij:
где n - количество всех парных непротиворечивостей в обучающей выборке.
Однородность.
Критерий однородности оценивается при помощи критерия согласия [см. формулу (3)] Если все переменные проходят проверку по критерию согласия, то критерий однородности считается достигнутым.
Целостность.
Для оценки критерия целостности проверяют, что все контрольные суммы верны, если проверка пройдена, критерий качества считается достигнутым.
Claims (1)
- Способ формирования обучающей выборки для систем управления беспилотных электропоездов, заключающийся в приеме информации от сканирующих окружающее пространство датчиков, установленных на подвижном транспортном средстве, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации, по заранее определенным признакам, отличающийся тем, что дополнительно осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов, для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров, далее по выбранному алгоритму выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, тем самым завершая ее формирование, при получении значений критериев качества, не соответствующих требуемым, процесс формирования выборки повторяют с учетом выявленных несоответствий.
Publications (1)
Publication Number | Publication Date |
---|---|
RU2785704C1 true RU2785704C1 (ru) | 2022-12-12 |
Family
ID=
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2711125C2 (ru) * | 2017-12-07 | 2020-01-15 | Общество С Ограниченной Ответственностью "Яндекс" | Система и способ формирования обучающего набора для алгоритма машинного обучения |
DE102019105363A1 (de) * | 2019-02-09 | 2020-08-13 | Elmos Semiconductor Aktiengesellschaft | Verfahren für ein Messsystem im Fahrzeug zur Erkennung und Klassifizierung von Objekten im Umfeld des Fahrzeugs mit Hilfe eines Deep-Learning Verfahrens mit einem selbstlernenden Entscheider |
RU2730112C1 (ru) * | 2020-03-02 | 2020-08-17 | ООО "Ай Ти Ви групп" | Система и способ идентификации объектов в составном объекте |
RU2763215C2 (ru) * | 2020-04-10 | 2021-12-28 | Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" | Способы и системы формирования обучающих данных для нейронной сети |
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2711125C2 (ru) * | 2017-12-07 | 2020-01-15 | Общество С Ограниченной Ответственностью "Яндекс" | Система и способ формирования обучающего набора для алгоритма машинного обучения |
DE102019105363A1 (de) * | 2019-02-09 | 2020-08-13 | Elmos Semiconductor Aktiengesellschaft | Verfahren für ein Messsystem im Fahrzeug zur Erkennung und Klassifizierung von Objekten im Umfeld des Fahrzeugs mit Hilfe eines Deep-Learning Verfahrens mit einem selbstlernenden Entscheider |
RU2730112C1 (ru) * | 2020-03-02 | 2020-08-17 | ООО "Ай Ти Ви групп" | Система и способ идентификации объектов в составном объекте |
RU2763215C2 (ru) * | 2020-04-10 | 2021-12-28 | Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" | Способы и системы формирования обучающих данных для нейронной сети |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801146B (zh) | 一种目标检测方法及系统 | |
Shi et al. | Image manipulation detection and localization based on the dual-domain convolutional neural networks | |
CN108154133B (zh) | 基于非对称联合学习的人脸画像-照片识别方法 | |
CN113269149B (zh) | 活体人脸图像的检测方法、装置、计算机设备及存储介质 | |
CN113095156B (zh) | 一种基于逆灰度方式的双流网络签名鉴定方法及装置 | |
Suvarnam et al. | Combination of CNN-GRU model to recognize characters of a license plate number without segmentation | |
CN115761888A (zh) | 基于nl-c3d模型的塔吊操作人员异常行为检测方法 | |
CN115311502A (zh) | 基于多尺度双流架构的遥感图像小样本场景分类方法 | |
CN111915595A (zh) | 图像质量评价方法、图像质量评价模型的训练方法和装置 | |
RU2785704C1 (ru) | Способ формирования обучающей выборки для систем управления беспилотных электропоездов | |
CN117132919A (zh) | 一种多尺度高维特征分析无监督学习视频异常检测方法 | |
CN109784291B (zh) | 基于多尺度的卷积特征的行人检测方法 | |
CN112699809B (zh) | 痘痘类别识别方法、装置、计算机设备及存储介质 | |
Hudec et al. | Texture similarity evaluation via siamese convolutional neural network | |
CN115273202A (zh) | 一种人脸比对方法、系统、设备及存储介质 | |
CN109241864A (zh) | 情感预测方法、装置、计算机设备和存储介质 | |
CN114330650A (zh) | 基于进化元学习模型训练的小样本特征分析方法及装置 | |
Jain et al. | Natural scene statistics and CNN based parallel network for image quality assessment | |
CN113837174A (zh) | 目标对象识别方法、装置及计算机设备 | |
CN112686088A (zh) | 基于行人重识别的跨镜头的行人检索方法 | |
Cortes et al. | Joint Neural Networks for One-shot Object Recognition and Detection. | |
CN116777947B (zh) | 一种用户轨迹识别预测方法、装置及电子设备 | |
Suvorov et al. | Mathematical model of the biometric iris recognition system | |
CN116740385B (zh) | 一种设备质检方法、装置和系统 | |
CN112084960B (zh) | 一种基于稀疏图的人脸表情识别方法 |