RU173468U1

RU173468U1 - Устройство каскадной обработки потока изображений с помощью свёрточных нейронных сетей

Info

Publication number: RU173468U1
Application number: RU2017110059U
Authority: RU
Inventors: Анатолий Владимирович Хамухин
Original assignee: Акционерное общество "ЭЛВИС-НеоТек"
Priority date: 2017-03-27
Filing date: 2017-03-27
Publication date: 2017-08-29

Abstract

Полезная модель относится к области автоматического анализа изображений. Техническим результатом заявленной полезной модели является создание устройства каскадной обработки потока изображений с помощью сверточной нейронной сети с улучшенной достоверностью автоматического определения движущихся объектов в поле зрения видеокамеры, без увеличения аппаратной вычислительной мощности устройства за счет сочетания быстрого метода определения движущихся объектов и метода нейросетевой обработки. 4 з.п. ф-лы, 2 ил.

Description

Полезная модель относится к области автоматического анализа изображений, а именно к устройствам каскадной обработки потока изображений с помощью сверточных нейронных сетей, и может быть использована в системах видеонаблюдения для автоматического определения значимых событий в поле зрения видеокамеры.

Известны способы автоматического анализа изображений [1], которые позволяют выделять движущиеся объекты в поле зрения видеокамеры и использовать при этом сравнительно малопроизводительные вычислительные устройства. В данных способах, как правило, строят модель неподвижной сцены, сравнивают каждый новый кадр видеопотока с построенной моделью и выделяют различия нового кадра и неподвижной сцены. Как правило, выделяют не только движущиеся объекты, но и шум, обусловленный влиянием множества помех: движением нежестких объектов сцены на ветру, переменной освещенностью сцены вследствие влияния внешних движущихся осветителей и переменной облачности. В большинстве случаев к помехам относят движение животных, птиц, насекомых в непосредственной близости от видеокамер. Таким образом, быстродействующие разностные методы определения движущихся объектов имеют проблему различения помех на изображении.

В последнее время для анализа изображений применяют аппарат сверточных нейронных сетей [2, 3], с помощью которого можно отличить события от помех. Однако достоверные результаты анализа изображений на основе нейронных сетей достижимы только с помощью вычислительных устройств с высокой вычислительной мощностью, и для адаптации нейронных сетей к фильтрации помех требуется огромный набор изображений, на которых нейросеть будет обучаться. Объем таких изображений по порядку величины составляет десятки миллионов отдельных картинок, принадлежащих разным сценам, полученным в разных условиях съемки - климатических, географических, временных.

Методы обработки изображений, которые фиксируют изменения на наблюдаемой сцене, известны достаточно давно, при этом недостатки этих методов тоже хорошо изучены [4]. Несмотря на относительно невысокие требования к вычислительной мощности исполнительных устройств, практически каждый метод определения движения обладает следующим главным недостатком: как правило, фиксирует в том числе и такие изменения на сцене, которые не представляют интереса с точки зрения назначения систем видеонаблюдения. К изменениям-помехам относятся: изменение освещенности вследствие переменной облачности или вследствие включения, выключения, движения искусственных источников света, движение объектов сцены из-за ветра, движение теней объектов, движение животных, птиц и насекомых, изменение сцены вследствие хозяйственной деятельности коммунальных служб (уборка, ремонт) и т.д. Классификация всех возможных помех с помощью простых алгоритмических подходов является затруднительной, поэтому предпочтительным является метод обработки изображений с помощью нейронных сетей, которые выполняют классификацию изображений событий, и в результате определяют, является ли изменение изображения помехой или событием, на которое необходимо обращать внимание.

Анализ уровня техники показывает, что до сих пор аппарат нейронных сетей не применяют в полной мере в охранных системах видеонаблюдения. Этому способствует три фактора.

Во-первых, обработку с помощью нейронных сетей успешно осуществляют для изображений с высоким разрешением, а в охранных системах видеонаблюдения, как правило, требуется фиксировать события на изображениях с низким разрешением, поскольку в охранных системах видеонаблюдения стремятся использовать как можно меньше камер, а для этого выбирают объективы видеокамер с широкими углами зрения. Даже переход на видеокамеры высокого разрешения не снижает требования к способности обработки изображений с невысоким разрешением: увеличение разрешения сенсора видеокамеры приводит к тому, что угол обзора видеокамеры увеличивают для того, чтобы использовать как можно меньшее число камер для зоны наблюдения с той же площадью, и в итоге на изображение событий, которые должна выделять система видеонаблюдения, приходится примерно такое же число точек изображения.

Во-вторых, для обучения нейронных сетей требуется, как отмечалось выше, многомиллионный набор изображений. Большинство современных нейронных сетей настраивают на общедоступных базах изображений (например, базах ImageNet, CIFAR, PASCAL и др.), а в них представлены изображения с высоким разрешением, и не представлены изображения с низким разрешением, поэтому попытка применить современные наработки напрямую не дает хороших результатов по достоверности. При этом процесс сбора видеоданных (набора изображений) из действующих систем видеонаблюдения для настройки нейросетей сопряжен с юридическими и организационными проблемами, что затрудняет получение больших наборов изображений с низким разрешением, необходимый для настройки нейронной сети.

В-третьих, операция по обработке одного изображения с помощью эффективных нейронных сетей составляет несколько терафлопов, поскольку нейросети, обладающие высокой достоверностью по определению событий, являются многоуровневыми и состоят из большого числа нейронов. Количество весов у типичной нейронной сети, предназначенной для определения изображений конкретного типа, составляет несколько десятков миллионов чисел. Из-за высоких требований к вычислительным устройствам применение обработки изображений на основе современных сверточных нейронных сетей пока экономически не оправдано в крупных системах видеонаблюдения с большим количеством видеокамер.

Известно устройство [5] обработки изображений с помощью сверточной нейронной сети,в котором классифицируют объект на изображении с помощью сверточной нейронной сети.

Недостатком устройства прототипа является большая аппаратная вычислительная мощность устройства, требуемая для классификации объекта с помощью только сверточной нейронной сети без использования быстрых методов обработки изображения до этапа обработки сверточной нейронной сетью.

Техническим результатом заявленной полезной модели является создание устройства каскадной обработки потока изображений с помощью сверточной нейронной сети с улучшенной достоверностью автоматического определения движущихся объектов в поле зрения видеокамеры, без увеличения аппаратной вычислительной мощности устройства, за счет применения каскада из быстрого метода определения движущихся объектов и метода нейросетевой обработки.

То есть заявленное устройство является столь же быстродействующими, как известный из уровня техники способ определения движущихся объектов на основе сопоставления с фоновой моделью сцены. При этом в заявленной полезной модели также применяется метод настройки нейросети на данных сравнительно небольшого объема.

Поставленный технический результат выполнен путем создания устройства каскадной обработки потока изображений с помощью сверточной нейронной сети, содержащего блок определения движения, соединенный с блоком нейросетевой фильтрации, который содержит блоки определения обобщенных признаков и блок принятия решения, при этом блок определения движения соединен параллельно со входами блоков определения обобщенных признаков, выходы которых соединены с первым входом блока принятия решения, второй вход которого соединен с выходом блока определения движения, причем

блок определения движения выполнен с возможностью получения на входе потока изображений, с возможностью определения положения фрагментов изображений с движущимися объектами на последовательных кадрах и передачи информации о положении фрагментов изображений с движущимися объектами в блоки определения обобщенных признаков, а также с возможностью определения характеристик движущихся объектов и передачи их в блок принятия решения;

блоки определения обобщенных признаков выполнены с возможностью получения на входе потока изображений и информации о положении фрагментов изображений с движущимися объектами, с возможностью параллельной обработки фрагментов изображений с движущимися объектами на серии последовательных кадров и определения обобщенных признаков движущихся объектов с помощью каскада из сверток и нелинейных преобразований посредством сверточной нейронной сети, а также с возможностью передачи обобщенных признаков в

блок принятия решения, который выполнен с возможностью обработки обобщенных признаков и характеристик движущихся объектов, при этом принятия решения о том, являются движущиеся объекты помехами или действительными объектами.

В предпочтительном варианте осуществления устройства блок определения движения выполнен с возможностью определения характеристик движущихся объектов, таких как текстура и траектория движения.

В предпочтительном варианте осуществления устройства блок принятия решений состоит из последовательности полносвязных слоев.

В предпочтительном варианте осуществления устройства в каждом из параллельных блоков определения обобщенных признаков веса сверток выполнены с возможностью предварительной настройки с помощью большого количества изображений из открытых источников, а затем тонкой настройки на тех изображениях, с которыми предстоит работать в качестве исходных изображений потока.

В предпочтительном варианте осуществления устройства сверточная нейронная сеть адаптирована для изображений низкого разрешения.

Для лучшего понимания заявленной полезной модели далее приводится ее подробное описание с соответствующими графическими материалами.

Фиг. 1.

Элементы:

1 - блок определения движения;

2 - блок нейросетевой фильтрации;

3 - блоки определения обобщенных признаков;

4 - блок принятия решения.

Рассмотрим более подробно функционирование заявленного устройства каскадной обработки потока изображений, представленных на фиг. 1 и 2.

Обработку потока изображений осуществляют два основных блока, блок 1 определения движения и блок 2 нейросетевой фильтрации. Блок 1 определения движения осуществляет первичное определение движущихся объектов с помощью быстрого типа обработки изображений. Дополнительно блок 1 определения движения вычисляет различные характеристики объекта, описывающие его текстуру и траекторию, блок 2 нейросетевой фильтрации функционирует на основе нейросети, имеющей архитектуру. Блок 2 нейросетевой фильтрации состоит из блоков 3 определения обобщенных признаков объектов с помощью каскада из сверток и нелинейных преобразований, и блока 4 принятия решения, состоящего из некоторой последовательности полносвязных слоев. В качестве входа блок 4 принятия решения принимает на вход помимо обобщенных признаков, определенных с помощью каскада сверток, свойства объектов, вычисленных блоком 1 определения движения.

Блоки 3 определения обобщенных признаков соединены параллельно и применяются к изображениям объекта на последовательных кадрах потока изображений. При такой структуре нейросети сначала производят предварительную настройку весов сверток в каждом из параллельных блоков 3 с помощью изображений из открытых источников с большим количеством примеров, а затем производят тонкую настройку на тех изображениях, с которыми предстоит работать в системах видеонаблюдения. Тем самым решается проблема набора большого количества примеров изображений.

За счет того, что нейросеть ориентирована на изображения малого разрешения, количество весов в нейронах в ней может быть существенно меньше, чем в нейросетях, предназначенных для обработки изображений высокого разрешения. Кроме того, нейросеть применяют не для каждого фрагмента изображения, а только для каждого потенциального объекта, который выделят блок 1 определения движения. Отсюда следует, что блок 2 нейросетевой фильтрации функционирует с существенно более низкой частотой, чем частота обработки кадров, и поэтому применение такого блока не повышает существенно уровень требований к вычислительной мощности исполнительных устройств.

Применяемый в заявленной полезной модели каскад из блока 1 определения движения и блока 2 нейросетевой фильтрации позволяет, с одной стороны, существенно сократить время обработки изображений блоком 2 нейросетевой фильтрации, поскольку нейросеть применяется не к каждому фрагменту изображения по методу сканирующего окна с перебором масштаба, а лишь к тем фрагментам, которые выдает блок 1 определения движения, а с другой стороны, существенная доля ошибок нейросетей при классификации изображений компенсируется тем, что на ее вход подают не все множество фрагментов кадра изображения, а только те фрагменты, которые могут потенциально представлять интерес. Применение данного каскада стало возможным благодаря отличительным свойствам архитектуры нейронной сети, представленной на фиг. 2. Во-первых, применение отдельных блоков 3 определения обобщенных признаков к каждому кадру изображения позволяет формировать признаки с учетом особенностей движения объектов: зачастую понять, является ли изображение низкого разрешения помехой, можно только с помощью наблюдения за изображением на последовательных кадрах. Во-вторых, использование отдельных блоков 3 определения обобщенных признаков позволяет производить их предварительную настройку на большом объеме данных из открытых баз данных изображений, и затем производить тонкую настройку нейронной сети на данных ограниченного объема, полученных в процессе реальной эксплуатации видеосистем. В-третьих, поскольку в системах видеонаблюдения требуется обрабатывать в том числе изображения низкого разрешения, используемые в заявленной полезной модели сверточные нейронные сети для формирования обобщенных признаков адаптированы к изображениям малого разрешения, и за счет этого используют меньше вычислительных операций, чем известные нейросети для обработки изображений. В-четвертых, блок 4 принятия решения помимо обобщенных признаков, сформированных блоками 3 сверточных нейронных сетей, использует также характеристики траектории и текстуры объектов, которые предоставлет блок 1 определения движения, что существенно повышает достоверность классификации изображений по категориям «действительный объект» или «помеха».

Как и любая архитектура нейронной сети, заявленная архитектура допускает дополнительную тонкую настройку на конкретных сценах, которые контролируются системами видеонаблюдения, с помощью так называемой процедуры дообучения на новых изображениях, с целью повышения достоверности фильтрации помех.

Быстродействие заявленного устройства достигается за счет каскадирования двух блоков, блока определения движения и блока нейросетевой фильтрации.

Хотя описанный выше вариант выполнения полезной модели был изложен с целью иллюстрации заявленной полезной модели, специалистам ясно, что возможны разные модификации, добавления и замены, не выходящие из объема и смысла заявленной полезной модели, раскрытой в прилагаемой формуле полезной модели.

СПИСОК ЛИТЕРАТУРЫ

1. N. Goyette, Р.-М. Jodoin, F. Porikli, J. Konrad, and P. Ishwar, changedetection.net: A new change detection benchmark dataset, in Proc. IEEE Workshop on Change Detection (CDW-2012) at CVPR-2012, Providence, RI, 16-21 Jun., 2012.

2. Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. - 2012. - C. 1097-1105.

3. Redmon J. et al. You only look once: Unified, real-time object detection // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. - 2016. - C. 779-788.

4. Сравнение методов разностного выделения движущихся объектов, http://www.changedetection.net, дата обращения 14.03.2017.

5. US 2016140424 (А1), 19.05.2016, Object-centric Fine-grained Image Classification.

Claims

1. Устройство каскадной обработки потока изображений с помощью сверточной нейронной сети, содержащее блок определения движения, соединенный с блоком нейросетевой фильтрации, который содержит блоки определения обобщенных признаков и блок принятия решения, при этом блок определения движения соединен параллельно со входами блоков определения обобщенных признаков, выходы которых соединены с первым входом блока принятия решения, второй вход которого соединен с выходом блока определения движения, причем блок определения движения выполнен с возможностью получения на входе потока изображений, с возможностью определения положения фрагментов изображений с движущимися объектами на последовательных кадрах и передачи информации о положении фрагментов изображений с движущимися объектами в блоки определения обобщенных признаков, а также с возможностью определения характеристик движущихся объектов и передачи их в блок принятия решения; блоки определения обобщенных признаков выполнены с возможностью получения на входе потока изображений и информации о положении фрагментов изображений с движущимися объектами, с возможностью параллельной обработки фрагментов изображений с движущимися объектами на серии последовательных кадров и определения обобщенных признаков движущихся объектов с помощью каскада из сверток и нелинейных преобразований посредством сверточной нейронной сети, а также с возможностью передачи обобщенных признаков в блок принятия решения, который выполнен с возможностью обработки обобщенных признаков и характеристик движущихся объектов, в том числе текстуры и траектории движения, с возможностью классификации изображений, при этом принятия решения о том, являются движущиеся объекты помехами или действительными объектами.

2. Устройство по п. 1, отличающееся тем, что в каждом из параллельных блоков определения обобщенных признаков веса сверток выполнены с возможностью предварительной настройки с помощью большого количества изображений из баз данных открытых источников, а затем тонкой настройки на тех изображениях, с которыми предстоит работать в качестве исходных изображений потока.

3. Устройство по п. 1, отличающееся тем, что сверточная нейронная сеть адаптирована для изображений низкого разрешения.