Регистрация / Вход
Прислать материал

14.579.21.0071

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.579.21.0071
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
Общество с ограниченной ответственностью "ВижнЛабс"
Название доклада
Разработка методов анализа, индексации и поиска информации в крупномасштабных сетях камер видеонаблюдения и хранилищах фото- и видеоданных
Докладчик
Миляев Сергей
Тезисы доклада
Цели и задачи исследования
Цель проекта – разработка научно-технических решений, направленных на создание конкурентоспособного на мировом рынке программного обеспечения для решения прикладных задач обработки фотоизображений и потоковых данных, включая анализ, индексацию и поиск информации в крупномасштабных сетях камер видеонаблюдения и хранилищах фото- и видеоданных.

Для достижения поставленных целей необходимо решить задачи по разработке следующих алгоритмов:
1. Алгоритм предварительной обработки изображений и потоковых данных с сенсоров разной природы, в том числе фильтрации и подавления шумов.
2. Алгоритм комплексирования потоковых данных сенсоров видимого диапазона с потоковыми данными, полученными от сенсоров иной природы.
3. Алгоритм детектирования объектов заданных классов в потоковых данных.
4. Алгоритм детектирования событий заданных классов в потоковых данных.
5. Алгоритм структурирования потоковых данных.

Должен быть создан экспериментальный образец программного комплекса обработки изображений и потоковых данных, реализующего разработанные алгоритмы, должны быть проведены экспериментальные исследования.
Актуальность и новизна исследования
Современные видеоаналитические системы позволяют лишь детектировать факт наличия объектов, локализовывать и определять их тип и не всегда могут работать с крупными сетями видеокамер, поскольку отсутствуют эффективные алгоритмы многокамерного сопровождения объектов с возможностью их повторного детектирования. Устройства видеонаблюдения, системы хранения мультимедиа данных и подобные им воспринимают и хранят информацию в неструктурированном виде. Для реализации естественного человеко-машинного взаимодействия необходимо создать устройства и продукты на базе технологии восприятия мира.

В последние время технологии глубокого обучения позволили совершить существенный прорыв в задачах распознавания. Для решения поставленных задач в ходе выполнения исследований предлагаются новые архитектуры и функции потерь для обучения глубоких нейронных сетей, что позволяет повысить их эффективность. Предложен новый подход к определению свойств текстуры и уровня шума изображения для возможности выполнения быстрой адаптивной обработки потоковых видеоданных.
Описание исследования

Проведен аналитический обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках прикладных научных исследований, в том числе, обзор научных информационных источников. Проведены патентные исследования в соответствии ГОСТ Р 15.011-96. Создан лабораторный стенд для выполнения экспериментальных исследований.

Разработан алгоритм предварительной обработки изображений и потоковых данных, в котором предложена новая мера оценки регулярности изображения и уровня шума, на основе бинарных кодов окрестности пикселей. Данная модель обрабатывает отдельные области изображения и подбирает для них оптимальные параметры фильтрации в зависимости от их содержания и оценки уровня зашумленности изображения. Установлено, что объективное качество обработанного изображения не является достаточным для выбора алгоритма предварительной обработки при наличии шума на изображении для обеспечения максимальной точности детектирования объектов. При разработке алгоритма был также исследован подход по обучению дискриминативных моделей детектирования на основе обычных признаков и адаптации глубоких признаков на зашумленных данных для адаптации к наличию шума на тестовых изображениях. Исследовано применение алгоритмов предварительной обработки на реальных потоковых видеоданных, полученных в условиях плохой освещенности.

Разработан алгоритм комплексирования потоковых данных. Его ключевым достоинством является быстрая настройка параметров на основе градиентного спуска, результаты которой не уступают методу полного перебора оптимальных значений для комплексирования выходов алгоритмов детектирования по потоковым данным с различных типов сенсоров.

Разработан алгоритм детектирования объектов различных классов на основе многоуровневой генерации областей кандидатов и использования предложенных более эффективных архитектур нейронных сетей, требующих небольших вычислительных затрат. Были выполнены исследования по улучшению показателей работы нейронной сети с помощью подхода дистилляции знания от более сложной сети. Разработан метод адаптации домена при обучении, выявлено улучшение качества повторного детектирования объектов при обучении с его применением. Исследовано применение  предложенной мультизонной билинейной нейронной сети в разработанном алгоритме повторного детектирования объектов. Исследовав различные варианты билинейной архитектуры, было показано, что такая архитектура вполне применима к предложенной задаче и сохраняет некоторую пространственную информацию, пригодную к использованию для совершенствования дескрипторов. Разработана и исследована новая функция потерь на основе на основе гистограмм для обучения нейронных сетей для повторного обнаружения объектов.

Разработан алгоритм детектирования событий заданных классов в потоковых данных с использованием векторов движения, напрямую извлекаемых из видео, вместо алгоритмически подсчитанного оптического потока для сверточных нейронных сетей. Для данного алгоритма была разработана специальная архитектура нейронной сети, которая позволяет вести обработку потоковых данных в реальном времени. Была исследована модификация данной архитектуры нейронной сети с использованием 3D конволюций.

Разработан алгоритм структурирования потоковых данных, основанный на оптимизированной продукт-квантизации с помощью целочисленного программирования. Сделан анализ результатов и сравнение работы повторного детектирования объектов, используя исходные дескрипторы и результат их структурирования разработанным алгоритмом.

Разработан экспериментальный образец программного комплекса обработки изображений потоковых данных, реализующего разработанные в ходе выполнения исследований алгоритмы и были выполнены его экспериментальные исследования в соответствии с разработанными Программой и методикой экспериментальных исследований.

 

Результаты исследования

Исследования показали, что разработанный алгоритм предварительной обработки обеспечивает более высокие результаты детектирования объектов для большинства классов на зашумленных изображениях базы PASCAL VOC 2007 при использовании моделей детектирования объектов на основе обычных и глубоких дескрипторов изображений, по сравнению с существующими методами, такими как билатеральная фильтрация и коллаборативная фильтрация. Разработанный алгоритм обладает низкими вычислительными затратами, которые позволяют использовать его в реальном времени при обработке потоковых данных, используя малую часть вычислительных ресурсов. Установлено, что разработанный алгоритм предварительной обработки позволяет повысить точность работы алгоритмов детектирования объектов различных классов на реальных потоковых видеоданных  с искажениями KAIST Pedestrian Dataset, в отличие от существующих методов предварительной обработки.

Разработанный алгоритм комплексирования потоковых данных, полученных от нескольких сенсоров позволяет увеличить общую точность детектирования событий заданных классов базы Chalearn по сравнению с одним сенсором и другими методами комплексирования, используемыми в предыдущих работах. Разработанный метод быстрой настройки параметров на основе градиентного спуска обеспечивает результаты, не уступающие методу полного перебора оптимальных значений.

Предложенный алгоритм детектирования объектов различных классов при использовании одинаковых архитектур глубоких нейронных сетей позволяет повысить точность детектирования объектов на базе Pascal VOC 2007 по сравнению с методом, выполняющим генерацию областей-кандидатов с одного уровня карт глубоких признаков. Предложенные архитектуры нейронных сетей позволяют при уменьшении вычислительных затрат повысить качество извлекаемых признаков, что повышает точность на базе ImageNet. Мультизонная билинейная инициализация в разработанном алгоритме повторного детектирования объектов дает возможность сохранять пространственную информацию, что позволяет выделять более сложные признаки и увеличивать число параметров по сравнению с базовой нейронной сети без переобучения. Разработанный алгоритм повторного детектирования объектов превосходит существующие методы на двух базах изображений: CUHK03 и Market-1501. Предложенная функция потерь на основе гистограмм для
обучения нейронных сетей для повторного обнаружения объектов, которая позволяется добиться более высоких показателей точности по сравнению с ранее предложенными функциями потерь.

Разработанный алгоритм детектирования событий заданных классов с использованием дополнительных данных о векторах движения при
декодировании видеопотока, при заметном сокращении разрешения входных данных, а также уменьшения количества параметров в сети, позволяет получать сопоставимые результаты при обработке в реальном времени на базе UCF101 с методами, использующими специально посчитанный оптический поток, но без возможности обработки в реальном времени. Использование 3D конволюций позволило существенно поднять точность детектирования событий, при этом сохранив возможность работы в реальном времени.

Из сравнения качества работы и анализа скорости обработки запросов сделан вывод об эффективности применения разработанного алгоритма структурирования для обработки как одного, так и множественных запросов, в том числе потоковых данных при сжатии до 256 бит.

Практическая значимость исследования
Разработанные методы анализа, индексации и поиска информации в крупномасштабных сетях камер видеонаблюдения и хранилищах фото- и видеоданных станут платформой для построения систем безопасности нового поколения, систем хранения данных и хостингов с интеллектуальным контекстным поиском видео, систем спортивной аналитики, систем бизнес-аналитики, а также персональных роботов.

Существующие системы видеонаблюдения смогут определять взаимосвязь человека с различными объектами, а также распознавать противоправные действия не постфактум, а в реальном масштабе времени. Поисковики, системы хранения мультимедиа данных и хостинги с использованием разработанной технологии смогут вести поиск по содержанию видео архивов больших размеров, а не по текстовым тегам, оставленным пользователями. Роботы и робототехнические комплексы смогут быть более адаптивными к окружающей обстановке и понимать действия и взаимодействия людей, самостоятельно принимать решения, основываясь на полученной информации о положении и взаимосвязи, а также функциональном назначении тех или иных объектов.