Регистрация / Вход
Прислать материал

Разработка высокопроизводительной системы обнаружения, классификации и кластеризации объектов в сверхбольших базах данных фото- и видеоконтента с применением нейронных сетей глубинного обучения

Докладчик: Скрибцов Павел Вячеслапвович

Должность: Кандидат технических наук, Генеральный директор ООО "ПАВЛИН Техно"

Цель проекта:
Целью работы является существенное расширение возможностей анализа накопленных в мире фото- и видеоданных, объемы которых увеличиваются экспоненциальными темпами, а также визуализации результатов этого анализа. Можно выделить следующие задачи данного проекта, решение которых необходимо для достижения поставленной цели: а) Исследование и разработка алгоритмов обнаружения объектов на изображениях и видео с использованием нейронных сетей глубинного обучения. б) Исследование и разработка алгоритмов классификации объектов на изображениях и видео с использованием нейронных сетей глубинного обучения. в) Исследование и разработка алгоритмов кластеризации объектов на изображениях и видео с использованием нейронных сетей глубинного обучения. г) Исследование и разработка методов распараллеливания алгоритмов на базе нейронных сетей глубинного обучения на многоядерные процессоры типа GPU; д) Исследование и разработка методов визуализации результатов обнаружения, классификации и кластеризации объектов на фото- и видео; е) Разработка экспериментального образца специального программного обеспечения для обнаружения, классификации и кластеризации объектов на фото и видео с использованием многоядерных процессоров типа GPU. Основная научно-техническая задача - разработка высокопроизводительной системы для обнаружения, распознавания и кластеризации объектов в фото- и видеоданных с использованием параллельных алгоритмов на основе нейронных сетей глубинного обучения и многоядерных процессоров, применимой в технологиях Больших данных. Обобщая мировой опыт в области алгоритмов обнаружения и распознавания объектов на изображениях, а также алгоритмов кластеризации, можно судить, что тенденция развития этих алгоритмов движется в сторону иерархических подходов и адаптивных алгоритмов для описания объектов и кластеров любой формы, размера и плотности. Также, можно сказать, что современные алгоритмы обработки информации движутся в сторону массивно-параллельных архитектур, что особенно важно с точки зрения обработки в области Больших данных. В качестве алгоритмического ядра предлагается использовать нейросетевые методы, так как при распараллеливании их на высокопроизводительные вычислители с массовым параллелизмом удается достичь наилучшего соотношения вычислительной производительности к стоимости. Тем не менее, общеизвестно, что нейросетевые алгоритмы обладают рядом недостатков: сложный процесс обучения, локальные минимумы функции ошибки, тенденция к переобучению для больших сетей и недостаточная точность для сетей малых размеров. После бума увлечения нейросетевыми алгоритмами в 1990-х годах, «на смену» нейронным сетям стали приходить алгоритмы «бустинга», методы, основанные на использований функций-ядер (SVM, Kernel Classifiers). Однако с 2008 г. с появлением концепции «Глубинного Обучения» (Deep Learning) интерес к нейросетевым архитектурам был полностью восстановлен. Суть концепции заключается в применении больших неразмеченных выборок в режиме самообучения, при котором возможно добиться автоматического формирования оптимальных признаков пониженной размерности для представления исходных образов. Применяя данный принцип рекурсивно, возможно «выращивать» нейросетевые архитектуры «слой за слоем», преодолевая проблему обучения многослойных нейросетевых структур градиентными методами. В результате, нейросетевые системы глубокого обучения в 2012 г. обошли наилучших представителей уровня техники в области обнаружения объектов на изображениях.

Основные планируемые результаты проекта:
В результате работ планируется получить наукоемкий коммерциализуемый в области анализа сверхбольших массивов видеоинформации (и фотоизображений, как частного случая отдельных кадров видеопотока). Экспериментальный образец программного обеспечения будет давать возможность извлекать полезную статистическую информацию из видеопотока с минимизацией участия оператора в создании обучающих выборок для алгоритмов машинного зрения за счет применения новых технологий нейросетевого самообучения (Deep Learning Neural Networks) способных к так называемому «обучению без учителя». Экспериментальный образец программного обеспечения позволит:
-осуществлять кластеризацию видео, выделение схожих фрагментов (рекламные блоки, заставки), осуществлять поиск пиратского видео, отличающегося существенными искажениями от оригиналов;
-осуществлять поиск и классификацию лиц людей в телевизионном эфире, строить статистику появления различных публичных людей (что, в частности, актуально для подсчетов рейтингов популярности политиков и знаменитостей);
-осуществлять поиск торговых знаков компаний, логотипов, рекламных баннеров телевизионного эфира, и автоматически составлять статистику их появления в эфире, пользующуюся спросом в маркетинговых и рейтинговых агентствах;
-выполнять перечисленные выше операции с высокой скоростью за счет применения технологий массового параллелизма вычислений и аппаратной поддержки на базе графических процессоров, поддерживающих технологию GPGPU.

Основная научная новизна предлагаемых исследований и разработок заключается в том, что классические технологии поиска и классификации изображений требуют дорогостоящей процедуры создания обучающих выборок, что требует громадных затрат по времени ручного труда, заключающегося в разметке и создании базы данных примеров изображений объектов и «не объектов», которая затем подается в алгоритмы машинного зрения. В последние годы набирает обороты технология поиска, основанная на самообучении, однако подобная технология еще не была применена для задач поиска лиц людей, логотипов и схожего видеоконтента. Google применяет эту технологию пока для анализа изображений в сети интернет. Инициаторами сделано предположение, что применению технологий самообучения может существенно упростит разработку коммерческих систем машинного зрения, так как будет минимизировать ручной труд по созданию обучающих выборок.

Назначение и область применения, эффекты от внедрения результатов проекта:
Эффект от внедрения результатов работ ожидается в широком спектре систем анализа и визуализации сверхбольших объемов фото- и видеоинформации – от систем безопасности до систем видеомониторига объектов промышленной инфраструктуры.
Основными конкурентными преимуществами станут высокая точность распознавания объектов, высокая степень устойчивости к шумам и искажениям в данных, более широкий спектр типов распознаваемых объектов, быстродействие.
Основной моделью использования результатов работ станет внедрение разработанных программно - аппаратных решений в существующие пакеты анализа и визуализации фото- и видеоинформации, а также использование отдельных программных компонент при создании специализированных приложений в этой области. Исходя из этого, результатами проекта смогут воспользоваться компании-разработчики и компании-интеграторы, которые непосредственно будут поставлять свои решения, основанные на результатах проекта, на рынок программных продуктов. Также возможна сервисная модель внедрения
результатов, когда на рынок поставляются не сами программные решения, а услуги, осуществляемые с помощью этих решений. Основные сферы использования результатов проекта приведены ниже.

Текущие результаты проекта:
Проведен аналитический обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках научных исследований, в том числе обзор научных информационных источников: статьи в ведущих зарубежных и (или) российских научных журналах, монографии и (или) патенты).
Проведены патентные исследования в соответствии с ГОСТ 15.011-96.
Произведен выбор и обоснование направления выполнения исследований и разработок.
В настоящее время выполняется разработка метода классификации объектов на изображении, минимизирующего участие оператора в разметке обучающих примеров за счет применения методов самообучения многослойных нейросетевых архитектур «Глубинного Обучения» (Deep Learning), а также выполняются работы по разработке алгоритма обнаружения объектов на изображениях, основанного на анализе сверхбольших объемов фото- и видеоинформации в режиме самообучения.