Регистрация / Вход
Прислать материал

14.615.21.0003

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.615.21.0003
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
Автономная некоммерческая образовательная организация высшего профессионального образования "Сколковский институт науки и технологий"
Название доклада
Разработка новых представлений трехмерных неупорядоченных изменяющихся сцен в робототехнике, поддерживающие эффективное обнаружение предметов, индексацию предметов, и пространственно-временной анализ на уровне предметов
Докладчик
Вахитов Александр Тимурович
Тезисы доклада
Цели и задачи исследования
Сегодня интернет обеспечивает доступ к огромному количеству мультимедиа-информации с помощью поисковых систем. Они обеспечивают достаточно высокую для практических приложений точность поиска по мультимедиа-содержимому, и на основе успехов в области так называемого глубокого обучения, достигнутых в последнее десятилетие, позволяют извлекать из него семантическое содержание. В то же время, быстрыми темпами развивается мобильная робототехника, методы одновременной локализации и построения карты достигли необходимой зрелости и обеспечивают устойчивую навигацию и реконструкцию трехмерных сцен. На наш взгляд, следующим шагом является развитие семантического распознавания сцен и объектов мобильными роботами, для чего интернет-информация, обрабатываемая методами глубокого обучения, является естественным источником знаний.

Целью исследования является разработка методов построения дескрипторов изображений и механизмов поиска в их коллекциях по запросам, получаемым с помощью интернет-поисковой системы. В частности, предлагаемые алгоритмы должны работать в коллекциях снимков объектов, встреченных мобильным роботом при изучении некоторой трехмерной сцены. Запросы к коллекциям формируются в виде наборов изображений, получаемых из интернет-поисковой системы.

Для достижения цели решаются задачи
построения агрегированных дескрипторов объектов, а также моделей запросов в пространстве дескрипторов, позволяющих оценивать вероятность соответствия объекта запросу. Также, для проведения одного из иллюстрирующих новый подход экспериментов решается вспомогательная задача выделения объектов по RGB-D (красный-зеленый-синий-глубина) потоку данных.
Актуальность и новизна исследования
В современных робототехнических системах, поиск объектов в больших трехмерных сценах является актуальной задачей. Известны методы использования выдач интернет-поисковых систем для решения задач детекции и локализации объектов, действий и сцен (webly-supervised search) [1,2], в то время как мы предлагаем решать с их использованием задачу поиска в коллекциях изображений. В отличие от известных методов, мы предлагаем строить по запросу функцию в пространстве дескрипторов изображений, определяющую вероятность соответствия изображения запросу, с помощью моделирования распределения дескрипторов как смеси гауссианов. Моделирование наборов дескрипторов в виде вероятностного распределения рассмотрено в работе [3], где использовались непараметрические модели сравнения распределений в задачах распознавания лиц, текстур, классификации сцен по вручную размеченным наборам данных и вручную разработанным дескрипторам изображений. В работах [4,5] для поиска по наборам изображений используются глубокие дескрипторы. По сравнению с перечисленными работами наш подход существенно выигрывает в скорости и компактности моделей, а также позволяет устойчиво работать с потенциально зашумленными наборами изображений, какими являются выдачи интернет-поисковых систем.
1. Divvala S. et al., Learning everything about anything: Webly-supervised visual concept learning, CVPR 2014
2. Chen, X. et al. Webly supervised learning of convolutional networks, CVPR 2015
3. Harandi, M. et al. Beyond Gauss: Image-Set Matching on the Riemannian Manifold of PDFs, ICCV 2015
4. Shah, S. et al., Iterative deep learning for image set based face and object recognition, Neurocomputing, 2016
5. Feng, J. et al., Deep Image Set Hashing, Arxiv CS
Описание исследования

Мы предлагаем использовать предобученную нейронную сеть существующей архитектуры (GoogleNet). Для построения дескрипторов используется нормированный выход последнего сверточного слоя нейросети, содержащий высокоуровневую информацию о присутствующих на изображении визуальных образах. Для демонстрации работоспособности предлагаемых дескрипторов в задачах описания объектов трехмерных сцен, нами был реализован метод сегментации и последующей классификации объектов трехмерных сцен из набора [6]. Сцены заданы в виде облаков трехмерных точек, а также дан набор RGB-D записей, по которым эти облака построены. На выходе каждой точке присваивается метка, соответствующая типу объекта, которому точка принадлежит, либо фону. Предлагаемый для этой задачи подход строит по изображениям объектов глубокие дескрипторы, затем нормирует и усредняет их, и использует машину опорных векторов для классификации.

В рамках решения основной задачи поиска на основе выдач интернет-поисковых систем, нами был собран набор данных, представляющий собой выдачи поисковой системы по запросам, заданным в виде меток классов из набора RGB-D снимков объектов [7]. Был проведен следующий эксперимент: для каждой выдачи интернет-системы и для каждого набора снимков объекта строились следующие модели агрегирования дескрипторов: средний вектор, гауссиан с диагональной матрицей ковариации и смесь гауссианов с диагональной матрицей ковариации. Расстояния между моделями агрегирования определялись как евклидово расстояние (между средними векторами), функция правдоподобия для пар из среднего вектора и гауссиана либо смеси гауссианов, произведение функций правдоподобия для пар из гауссианов или смесей гауссианов. Наилучший результат (mean average precision) 0.60 получен при использовании смеси гауссианов для интернет-выдачи и среднего для многоракурсных снимков объекта.  

Для оценки преимущества использования глубоких дескрипторов, аналогичные модели были построены по дескрипторам в виде векторов Фишера по SIFT-особенностям с результатом 0.37. Также был проведен эксперимент по поиску объектов с использованием разделяющей гиперплоскости, полученной обучением машины опорных векторов для дескрипторов из данного набора против дескрипторов для случайно выбранных изображений из других наборов с результатом 0.57.

6. Lai K. et al., Unsupervised feature learning for 3d scene labeling, IEEE ICRA 2014
7. Lai, K. et al., A large-scale hierarchical multi-view rgb-d object dataset, IEEE ICRA 2011

Результаты исследования

Разработанный нами метод сегментации и классификации объектов на базе глубоких дескрипторов показывает среднюю точность присвоения меток XX на наборе данных Washington RGB-D Scenes Dataset v.2 [6],  превосходящую наилучшие опубликованные результаты на данном наборе [8,9]. Подробности протокола эксперимента и используемых метрик описаны в работе [6].

В основном наборе экспериментов было установлено, что для моделирования выдач интернет-поисковой системы наиболее подходят смеси гауссианов, в то время как набор многоракурсных снимков объекта хорошо моделируется усреднением векторов дескрипторов.

Было установлено значительное преимущество использования глубоких дескрипторов в рассматриваемой задаче по сравнению с векторами Фишера по SIFT-особенностям.

8. Tateno K. et al., When 2.5 D is not enough: Simultaneous Reconstruction, Segmentation and Recognition on dense SLAM, IEEE ICRA 2016
9. Asif, U. et al. Simultaneous dense scene reconstruction and object labeling, IEEE ICRA 2016

Практическая значимость исследования
Построение компактных описаний объектов трехмерных сцен требуется для обеспечения интерактивного взаимодействия мобильных роботов и окружающей среды в задачах автономного вождения, построения робота-домашнего помощника, и пр. В этом исследовании мы попытались ответить на вопрос о выборе правильного способа представления семантической информации об объектах сцены. По сравнению с существующей парадигмой, когда распознавание объектов из заранее заданного набора классов производится "онлайн" в ходе движения робота по сцене (напр., детекция пешехода), мы предлагаем более универсальное решение, когда семантическая информация обо всех объектах сцены собирается роботом, а впоследствии может быть использована для поиска произвольного объекта в сцене без повторного ее обхода роботом.

Предлагаемое исследование обосновывает выбор глубоких дескрипторов для описания объектов трехмерных сцен, а также выбор моделей агрегирования глубоких дескрипторов при поиске по коллекциям разноракурсных снимков объектов с использованием выдач интернет-поисковых систем. Реализованный в ходе исследования прототип системы сегментации сцен на объекты может быть применен при обработке реальных трехмерных сцен, которые строятся по визуальным данным, собираемым мобильным роботом.
Постер

Poster_template_IT.ppt