Регистрация / Вход
Прислать материал

14.578.21.0196

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.578.21.0196
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики"
Название доклада
Аналитическая платформа выявления и прогнозирования девиантного поведения пользователей социальных сетей на основе композиции и сопоставления неструктурированных данных различных медиаресурсов
Докладчик
Бухановский Александр Валерьевич
Тезисы доклада
Цели и задачи исследования
Целью исследования является создание предметно-ориентированной технологии сбора, обработки и анализа больших объемов данных в социальных сетях и иных медийных ресурсах Интернета с целью выявления пользователей со скрытым девиантным поведением для решения задач профилактики конфликтных ситуаций и противоправных действий. Задачами исследования являются: разработка и обоснование информационной и математической моделей, описывающих агрегированный профиль поведения субъекта в сети Интернет с учетом эмоционального состояния индивида, пространственно-временной локализации и топологической структуры контактов; разработка метода идентификации популяционной математической модели агрегированного профиля на основе семантического поиска, сопоставления и агрегации данных о деятельности субъекта в различных социальных медиа; определение эталонных классов агрегированных профилей и разработка популяционного метода выявления девиантного поведения на основе статистического сравнения характеристик профиля с эталонными классами; разработка предметно-ориентированного языка для унифицированной высокоуровневой формализации запросов и сценариев сбора данных в различных социальных медиа; разработка экспериментального образца аналитической платформы, обеспечивающей сбор, агрегацию и анализ данных для выявления девиантного поведения пользователей сети Интернет на основе унифицированных запросов; апробация и оценка эффективности разработанных методов и технологий на различных прикладных задачах.
Актуальность и новизна исследования
Современные социальные медиа, отражая процессы реального мира, позволяют спуститься до уровня отдельного индивидуума. Характеристикой индивидуума является его поведение, состоящее из набора действий публичной коммуникации (добавление постов, комментирование, репосты, лайки), которое может служить индикатором (а) неадекватной реакции человека на окружающую среду, вызванной его психофизиологическим состоянием, (б) нестандартного способа использования социальных медиа (для организации нелегальной активности, например, распространения наркотиков), а также (в) скрытых действий, связанных с созданием определенного информационного фона, манипуляцией мнениями, "давлением" в виртуальной среде (кибербуллинг) и мошенничеством разного рода. Идентификация и построение профиля поведения пользователя встречается с рядом существенных сложностей: необходимостью совмещать данные из профиля пользователя в разных социальных сетях; отсутствием информации о профилях пользователя в других социальных сетях и необходимостью их поиска и идентификации их принадлежности; слабой структурированностью данных социальных медиа; необходимостью учитывать различия в интерфейсах, методам работы с ними и политиками доступа; необходимостью обработки больших и сверхбольших объемов данных. Создание технологии требует решения как задачи формализации меры сходства-различия в поведении пользователей с учетом различий самих социальных медиа, так и с преодолением технических проблем при реализации процедур сбора, обработки и анализа данных в логике Big Data, что необходимо для работы в реальных социальных сетях, включающих не менее нескольких миллионов пользователей.
Описание исследования

Построение профиля пользователя основывается на основе анализа композиции слабоструктурированных или неструктурированных данных о процессах, связанных с субъектом или явлением, на четырех уровнях: семантическом, через понятия, задаваемые на основе отдельных словарей и правил сочетания слов, связанных со спецификой девиантного поведения; эмоциональном, за счет окраски отдельных сообщений; пространственно-временном и топологическом, на основе динамики связей пользователя в социальных медиа. Эволюция профиля индивидуума, описывающего его поведение, будет задаваться дискретно-событийной моделью, которая формирует его на основе композиции "импульсов", отражающих посты различной семантической и эмоциональной направленности, возникающие в определенное время, и представляется в виде набора графов, отображающих связи между событиями через отдельные сущности. Для стандартного группового поведения пользователей параметры модели могут быть оценены по характерным классам, связанным с базовыми характеристикам индивида, исходя из социальной стратификации - возраст, пол, профессиональная принадлежность и пр. При этом сами распределения параметров модели задают вероятностные интервалы, характеризующие допустимую изменчивость профилей внутри характерных групп. Как следствие, профили, "выпадающие" за границы интервалов с заданной значимостью,  могут рассматриваются как потенциальные кандидаты на девиантное поведение.

Описанный математический инструментарий будет реализован в виде инструментальной аналитическая платформа, состоящей из: интерфейса и транслятора запросов, краулера, подсистемы анализа и прогнозирования. Для описания пользовательских запросов, интерпретируемых в различных социальных медиа, будет разработан унифицированный предметно-ориентированный язык описания процессов сбора данных, построенный на основе онтологической модели социальных сетей. Он позволит описывать многоступенчатый процесс сбора данных независимо от специфики конкретной социальной сети.

Результаты исследования

В ходе выполнения первого этапа проекта был проведен аналитический обзор существующих подходов к идентификации разновидности девиантного поведения пользователей социальных медиа, в рамках которого были обнаружены узко специализированные решения, направленные на идентификацию отдельных типов объектов или решения общего назначения, не отражающие специфику задачи (поиск по словарям, методы классификации, регрессия и т.д.).  Однако одним из наиболее эффективных существующих подходов выявления девиантного поведения пользователей может стать механизм основный на использовании нейронных сетей, способный успешно решать задачи анализа слабо структурированных данных. В рамках исследования существующих информационных и математических моделей, описывающих поведение пользователей социальных медиа, основной анализ был направлен на существующие аналоги дискретно-событийной модели и их эффективность в идентификации девиантов, в том числе и рамках разработанной онтологии сущностей социальных медиа, применяемой при анализе социальных сетей. Аналогичные исследования были проведены и для существующих методов и технологий выявления потенциального поведения. Разработаны формальные критерии и методы классификации форм девиантного поведения, основанные на выделенных характерных классах пользователей социальных сетей. Проведено сравнение платформ управления вычислительной инфраструктурой и процессами обработки данных. На основании сравнения был сделан выбор в пользу платформы облачных вычислений второго поколения CLAVIRE и системы хранения больших данных DCStorage.

Практическая значимость исследования
Основным практическим результатом работ является инструментальная платформа, которая позволит обеспечить решения задач по унифицированному сбору данных, обеспечению их обработки, за счет управления предоставляемыми вычислительными ресурсами, и идентификации профиля отдельных пользователей. Предметно-ориентированный язык и распределенный краулер, позволят обеспечить многоступенчатый процесс сбора данных независимо от специфики конкретной социальной сети, а также обеспечит: простоту использования благодаря отсутствию необходимости заботиться о соответствии интерфейсам конкретных социальных сетей; расширение возможностей повторного использования сценариев сбора данных, в том числе при добавлении новой социальной сети – и, таким образом, временных затрат; отсутствие необходимости для пользователя обладать глубокими знаниями в распределенном или сетевом программировании; предоставление возможности задавать с помощью языка описания способы сбора данных: поиск, обход сети (traversing), стриминг (streaming), что позволяет реализовать мониторинг сети, сэмплинг и циклический сбор данных; возможность использования для Интернет-ресурсов, повторяющих структуру какой-либо социальной сети (например, некоторых электронных газет).
На основе данной инструментальной платформы возможна разработка прикладного программного обеспечения для потребителей, деятельность которых непосредственно связана с человеческим капиталом, таких как HR-службы, кадровые агенства и службы безопасности финансовых учреждений.
Постер

14.578.21.0196.ppt