Регистрация / Вход
Прислать материал

Масштабируемое программное средство индексации социальных сетей

Сведения об участнике
ФИО
Дорофеев Андрей Валерьевич
Вуз
Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский университет «Московский институт электронной техники»
Тезисы (информация о проекте)
Область наук
Информационные технологии и вычислительные системы
Раздел области наук
Информационные технологии
Тема
Масштабируемое программное средство индексации социальных сетей
Резюме
Результатом данной работы стала разработка рабочей версии программного средства индексации пользователей социальной сети. Все поставленные цели и задачи были выполнены. Программное средство предназначено для сбора, обработки и транспортировки с целью хранения данных в СУБД. Разработанное программное средство позволяет эффективно получать данные из социальной сети ВКонтакте, преобразовывать их для дальнейшей обработки и отправлять для хранения в СУБД MongoDB.
Ключевые слова
нереляционные базы данных, горизонтальное масштабирование, индексация, обработка данных
Цели и задачи
Целью разработки является индексация пользователей социальной сети Вконтакте за счет создания программного средства , включающего в себя инструменты хранения и поддержания актуальности накапливаемых данных.
Основные задачи:
исследование инструментов хранения больших объемов информации с высокой скоростью обработки операций
разработка адаптивного алгоритма формирования данных для системы индексирования информации о пользователях социальной сети и выполнения запросов к базе данных, включающего сбор аналитической информации
Введение

В мире суще­ствуют исследования, которые изучают зависимость поведения людей от различных событий, их удаленности от привычной среды обитания и т.д. Эти исследования помогают, как частным компаниям для изуче­ния рынка, так и государствам для таких целей как предотвращение преступлений, профилактика нарушений и мониторинг общественных настроений. В России данное направление не развито. Анализ в реальном времени про­водят лишь компании, которые ставят перед собой маркетинговые цели. Актуальность заключается в потребно­сти в надежном и быстром инструменте индексации пользователей соци­альных сетей, обеспечивающий возможность анализировать события об­суждаемые в социальных сетях в режиме реального времени.

 

Методы и материалы

Современные технологии хранения данных обеспечили практическую возможность накопления огромных массивов информации, что позволило качественно изменить отношение к результатам анализа хранимой информации. Методики поддержания целостности данных реляционных БД требуют дополнительных временных ресурсов, что при значительных объемах и слабой структурированности данных делает использование реляционных баз данных затруднительным в системах реального времени. Было принято решение использовать нереляционные базы данных, а именно СУБД MongoDB, выбор которой  обусловлен высоким уровнем технической поддержки, открытым исходным кодом, широким спектром API, активным сообществом разработчиков, поддерживаемых крупнейшими компаниями.

Для извлечения данных, социальными сетями разработаны веб API, которые определяют интерфейс взаимодействия между социальной сетью и приложениями, которые запрашивают данные. Исследования показали, что большинство социальных сетей прибегают к ограничению трафика во время активного использования одним IP ее публичного API. Для обхода этого ограничения в рамках разработки было применено горизонтальное масштабирование. Выбор данного метода обусловлен высокой степенью надежности, достигаемого за счет использования нескольких независимых вычислительных узлов, выход любого из которых не ведет к недееспособности системы в целом, а также возможность минимизировать влияние сторонних сервисов на итоговый продукт.

 

Описание и обсуждение результатов

Продукт предназначен для сбора, обработки и транспортировки с целью хранения данных в нереляционной базе данных. Программный модуль позволяет эффективно получать данные из социальной сети, преобразовывать их для дальнейшей обработки и  отправлять для хранения в СУБД MongoDB.

 

После создания данного ПО стало возможным хранить большое количество данных, поддерживать их актуальность, регулировать скорость извлечения и обновления данных, а также регулировать стоимость данных операций в зависимости от целей конечного пользователя.

Премущества:

  1. Разработанное ПО предполагает возможность установки как на сервера пользователя, так и с использованием облачных технологий;

  2. Из собранных данных стало возможным получать выборки, отфильтрованные по городам, регионам, социальным слоям для дальнейшей их обработки;

  3. Выбранная СУБД имеет встроенную возможность кластеризации узлов с использованием сервера распределения нагрузки и рабочих узлов - шардов;

  4. Пользователь сам решает, каким образом будут храниться собранные данные, что обеспечивает свободу действий над ними и независимость от таких факторов, как географическое расположение;

  5. Все данные хранятся в легко считываемом формате JSON, что позволяет легко разработать средства работы с ними.

 

Идеи для дополнительных бизнес услуг:

  1. создание резервных копий данных;

  2. разграничение прав доступа;

  3. приоритетная служба поддержки;

  4. шифрование хранимых данных.

Используемые источники
Гагарина Л. Г., Румянцева Е. Л., Ен Тве Характеристики распределенных систем и их классификация // “Оборонный комплекс – научно-техническому прогрессу России” (ОКНТПР). 2007. №4. С. 34-36.
ГАГАРИНА Л.Г., КОТОВ К.С. СИСТЕМНЫЙ ПОДХОД К ПОСТРОЕНИЮ ПРОГРАММНЫХ КОМПЛЕКСОВ ДЛЯ РАСПРЕДЕЛЕННЫХ ВЫЧИСЛЕНИЙ. ЧАСТЬ I // ОБОРОННЫЙ КОМПЛЕКС - НАУЧНО-ТЕХНИЧЕСКОМУ ПРОГРЕССУ РОССИИ . 2008. №4. С. 64-73.
Федоров А.Р, Васильчук К.С., Дорофеев А.В. Создание масштабируемых средств для решения задач анализа больших объемов данных на основе системы управления базы данных MongoDB // Вестник Поволжского государственного технологического университета. Серия: Радиотехнические и инфокоммуникационные системы. - 2016. - №29(1). - с55-63 (ВАК).
Information about the project
Surname Name
Dorofeev Andrew
Project title
Scalable software tool for indexing of social networks
Summary of the project
As a result of this work, the release version of the indexation of users of social network tool has been developed. All goals and objectives have been achived. The software is designed for collecting, processing, and transportation for the purpose of storing data in the database. The developed software tool can effectively retrieve data from the social network VKontakte, convert them for further processing and sent for storage in the database MongoDB.
Keywords
NoSQL databases, scaling, indexing, data processing