Регистрация / Вход
Прислать материал

Основные подходы к анализу больших данных

ФИО
Воинов Никита Владимирович
Surname Name
Voinov Nikita
Организация
Санкт-Петербургский политехнический университет Петра Великого
Область наук
Информационные технологии и вычислительные системы
Название доклада
Основные подходы к анализу больших данных
Project title
Main objectives of Big Data analytics
Резюме
Объем данных, генерируемый в современном мире, уже привычно измеряется петабайтами, что приводит к проблеме больших данных или Big Data. Технологии работы с большими данными находятся в состоянии непрерывного развития, что позволяет в режиме реального времени наблюдать за процессом их внедрения и совершенствования. В ходе доклада будет более подробно рассмотрена проблема больших данных, а также основные техники и технологии по их анализу.
Ключевые слова
Большие данные, анализ данных, распределенные вычисления, кластеризация
Тезисы

Big Data – комплексный набор методов обработки структурированных и неструктурированных данных колоссальных объемов. Целью подхода при обработке больших данных является максимально быстрое и рациональное использование информации во всех ее видах и проявлениях в условиях ее постоянного изменения и прироста в больших объемах. Другими словами, под терминами "Big Data", "большие данные" или просто "биг дата" скрывается огромный набор информации. Причем объем столь велик, что обработка стандартными программными и аппаратными средствами представляется крайне сложной. Big Data – это проблема хранения и обработки гигантских объемов данных.

По прогнозам, количество данных на планете будет удваиваться каждые два года вплоть до 2020 года. А за период между 2013 и 2020 годами количество информации увеличится десятикратно — с 4,4 трлн гигабайт до 44 трлн. При этом значительная часть произведенных к настоящему моменту данных ни разу не была исследована с помощью специализированных аналитических инструментов. По оценкам IDC, к 2020 году только 35% данных будет содержать ценную для анализа информацию.

Одной из причин появления больших данных являются достижения в области мобильных устройств: цифровое видео, фотографии, аудио, а также современные системы электронной почты и обмена текстовыми сообщениями. Пользователи получают данные в количествах, которые нельзя было представить десять лет назад; при этом появляются новые приложения, такие как Google Translate, предоставляющие функции сервера больших данных – перевод произнесенных или введенных с мобильных устройств фраз.

Описывая специфику больших данных, первым делом упоминают 3V: "volume, variety and velocity" или объем, разнообразие и скорость. Объем подразумевает не только большое количество хранимой информации, но и ее дополнение, рост, изменение с течением времени. Разнообразие типов и источников информации всегда было большой проблемой, когда появлялась необходимость свести их в один массив данных. Сегодня это разнообразие только увеличивается. Скорость оценивается как при создании информации, так и при ее обработке.

Существует и разрабатывается множество техник анализа больших кластеров информации. Можно выделить слияние и интеграцию данных (data fusion and data integration), интеллектуальный анализ данных (data mining), машинное обучение (machine learning), управление базами данных (database management), ассоциативное обучение (association rule learning), кластерный анализ (cluster analysis), генетические алгоритмы (Genetic algorithms) и др.

Технологии анализа, в силу перспективности развития этого направления и большой коммерческой отдачи, также широко представлены, и их число продолжает расти. Среди самых известных - Business intelligence (BI), Extract, transform, and load (ETL), Hadoop.

Большинство программных продуктов в области Big Data являются свободными. Традиционные поставщики решений для хранения и обработки данных, такие как IBM и EMC, внимательно относятся к новым разработкам в этой области и стараются использовать их в своих продуктах совместно с собственными технологиями.

Summary of the project
Petabytes of data are generated in modern world which arises the Big Data problem. Technologies of Big Data analytics are being constantly improved so we can witness their modernization. The report will consider the Big Data problem in more details as well as main techniques and solutions applied for Big Data analytics.
Keywords
Big Data, data mining, distributed calculations, clusterization