Регистрация / Вход
Прислать материал

Методы восстановления пропущенных значений в таблицах, составленных на основе социологических опросов

ФИО: Гагарина Е. П.

Направление: Информационные технологии

Научный руководитель: доц. Широков А.И.

Институт: Институт информационных технологий и автоматизированных систем управления

Кафедра: Кафедра Инженерной кибернетики

Академическая группа: ММ-11-1

Научная работа посвящена разработке и программной реализация методов для восстановления пропущенных данных в таблицах с оценкой качества прогноза.

Проблема пропущенных значений весьма актуальна во многих сферах нашей жизни, к примеру, в социологии. Причин, по которым может возникнуть неполнота данных при опросе, достаточно много, к примеру: невнимательность респондента, ошибки в анкете и т.д. В результате еще на этапе анализа мы имеем неполный массив. Данную проблему исследователи решают по-разному. Некоторые просто исключают из рассмотрения наблюдения с пропущенными данными. Другие подходят к решению проблемы пропущенных данных более рационально. Они стремятся на этапе первичной обработки заполнить пропуски в уже имеющихся данных, для того чтобы восстановить исходную зависимость. Сегодня создано множество методов восстановления пропусков, однако единая методология обработки подобных данных отсутствует, несмотря на ее необходимость.

В процессе выполнения работы были рассмотрены и проанализированы известные методы восстановления данных. В результате анализа были выбраны некоторые, а именно:

• Hot Deck используется в одномоментных исследованиях, и представляет собой подстановку вместо пропуска значения по данной переменной у наиболее близкого объекта с полной информацией.

• Алгоритм Zet. Суть заключается в подборе для каждого пропуска импутируемого значения не из всей совокупности полных наблюдений, а из некоторой ее части, называемой компонентной матрицей.

• Resampling. В итеративном алгоритме строки, содержащие пропущенные данные заменяют случайно подобранными строками из матрицы полных наблюдений.

В работе будут реализованы методы и проведена оценка точности восстановленных данных. Лучшим будет считаться метод, который даст наименьшую ошибку. Для реализации будет использоваться Microsoft Visual Studio.