Регистрация / Вход
Прислать материал

Исследование алгоритмов кластеризации с целью анализа результатов дистанционного обучения

Сведения об участнике
ФИО
Басалаева Юлия Сергеевна
Вуз
Федеральное государственное бюджетное образовательное учреждение высшего образования «Вологодский государственный университет»
Тезисы (информация о проекте)
Область наук
Информационные технологии и вычислительные системы
Раздел области наук
Информационные технологии
Тема
Исследование алгоритмов кластеризации с целью анализа результатов дистанционного обучения
Резюме
В докладе представлен опыт авторов по аналитической обработке данных, накопленных при многолетней эксплуатации дистанционного практикума в инженерном вузе. Описаны функциональные возможности практикума и характеристики накопленных информационных массивов. Приводится формальная постановка задачи кластеризации студентов, обсуждаются ход и результаты эксперимента.
Ключевые слова
Кластеризация, Data Mining, алгоритмы кластеризации, дистанционное обучение
Цели и задачи
Цель исследования – проанализировать существующие алгоритмы кластеризации и выбрать наиболее подходящие для кластеризации данных проверяющей системы с учетом специфики информации, которая накоплена в базе данных. При этом количество кластеров заранее не известно, множество признаков также может варьироваться в зависимости от цели кластеризации.
Исходя из поставленной цели, в ходе исследования необходимо решить следующие задачи:
1. Исследовать и предварительно выбрать подходящие алгоритмы кластеризации
2. Исследовать и выбрать программный пакет для проведения эксперимента
3. Кластеризовать полученные данные с помощью выбранных алгоритмов и инструмента
4. Проанализировать полученные в ходе эксперимента результаты и выбрать лучший из алгоритмов кластеризации
Введение

В процессе работы студентов с системой дистанционного обучения (СДО) в её базе данных обычно сохраняется вся детальная информация о процессе обучения. Таким образом накапливаются большие информационные массивы, которые могут стать источником новых, полезных для организации учебного процесса знаний в результате их аналитической обработки с применением методов искусственного интеллекта.

Объект исследования —дистанционный практикум, который активно используется преподавателями различных дисциплин («Программирование», «Базы данных» и некоторых других). Практикум размещен на сайте кафедры автоматики и вычисли-тельной техники ВоГУ (http://atpp.vstu.edu.ru) и доступен студентам не только ВоГУ, но и других вузов.

Методы и материалы

К настоящему моменту задача кластеризации студентов решена. Рассмотрим этапы проведенного эксперимента.
Сначала были исследованы существующие алгоритмы кластеризации, исходя из критериев точности кластеризации и времени работы алгоритма. Для анализа были выбраны следующие алгоритмы: COBWED, DBSCAN, XMEANS, EM-алгоритм и алгоритм иерархической кластеризации (агломеративная кластеризация Ланса—Уильямса).
Затем были исследованы существующие программные средства, подходящие для проведения эксперимента. Выбор был сделан в пользу программного пакета WEKA, так как в нем есть все выбранные алгоритмы кластеризации, пакет является свободно распространяемым, имеется техническая документация на русском языке.
Далее выбранные алгоритмы были опробованы на модельных данных, взятых из известного репозитория тестовых данных для задач машинного обучения UCI. Было подобрано пять наборов данных из различных предметных областей с имеющимися результатами кластеризации, поэтому точность алгоритмов можно было оценить.
По результатам кластерного анализа модельных данных были отобраны 3 алгоритма: XMeans, CobWeb и алгоритм иерархической кластеризации. Эти три алгоритма были отобраны для решения задачи кластеризация реальных данных практикума.
Набор данных, подлежащий кластеризации, содержал 4713 строк в соответствии с общим количеством студентов, зарегистрированных в практикуме.

Описание и обсуждение результатов

В процессе эксперимента на реальных данных алгоритм иерархической кластеризации не сумел справиться с задачей, выдав сообщение о нехватке памяти, хотя на модельных данных он показывал неплохие результаты. Возможно, это связано с особенностями его реализации в пакете WEKA.
Алгоритмы XMEANS и COBWEB показали непротиворечивые и интерпретируемые результаты работы, что является косвенным подтверждением правильности выполненной кластеризации [4].
Оба алгоритма выделили в качестве основных признаков, значимых для кластеризации, среднюю экспертную сложность решаемых студентом задач, среднее количество попыток решения задачи и процентное соотношение количества верно решенных задач к общему количеству решаемых задач. При этом алгоритм CodWeb при кластеризации в качестве основного признака использовал сложность решаемых задач, а алгоритм XMEANS, как и в эксперименте на модельных данных, сумел учесть все признаки. В результате
CodWeb выделил четыре кластера:

  • студенты, которые выбирали для решения самые простые задачи (сложностью до 10 баллов); при этом им удалось получить верное решение за 1—3 попытки;
  • студенты, решающие в основном задачи средней сложности (10—50 баллов) за 2—3 попытки;
  • студенты, которым пришлось очень потрудиться для получения верного решения сложных задач, число попыток для решения одной задачи больше десяти, средняя сложность задач от 50 до 150 баллов;
  • студенты, часто выбиравшие очень сложные задачи (в среднем 150 баллов) и не сумевшие их решить.

Алгоритм XMEANS также выделил близкие кластеры, но он сумел выделить 7 кластеров:

  • среди студентов, решавших сложные задачи, был выделен немногочисленный кластер из тех, кому удалось получить верное решение
  • большинства сложных задач с 1—3 попыток;
  • студенты, решавшие простые задачи, также были разбиты на два кластера — те, кто решал большинство задач с первой попытки, и те, кому потребовалось в среднем 2—3 попытки;
  • был выделен отдельный кластер, в который вошли студенты, пока не сумевшие решить ни одной задачи.

Для каждого кластера был получен список студентов, входящих в данный кластер.


Полученные результаты были переданы преподавателям, использующим практикум в учебном процессе. По их отзывам, полученная информация была полезна, поскольку позволила индивидуализировать обучение. Востребованной оказалась и информация о студентах, которые тренировались в процессе подготовки к олимпиадам по программированию, поскольку выяснилось, что некоторые из них набирали рейтинг в практикуме путём решения большого количества несложных задач, а некоторые не доводили решение сложных олимпиадных задач до конца. В результате, тренировки были организованы более рационально.
 

Используемые источники
1. Дюк В.А., Самойленко А.П. Data Mining: учебный курс. СПб.: Питер, 2001. 368с
2. Андрианов И.А., Менухова Н.О. Разработка и особенности использования дистанционного лабораторного практикума по программированию. // Сб. научн. тр. по материалам Междунар. науч.-практ. конф.Тамбов, 2012. С. 10—12.
3. Методы и модели анализа данных: OLAP и Data Mining / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. СПб.: БХВ - Петербург, 2004. 360с.
4. Гитис Л.Х. Статистическая классификация и кластерный анализ. М.: МГГУ, 2003. 157 с.
Information about the project
Surname Name
Basalaeva Yuliya Sergeevna
Project title
The research of clustering algorithms to analyze the results of distant learning
Summary of the project
The report presents the authors’ experience of analytical processing of data accumulated during longlasting exploitation of the remote training system in the engineering university. It also describes the functionality of the training system and characteristics of the accumulated information arrays. Formal statement of the problem of clustering of students is provided in this article, the progress and results of the
experiment are discussed as well
Keywords
Clustering, Data Mining, clustering algorithms, distant learning