Регистрация / Вход
Прислать материал

Методика кластеризации целевых показателей документов стратегического планирования в Российской Федерации

Фамилия
Юбин
Имя
Никита
Отчество
Владиславович
Номинация
Информационные технологии
Институт
Институт информационных бизнес систем (ИИБС)
Кафедра
Базовая кафедра "Информационные бизнес системы" (ИБС)
Академическая группа
МИС-15-2
Научный руководитель
к.т.н., доц. Бабешко Владимир Николаевич
Название тезиса
Методика кластеризации целевых показателей документов стратегического планирования в Российской Федерации
Тезис

Достаточно распространенной формой представления информации об объекте является набор кратких текстовых наименований характеристик (целевых показателей) и их числовых значений. Для первичного понимания подобного рода объектов необходимо установить связь между показателями, выяснить тематическую принадлежность  показателей. После этого можно переходить к фазе анализа данных показателей. Одним из таких объектов является набор целевых показателей системы стратегического планирования Российской Федерации.

Документы стратегического планирования это открытые данные, каждый документ содержит набор целевых показателей  и их плановые значения. На данный момент количество целевых показателей составляет около 205 тысяч. В работе при кластеризации будут выбраны целевые показатели, относящиеся только к одной тематической группе, к группе «Образование». Данный подход позволит провести ряд экспериментов на маленькой выборке (пробовать разнообразные варианты и не тратить на проверку много времени), при этом будет разработана определённая методика, применимая для всей выборки сразу.

Цель работы – повысить взаимосвязанность целевых показателей документов стратегического планирования, тем самым повысив детализацию отнесения показателей к различным группам(далее кластерам).

В результате работы была разработана методика по кластеризации показателей. С помощью языка программирования Python, были применены пакеты nltk и pymorphy2 для лемматизации и токенизации показателей. После были удалены все стоп слова, не несущие смыслового значения. Затем с помощью сервиса RusVectores, была рассчитана метрика близости слов показателей от [-1;1], который позволяет получать число в диапазоне от -1 до 1 показывающее коэффициент корреляции между векторами, которые были сопоставлены словам. С помощью программного средства Gephy был построен граф, визуализирующий кластера показателей, построена иерархия метрики словоформ показателей. После перехода от словоформ обратно к показателям получили кластера расположенные в иерархической структуре. таким образом получили реестр показателей в котором аналитик может сравнивать целевые показатели на разных уровнях власти, либо иметь доступ к кластеру целевых показателей, имеющих схожее смысловое значение.