Регистрация / Вход
Прислать материал

Прогнозная модель текучести персонала для HR-подразделения крупной компании FMCG сегмента

Фамилия
Бабчик
Имя
Максим
Отчество
Владимирович
Номинация
Информационные технологии
Институт
Институт информационных бизнес систем (ИИБС)
Кафедра
Базовая кафедра "Информационные бизнес системы" (ИБС)
Академическая группа
МИС-15-2
Научный руководитель
к.т.н., доц. Белов А.В.
Название тезиса
Прогнозная модель текучести персонала для HR-подразделения крупной компании FMCG сегмента
Тезис

Стремительное развитие информационных технологий, в том числе, прогресс в методах сбора, хранения и обработки данных позволил многим предприятиям собирать огромные массивы данных. В частности, многие компании имеют большое количество разнообразных HR-данных о своих сотрудниках. При этом, большая часть этой информации в настоящее время никак не используется. В настоящее время, неустойчивость развития компании напрямую проявляется в росте текучести персонала. При этом, увольнение сотрудников с их последующей заменой является весьма дорогостоящим мероприятием. Способность предприятия регулировать уровень текучести персонала становится одним из факторов, определяющим стратегический успех, устойчивость и стабильность развития компании. Особенно остро эта проблема стоит перед крупными предприятиями с большим количеством сотрудников.

Целью данной работы является построение прогнозной модели текучести персонала на основе имеющихся в компании HR-данных. Модель включает в себя более 2000 регрессоров (\(p\)). Процедура расчета предусматривает следующие шаги:

  • В самом начале определяются параметры модели: количество факторов для перебора (\(q\)), частота выбора фактора (\(\pi \)) и ожидаемое количество ошибок в рассматриваемом семействе тестов \(E(V)\).

где \(E(V) < {q^2 \over (2\pi-1)p}\)

  • Случайным образом выбирается q регрессоров из общего числа. При помощи алгоритма бустинга проводится расчет модели с учетом контроля параметра \(E(V)\). Бустинг применяется над решающими деревьями, либо регрессионной моделью. На выходе алгоритма остаются наиболее значимые факторы. Алгоритм повторяется заданное число раз.
  • Рассчитывается частота выпадания каждого фактора при проведенном семействе тестов и отбираются факторы, превышающие заданный уровень \(\pi \).
  • На основе оставшихся факторов проводится расчет модели логистической регрессии с регуляризацией ElasticNet (\(\alpha\) = 0.9).

\(\min_{\beta_0,\beta} \frac{1}{N} \sum_{i=1}^{N} w_i l(y_i,\beta_0+\beta^T x_i) + \lambda\left[(1-\alpha)||\beta||_2^2/2 + \alpha ||\beta||_1\right]\)

  • Для определения оптимальных значений настроечного параметра \(\lambda\) модели используется метод кросс-валидации. В качестве оптимального параметра λ выбирается значение, минимизирующее среднее стандартное отклонение.