Регистрация / Вход
Прислать материал

Разработка методики и прикладного программного обеспечения для обработки массивов больших данных с целью предоставления актуальной и релевантной информации для поддержки управленческих решений в высокотехнологичных отраслях экономики, за счет использования инструментов обработки естественного языка и машинного обучения

Докладчик: Шашев Сергей Александрович

Должность: руководитель проектов

Цель проекта:
1 Разработка поисковой системы для поиска наиболее компетентного сотрудника в определенной области профессиональной деятельности по слабоструктурированному или неструктурированному текстовому запросу на основе созданного сотрудниками контента 2 Разработка рекомендательной контентной системы для предоставления сотрудникам информации, релевантной их профессиональной деятельности 3 Разработка поисковой системы для поиска сотрудников, схожих по профессиональным интересам на основе создаваемого сотрудниками контента

Основные планируемые результаты проекта:
Технологические решения в области автоматического поиска и оценки компетенций и профессиональных и интересов сотрудников на основе созданного ими контента носят комплексный характер, поэтому для достижения целей необходимо решить ряд научно-технических задач:
1. Разработка модели оценки компетенций сотрудника на основании анализа неструктурированной информации, связанной с ним.
Решение задачи позволит выявить квалификации и оценить их. В отличие от существующих подходов (анкеты, собеседования, проведение сертификаций), данный подход должен значительно уменьшить возможность фальсификации квалификаций и расширить знания о корреляции между создаваемым сотрудниками контентом и их реальными квалификациями.
2. Разработка инструментов сбора данных с использованием технологий формализации и извлечения знаний из слабоструктурированной информации в сети и хранилищах данных предприятия:
Подобные инструменты сбора данных давно существуют и развиваются быстрыми темпами (парсеры, грабберы, краулеры и т.д.). При этом повсеместно встает проблема сбора этой информации в автоматическом режиме. Однако полностью автоматические методы извлечения информации далеко не всегда могут обеспечить необходимую полноту и точность результата. В контексте сбора данных необходимо собирать только информацию, которая прямо касается потенциальных квалификаций, компетенций и профессиональных интересов, т.е. управлять извлечением слабоструктурированных данных. Для решения задачи необходимо задать примеры интересующей информации, представив их в виде текста. Разработанные инструменты позволят автоматически строить шаблоны специального вида для поиска такой же информации во всех хранилищах и сети предприятия. Благодаря такому подходу, может быть извлечена значимая информация о квалификациях, компетенциях и профессиональных интересах сотрудников.
3. Разработка средств анализа данных, базирующихся на композитных методах содержательного анализа слабоструктурированных массивов информации на основе лингвистических техник извлечения сведений (Natural Language Processing) и современных методов машинного обучения.
Область анализа данных, связанная с извлечением качественных знаний о компетенциях и профессиональных интересах сотрудников, является трудной для анализа, поскольку, данные могут быть представлены и количественно, и качественно. Формализация модели оценки компетенций и профессиональных интересов (выявление основных факторов, связей между ними) должна происходить в тесном контакте с экспертами при помощи компьютерной поддержки.
Современные системы, предназначенные для работы со слабоструктурированной информацией, должны включать различные методы анализа, оценки и выработки решений, развитый пользовательский интерфейс, средства редактирования и настройки баз знаний. Также должна быть представлена визуализация всего процесса принятия решения, анализа результатов, их интерпретации и объяснения. Архитектуры систем, удовлетворяющих указанным требованиям, в настоящее время находятся на этапе бурного развития, т.к. применение подобных систем открывает более широкие аналитические возможности для исследования сложных предметных областей. Поэтому тематика данной работы, является актуальной.
4. Разработка рекомендательной контентной системы и решение задачи коллаборативной фильтрации
Для создания рекомендательной контентной системы необходимо решить задачу коллаборативной фильтрации (метод построения прогнозов, использующий известные предпочтения группы пользователей для прогнозирования неизвестных предпочтений другого пользователя). Существует два основных метода коллаборативной фильтрации:
а) Подход, основанный на модели. Для воплощения данного метода измеряются параметры статистических моделей для предпочтений пользователей, построенные с помощью алгоритмов кластеризации и тематического моделирования создаваемого контента (например, LSA (Latent Semantic Indexing) или LDA (Latent Dirichlet Allocation))
б) Подход, основанный на соседстве. В данном подходе для активного пользователя подбирается подгруппа сотрудников, схожих с ним по профессиональным интересам. Комбинация предпочитаемых в подгруппе типов и тематик контента используется для прогноза оценок активного пользователя
Наиболее вероятным методом решения представляется гибридный подход, объединяющий подход, основанный на соседстве и подход, основанный на модели.
В результате решения задачи коллаборативной фильтрации будет создана рекомендательная система, на основании создаваемого пользователем контента определяющая его профессиональные интересы и предлагающая ему контент, созданный другими сотрудниками, который может его заинтересовать.
5. Разработка прототипа комплексной информационной системы, включающего в себя следующие функции:
• Автоматизированный сбор и анализ создаваемого сотрудниками контента с использованием технологий формализации и извлечения знаний из слабоструктурированной информации в сети и хранилищах данных предприятия;
• Автоматическая оценка компетенции и квалификации сотрудника на основании анализа неструктурированной информации, созданной им;
• Рекомендательная контентная система для предоставления сотрудникам информации, релевантной их профессиональной деятельности
• Информационный поиск сотрудников по заданным критериям квалификаций и компетенций;
• Автоматический информационный поиск сотрудников по схожим с пользователем профессиональным интересам;

Назначение и область применения, эффекты от внедрения результатов проекта:
Разрабатываемая комплексная информационная система может найти свое применение в сфере малого, среднего и крупного бизнеса в качестве решения следующих задач:
1. Поддержка развития квалификации и компетенции сотрудников за счет увеличения количества доступной и релевантной их профессиональным интересам информации
2. Снижение текучести кадров и повышение производительности труда за счет своевременного выявления наиболее компетентных в определенных областях профессиональной деятельности сотрудников и выдвижения их на более актуальные должности
3. Увеличение количества и качества профессиональных контактов сотрудников разных отделов за счет выявления сотрудников, схожих по профессиональным интересам

Текущие результаты проекта:
1.В ыполнен аналитический обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках ПРИЭР, за период с 2002 по 2014 года, в том числе:
1.1 Аналитический обзор существующих подходов, методов и алгоритмов определения компетенции персоны на основании анализа неструктурированной информации, созданной персоной (контент);
1.2 Аналитический обзор существующих подходов, методов и алгоритмов извлечения данных из слабоструктурированных массивов информации;
1.3 Аналитический обзор существующих подходов, методов и алгоритмов создания рекомендательных систем

2 Выбраны направления и методика экспериментальных исследований, подходы, методы и алгоритмы решения поставленных задач и проведение их сравнительной оценки, в том числе:
2.1 Разработка направлений реализации функций прототипа ПрК;
2.2 Разработка программной архитектуры прототипа ПрК.