Регистрация / Вход
Прислать материал

14.576.21.0068

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.576.21.0068
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
Общество с ограниченной ответственностью "Социальные конференционные технологии"
Название доклада
Разработка метода и программно-технических решений повышения пертинентности информации в научных и аналитических рекомендательных системах
Докладчик
Гусева Анна Ивановна
Тезисы доклада
Цели и задачи исследования
Целью данного проекта является разработка метода повышения пертинентности информации, т.е. удовлетворенности пользователя от информационного предложения, сформированного в результате его запроса к научной или аналитической системе. Информационное предложение формируется на основе анализа поведения пользователя в информационной системе или анализа свойств запрашиваемого информационного объекта, т.е. неявного профиля пользователя.
Актуальность и новизна исследования
За последнее десятилетие особенное развитие получили информационные системы и базы данных, использующиеся для каталогизации и систематизации разного рода фактов и знаний, чаще всего в виде статей или иных форм публикаций. Например, в системе ScienceDirect содержится более 12 миллионов статей и рефератов, а в целом в мире ежегодно создается более миллиона научных публикаций. Таким образом, к настоящему моменту накоплен значительный объём информации, которая, однако, остаётся малодоступной для практического использования. Основным препятствием чаще всего служит низкое качество информационной поисковой системы, не позволяющей исследователю получать интересующие его сведения. Одним из показателей качества поиска является пертинентность, которой разработчики электронных каталогов, агрегаторов и аналитических систем не уделяют достаточного внимания, сосредотачиваясь на релевантности. Это приводит к тому, что исследование новых для пользователя предметных областей, с уникальными онтологиями терминов, жаргонных слов и выражений становится затруднительным. Данное исследование направлено на разработку новых методов и алгоритмов поиска и построения рекомендаций, основанных на одновременном использовании кластеризационных, классификационных методов, а также методов выделения ассоциативных правил. С этой целью были созданы уникальные комитеты алгоритмов, позволяющие формировать рекомендации из нескольких частей, учитывающие поведение пользователя, фиксируемое используемой им аналитической научной системой в неявной форме.
Описание исследования

В данной работе предлагается использовать комбинированный метод повышения пертинентности информации, в результате работы которого формируется кортеж рекомендаций (информационное предложение) из следующих информационных единиц (далее - ИЕ):

  1. ИЕ, полученные по пользователям, похожим на текущего;
  2. ИЕ, полученные из наиболее часто встречающихся наборов;
  3. ИЕ, относящиеся к долговременным трендам («топы»);
  4. ИЕ, относящиеся к кратковременным трендам, актуальным («тренды»).

Первые две ИЕ относятся к восстанавливаемой информационной потребности и предполагаются вносящими наибольший вклад в рекомендованный набор (порядка 60-70%). Третья и четвертая относятся к формируемой информационной потребности и занимают 30-40% от объёма кортежа.  К «топовым» информационным единицам можно отнести, те которые наиболее часто ищут или просматривают другие пользователи в течение долгосрочного периода (кварталы и полугодия), кратковременные – те которые являются популярными в течение нескольких дней или недель. Для научных и рекомендательных систем в качестве ИЕ могут выступать статьи, монографии, тезисы докладов, отчёты и т.д. Размер кортежа ограничен девятью ИЕ.

Предлагается следующая система выработки рекомендаций: предобработка данных, кластеризация и классификация пользовательских профилей, выработка информационного предложения. Основными источниками данных о пользователе является как его явный профиль, т.е. персональные данные, которые он указывает в анкете при регистрации на сайте, так и неявный профиль, формируемый на основе лога активности в соответствии с действиями на сайте.

Кластеризация пользовательских профилей проводится по разработанному авторами ансамблю алгоритмов, представляющему собой сочетание последовательных алгоритмов K-средних (евклидово расстояние, манхэттенское расстояние, расстояние Чебышева, коэффициент Жаккара и динамическая трансформация временной шкалы), каждый из которых предлагает свое разбиение на основе изменяющейся метрики, и иерархического агломеративного алгоритма. Затем, рассчитывается точность и вес мнения алгоритма в ансамбле с учетом количества правильно кластеризованных объектов.

Для каждого полученного разбиения составляется предварительная бинарная матрица различий размера nxn, где n-количество объектов, необходимая для определения, занесены ли объекты разбиения в один класс. Затем рассчитывается согласованная матрица различий, каждый элемент которой представляется собой взвешенную  сумму элементов предварительных матриц. Полученная матрица используется в качестве входных данных для алгоритма иерархической агломеративной кластеризации. Затем с помощью определения скачка расстояния агломерации выбирается наиболее подходящее кластерное решение. 

Дополнительно к кластеризации, которая проводится на основе неявных данных, проводится классификация пользователей по явным данным, которая используется для уточнения похожести пользователей в кластерах.

Кроме рекомендаций, основанных на предпочтениях похожих пользователей, предлагается также рекомендовать ИЕ, входящие вместе в часто встречающиеся наборы. С этой целью были использованы стандартные методы из интеллектуального анализа данных, относящихся к извлечению ассоциативных правил. Ассоциацией в данном контексте является набор объектов (ссылок, статей и т.п.) одновременно просматривавшимися пользователями, с достаточной частотой. Для выделения таких объектов использовался алгоритм FP-дерево, представляющий собой улучшение классического алгоритма Apriori.

Результаты исследования

В качестве данных для кластеризации и классификации использовались как открытые данные с web-сайта UCI (Machine Learning Repository), так и собранные исходные данные о публикациях по двум российским научным публичным электронным ресурсам – elibrary.ru и cyberleninka.ru, а также тестовые данные индустриального партнёра, размещённые на сайте ito.evnts.pw. Полученные данные (сведения о более чем 500 тыс. статей) специальным образом были предобработаны для выделения основных слов и терминов, относящихся к разработанной онтологической модели. После нормализации слов, часть статей, относящихся к различной тематике, такой как физика, математика, информатика, а также экономика и управление, была размечена с помощью полуавтоматического подхода, включающего метод кластеризации k-means и экспертную оценку. Из обработанных данных для эксперимента была извлечена выборка научных публикаций, объём которой составлял 5000 объектов, в равном количестве для каждого направления.

Предложенный в данном проекте ансамбль алгоритмов кластеризации нивелирует недостатки метрик расстояний для алгоритмов K-средних, тем самым повышая достоверность разбиения. С помощью предложенного ансамбля удалось обеспечить точность не менее 90%, а по каждому параметру не менее 80%.

Эффективность предложенного алгоритмического ансамбля достаточно высока и достигает в наилучшем случае 88% точности. Для формирования обучающей и тестовой выборки, исходная выборка разбивалась в процентном соотношении 70:30. Предложенный подход показал высокую эффективность в смысле точности классификации научного контента.

Для апробации алгоритма автоматического формирования информационного предложения был разработан экспериментальный образец программного комплекса повышения пертинентности информации.

При проведении эксперимента программный комплекс обеспечил обработку 100 000 000 информационных единиц, размером по 1024 байт каждая. Объём хранилища данных для сбора поведенческих данных обеспечил хранение более 10 000 000 000 неявных действий пользователей для не менее 10 000 000 пользователей из расчёта 1 000 действий в среднем на одного пользователя. Показатели производительности метода повышения пертинентности показали устойчивость  при нагрузке до 100 000 пользователей в сутки с пиковым показателем до 1 000 пользовательских действий в секунду. Время отклика системы  при указанной нагрузке составило не более 0,9 сек.

Практическая значимость исследования
В качестве основных потенциальных областей для внедрения предложенного метода повышения пертинентности и программно-технического решения рассматриваются следующие: научные рекомендательные системы, научные информационные системы, аналитические рекомендательные системы, системы Business Intelligence (BI), системы управления контентом для нативной рекламы, системы для нахождения контента в сети интернет. Потенциальными потребителями рекомендательных систем являются транснациональные корпорации и крупные промышленные предприятия, научные организации, СМИ и новостные агентства.
Развитие рекомендательных систем для BI является весьма перспективным, так как рынок продуктов BI в последние годы растет. Рост выручки крупнейших российских компаний Ай-Теко, РДТЕХ, Прогноз, КРОК, HeliosIT на российском рынке BI в 2013 году по отношению к 2014 составил от 8% до 28% , а в некоторых случаях (Форс, БАРС ГРУП) достиг 60%. Среднегодовой темп роста этого рынка составит 7% в период с 2011 по 2016 годы. К концу 2016 году объем рынка может достигнуть $17,1 млрд.
Развитие нативной и контекстной рекламы является так же весьма перспективное направление использование метода повышения пертинентности информации. В данном случае метод дает улучшенную маскировку рекомендуемого контента среди других материалов, объединяет пертинентные материалы между собой, что приводи к увеличению времени просмотра материалов, которые выводятся в нужном месте и в нужное время. Глобальный рынок нативной рекламы растет, и по оценкам HIS к 2020 году достигнет 53 млрд долларов. По данным американского исследования IPG Media Lab и Sharethrough, в случае с нативной рекламой пользователи гораздо охотнее ассоциируют себя с брендом (+42%), чаще замечают (+52%) и делятся (+68%) сообщением в сравнении с традиционными баннерами.
Перспективно использование предложенного метода и в средствах для нахождения определенного контента (content discovery platforms). Одними из наиболее популярных представителей являются Outbrain и Taboola. Среди клиентов такие компании, как TIME, CNN, Fast Company. По информации от самой компании, этот продукт используется более чем на 35000 сайтов и выдает свыше 250 млрд. рекомендаций и 15 млрд. просмотров страниц в месяц.
Постер

Poster_2016_ESP.ppt