14.576.21.0068
В данной работе предлагается использовать комбинированный метод повышения пертинентности информации, в результате работы которого формируется кортеж рекомендаций (информационное предложение) из следующих информационных единиц (далее - ИЕ):
- ИЕ, полученные по пользователям, похожим на текущего;
- ИЕ, полученные из наиболее часто встречающихся наборов;
- ИЕ, относящиеся к долговременным трендам («топы»);
- ИЕ, относящиеся к кратковременным трендам, актуальным («тренды»).
Первые две ИЕ относятся к восстанавливаемой информационной потребности и предполагаются вносящими наибольший вклад в рекомендованный набор (порядка 60-70%). Третья и четвертая относятся к формируемой информационной потребности и занимают 30-40% от объёма кортежа. К «топовым» информационным единицам можно отнести, те которые наиболее часто ищут или просматривают другие пользователи в течение долгосрочного периода (кварталы и полугодия), кратковременные – те которые являются популярными в течение нескольких дней или недель. Для научных и рекомендательных систем в качестве ИЕ могут выступать статьи, монографии, тезисы докладов, отчёты и т.д. Размер кортежа ограничен девятью ИЕ.
Предлагается следующая система выработки рекомендаций: предобработка данных, кластеризация и классификация пользовательских профилей, выработка информационного предложения. Основными источниками данных о пользователе является как его явный профиль, т.е. персональные данные, которые он указывает в анкете при регистрации на сайте, так и неявный профиль, формируемый на основе лога активности в соответствии с действиями на сайте.
Кластеризация пользовательских профилей проводится по разработанному авторами ансамблю алгоритмов, представляющему собой сочетание последовательных алгоритмов K-средних (евклидово расстояние, манхэттенское расстояние, расстояние Чебышева, коэффициент Жаккара и динамическая трансформация временной шкалы), каждый из которых предлагает свое разбиение на основе изменяющейся метрики, и иерархического агломеративного алгоритма. Затем, рассчитывается точность и вес мнения алгоритма в ансамбле с учетом количества правильно кластеризованных объектов.
Для каждого полученного разбиения составляется предварительная бинарная матрица различий размера nxn, где n-количество объектов, необходимая для определения, занесены ли объекты разбиения в один класс. Затем рассчитывается согласованная матрица различий, каждый элемент которой представляется собой взвешенную сумму элементов предварительных матриц. Полученная матрица используется в качестве входных данных для алгоритма иерархической агломеративной кластеризации. Затем с помощью определения скачка расстояния агломерации выбирается наиболее подходящее кластерное решение.
Дополнительно к кластеризации, которая проводится на основе неявных данных, проводится классификация пользователей по явным данным, которая используется для уточнения похожести пользователей в кластерах.
Кроме рекомендаций, основанных на предпочтениях похожих пользователей, предлагается также рекомендовать ИЕ, входящие вместе в часто встречающиеся наборы. С этой целью были использованы стандартные методы из интеллектуального анализа данных, относящихся к извлечению ассоциативных правил. Ассоциацией в данном контексте является набор объектов (ссылок, статей и т.п.) одновременно просматривавшимися пользователями, с достаточной частотой. Для выделения таких объектов использовался алгоритм FP-дерево, представляющий собой улучшение классического алгоритма Apriori.
В качестве данных для кластеризации и классификации использовались как открытые данные с web-сайта UCI (Machine Learning Repository), так и собранные исходные данные о публикациях по двум российским научным публичным электронным ресурсам – elibrary.ru и cyberleninka.ru, а также тестовые данные индустриального партнёра, размещённые на сайте ito.evnts.pw. Полученные данные (сведения о более чем 500 тыс. статей) специальным образом были предобработаны для выделения основных слов и терминов, относящихся к разработанной онтологической модели. После нормализации слов, часть статей, относящихся к различной тематике, такой как физика, математика, информатика, а также экономика и управление, была размечена с помощью полуавтоматического подхода, включающего метод кластеризации k-means и экспертную оценку. Из обработанных данных для эксперимента была извлечена выборка научных публикаций, объём которой составлял 5000 объектов, в равном количестве для каждого направления.
Предложенный в данном проекте ансамбль алгоритмов кластеризации нивелирует недостатки метрик расстояний для алгоритмов K-средних, тем самым повышая достоверность разбиения. С помощью предложенного ансамбля удалось обеспечить точность не менее 90%, а по каждому параметру не менее 80%.
Эффективность предложенного алгоритмического ансамбля достаточно высока и достигает в наилучшем случае 88% точности. Для формирования обучающей и тестовой выборки, исходная выборка разбивалась в процентном соотношении 70:30. Предложенный подход показал высокую эффективность в смысле точности классификации научного контента.
Для апробации алгоритма автоматического формирования информационного предложения был разработан экспериментальный образец программного комплекса повышения пертинентности информации.
При проведении эксперимента программный комплекс обеспечил обработку 100 000 000 информационных единиц, размером по 1024 байт каждая. Объём хранилища данных для сбора поведенческих данных обеспечил хранение более 10 000 000 000 неявных действий пользователей для не менее 10 000 000 пользователей из расчёта 1 000 действий в среднем на одного пользователя. Показатели производительности метода повышения пертинентности показали устойчивость при нагрузке до 100 000 пользователей в сутки с пиковым показателем до 1 000 пользовательских действий в секунду. Время отклика системы при указанной нагрузке составило не более 0,9 сек.
Развитие рекомендательных систем для BI является весьма перспективным, так как рынок продуктов BI в последние годы растет. Рост выручки крупнейших российских компаний Ай-Теко, РДТЕХ, Прогноз, КРОК, HeliosIT на российском рынке BI в 2013 году по отношению к 2014 составил от 8% до 28% , а в некоторых случаях (Форс, БАРС ГРУП) достиг 60%. Среднегодовой темп роста этого рынка составит 7% в период с 2011 по 2016 годы. К концу 2016 году объем рынка может достигнуть $17,1 млрд.
Развитие нативной и контекстной рекламы является так же весьма перспективное направление использование метода повышения пертинентности информации. В данном случае метод дает улучшенную маскировку рекомендуемого контента среди других материалов, объединяет пертинентные материалы между собой, что приводи к увеличению времени просмотра материалов, которые выводятся в нужном месте и в нужное время. Глобальный рынок нативной рекламы растет, и по оценкам HIS к 2020 году достигнет 53 млрд долларов. По данным американского исследования IPG Media Lab и Sharethrough, в случае с нативной рекламой пользователи гораздо охотнее ассоциируют себя с брендом (+42%), чаще замечают (+52%) и делятся (+68%) сообщением в сравнении с традиционными баннерами.
Перспективно использование предложенного метода и в средствах для нахождения определенного контента (content discovery platforms). Одними из наиболее популярных представителей являются Outbrain и Taboola. Среди клиентов такие компании, как TIME, CNN, Fast Company. По информации от самой компании, этот продукт используется более чем на 35000 сайтов и выдает свыше 250 млрд. рекомендаций и 15 млрд. просмотров страниц в месяц.