Регистрация / Вход
Прислать материал

Метод оценки надежности исправления поисковых запросов

Сведения об участнике
ФИО
Ильвохин Дмитрий Евгеньевич
Вуз
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования национальный исследовательский университет «Московский авиационный институт»
Тезисы (информация о проекте)
Область наук
Информационные технологии и вычислительные системы
Раздел области наук
Информатика
Тема
Метод оценки надежности исправления поисковых запросов
Резюме
В работе описывается задача определения надежности исправлений поисковых запросов и метод ее решения с помощью бинарного классификатора, построенного на основе модели машинного обучения.
Целью работы является улучшение качества системы исправления опечаток в поисковых запросах.
В результате выполнения работы разработанный метод был внедрен в существующую систему исправления опечаток Поиска Mail.Ru.
Ключевые слова
информационный поиск, исправление ошибок в поисковых запросах, автоматическое исправление ошибок, машинное обучение, бинарная классификация, небрежные регрессионные деревья, градиентный бустинг на регрессионных деревьях
Цели и задачи
Целью работы является улучшение качества системы исправления опечаток в поисковых запросах.
Введение

Для поиска информации в интернете используются поисковые системы, которые формируют страницу результатов по запросу, введенному пользователем. Однако, около 10% запросов к поисковой системе содержат ошибки. Как правило, поисковая выдача по запросам с ошибками является нерелевантной. Для борьбы с подобными выдачами используются системы исправления ошибок в поисковых запросах, которые генерируют предполагаемого кандидата для исправления пользовательского запроса. Имея кандидата для исправления запроса, системе исправления ошибок нужно решить документы по какому запросу (оригинальному или исправленному) показать пользователю.

Методы и материалы

Метод основан на построении и использовании модели машинного обучения для решения задачи бинарной классификации. Для построения модели машинного обучения использовался алгоритм градиентного бустинга [1] над небрежными деревьями (англ. gradient boosting oblivious trees [2]).

Описание и обсуждение результатов

При выполнении работы был разработан бинарный классификатор на основе модели машинного обучения, разделяющий исправления поискового опечаточника на два типа: надежные исправления (автоисправления) и ненадежные исправления (подсказки). Точность автоисправлений всей системы увеличилась на 8.8% при небольшом снижении полноты на 2.9%. В ходе разработки качество модели машинного обучения было улучшено на 3.8% по сбалансированной F-мере по сравнению с базовой версией модели. Качество системы для исправления опечаток улучшено на 2%. Метод оценки надежности исправлений поисковых запросов разработан и внедрен в Поиск Mail.Ru.

Несмотря на положительные результаты, описанные в работе, можно продолжать исследования, нацеленные на повышение качества метода. Перспективными кажутся работы, направленные на добавление новых признаков, например, «словарных», сигнализирующих о присутствии запроса и исправления в доверенных словарных источниках, и использование информации о схожести словарных контекстов оригинального слова и его исправления для повышения точности.

Используемые источники
1. Friedman J. Greedy function approximation: a gradient boosting machine // Annals of statistics, 2001, P. 1189–1232.
2. Gulin A. Matrixnet // Technical report, http://www.ashmanov. com/arc/searchconf2010/08gulin-searchconf2010.ppt, 2010, P.17.
Information about the project
Surname Name
Ilvokhin Dima
Project title
Method of reliability evaluation of search queries corrections
Summary of the project
Paper describes problem of reliability evaluation of search queries corrections and method of solving that problem with binary classifier.
The goal of that work is improving quality of search engine spelling corrector.
Keywords
information retrieval, search queries spelling corrections, automatic spelling error corrections, machine learning, binary classification, oblivious regression trees, gradient boosting on oblivious regression trees