Оценка методов анализа тональности текстовых сообщений в области телекоммуникаций
ФИО: Кулёмина В. А.
Направление: Информационные технологии
Научный руководитель: доц. Поляков Владимир Николаевич
Институт: Институт информационных технологий и автоматизированных систем управления
Кафедра: Кафедра Автоматизированных систем управления
Академическая группа: МИТ-11-1
С увеличением количества контента, создаваемого пользователями в социальных сетях, открылись новые возможности распространения и потребления информации. Свой сайт в сети Интернет имеют известные компании, организации, университеты. Это позволяет лучше узнать пользователей и потребителей и сфокусировать свои усилия на удовлетворение их нужд. Современным инструментом оценки эмоционального восприятия продукта является сентимент-анализ (Sentiment Analysis). Основной задачей данного подхода является определение субъективного восприятия продукта на основе семантического разбора текста.
Цель работы: исследование предметной области, методов анализа тональности сообщений, оценки их качества с целью выявления наиболее универсального метода для исследования эмоциональной составляющей пользовательских отзывов.
Существуют три основных метода определения тональности текста:
1) на основе правил с использованием шаблонов (rule-based with patterns);
2) машинное обучение с учителем (supervised learning);
3) машинное обучение без учителя (unsupervised learning).
В качестве оценок качества системы, были выбраны точность (precision) и полнота (recall). Алгоритм: в результате классификации текстов тестовой выборки, к классу позитивных (положительных) правильно отнесены TP текстов, неправильно – FP, к классу негативных (отрицательных) правильно были отнесены TN текстов, неправильно – FN. Иными словами:
• TP – истинно-положительное решение.
• TN – истинно-отрицательное решение.
• FP – ложно-положительное решение.
• FN – ложно-отрицательное решение.
В таблице ниже наглядно представлены результаты классификации.
Тогда, относительно класса позитивных отзывов, точность и полнота определяются следующим образом:
К проблемам сентимент-анализа относят идентификацию иронии, использование сленга, сокращений, наличие грамматических и пункционных ошибок и прочее. Все это усложняет и без того не простые задачи по классификации текста.
Выводы. В данной работе были проанализированы существующие методы определения тональности сообщений, меры оценки качества этих методов, а так же сложности и проблемы, которые могут возникнуть при реализации этих методов. В качестве языка реализации сравнительного анализа был выбран Java, поскольку на этом языке реализовано большое количество библиотек, таких как WEKA, предназначенных для решения задач машинного обучения и компьютерной лингвистики.
Список использованных источников
1. Pang Bo, Lillian Lee. Opinion mining and sentiment analysis. Foundations and trends in information retrieval 2.1-2, 2008, pp. 1-135.
2. Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. 2011, стр. 100–121
3. Базенков Н.И., Губанов Д.А. Обзор информационных систем анализа социальных сетей. УБУН Институт проблем управления РАН, Москва, 2013, стр. 357–390