Регистрация / Вход
Прислать материал

Оценка методов анализа тональности текстовых сообщений в области телекоммуникаций

ФИО: Кулёмина В. А.

Направление: Информационные технологии

Научный руководитель: доц. Поляков Владимир Николаевич

Институт: Институт информационных технологий и автоматизированных систем управления

Кафедра: Кафедра Автоматизированных систем управления

Академическая группа: МИТ-11-1

С увеличением количества контента, создаваемого пользователями в социальных сетях, открылись новые возможности распространения и потребления информации. Свой сайт в сети Интернет имеют известные компании, организации, университеты. Это позволяет лучше узнать пользователей и потребителей и сфокусировать свои усилия на удовлетворение их нужд. Современным инструментом оценки эмоционального восприятия продукта является сентимент-анализ (Sentiment Analysis). Основной задачей данного подхода является определение субъективного восприятия продукта на основе семантического разбора текста.

Цель работы: исследование предметной области, методов анализа тональности сообщений, оценки их качества с целью выявления наиболее универсального метода для исследования эмоциональной составляющей пользовательских отзывов.

Существуют три основных метода определения тональности текста:

1) на основе правил с использованием шаблонов (rule-based with patterns);

2) машинное обучение с учителем (supervised learning);

3) машинное обучение без учителя (unsupervised learning).

В качестве оценок качества системы, были выбраны точность (precision) и полнота (recall). Алгоритм: в результате классификации текстов тестовой выборки, к классу позитивных (положительных) правильно отнесены TP текстов, неправильно – FP, к классу негативных (отрицательных) правильно были отнесены TN текстов, неправильно – FN. Иными словами:

• TP – истинно-положительное решение.

• TN – истинно-отрицательное решение.

• FP – ложно-положительное решение.

• FN – ложно-отрицательное решение.

В таблице ниже наглядно представлены результаты классификации.

Тогда, относительно класса позитивных отзывов, точность и полнота определяются следующим образом:

К проблемам сентимент-анализа относят идентификацию иронии, использование сленга, сокращений, наличие грамматических и пункционных ошибок и прочее. Все это усложняет и без того не простые задачи по классификации текста.

Выводы. В данной работе были проанализированы существующие методы определения тональности сообщений, меры оценки качества этих методов, а так же сложности и проблемы, которые могут возникнуть при реализации этих методов. В качестве языка реализации сравнительного анализа был выбран Java, поскольку на этом языке реализовано большое количество библиотек, таких как WEKA, предназначенных для решения задач машинного обучения и компьютерной лингвистики.

Список использованных источников

1. Pang Bo, Lillian Lee. Opinion mining and sentiment analysis. Foundations and trends in information retrieval 2.1-2, 2008, pp. 1-135.

2. Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. 2011, стр. 100–121

3. Базенков Н.И., Губанов Д.А. Обзор информационных систем анализа социальных сетей. УБУН Институт проблем управления РАН, Москва, 2013, стр. 357–390