Регистрация / Вход
Прислать материал

Система активного поиска источника агрессий на базе естественно-языковой диалоговой системы целенаправленного сбора данных у посетителей сети Интернет

Сведения об участнике
ФИО
Лифшиц Илья Александрович
Вуз
Федеральное государственное бюджетное образовательное учреждение высшего образования«Московский технологический университет»
Тезисы (информация о проекте)
Область наук
Информационные технологии и вычислительные системы
Раздел области наук
Информационные технологии
Тема
Система активного поиска источника агрессий на базе естественно-языковой диалоговой системы целенаправленного сбора данных у посетителей сети Интернет
Резюме
В настоящее время возрастает интерес научного сообщества к социальным сетям. Они являются хорошим и не побоюсь этого слова неисчерпаемым источником информации для анализа. Большую часть этой информации можно проанализировать с использованием существующих технологий обработки данных. Однако иногда возникают ситуации, когда данных, интересующих исследователя, в открытом виде нет даже в социальных сетях. Одной из таких задач является создание системы поиска источников агрессии. Бывает необходимо выявить пользователей, которые агрессивно настроены в настоящий момент. Причем желательно так же определить причину их агрессии и ее направленность.
Ключевые слова
интеллектуальные технологии, активный сбор данных, диалог машины с человеком
Цели и задачи
Цель проекта - сбор данных о источниках агрессии пользователей интернет-ресурсов.
Задачи проекта - описать и создать прототип системы активного поиска источника агрессий на базе естественно-языковой диалоговой системы целенаправленного сбора данных у посетителей сети Интернет.
Введение

Но как же собрать такую информацию? Пользователи тех или иных ресурсов сети не всегда открыто публикуют какие-либо компрометирующие их материалы. В качестве одного из возможных решений можно привести систему автоматического опроса посетителей, построенную с использованием современных интеллектуальных технологий. Такая система должна уметь заводить диалог с пользователем, определять О ЧЕМ и КАК он говорит (суть и эмоциональную окраску предложений) и поддерживать диалог. Я полагаю, что такую систему вполне возможно создать в настоящее время.

В настоящее время ведут работы по созданию системы – аватара. Аватаром называют программу которая в свободном режиме ведет диалог с пользователем, задавая ему определенные вопросы и отвечая на его запросы.

Методы и материалы

Предполагается, что иситема и пользователи общаются с помощью обмена не очень длинными (около 30-600 символов) сообщениями. При этом при получении сообщения от пользователя система производит 3 основных и одно дополнительное действия:

  • семантический анализ и построение диаграмм связей;
  • анализ тональности текста;
  • построение адекватного ответа поьзователю из уже известного набора словосочитаний;
  •  (доп) по следующему ответу оценка адекватности предыдущего ответа на сообщение пользователя.

На этапе проектирования пока не ясно какой из методов под эти действия даст наиболее ценные результаты, но уже можно сосредоточить внимание на следующих:

  1.  Поиск эмотивной лексики по тональному словарю.
  2.  Нейросеть, обучение с учителем. (Для анализа тональности по шкалам и для генерации или подбора текстов в ответ).
  3.  Графовые модели оценки весов эмотивных лексем.
  4.  Методы синтаксического анализа текста.
Описание и обсуждение результатов

На момент подачи заявки система находится на стадии проектирования, работоспособного прототипа системы нет.

Есть прототип подсистемы анализа эмоциональной окраски текста.

Есть прототип подсистемы общения с пользователями сайтов (ведение активного диалога с пользователем).

Используемые источники
V. Bobicev, V. Maxim, T. Prodan, N. Burciu, V. Angheluş Emotions in words: developing a multilingual WordNet-Affect : CICLing 2010, Iași, Romania. — 2010. — P. 1-10.
J.Bollen, H.Mao, X.-J.Zeng Twitter mood predicts the stock market (англ.) // JTechnical Report arXiv:1010.3003, CoRR : журнал. — 2010.
М. В. Клековкина, Е.В. Котельников Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики // RCDL-2012, Пер.-Зал., Россия : конференция. — 2012.
Анна Пазельская, Алексей Соловьев. Метод определения эмоций в текстах на русском языке // The international conference on computational linguistics and intellectual technologies “Dialogue 2011” : конференция. — М., 2011. — С. 510 - 522.
Дмитрий Усталов Извлечение терминов из русскоязычных текстов при помощи графовых моделей (рус.) // УРФУ, Екб., Россия : конференция. — 2012
Information about the project
Surname Name
Lifshits Ilya
Project title
The active search engine of aggression source based on natural language dialogue system targeted data collection from the Internet
Summary of the project
The scientific community have the interest in social networks research. One are good, and not afraid of the word inexhaustible source of data for analysis. Most of this data can be analyzed using known data processing technologies. However, sometimes there are situations when the information of interest to the researcher, in the clear is not even on the social networks. One of these tasks is to create a search engine sources of aggression. It may be necessary to identify the users who have an aggressive attitude at the moment. It is desirable also to determine the cause of their aggression and its orientation.
Keywords
smart technologies, active data collection, machine dialogue with a human