Регистрация / Вход
Прислать материал

ЭЛЕМЕНТЫ КОНТЕНТНОГО АНАЛИЗА ИНФОРМАЦИОННО-НОВОСТНЫХ РЕСУРСОВ СЕТИ ИНТЕРНЕТ

Сведения об участнике
ФИО
Гудза Виталий Александрович
Вуз
Федеральное государственное бюджетное образовательное учреждение высшего образования "Кубанский государственный университет"
Тезисы (информация о проекте)
Область наук
Информационные технологии и вычислительные системы
Раздел области наук
Информационные технологии
Тема
ЭЛЕМЕНТЫ КОНТЕНТНОГО АНАЛИЗА ИНФОРМАЦИОННО-НОВОСТНЫХ РЕСУРСОВ СЕТИ ИНТЕРНЕТ
Резюме
Проект агрегатора информационно-новостных ресурсов сети Интернет. Генерирует сюжет новостей по указанному запросу, предварительно загрузив новостные ресурсы в локальную базу данных. После загрузки агрегатор формирует ключевые слова для каждой загруженной новости по разработанному алгоритму, основанном на частотном анализе. Приложение-агрегатор оснащено модулями графического анализа накопленных данных, которые опираются на элементы контент-анализа
Ключевые слова
агрегатор, контент-анализ, новости
Цели и задачи
Целью данной работы является создание инструментария, способного извлекать информацию с новостных Интернет-ресурсов, производить обработку, сохранение и анализ собранного материала, и формировать сюжет новостей. Это сделает поиск информации быстрее, а чтение новостей - удобнее.
Основной задачей данной работы является разработка приложения, агрегирующего статью по запросу пользователя за указанный период. Дополнительными задачами является проведение контент-анализа имеющихся ресурсов – количественный анализ публикаций рубрик определенного новостного сайта, а также частотный анализ ключевого слова.
Введение

С развитием сети Интернет резко увеличилось количество источников информации. Многочисленные СМИ отражают события с различных точек зрения, освещая их фактами, которые, порой, не совпадают. Новостные ресурсы в сети дублируются, изменяются или вообще удаляются. Чтобы не запутаться в огромном объеме информации и сделать чтение новостей удобнее, необходим агрегатор, собирающий информацию с популярных новостных веб-сайтов в единый сюжет по указанным ключевым словам. Такой сюжет отразит реальный баланс мнений в российских СМИ. Поэтому задача создания новостного агрегатора с интегрированной базой данных для хранения ресурсов является не только актуальной, но и новой.

Методы и материалы

Методами исследования являются анализ новостных ресурсов и синтез ключевых слов, а также эксперимент, проводимый в алгоритме выделения ключевых слов.

Было принято решение вести разработку приложения-агрегатора с графическим интерфейсом технологии Windows Forms для ОС Windows на объектно-ориентированном языке программирования C# для платформы .NET Framework в среде разработки Microsoft Visual Studio 2012. На основе этого выбора для хранения данных была использована связанная с операционной системой СУРБД Microsoft SQL Server 2008R2.

Вычислительная часть приложения основана на прикладных алгоритмах, часть из которых опирается на методику контент-анализа. В приложении-агрегаторе используются алгоритмы взаимодействия с внешней средой (XML, текстовые документы, обмен информацией с базой данных и сетью Интернет), алгоритмы поиска и обработки информации (сортировки, бинарный поиск) и эмпирические алгоритмы (выделение ключевых слов).

Описание и обсуждение результатов

Приложение считывает информацию из дескриптора и загружает данные из сети Интернет, получая HTML-разметку web-страницы, далее обрабатывает ее, извлекая данные из целевых элементов, и сохраняет их в базу данных.

Приложение-агрегатор оснащено модулями графического анализа накопленных данных, которые опираются на элементы контент-анализа. С помощью публикационного анализа становится возможным определить соотношение количества новостных ресурсов в каждой рубрике сайта. Таким образом, график отражает наиболее публикующие рубрики выбранного сайта за указанный период.

Частотный анализ проводится по ключевому слову. График показывает количество вхождений ключевого слова в тексте новости по указанным сайтам. Благодаря частотному анализу, можно легко определить наиболее публикующий новостной ресурс с учетом ключа за выбранный интервал даты.

Агрегирование сюжета новостей ведется по ключевым словам, отражающим основную мысль текста. Чтобы их выделить, был разработан алгоритм, формирующий ключевые слова из заголовка и текста новости. Даты и имена собственные извлекаются с помощью регулярных выражений, а существительные определяются с помощью базы данных, состоящей из 750 тысяч словоформ существительных. 

Для быстрого поиска в этой базе был реализован алгоритм бинарного поиска. Ключи, которые встречаются более одного раза в тексте, сохраняются в базе данных.

В списки ключевых слов не попадут стоп слова – местоимения, союзы, вводные слова, предлоги и другие слова, которые не имеют смысловой нагрузки в тексте. Как видно из примера, алгоритм отнес к ключевым словам имена, фамилии, имена собственные, и часто встречающиеся слова. 

Для агрегирования сюжета необходимо ввести ключевые слова, по которым осуществляется поиск. При необходимости можно ввести список слов, которые не должны содержаться в списках ключей. Далее выбирается период публикации новости и приложение агрегирует сюжет.Порой новости, формирующие сюжет совпадают. Чтобы избежать этого, был создан и реализован алгоритм нахождения процента схожести двух текстов для скрытия похожих по смыслу новостей.

Поиск нечетких дубликатов текста ведется по ключевым словам.

Процент схожести двух текстов определяется как среднее арифметическое коэффициента Джаккарда и коэффициента схожести двух списков ключевых слов (разработан уникальный алгоритм поиска нечетких дубликатов, показавший более точные результаты, чем алгоритм шинглов). 

Выходная информация приложения – сюжет, агрегированный из ресурсов базы данных по указанному запросу пользователя. Поиск осуществляется по ключевым словам. Более детальный поиск реализуется с помощью указания периода публикации новостей, а также с помощью слов, которые не должны входить во множество ключевых слов.

Используемые источники
1. Семантическая паутина. Универсальная интернет-энциклопедия URL: https://ru.wikipedia.org/wiki/Семантическая_паутина (дата обращения: 20.05.2015)
2. Семантическая сеть. Универсальная интернет-энциклопедия https://ru.wikipedia.org/wiki/Семантическая_сеть (дата обращения: 20.05.2015)
3. Контент-анализ. Универсальная интернет-энциклопедия http://ru.wikipedia.org/wiki/Контент-анализ (дата обращения: 21.05.2015)
4. Контент-анализ: сущность, задачи, процедуры. http://psyfactor.org/lib/k-a.htm (дата обращения: 26.05.2015)
5. Microsoft_SQL_Server. Универсальная интернет-энциклопедия https://ru.wikipedia.org/wiki/Microsoft_SQL_Server (дата обращения: 21.05.2015)
Information about the project
Surname Name
Gudza Vitaliy
Project title
Elements of content analysis information and news Internet resources
Summary of the project
Project: news aggregator information and resources on the Internet. It generates a news story on the specified request, by downloading news resources in the local database. After loading aggregator generates keywords for every downloaded news developed algorithm based on frequency analysis. Aggregator module is equipped with a graphical analysis of the collected data, which are based on elements of content analysis
Keywords
content analysis, aggregator, news