Регистрация / Вход
Прислать материал

Применение алгоритмов латентно­семантического анализа в полнотекстовом поиске

Сведения об участнике
ФИО
Костюхин Кирилл Александрович
Вуз
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Смоленский государственный университет»
Тезисы (информация о проекте)
Область наук
Информационные технологии и вычислительные системы
Раздел области наук
Информационные технологии
Тема
Применение алгоритмов латентно­семантического анализа в полнотекстовом поиске
Резюме
В работе рассмотрены алгоритмы функционирования популярных современных систем полнотекстового поиска, выделены их недостатки, которые при определенных условиях могут сделать применение данных программных средств не правильным с точки зрения качества поисковой выборки. В качестве аналога п редложен механизм латентно­семантического анализа и поиска в произвольном массиве
документов и пример его программной реализации.
Ключевые слова
полнотекстовый поиск, LSA, синонимия, полисемия, семантическое пространство, терм, документ, поисковый индекс, SVD
Цели и задачи
Целью данной работы является изучение основных аспектов теории латентно­семантического анализа и информационного поиска в целом, проектирование поисковой машины, в основу которой положены методы ЛСА и подтверждение или опровержение применимости алгоритмов для
решения задач поиска в современных IT­проектах.
Для достижения поставленных целей необходимо решить
следующие задачи:
1. изучить алгоритмы ЛСА;
2. изучить существующие аналоги разрабатываемого программного
средства;
3. проектировать и реализовать систему;
4. получить и обработать результаты тестирования.
Введение

Полнотекстовым называется автоматизированный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста. Примером использования полнотекстового поиска может служить поиск среди статей СМИ или документов архива.

В данной области в настоящее время уже построено несколько сложных систем. Однако, существуют фундаментальные недостатки в их алгоритмах формирования поисковых индекса и выдачи. Недостатки кроются в языковых явлениях синонимии и полисемии.

Альтернативой классическим реализациям полнотекствовых поисковых машин может послужить основанный на алгоритмах LSA программный продукт, в силу своей алгоритмической основы лишенный фундаментальных недостатков.

Методы и материалы

В данной работе рассматриваются методы латентно­семантического анализа. Они позволяют выявлять скрытые (латентные) связи между документами. Сутью метода является построение семантического пространства из коллекции текстов и слов, присутствующих в данных текстах, где тексты и связанные по смыслу слова расположены близко друг к другу. Таким образом слова могут не быть частью документа, но все равно ассоциироваться с ним.

Разрабатываемый система ­ это легковесный модуль, готовый для встраивания в другие проекты, в которых имеется необходимость полнотекстового поиска. Система реализована как совокупность двух подсистем. Первая подсистема ­ ядро ­ отвечает за реализацию математической части проекта, а именно предварительную обработку входных документов, их разбор на составляющие, лингвистическую обработку и построение на основании этих данных семантического пространства, дальнейшую работу с ним. Вторую подсистему можно назвать “уровнем упреаления”. Она имеет интерфейс для получения документов извне и способна передавать их в ядро в удобном для него виде. В качестве языка разработки выбран Python за простоту использования и обилие дополнительных модулей. 

Описание и обсуждение результатов

Латентно­семантический поиск позволяет отойти от простого сопоставления термов из поискового запроса термам коллекции документов и взглянуть на коллекцию документов более широко ­ выявлять скрытые (латентные) связи между составляющими документа и документами внутри коллекции. Метод лишен недостатков, связанных с синонимией или полисемией, потому что каждый терм из коллекции, каждый документ влияет на все значения матриц T, S и D, т.е. коллекция документов обрабатывается комплексно, как единое целое. Кроме того построенное семантическое пространство может служить основой не только для полнотекстового поиска, но и для кластеризации документов или автоматического определения смысловой направленности произвольного текста. 

Используемые источники
1. DeerwesterS.,DumaisS.T.,FurnasG.W.,LandauerT.K.,RichardH.1990. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 41: 391­407
2. Landauer, T. K., Foltz, P., and Laham, D. 1998. An Introduction to Latent Semantic Analysis. DiscourseProcesses, 25: 259­284
3. ГОСТ 7.73­96 СИБИД «Поиск и распространение информации. Термины и определения». ­ Введ. 01.01.98. ­ M.: Изд­во стандартов,
1997. ­ 16 с.
4. Логинов Н.В. Сингулярное разложение матриц. М.:МГАПИ. 1996 ­ 80 с.
5. Berry M.W., Dumais S. T., Letsche T.A. Computational Methods for Intelligent Information Access.
6. Лутц М. Изучаем Python, 4­е издание ­ С Пб.: Символ­Плюс, 2011 ­1280 с., ил.
Information about the project
Surname Name
Kostyukhin Kirill
Project title
The usage of latent­semantic algorithms for porposes of full­text based information retrieval
Summary of the project
The paper describes the algorithms of popular modern full­text search systems, highlights their shortcomings. The mechanism of latent semantic analysis and retrieval in random document collections is offered as an analogue of classic methods. Its software implementation is also described.
Keywords
Full­text search, LSA, synonymy, polysemy, semantic space, term, document, search index, SVD.