Регистрация / Вход
Прислать материал

Организация поиска на естественном языке по структурированным источникам данных

Сведения об участнике
ФИО
Постаногов Игорь Сергеевич
Вуз
Федеральное государственное образовательное учреждение высшего профессионального образования «Пермский государственный национальный исследовательский университет»
Тезисы (информация о проекте)
Область наук
Информационные технологии и вычислительные системы
Раздел области наук
Информационные технологии
Тема
Организация поиска на естественном языке по структурированным источникам данных
Резюме
Работа посвящена созданию системы поиска на естественном языке по структурированным источникам данных. На данном этапе используются реляционные базы данных. Для конвертации естественно-языкового запроса в SQL-запрос используется промежуточное представление в виде запроса к онтологиям. Подход реализован в web-сервисе Reply, включающем в себя компоненты автоматизации настройки на конкретный источник данных. Тестирование продемонстрировало состоятельность предложенного подхода. В качестве направления дальнейшего развития системы отмечена интеграция со сторонними онтологическими, лингвистическими и открытыми (open data) ресурсами.
Ключевые слова
естественно-языковые интерфейсы, онтологии, унаследованные информационные системы, реляционные базы данных, открытые источники данных, поисковые системы, интеллектуальные информационные системы, организация доступа к данным, обработка естественного языка
Цели и задачи
Цель проекта - разработка методов и средств трансформации унаследованных традиционных информационных систем в системы с интеллектуальным (естественно-языковым, ЕЯ) интерфейсом без внесения изменений в их исходный код на базе методов и средств онтологического инжиниринга.

Задачи проекта:
1. Исследование современных подходов к интеграции унаследованных информационных систем и онтологий.
2. Разработка методов:
2.1. трансформации информационной системы в систему, предоставляющую доступ к данным при помощи онтологий;
2.2. трансформации ЕЯ‑запроса в SQL‑запрос к данным, хранящимся в базе данных информационной системы.
3. Реализация предложенных методов на практике путём разработки:
3.1. web-сервиса, предоставляющего конечному пользователю ЕЯ‑интерфейс доступа к данным, хранящимся в унаследованной информационной системе, на стадии демонстрационного прототипа;
3.2. высокоуровневых средств настройки web-сервиса на конкретную информационную систему.
Введение

В современном мире как аналитиками, так и лицами, принимающими решения, предъявляются высокие требования к качеству и скорости получения ответов на запросы к корпоративным информационным системам (ИС). Те же требования предъявляются и обычными пользователями к небольшим ИС, используемым эпизодически. 
 
Актуальной является задача создания и автоматизации подключения унифицированного пользовательского интерфейса задания поисковых запросов к различным источникам данных и их объединениям. На данном этапе в качестве источника данных рассматривается типичная для унаследованных ИС подсистема хранения данных в виде реляционной базы данных (РБД).

Методы и материалы

Среди возможных вариантов интерфейсов задания поисковых запросов для данного проекта был выбран естественно-языковой интерфейс (ЕЯ-интерфейс). Помимо ввода в текстовое поле, запрос может задаваться при помощи устной речи. 

Как отмечается во многих работах (см., например, Житко В.А., Androutsopoulos I.), наличие ЕЯ-интерфейса снижает порог вхождения новых пользователей и расходы на их обучение. Их использование не требует изучения новых, искусственных языков, поскольку система "говорит с пользователем" с использованием терминов из предметной области. ЕЯ-интерфейс также более пригоден для некоторых типов запросов, чем другие интерфейсы. 

Для конвертации запроса пользователя используется промежуточное представление в виде запроса к онтологии. Онтология – это точная спецификация концептуализации. В данном случае онтология используется для описания элементов схемы РБД понятиями и отношениями из предметной области. Более того, над источником данных создаётся дополнительная надстройка (без какой-либо модификации), позволяющая получить доступ к данным при помощи современных средств доступа к данных на базе онтологий (Ontology-Based Data Access, OBDA) [1]. 

Описание и обсуждение результатов

Для создания описываемой системы требуется решить некоторые проблемы, свойственные современному этапу развития OBDA-систем. Помимо ограниченных возможностей программных библиотек, характерна сложность создания предварительных условий их функционирования, в частности, сложность создания правил отображения элементов онтологии на элементы схемы РБД. Одной из причин этого является отсутствие адаптируемых визуальных графических средств [2].  
 
К настоящему моменту авторами работы предложена архитектура системы Reply в виде web-сервиса[3], позволяющей в автоматизированном режиме подключить к ЕЯ-интерфейс к РБД, а также реализованы демонстрационные прототипы всех её компонентов. В систему входят средства автоматизации создания правил отображения, средства разбора и трансляции некоторых категорий запросов, а также визуальный графический редактор онтологий ОНТОЛИС. Модульность и сервис-ориентированность предложенной архитектуры системы позволяет переиспользовать и независимо развивать отдельные её компоненты. 
 
Исходный ЕЯ-запрос пользователя проходит в системе последовательные этапы лексико-морфологической, синтаксической и семантической предобработки, после чего трансформируется в SPARQL-запрос к онтологии. В демонстрационном прототипе реализованы эвристики использования стороннего онтологического источника данных Wikidata, повышающие качество интерпретации запроса. Далее при помощи стороннего OBDA-фреймворка Ontop [4], запрос конвертируется в запрос к РБД (SQL-запрос). 

В будущем планируется подключать сторонние онтологические, лингвистические и открытые (open data) ресурсы для повышения качества интерпретации запроса пользователя. Перспективным также является использование сразу нескольких источников данных для ответа на запросы пользователей, получение обратной связи пользователем о результатах интерпретации запроса системой и системой о корректности такой интерпретации. 

Используемые источники
1. Calvanese D., et. al. Ontologies and Databases: The DL-Lite Approach. // Reasoning Web 2009. 2009. pp. 255-356.

2. S. Chuprina, O. Nasraoui. Using Ontology-based Adaptable Scientific Visualization and Cognitive Graphics Tools to Transform Traditional Information Systems into Intelligent Systems // Sc. Viz., 8 (1) (2016), pp. 23–44.

3. S. Chuprina, I. Postanogov, O. Nasraoui. Ontology Based Data Access Methods to Teach Students to Transform Traditional Information Systems and Simplify Decision Making Process // Proc. Comp. Sc. Volume 80, 2016, pp. 1801–1811

4. Kharlamov E., et al. How Semantic Technologies Can Enhance Data Access at Siemens Energy // Proc. of 13th Int. Sem. Web Conf. Vol. 8796. pp. 601-619.
Information about the project
Surname Name
Postanogov Igor
Project title
Building a Natural Language Query Interface for Structured Data Sources
Summary of the project
The long-term goal of the project is creating a web-service which provides a natural language interface to structured data sources. For this step of the project we use only relational databases. We convert a natural language query into SQL-query using intermediate representation in the form of SPARQL-query (ontology query). We proposed an architecture of such web-service, named Reply, and implemented it. The prototype would be enchased in future by using an external ontological, linguistic and open data resources.
Keywords
natural language interfaces, ontology, legacy information systems, relational databases, open data, search engines, intelligent information systems, ontology-based data access, natural language processing