Регистрация / Вход
Прислать материал

Разработка математического и программного обеспечения для словарной коррекции в задаче контекстного контроля результатов распознавания

ФИО: Шарова Л. В.

Направление: Информационные технологии

Научный руководитель: к.т.н., доц. Полевой Дмитрий Валерьевич

Институт: Институт информационных технологий и автоматизированных систем управления

Кафедра: Кафедра Инженерной кибернетики

Академическая группа: ММ-11-1

В современном деловом документообороте широкое распространение получили безбумажные информационные технологии и системы электронного документооборота. Основной проблемой при переходе на новые технологии является перевод информации с бумажных носителей в электронную форму. Эта задача решается системами оптического распознавания символов. Важнейшим этапом распознавания является постобработка, используемая для коррекции неправильно распознанных символов. Для выполнения коррекции используются различные методы, однако наиболее продуктивным и часто реализуемым из них является словарная корректировка, которая подразумевает поиск распознанного слова в заранее построенном словаре, содержащим список словоформ, которые с наибольшей вероятностью встречаются в тексте.

Очевидно, что важной задачей является сокращение времени работы алгоритма постобработки, а именно времени поиска слова в словаре, особенно на мобильных устройствах, то есть в условиях ограниченных мобильных ресурсов. Следует учесть, что функция поиска и ее характеристики наиболее сильно зависят от структуры, в виде которой представлен словарь.

Основными особенностями данной задачи являются:

Непополяемые словари;

Возможность использования сколь угодно большого объема времени на этап предобработки, то есть на построение структуры;

Использование приложения на мобильных платформах, то есть с ограничением по мощности и объему памяти.

Таким образом, основная цель данной работы: разработать программное обеспечение для хранения словарной информации и поиска вхождений вариантов распознавания в условиях ограниченных вычислительных ресурсов.

В ходе работы были уже были выполнены следующие этапы:

Рассмотрены стандартные структуры хранения данных, такие как массивы, списки, деревья и хеш-таблицы;

Исследованы некоторые стандартные реализации 32-битных и 64-битных функций хеширования в рамках задачи минимизации коллизий по построении хеш-таблиц для словарей;

Исследовано время поиска по словарям при хранении их в контейнерах set и unordered_set , реализованных в стандартной библиотеке языка программирования c++.