Разработка программно-аппаратного комплекса автоматизации создания компактных электронных архивов научно-технических информационных фондов с возможностью поиска и анализа текстовой и графической информации
Разработка и исследование программно-аппаратного комплекса, автоматизирующего процесс создания компактных электронных архивов на основе имеющейся научно-технической документации (на бумажных носителях). Создаваемые компактные электронные архивы позволят обеспечивать хранение, анализ, поиск и редактирование текстовой и графической информации.
Разрабатываемый программный комплекс обеспечит:
1. Повышение не менее чем на 20 % производительности труда по созданию компактных электронных архивов научно-технической документации.
2. Уменьшение не менее чем на 30 % стоимости создания компактных электронных архивов, в том числе факсимильных мультимедиа-изданий (монографий, энциклопедий, справочников, учебников) на электронных носителях, созданных по предложенной технологии, по сравнению с аналогичными бумажными изданиями.
Соисполнители
Этапы проекта
Следующим этапом после перевода в электронную форму бумажных документов является их классификация. При работе с большим количеством документов чрезвычайно важно автоматизировать процесс классификации и каталогизации. С этой целью в ходе 1 этапа разработано СПО для автоматической классификации и рубрикации текстовой информации, виртуализации представлений электронных документов и управления справочниками и каталогами электронных архивов.
Хранилища электронной информации, должны иметь мощные поисковые системы, позволяющие быстро находить необходимую информацию. Это особенно важно для баз данных с научно-технической информацией. В ходе этапа разработано СПО для поиска текстовой информации.
Проведены патентные исследования по ГОСТ 15.011.
Патентные исследования показали, что перспективным направлением исследований является разработка новых методов осуществления автоматизированного ввода текстовой и графической информации в электронные архивы, информационного поиска в больших массивах текстовых и графических документов, методов рубрикации документов и распознавания графических объектов. Наилучшими результатами должны обладать способы и устройства поиска информации, обеспечивающие быстродействие, точность поиска, релевантность, снимающие ограничения с объемов информационного массива.
Поиск патентной информации проводился в патентных базах данных Федеральной службы по интеллектуальной собственности, патентам и товарным знакам Российской Федерации, Бюро по патентам и товарным знакам США и Европейского патентного бюро.
Создание технологии автоматизации процесса формирования архивов научно-технической документации с современными методами поиска текстовой и графической информации делает возможным создание электронных архивов научно-технической и конструкторской документации и электронных архивов научных школ России, размещение полнотекстовых цифровых коллекций в Интернете, а также осуществление специализированных издательских проектов, и т.п.
1) СПО, для автоматизированного распознавания графических объектов на графическом образе документа и поиска графических объектов, фрагментов изображений;
2) СПО для выделения найденной текстовой информации непосредственно в графическом образе документа.
Указанные СПО работают с текстографическими форматами документов, та-кими как DjVu и PDF, которые позволяют компактно сохранять графический образ документа, визуально-идентичный оригиналу и удовлетворяют требо-ваниям технического задания:
- обеспечивают показ найденной информации прямо на графических образах документов,
- компактно сохраняют координаты расположения распознанного символа на графическом образе документа;
- обеспечивают автоматизированное распознавание графических объектов на графическом образе документа.