Регистрация / Вход
Прислать материал

Создание и программная реализация методов комплексной вычислительной объективной оценки качества неструктурированных научно-технических документов на естественных языках на основе совместного анализа моделей семантики текстовых документов и их коллекций и библиометрических и наукометрических данных и показателей

Номер контракта: 14.579.21.0090

Руководитель: Крейнес Михаил Григорьевич

Должность: Генеральный директор

Аннотация скачать
Постер скачать
Ключевые слова:
научно-технический документ, естественный язык, текстовая коллекция, семантика, модель семантики, оценка качества, математическое моделирование, математическая модель оценки качества

Цель проекта:
1) Задачами проекта являются создание и реализация в форме экспериментального образца программного обеспечения нового подхода к вычислительной оценке качества научно-технических документов (далее – НТД), сочетающего анализ традиционных библиометрических и наукометрических данных и показателей с анализом моделей семантики и расчетными оценками показателей качества НТД, основанными на моделях и методах семантического поиска и анализа текстовых документов и их коллекций, не зависящими от взглядов и пристрастий экспертов; создание для научно-исследовательских организаций, промышленности и лиц, принимающих решения в различных сферах научно-технической деятельности, научно-технических основ для сервиса, превосходящего существующие методы оценивания по объективности и, одновременно, минимизирующего необходимые для формирования оценок трудозатраты квалифицированных специалистов; а также для вывода на рынок информационно-аналитических систем, ориентированных на получение оценок результатов научно-технической деятельности, нового типа услуг. 2) Целью проекта является разработка новых методов комплексной вычислительной объективной оценки качества неструктурированных научно-технических документов (далее – НТД). Задачами проекта являются создание и реализация в форме экспериментального образца программного обеспечения нового подхода к вычислительной оценке качества НТД, сочетающего анализ традиционных библиометрических и наукометрических данных и показателей с анализом моделей семантики и расчетными оценками показателей качества НТД, основанными на моделях и методах семантического поиска и анализа текстовых документов и их коллекций, не зависящими от взглядов и пристрастий экспертов; создание для научно-исследовательских организаций, промышленности и лиц, принимающих решения в различных сферах научно-технической деятельности, научно-технических основ для сервиса по оценке качества НТД, превосходящего существующие методы по объективности и, одновременно, минимизирующего необходимые трудозатраты квалифицированных специалистов, и для вывода на рынок информационно-аналитических систем, ориентированных на получение оценок результатов научно-технической деятельности, нового типа услуг.

Основные планируемые результаты проекта:
1. Создание научно-технических основ комплексного сервиса по объективной оценке качества неструктурированных НТД на естественных языках в составе следующих конкретных результатов. Создание принципов и методов совместного использования библиометрических и наукометрических данных и показателей, моделей семантики НТД и вычислительных оценок качества (показатели значимости, информативности и содержательной независимости) НТД, формирование которых основано на методах семантического поиска и анализа неструктурированной текстовой информации на естественных языках для комплексной вычислительной объективной оценки качества НТД. Разработка алгоритмического обеспечения и экспериментального образца программного обеспечения комплексной вычислительной объективной оценки качества неструктурированных НТД на естественных языках на основе совместного анализа моделей семантики текстовых документов и их коллекций и библиометрических и наукометрических данных и показателей. Создание экспериментального информационно-технологического стенда поиска НТД, способных оказать влияние на оценку анализируемого текста; использование его информационного и технологического обеспечения для организации семантического поиска в научной электронной библиотеке. Создание принципов, моделей, методов и алгоритмов формирования и анализа коллекций НТД, применяемых для построения вычислительных оценок качества и для определения референтных значений библиометрических и наукометрических показателей анализируемого текста. Результаты экспериментальных исследований по программе и методикам экспериментальных исследований разработанного ЭО ПО должны подтвердить эффективность предлагаемых решений. Результаты комплексной оценки качества НТД из тестовой выборки НТД будут представлены в НЭБ. Методическое обеспечение использования результатов комплексного вычислительного оценивания качества НТД в реальном секторе экономики с учетом технологических возможностей Индустриального партнера ориентируется на информационно-аналитическое обеспечение экспертизы НТД, а также на дальнейшие исследования и разработки.
2. Результаты проекта отвечают поставленным в мировой литературе запросам и не имеют аналогов. Разрабатываемый ЭО ПО будет превосходить по точности, объективности и оперативности все существующие средства вычислительной оценки качества научно-технических документов. Это определяется предложенным подходом к совместному анализу традиционных библиометрических и наукометрических данных и показателей, моделей семантики и вычислительных оценок качества НТД. В том числе, вычислительным формированием референтных значений библиометрических и наукометрических показателей и вычислительных оценок качества НТД, основанным на моделях и методах семантического поиска и анализа текстовых документов и их коллекций. А также использованием вычислительного формирования и анализа содержательного контекста документа, его сопоставлением с процитированными в анализируемом документе и цитирующими его информационными источниками.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
1. Экспериментальный образец программного обеспечения (ЭО ПО) совместного использования библиометрических и наукометрических показателей, моделей семантики НТД и вычислительных оценок качества НТД, качество функционирования которого определяется следующими параметрами:
1) Содержательная правильность – качественный параметр (да/нет), определяемый соответствием результатов комплексной вычислительной оценки качества документа высококвалифицированной экспертной оценке качества документа. Для решения конкретных задач данный параметр должен оцениваться в результате содержательного экспертного анализа комплексной оценки НТД. Комплексные оценки качества НТД должны быть правильными не менее чем для 95 % проанализированных документов.
2) Интерпретируемость – качественный параметр (да/нет), характеризующий возможность и простоту содержательной интерпретации пользователем полученных результатов комплексной оценки качества документа. Для решения конкретных задач данный параметр должен оцениваться в результате содержательного экспертного анализа результатов. Комплексные оценки качества НТД должны быть интерпретируемы не менее чем для 95 % проанализированных документов.
3) Воспроизводимость – количественный параметр (измеряемый в процентах), характеризующий совпадение результатов при повторном решении задачи. Для решения конкретных задач параметр должен оцениваться в ходе сопоставления результатов повторного многократного решения задачи. Комплексные оценки качества НТД должны быть 100 % воспроизводимы.
4) Оперативность – количественный параметр, характеризующий время, необходимое для вычислительного формирования оценок качества 10 (Десяти) НТД на естественном языке. Вычислительное формирование комплексных оценок качества 10 (Десяти) НТД должно выполняться не более чем в течение пяти часов.
2. Основными характеристиками полученных результатов являются уникальность разрабатываемых моделей и методов и обеспечиваемые ими высокое качество и научная новизна решения поставленных в проекте задач.
3. Проведенные в ходе работ по проекту патентные исследования и аналитический обзор информационных источников показали, что предлагаемые научно-технические решения находятся на вершине мировых разработок в этой области, т.к. отвечают всем поставленным в мировой литературе запросам и не имеют аналогов. Разрабатываемые принципы, методы и алгоритмы будут превосходить по точности и оперативности существующие методы оценки качества научно-технических документов.
4. Основными методами достижения заявленных результатов являются использование при работе над проектом информационной технологии "КЛЮЧИ К ТЕКСТАМ®" и возможность вычислительного формирования коллекции, адекватной для оценки качества документа, базтрующаяся на ее использовании.
Существенные ограничения применимости предлагаемого подхода связаны с необходимостью использовать в процессе вычислений только документы, имеющиеся в доступной документальной базе, соответственно, исключая из анализируемого авторского контекста, из формирования оценок показателей качества и референтных значений библиометрических и наукометрических показателей документы, отсутствующие в доступной документальной базе. Смягчение данных ограничений связано с расширением доступной документальной базы. Впрочем, и весьма ограниченная доступная документальная база позволяет получить адекватные результаты (см. результаты вычислений показателей значимости и информативности англоязычных публикаций [Крейнес М.Г., Афонин А.А., Крейнес Е.М. Оценка качества научно-технических документов на основе вычислительного анализа моделей семантики текстов на естественных языках // Информатизация образования и науки, 20 \No 4 (2013). С. 68-94], где в качестве доступной документальной базы использован корпус публикаций в журнале Science, всего менее 200000 статей). Экспериментальные данные, полученные в ПНИЭР, наглядно демонстрируют, что информационный ресурс Научная электронная библиотека (elibrary.ru) является пригодным для формирования оценок русскоязычных научных публикаций.
Основной риск в достижении заявленных результатов связан с дальнейшим сокращением объема субсидии, что может сделать затруднительным полномасштабное проведение экспериментального исследования разрабатывемого ЭО ПО, и, следовательно, не позволит окончательно доработать его по результатам этого исследования.

Назначение и область применения, эффекты от внедрения результатов проекта:
1. Полученные результаты будут использоваться для совершенствования экспертных процедур на всех этапах жизненного цикла научно-технических разработок (от оценки научных статей и планирования тематики НИР/ОКР до передачи результатов на производство).
2. Использование полученных результатов может значительно увеличить эффективность процедур экспертной оценки научно-технических документов и, тем самым, существенно положительно повлиять на развитие всего научно-технологического комплекса.
3. Полученные результаты приведут в дальнейшем к существенным социально-экономическим эффектам во всех областях, поскольку позволят объективно оценивать предлагаемые научно-технические и технологические решения и выбирать лучшие независимо от области знаний и направления. Проводимые исследования, совместно с развитием работ на уровне ОКР, позволят создать принципиально новую продукцию (технологий и видов услуг), которая повысит уровень оценки научных и научно-технических документов, что способно привести к усилению конкурентных позиций отечественной науки и бизнеса.
4. Полученные результаты приведут в дальнейшем к значительным достижениям в обеспечении развития материально-технической и информационной инфраструктуры, в том числе, возможно, и в рамках международного сотрудничества.

Текущие результаты проекта:
Составлен аналитический обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках ПНИЭР. Исследован объект ПНИЭР, проведен анализ возможных направления исследований. Осуществлен выбор направления исследований, обоснован выбор подходов к совместному использованию моделей семантики НТД и библиометрических и наукометрических данных и показателей для решения задач оценки качества НТД. Разработан принцип вычислительной объективной оценки качества неструктурированных документов. Разработан принцип формирования коллекций НТД, адекватных для построения вычислительных оценок качества. Создан стенд поиска НТД, способных оказать влияние на оценку анализируемого текста. Проведены патентные исследования по ГОСТ 15.011-96. Сформирована коллекция неструктурированных научно-технических документов для создания стенда поиска НТД, способных оказать влияние на оценку анализируемого текста. Разработана структура информационного обмена и принципы функционирования программных интерфейсов (PI) РИНЦ с методами вычислительной объективной оценки качества неструктурированных документов на естественных языках на основе совместного использования моделей семантики НТД и библиометрических и наукометрических данных и показателей. Разработан метод вычислительной объективной оценки качества неструктурированных документов. Разработаны модель, метод, алгоритмическое и программное обеспечение формирования коллекций НТД, адекватных для построения вычислительных оценок качества. Разработано алгоритмическое обеспечение комплексной вычислительной объективной оценки качества неструктурированных НТД. Осуществлена программная реализация экспериментального образца программного обеспечения совместного использования библиометрических и наукометрических показателей, моделей семантики НТД и вычислительных оценок качества НТД для вычислительной объективной оценки качества неструктурированных НТД на естественных языках. Осуществлена программная реализация сервиса по семантическому поиску в научной электронной библиотеке на основе экспериментального информационно-технологического стенда поиска НТД. Разработаны методы, алгоритмическое и программное обеспечение обмена данными между РИНЦ и разработанным ЭО ПО. Разработаны программа и методики экспериментальных исследований ЭО ПО.