Регистрация / Вход
Прислать материал

Создание и программная реализация методов комплексной вычислительной объективной оценки качества неструктурированных научно-технических документов на естественных языках на основе совместного анализа моделей семантики текстовых документов и их коллекций и библиометрических и наукометрических данных и показателей

Докладчик: Крейнес Михаил Григорьевич

Должность: Генеральный директор, к.ф.-м.н

Цель проекта:
1) Разработка принципов, моделей, методов и алгоритмов вычислительной оценки качества научно-технических документов (далее – НТД), сочетающей анализ традиционных библиометрических и наукометрических данных и показателей с анализом моделей семантики и расчетными оценками показателей качества НТД. 2) Разработка программно-технических решений по вычислительной оценке качества научно-технических документов (далее – НТД), сочетающих анализ традиционных библиометрических и наукометрических данных и показателей с анализом моделей семантики и расчетными оценками показателей качества НТД.

Основные планируемые результаты проекта:
1.1 Принцип и метод совместного использования библиометрических и наукометрических данных и показателей, моделей семантики НТД и вычислительных оценок качества (показатели значимости, информативности и содержательной независимости) НТД.
1.2 Алгоритмическое обеспечение комплексной вычислительной объективной оценки качества неструктурированных научно-технических документов на естественных языках на основе совместного анализа моделей семантики текстовых документов и их коллекций и библиометрических и наукометрических данных и показателей.
1.3 Принцип, модель, метод и алгоритм формирования и анализа коллекций НТД, применяемых для построения вычислительных оценок качества (значимости, информативности и содержательной независимости) и принцип, модель, метод и алгоритм для определения референтных (сопоставимых) значений библиометрических и наукометрических показателей анализируемого текста.
1.4 Программно-технические решения в виде экспериментального образца программного обеспечения совместного использования библиометрических и наукометрических показателей, моделей семантики НТД и вычислительных оценок качества НТД для вычислительной объективной оценки качества неструктурированных научно-технических документов на естественных языках на основе совместного анализа моделей семантики текстовых документов и их коллекций и библиометрических и наукометрических данных и показателей.
1.5 Методическое обеспечение использования результатов комплексного вычислительного оценивания качества НТД для информационно-аналитического обеспечения экспертизы НТД.
1.6 Рекомендации по использованию результатов проведенных ПНИ в реальном секторе экономики с учетом технологических возможностей̆ индустриального партнера, а также в дальнейших исследованиях и разработках.
1.7 Проект технического задания на ОКР «Создание программного комплекса вычислительного объективного оценивания качества неструктурированных научно-технических документов на естественных языках на основе совместного анализа моделей семантики текстовых документов и их коллекций и библиометрических и наукометрических данных и показателей».

2.1 Принцип и метод совместного использования библиометрических и наукометрических данных и показателей, моделей семантики НТД и вычислительных оценок качества (показатели значимости, информативности и содержательной независимости) НТД должны обеспечивать получение объективных оценок качества НТД в результате совместного анализа конкретного НТД и коллекций документов, способных повлиять на его оценку (содержательно похожих на анализируемый НТД, цитированных в анализируемом НТД, цитирующих анализируемый НТД, цитируемых в документах, содержательно близких с анализируемым НТД, цитирующих содержательно близкие с анализируемым НТД информационные источники).
2.2 Алгоритмическое обеспечение комплексной вычислительной объективной оценки качества неструктурированных научно-технических документов на естественных языках должно обеспечивать совместный анализ моделей семантики текстовых документов и их коллекций, библиометрических и наукометрических данных и показателей, вычислительных оценок качества (показатели значимости, информативности и содержательной независимости) НТД для формирования оценок НТД.
2.3 Принцип, модель, метод и алгоритм формирования и анализа коллекций НТД, применяемых для построения вычислительных оценок качества (значимости, информативности и содержательной независимости) и принцип, модель, метод и алгоритм определения референтных (сопоставимых) значений библиометрических и наукометрических показателей анализируемого текста, должны обеспечивать вычислительное (без участия человека) формирование коллекций документов, которые способны повлиять на оценки анализируемого НТД.
2.4 Экспериментальный образец программного обеспечения совместного использования библиометрических и наукометрических показателей, моделей семантики НТД и вычислительных оценок качества НТД должен быть предназначен для формирования объективной оценки качества неструктурированных научно-технических документов на естественных языках (русском и английском) в результате анализа документов, способных повлиять на оценку анализируемого текста, и анализируемого документа.
2.5 Методическое обеспечение использования результатов комплексного вычислительного оценивания качества НТД для информационно-аналитического обеспечения экспертизы НТД должно стать основой использования результатов вычислительного оценивания качества НТД при проведении научно-технической экспертизы.
2.6 Проект технического задания на ОКР «Создание программного комплекса вычислительного объективного оценивания качества неструктурированных научно-технических документов на естественных языках на основе совместного анализа моделей семантики текстовых документов и их коллекций и библиометрических и наукометрических данных и показателей» должен стать основой разработки промышленной версии программного комплекса.
2.7 Рекомендации по использованию результатов проведенных ПНИЭР в реальном секторе экономики с учетом технологических возможностей̆ индустриального партнера, а также в дальнейших исследованиях и разработках должны определять конкретные способы и сроки использования результатов ПНИЭР индустриальным партнером.

3. Разрабатываемые в проекте решения характеризуются принципиальной новизной.

4. Впервые реализуется сочетание прагматического и герменевтического подходов к полностью вычислительной оценке научно-технических документов на естественных языках.

5. Принципиальные подходы к решению задач проекта основаны на:
- математических моделях представления семантики текстов и текстовых коллекций,
- критериях содержательной близости текстов,
- моделях кластеризации и категоризации текстов,
- математических моделях оценивания показателей качества (информативности, значимости и содержательной независимости) научно-технических текстов на естественных языках по переменным моделей семантики текстов и их коллекций,
- методах и алгоритмах полностью вычислительного формирования и анализа моделей семантики и моделей показателей качества НТД,
- моделях и методах библио/наукометрического анализа.

Ограничения применимости разрабатываемых методов связаны только с доступностью информационных ресурсов научно-технического профиля на естественных языках. Наличие у проекта индустриального партнера - ООО "Научная электронная библиотека" полностью снимает риски выполнения проекта.


Назначение и область применения, эффекты от внедрения результатов проекта:
В данном проекте предлагается создание методов комплексной объективной оценки качества НТД по результатам совместного анализа библиометрических и наукометрических данных и показателей, моделей семантики НТД и вычислительных оценок качества (показатели значимости, информативности и содержательной независимости) НТД, предназначенных для нового типа информационно-аналитических систем.

Одной из областей применения предлагаемых к разработке информационной технологии методов является сфера научно-технической экспертизы. Практическое использование комплексных оценок качества, основанных на результатах семантического и библиометрического и наукометрического анализа НТД, обеспечит существенное увеличение объективности и оперативности проведения оценивания НТД во всех сферах научно-технической деятельности при снижении ее стоимости в результате:
- возможного в ряде случаев исключения высококвалифицированных специалистов из процессов оценивания НТД,
- радикального изменения задач специалиста-предметника при оценке НТД от выполнения функций уникального источника и интерпретатора содержательных знаний в предметной области на функцию интерпретатора содержательных и формальных оценок качества НТД и их взаимосвязей,
- определения референтных (сопоставимых) значений для библиометрических и наукометрических показателей анализируемых НТД по показателям содержательно близких с ними документов,
- объективного ранжирования НТД, в том числе, в случаях когда сравниваемые НТД относятся к различным предметным областям.

Использование предлагаемых к разработке методов основано на доступе к масштабным авторитетным хранилищам НТД и базам данных библиометрической и наукометрической информации. Такой доступ к материалам, характеризующим российскую науку, предоставляет Индустриальный партнер проекта - Общество с ограниченной ответственностью «НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА». С учетом слабой представленности российской науки в международных базах данных, например, в базах данных WEB of Science, Scopus, ACM, PubMed (MEDLINE), - создаваемая в рамках проекта технология позволит в значительной степени заменить необходимость обращения к зарубежным базам данных и технологиям при оценке русскоязычных НТД. При организации доступа к базам данных англоязычных публикаций разрабатываемые методы могут функционировать без модификаций и доработок, т.к. используемые в ней методы семантического поиска и анализа текстовой информации на естественных языках ориентированы на работу с русско- и англоязычными текстами.

Применение разрабатываемых методов повысит объективность и оперативность экспертизы неструктурированных НТД на естественных языках в научно-технической сфере, что положительно скажется на научно-техническом развитии и на экономическом развитии в целом.

Текущие результаты проекта:
Разработаны принципы совместного использования библиометрических и наукометрических показателей, моделей семантики НТД и вычислительных оценок качества НТД.

Разработаны принципы формирования и анализа коллекций НТД, адекватных для построения вычислительных оценок качества (значимости, информативности и содержательной независимости) и для определения референтных (сопоставимых) значений библиометрических и наукометрических показателей