Регистрация / Вход
Прислать материал

14.579.21.0090

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.579.21.0090
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
Общество с ограниченной ответственностью "БАЗИСНЫЕ ТЕХНОЛОГИИ"
Название доклада
Создание и программная реализация методов комплексной вычислительной объективной оценки качества неструктурированных научно-технических документов на естественных языках на основе совместного анализа моделей семантики текстовых документов и их коллекций и библиометрических и наукометрических данных и показателей
Докладчик
Крейнес Михаил Григорьевич
Тезисы доклада
Цели и задачи исследования
Цель данной работы – создание методов и технологии вычислительного совместного использования моделей текстов, характеризующих их содержание, списков цитированной литературы и библиометрических и наукометрических показателей для оценки качества текстов научно-технического характера и коллекций таких текстов.

Разработанные методы и технология при наличии представительной базы научно-технических текстов и индекса цитирования вычислительно решают следующие задачи:
- оценивание содержательной независимости, информативности и значимости текста,
- определение для текста множества референтных (сопоставимых по тематике) текстов,
- определение для коллекции текстов множества референтных (сопоставимых по тематике) текстовых коллекций,
- определение адекватности цитирования опубликованного текста,
- определение адекватности ссылочного аппарата (списка цитированных работ) в тексте,
- определение референтных (сопоставимых) значений оценок информативности, значимости и содержательной независимости для конкретного текста,
- определение референтных (сопоставимых) значений библиометрических и наукометрических показателей для конкретного текста и коллекции текстов,
- оценка влияния опубликованного текста на соответствующую ему предметную область,
- формирование для отдельных текстов и коллекций текстов, характеризующих автора (авторов) текстов, научные коллективы и научные издания, сопоставимых коллекций текстов,
- ранжирование текстов, (авторов) текстов, научных коллективов и научных изданий в рамках сопоставимых коллекций текстов по оценкам информативности, значимости и содержательной независимости, наукометрическим и библиометрическим показателям.
Актуальность и новизна исследования
Оценка научно-технических текстов основа определения
- возможности использования представленной в тексте информации (использование информации понимается широко – от публикации текста в научном издании до поддержки научного проекта и практического применения представленных в тексте результатов),
- уровня и места авторов и источников, опубликовавших тексты (присуждение ученых степеней, рейтинги ученых, научных коллективов, научных учреждений, организаций и изданий),
- вклада представленных в тексте результатов в развитие предметной области.

Традиционные механизмы оценки основаны на сборе экспертных мнений и на данных библиометрии и наукометрии. Но экспертные мнения субъективны и разноречивы. Анализ научного цитирования для опубликованных работ отражает оценку текста широким кругом ученых и поэтому часто воспринимается как способ объективной оценки. Недостатки прямого использования библиометрических и наукометрических показателей широко известны: часть индексов не имеет рационального обоснования, а ряд их достаточно легко поддается манипулированию. Здесь основными механизмами оказываются научная мода и содержательно необоснованное цитирование. Интерпретация показателей конкретной статьи затруднена необходимостью формирования референтных значений для узкой предметной области. При этом выявление «дружественного» цитирования, определение предметной области и связанных с ней публикаций не обходится без привлечения экспертов.

Актуальность работы определяется значимостью объективной оценки качества текстов научно-технического характера. Новизна результатов обусловлена технологическим использованием для построения такой оценки математических моделей текстов и их коллекций.
Описание исследования

Для формирования объективной оценки качества научно-технических текстов используются совокупность математических моделей текстов, текстовых коллекций, содержательной близости текстов, тематического сходства текстовых коллекций, количественных показателей информативности, значимости и содержательной независимости, вычислительный поиск содержательно близких текстов. Исходные данные для формирования оценок предоставляет документальная база для поиска текстов научно-технического характера, содержащая тексты в электронных текстовых форматах, и индекс цитирования, содержащий сведения о цитировании текстов из документальной базы.

 

Модели текстов вычислительно формируются на основании предположения о возможности адекватно представить тематику и содержание текста набором слов, наиболее сильно связанных в тексте в смысле комбинаторного критерия, используемого в информационной технологии КЛЮЧИ К ТЕКСТАМ®. При построении модели текст представляется словарным составом – «мешком слов», грамматические и синтаксические структуры текста игнорируются. Априорная информация о смысле, значении и сочетаемости слов при построении модели текста не используется. Модель текста представляется набором слов с весами, принимающими значения от 0 до 1. Модели текстов, входящих в произвольную коллекцию, позволяют последовательно построить: приближение модели коллекции (часть слов моделей текстов, обладающая большим суммарным весом в анализируемой коллекции), адаптивное контекстное приближение модели коллекции (слова приближенной модели с весовыми коэффициентами, разделяющими слова на две группы, одна из которых позволяет содержательно категоризовать требуемую долю документов коллекции), структурированную контекстную модель коллекции (группы объединенных по тематике слов адаптивного контекстного приближения модели с весовыми коэффициентами, характеризующими значимость слова для тематики группы). Для формирования моделей двух последних типов введена модель контекста слова в рамках приближения модели коллекции.

 

Ранее нами было показано, что использование вышеперечисленных моделей текстов и текстовых коллекций позволяет сформулировать математические модели таких важных характеристик содержания текстов как информативность, значимость и содержательная независимость и вычислительно формировать их реалистические оценки относительно различных текстовых коллекций. В масштабных экспериментах было показано, что новизна содержания адекватно характеризуется предложенными оценками информативности и содержательной независимости, а связи содержания с предметной областью характеризуется значимостью.

 

Ключевой проблемой при оценке качества текстов научно-технического характера является формирование множества референтных (сопоставимых по тематике) текстов, в результате сравнения с которыми может быть получена объективная оценка анализируемого текста. Множество референтных текстов определяется в результате вычислительного (на основании моделей текстов) поиска и анализа документов, содержательно близких с анализируемым текстом. Выявлено закономерное изменение значений оценки информативности при расширении коллекции содержательно близких текстов за счет включения текстов с уменьшающимся показателем близости. Это позволяет вычислительно определить состав референтной коллекции для анализируемого документа в результате сравнения значений оценки информативности для последовательности коллекций содержательно близких с ним текстов, отличающихся убывающим порогом показателя близости. Относительно референтной коллекции текстов вычислительно формируются объективные оценки информативности, значимости и содержательной независимости анализируемого текста. Референтные значения перечисленных оценок, а также библиометрических и наукометрических показателей определяются по величинам соответствующих показателей референтных текстов.

 

Модели текстовых коллекций используются для формирования по показателю тематической близости референтных групп для коллекций текстов, представляющих работу отдельных ученых, коллективов ученых, научно-технических изданий. Количественно тематическая близость двух текстовых коллекций определяется близостью их структурированных контекстных моделей или распределением текстов сравниваемых коллекций по элементам структурированной модели коллекции, включающей сравниваемые.

 

При формировании оценок критически важной оказывается полнота представления научно-технического уровня в доступной для организации поиска базе информационных источников.

Результаты исследования

Рассмотренные выше модели и методы реализованы в виде экспериментального образца программного обеспечения.

 

Алгоритмически и вычислительно реализованы формирование коллекции референтных текстов, расчеты оценок информативности, значимости и содержательной независимости анализируемого текста относительно референтной коллекции, сопоставимых значений (средних, минимальных и максимальных для референтных текстов) указанных оценок и библиометрических показателей.

 

Вычислительные оценки показателей качества были сформированы для 5150 русскоязычных научных статей. Поиск референтных текстов выполнялся в доступной базе информационных источников, включающей 922230 русскоязычных научных статей за 2009 – 2015 г.г., представленных полными текстами на ресурсе e-library.ru (индустриальный партнер проекта). Анализ полученных вычислительных оценок качества экспертами показал их обоснованность и интерпретируемость, высокий уровень соответствия содержания и тематики вычислительно найденных референтных текстов и анализируемых образцов.

 

Количественное сопоставление оценок информативности, значимости и содержательной независимости (диапазон изменения оценок от 0 до 1), рассчитанных относительно коллекции референтных текстов, с оценками, рассчитанными относительно коллекций процитированных в анализируемом тексте работ и цитирующих его работ, вычислительно выявляет наличие содержательных заимствований и содержательно необоснованное цитирование. Близкая к нулю оценка содержательной независимости относительно коллекции референтных текстов означает наличие содержательных заимствований. Если в данном случае оценка содержательной независимости относительно коллекции процитированных текстов не близка к нулю, то это означает, что источник заимствования в список цитированных источников не включен. При оценке информативности относительно коллекции процитированных или цитирующих источников близкой к единице и невысоких значениях оценки информативности относительно коллекции референтных текстов имеет место содержательно необоснованное цитирование (соответственно, в анализируемом тексте или в цитирующих его документах). Необоснованное цитирование не на много менее опасно, чем некорректные заимствования, т.к. приводит к целенаправленному искажению библиометрических и наукометрических показателей, фиксируемых в индексах цитирования.

 

Задачи совместного анализа библиометрических и наукометрических показателей и семантических характеристик научно-технических текстов декларируются профессиональным сообществом как наиболее актуальные и важные для объективной оценки конкретных работ, авторов, коллективов и изданий. Однако, конкретные модели и методы такого совместного анализа ранее предложены не были.

 

Полученные в данной работе результаты не имеют аналогов. Используемая в качестве базовой для поиска содержательно близких текстов нформационная технология КЛЮЧИ К ТЕКСТАМ® разработана авторами данной работы. Альтернативные методы поиска содержательно близких текстов для определения референтных значений показателей качества не обеспечивают необходимой правильности результатов. Модели показателей качества, напрямую зависящие от параметров моделей анализируемого и референтных текстов, модели текстовых коллекций и методы их анализа созданы авторами данной работы. Критерий включения в коллекцию референтных текстов предложен и реализован в рамках данной работы.

Практическая значимость исследования
В данной работе предложены модели и методы комплексной вычислительной объективной оценки качества неструктурированных научно-технических документов на естественных языках, объединяющие анализ моделей семантики текстовых документов и их коллекций и библиометрических и наукометрических данных и показателей.

Такая вычислительная оценка качества научных текстов может использоваться:
- в качестве инструмента информационно-аналитического обеспечения работы ученых и экспертов, когда результаты вычислений предоставляют специалисту дополнительные данные для анализа и оценки научного текста (возможно, собственного текста),
- в качестве экспресс-оценки, когда результаты вычислений с определенностью показывают несоответствие цитированных и цитирующих публикацию работ и адекватной коллекции,
- в качестве инструмента контроля работы ученых и экспертов в случаях, когда имеются серьезные расхождения между вычислительными и экспертными оценками.

Выявление референтных групп для текстовых коллекций существенно уточняет рейтинги по библиометрическим и наукометрическим показателям. Здесь необходим учет возможных искажений рейтингов в результате необоснованного цитирования. Действительно, необоснованное цитирование может сказаться не только на ранжировании конкретного текста, но и на ранжировании текстовой коллекции в случаях, когда значимая часть ее текстов цитируется необоснованно. Это может приводить к незаслуженно высоким рейтингам авторов, научных коллективов, целых организаций и изданий (при соответствующей редакционной политике). Выявление подобных «дутых» рейтингов легко реализуется с применением разработанных моделей и методов сопоставлением средних по анализируемой коллекции значений информативности текстов коллекции относительно коллекций референтных текстов и коллекций процитированных и цитирующих текстов.

Функциональные возможности разработанных моделей и методов определяют широкий круг их потребителей:
- ученые, эксперты,
- администрация научных учреждений и лица, определяющие научно-техническую политику,
- редакционные коллегии научно-технических изданий,
- организации, осуществляющие научно-техническую экспертизу или контролирующие проведение такой экспертизы,
- учреждения, поддерживающие индексы цитирования.