Регистрация / Вход
Прислать материал

О ПРОБЛЕМЕ АВТОМАТИЧЕСКОЙ ЛЕММАТИЗАЦИИ КОРПУСА ТЕКСТА

Сведения об участнике
ФИО
Акинин Андрей Анатольевич
Вуз
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Челябинский государственный университет"
Тезисы (информация о проекте)
Область наук
Информационные технологии и вычислительные системы
Раздел области наук
Информационные технологии
Тема
О ПРОБЛЕМЕ АВТОМАТИЧЕСКОЙ ЛЕММАТИЗАЦИИ КОРПУСА ТЕКСТА
Резюме
автоматическая лемматизация корпуса текста
Ключевые слова
автоматическая лемматизация корпуса текста
Цели и задачи
Планируется рассмотреть текст объемом 250 тыс. слововхождений (1150-1350 гг.). Ручная обработка такого объема представляется затруднительной и малоэффективной, поэтому речь идет о необходимости автоматического составления списка лемм.
Введение

Для построения математической модели диахронических изменений вокабуляра (словарного запаса) средневекового английского языка требуется провести частотный анализ текста. Для этого необходимо слова, встречающиеся в тексте, привести к начальной форме (лемме). Процесс лемматизации является предварительным этапом для научного анализа текстового корпуса. Планируется рассмотреть текст объемом 250 тыс. слововхождений (1150-1350 гг.). Ручная обработка такого объема представляется затруднительной и малоэффективной, поэтому речь идет о необходимости автоматического составления списка лемм.

Методы и материалы

Опишем алгоритм работы программы:

  1. Отсекаем от слова окончание (0-3 символа).
  2. При необходимости добавляем окончание начальной формы (леммы), если таковое имеется (определяется по части речи слова, та, в свою очередь, определяется по отсеченному окончанию).
  3. Полученную лемму записываем в итоговый текстовый файл отдельной строкой.
  4. Словоформу без отсеченного окончания выносим в тот же файл под полученную лемму. Если полученная лемма в файле уже имеется, не производим операцию по определению леммы, а выносим словоформу под уже имеющуюся.

Результат работы программы – это два текстовых файла, в одном из которых содержится список лемм вместе со словоформами, а в другом список ошибок.

Описание и обсуждение результатов

Полученные результаты планируется применить для дальнейших исследований, одним из которых является построение математической модели эволюции языка, учитывающей связь между возрастом и рангом слова.

Используемые источники
1. Прохоренок Н. А. Python 3 и PyQt. Разработка приложений. – СПб.: БХВ-Петербург, 2012. – 704 с.
2. Яцко, В. А. Алгоритмы и программы автоматической обработки текста [Текст] / В. А. Яцко // Вестник Иркутского государственного лингвистического университета. – 2012. – № 1(17). – С. 150-161.
Information about the project
Surname Name
Akinin
Project title
about the problem of automatic lemmatization corpus text
Summary of the project
It is planned to consider the text of 250 thousand words ( 1150-1350 ) . Manual processing of this volume is difficult and inefficient , so we are talking about the need for automatic generation of a list of lemmas .
Keywords
automatic lemmatization of the corpus text