Регистрация / Вход
Прислать материал

Алгоритм морфологического парсинга старотюркских текстов (на материале текстов М.-А. Чукури)

Сведения об участнике
ФИО
Гречачин Виталий Андреевич
Вуз
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Башкирский государственный университет»
Тезисы (информация о проекте)
Область наук
Гуманитарные и социальные науки
Раздел области наук
Филологические науки и искусствоведение
Тема
Алгоритм морфологического парсинга старотюркских текстов (на материале текстов М.-А. Чукури)
Резюме
Проект представляет особой описание особенностей и устройства предложенного автором варианта алгоритма морфологического парсинга старотюркских текстов. В проекте описаны основные компоненты алгоритма морфологического парсинга старотюркских текстов. В частности, описаны словарь лемм, словарь аффиксов, морфотактика, алгоритм обработки аффиксов. Рассмотрены первые результаты.
Ключевые слова
Старотюркский язык, морфологический парсинг, словарь лемм, словарь аффиксов, морфотактика
Цели и задачи
Целью проекта является разработка алгоритма для создания программы морфологического парсинга старотюркских текстов для последующего создания авторского корпуса текстов. Задачей этого алгоритма является вывод результатов морфологического разбора слов старотюркских текстов. В частности, алгоритм разработан на материале текстов башкирского писателя XIX века Мухаммада-Али Чукури.
Введение

Морфологический парсинг старотюркских текстов необходим для:

- создания современных методов и инструментов исследования старотюркского языка;

- создания общетюркского корпуса текстов XIX века;

- создания авторских корпусов текстов старотюркских писателей;

- автоматического морфологического анализа старотюркских текстов;

- создания различных словарей (частотных, этимологических и др.).

В основе алгоритма морфологического парсинга старотюркского языка лежат знания в области морфологии старотюркского языка, программирования и компьютерных технологий. Конечная цель алгоритма морфологического парсинга – произвести вывод разбора словоформы, которая была принята алгоритмом на вводе.

Методы и материалы

Морфологический парсинг текстов любого языка всегда строится на основе словаря начальных форм слов (лемм) и словаря аффиксов. Таким образом, были подготовлены словари, основанные на изучении отсканированных и переведенных с арабской графики на современную башкирскую кириллицу с сохранением большинства фонетических особенностей языка тюрки рукописных и печатных текстов башкирского поэта XIX века М.-А. Чукури (1826-1889). Учитывая, что материалом для компьютерного анализа в будущем могут стать не только тексты М.‑А. Чукури, но и опубликованные ранее тексты башкирских поэтов и писателей XVIII-XIX веков Т. Ялсыгула, Ш. Заки, Г. Киикова, Р. Фахретдинова и др., значительно приближенные при кириллизации к современной башкирской орфографии, а также возможность интеграции проекта с Башкирским поэтическим корпусом, в словарь лемм были внесены слова из толкового словаря башкирского языка и прописаны их соответствия со старотюркскими.

Кроме того, алгоритм обработки аффиксов строится на основе морфотактики (правил аффиксации). Эти правила аффиксации для алгоритма были разработаны на основе грамматики старотюркского языка. 

Описание и обсуждение результатов

     Основные этапы обработки словоформ:

Во-первых, получая слово на вводе, алгоритм итерирует элементы словаря лемм и сравнивает итерируемые элементы со срезом введенного слова, равным расстоянию от начала слова до длины элемента. Например, принимая на вводе слово йулларына (его путям) алгоритм перебирая и сравнивая элементы словаря лемм, доходит до нужного нам йул и сравнивает его со срезом йулларына от начала слова до третьей буквы. Обнаруживая совпадение, алгоритм получает элемент словаря лемм и его значение, в нашем случае – это 'йул': 'S' . Теперь мы знаем, что йулларына – это существительное, а его основа ҡол.

Далее выполняется следующий подалгоритм, который отсекает цепочку аффиксов от основы, путем получения среза введенного слова от номера буквы, равному длине основы, до номера буквы, равному длине введенного слова.

Далее алгоритм переходит к словарю аффиксов существительных (мы уже знаем, что йулларына – это существительное, так как получили значение 'S') и начинает обработку полученной цепочки аффиксов -ларына.

Обработка цепочки начинается с того, что «маркер» устанавливается на последней букве цепочки аффиксов.  Алгоритм проверяет, является ли последняя буква элементом группы клитик неуверенности, затем группы остальных клитик, затем группы аффиксов сказуемости и т.д. в соответствии с заданной морфотактикой. Если последняя буква не является элементом всего множества аффисков существительных, то алгоритм начинает проверять две последние буквы, если потребуется, то три последние буквы и т.д. В нашем случае алгоритм должен остановиться на группе падежных аффиксов, так как последние две буквы цепочки -ларына совпадают с аффиксом дательного падежа на. После того, как проверка проведена, алгоритм отсекает совпавший аффикс, получает соответствующее значение (грамматическую помету) и записывает аффикс и значение в отдельный список. Алгоритм повторяется до тех пор, пока «маркер» не доходит до начала цепочки аффиксов. После того, как отсечение до начала слова (нулевой буквы) закончено, алгоритм получает список отсеченных аффиксов с соответствующими пометами. В нашем случае этот список выглядит следующим образом: [('лар', 'PL'), ('ы', ' POSS,3SG/PL'), ('на', ' DAT')].

Далее алгоритм строит вывод, обрабатывая получившийся список и ранее полученную основу с грамматической пометой. В итоге мы имеем «йул(S); йул+лар+ы+на; PL, POSS,3SG/PL, DAT».

    Подходы для обработки сложных случаев.

Резервирование заключается в том, чтобы указать алгоритму, когда он доходит до этапа отсечения аффикса, запоминать текущее положение «маркера» в случае, если отсечение прерывается не на нулевой букве. Прогнозирование заключается в том, чтобы проверять следующий далее вариант обработки букв, то есть проверять окружение аффикса, которое мы можем описать более детально для алгоритма.

         

Используемые источники
1. Галяутдинов И.Г. Два века башкирского литературного языка. – Уфа: Гилем, 2000. – 448 с.
2. Грамматика современного башкирского литературного языка. / Наука; [под ред. А. А. Юлдашева]. – М: Наука, 1981. – 496 с.
3. Саитбатталов И.Р. Средства художественной выразительности в поэме «Китāб ал-асмā» М.-ʻА. Чӯк̣урӣ // Международный научно-исследовательский журнал. – 2015. – №11-4 (42). – с. 27 – 30.
4. Jurafsky, D. Speech and Langauge Processing / D. Jurafsky, J. H. Martin. – 2nd edition. – New Jersey: Prentice Hall, 2008. – 1024 p.
5. Natural Language Processing with Python [Электронный ресурс] URL: http://www.nltk.org/book/ch00.html (дата обращения 13.05.2016).
Information about the project
Surname Name
Grechachin Vitaliy
Project title
The algorithm for morphological parsing of the old Turkic texts (on the material of texts by M.-A. Chūqurī)
Summary of the project
The project describes features and the structure of the algorithm for morphological parsing of Old Turkic texts proposed by the author. The project describes the main components of the algorithm for morphological parsing of Old Turkic texts . In particular, described the dictionary of lemmas, the dictionary of affixes, morphotactics, the algorithm of processing of affixes. Considered the first results.
Keywords
Old Turkic language, morphological parsing, dictionary of lemmas, dictionary of affixes, morphotactics