Опыт синтаксической разметки тюркских языков
DOI:
https://doi.org/10.26577/EJPh202519932Аннотация
В статье рассматривается опыт описания синтаксической структуры тюркских языков с точки зрения формальной грамматики и на основе современных аннотационных моделей. Синтаксическая аннотация признаётся важным инструментом, позволяющим формально описать грамматическую систему языка и обеспечивающим возможность её автоматической обработки. В ходе исследования, опираясь на проекты «Universal Dependencies» (UD), «MaTT» (Multilingual Aligned Treebank of Turkic) и «Kazakh Dependency Treebank» (KazDT), были описаны морфологические и синтаксические особенности, характерные для тюркских языков.
Были проанализированы модели синтаксической разметки: «грамматика фразовой структуры», «смешанная» и «грамматика зависимостей» и др., их характеристики, различия, а также преимущества и недостатки для тюркских языков. В результате было доказано, что модель синтаксической аннотации, основанная на грамматике главно-зависимых отношений, позволяет эффективно описывать структуру тюркских языков.
Описаны теоретические основы грамматики зависимостей (главно-зависимых отношений), форматы и стандарты синтаксической аннотации. Рассмотрена адаптация агглютинативной природы и свободного порядка слов тюркских языков к универсальным проектам, таким как «UD» .
Кроме того, обозначены будущие направления, такие как совершенствование размеченных корпусов казахского языка, автоматический парсинг, интеграция в системы языкового образования. Статья ставит целью научное обоснование синтаксической аннотации как одного из важных шагов по введению казахского языка в цифровое пространство на основе опыта синтаксической разметки тюркских языков.
Ключевые слова: тюркские языки, синтаксическая аннотация, грамматика зависимостей, «UD» , «KazDT», формальные модели, парсинг.
