Приемы разработки подкорпуса текста писателя: структура и функции метаразметки
DOI:
https://doi.org/10.26577/EJPh.2024.v193.i1.ph2Аннотация
Цель статьи – предоставить образец оформления структуры и метаразметки подкорпуса текста писателя в составе национального корпуса казахского языка. Статья исследуется в рамках области компьютерной лингвистики в мировой лингвистике. Идея статьи заключается в совершенствовании подкорпусов национального корпуса казахского языка. Научное описание статьи представляет собой корпус языка, цифровизацию языкового языкознания, включая обеспечение теоретических основ стилистического анализа писательского текста, репрезентации личности писателя. Практическое описание статьи представляет собой представление моделей внедрения лингвистических учений в базу корпуса. В статье предлагается образец метаразметки, которая предназначена для каждого художественного произведения в подкорпусе писателя, и образец семантической разметки, которая передается каждому образному слову. Каждый текст корпуса сопровождается аннотацией или метаразметкой, то есть полным описанием автора и произведения. Методологией исследования являются программный пакет EXMARaLDA, программный метод HIAT, а также методы лингвистической стилистики, методы познания личности писателя. Основным результатом исследовательской работы является разработка моделя базы данных текстов в цифровом формате, дающая подробное описание прозаических и драматических произведений и позволяющая читать электронную версию произведения в режиме онлайн. Ценность статьи заключается в функциональности корпуса текстов писателей, помимо транскрипций, имеются различные возможности поиска и отбора эмпирических и статистических данных. Он оснащен метаразметками, включающим библиографические данные о каждом произведении и позволяющим социолингвистическую диверсификацию текстов. Результаты статьи определяется основным механизмом развития корпусной базы – отличием аннотации от семантических метаразметок. Статья написана на основе научного проекта «ИРН BR21882249».
Ключевые слова: подкорпус текста писателя, аннотационная метаразметка, семантическая метаразметка, модель, текстовая база, проза, драматургия.