Историко-поэтический подкорпус: семантическая разметка старокнижных слов
DOI:
https://doi.org/10.26577/EJPh2025198213Аннотация
Институт языкознания имени Ахмета Байтурсынулы в рамках Национального корпуса казахского языка (НККЯ) разрабатывает «Историко-поэтический подкорпус», включающий тексты образцов устного народного творчества XV-XIX веков. Одной из актуальных проблем, возникающих при формировании этой крупной базы данных, является необходимость создания семантической разметки старокнижных лексических единиц, характерных для указанного периода. В произведениях устного народного творчества этого времени встречаются сложные лексические единицы, значения которых незнакомы современному читателю. В связи с этим целью нашего исследования является определение значений малопонятных лексических единиц, встречающихся в поэтических строках, и выбор для них семантической разметки. Для достижения этой цели первоначально будет рассмотрен международный опыт разработки семантической разметки. В частности, будет изучен опыт семантической разметки в национальных корпусах русского, татарского и башкирского языков. Рассматриваются структурные характеристики старокнижных слов и критерии их отбора для включения в аннотируемую базу. Особое внимание уделяется алгоритму создания семантической разметки и функциональным возможностям данного подхода. Полученные результаты могут быть использованы при создании учебных и лексикографических ресурсов, а также при интерпретации старокнижных слов. Исследование способствует углубленному изучению исторического развития казахского языка и его культурного наследия.
Ключевые слова: историко-поэтический подкорпус, старокнижная лексика, образцы устной литературы, семантическая разметка.