Жазушы мәтіні ішкорпусын әзірлеу жолдары: метабелгіленім құрылымы мен қызметтері
DOI:
https://doi.org/10.26577/EJPh.2024.v193.i1.ph2Аннотация
Мақаланың мақсаты - қазақ тілінің ұлттық корпусы құрамындағы жазушы субкорусының құрылымы мен метаразметкасын рәсімдеу үлгісін ұсыну. Мақала әлемдік тіл біліміндегі компьютерлік лингвистика бағытының аясында зерттелді. Мақаланың идеясы – әлемдік ұлттық корпус жетістіктеріне сүйене отырып, қазақ тілінің ұлттық корпусын соның ішіндегі субкорпустарды жетілдіру.
Мақаланың ғылыми сипаттамасы - тіл корпусы, тілдік ілімдерді цифрландыру, соның ішінде жазушы мәтініне стилистикалық талдау жасаудың, жазушы тұлғасын танытудың теориялық негіздерін ұсыну. Мақаланың практикалық сипаттамасы - корпустық базаға лингвистикалық ілімдері енгізудің модельдерін ұсыну. Мақалада жазушы субкорпусындағы әрбір көркем шығармаға рәсімделетін метаразметканың үлгісі мен әрбір көріктеуіш сөздерге берілетін семантикалық разметка үлгісі ұсынылады. Мақалада ұсынылған метаразметка әрбір текстке беріледі. Каждый текст корпуса сопровождается паспортизацией или метаразметкой, то есть полным описанием об авторе и о произведении.
Зерттеу әдіснамасы – EXMARaLDA программалық пакеті, HIAT программалық әдісі, сондай-ақ лингвостилистика, тұлғатану әдістері. Зерттеу жұмысының негізгі нәтижесі – проза мен драмалық шығармаларға толық сипаттама беретін және шығарманың электронды нұсқасын онлайн оқуға мүмкіндік беретін цифрлық форматтағы мәтіндер базасын рәсімдеу моделі. Мақаланың құндылығы - функционал корпуса текстов писателей помимо транскрипций составляют различные возможности поиска и отбора эмпирических и статистических данных. Оснащен метаразметкой, которая включает в себя библиографические данные о каждом произведении и позволяет произвести социолингвистическую диверсификацию текстов. Мақаланың жетістігі – корпустық база әзірлеудегі негізгі тетігі – аннотациялық және семантикалық метаразметкалардың айырмашылығы анықталады.
Түйін сөздер: жазушы ішкорпусы, аннотациялық метабелгіленім, семантикалық белгіленім, модель, мәтін базасы, проза, драма.