Типологическая обусловленность архитектуры национальных языковых корпусов: сопоставительный анализ
DOI:
10.26577/EJPh202220262Аңдатпа
В статье рассматриваются национальные языковые корпуса как стратегические ресурсы современной корпусной лингвистики и цифровых гуманитарных наук. Актуальность исследования обусловлена необходимостью типологически ориентированного анализа корпусных ресурсов, учитывающего структурные особенности языка при их проектировании. Целью работы является сопоставительный анализ Национального корпуса казахского языка, Национального корпуса русского языка и Турецкого национального корпуса с точки зрения влияния типологической структуры языка на архитектуру корпуса и уровни лингвистической аннотации. Методологическую основу исследования составляют описательный и сравнительный методы, элементы качественного корпусного анализа, а также параметрическое сопоставление объемов, жанрового состава и уровней морфологической, морфосинтаксической и семантической разметки. В результате выявлено, что для корпусов агглютинативных языков приоритетное значение имеет детализированная морфологическая аннотация, обеспечивающая корректную сегментацию аффиксов и лемматизацию, тогда как для флективного русского языка ключевым является многоуровневое морфосинтаксическое и семантическое описание. Установлена зависимость архитектуры национального корпуса от типологических характеристик языка. Научная ценность работы заключается в формировании типологически ориентированной модели сопоставления национальных корпусов. Практическое значение результатов состоит в возможности их использования при дальнейшем развитии Национального корпуса казахского языка, а также в образовательных и прикладных задачах автоматической обработки естественного языка.
Ключевые слова: корпусная лингвистика; национальный языковой корпус; типология языков; морфологическая аннотация; корпусное моделирование








