QazLLM vs. ChatGPT: лингвистические сходства и преимущества в передаче казахского этнокультурного кода
DOI:
10.26577/EJPh2022202612Аннотация
Развитие больших языковых моделей расширило спектр цифровых сервисов на казахском языке, однако опора многих систем преимущественно на англоязычные данные создает трудности при точной передаче национально маркированного содержания, прежде всего казахского этнокультурного кода. В данной работе выполнен сравнительный лингвистический анализ ответов QazLLM и ChatGPT с точки зрения их способности интерпретировать культурно-исторический, правовой и идиоматический контекст казахского языка.
Актуальность исследования обусловлена растущим запросом в государственных сервисах, образовании и медиасреде на культурно корректную и прагматически устойчивую казахоязычную генерацию. Эмпирическую основу составили 140 000 экспертно размеченных примеров; результаты дополнительно сопоставлены с решениями OpenAI и разработками Назарбаев Университета (ISSAI).
В ходе исследования ответы моделей оценивались по показателям распознавания национально-культурных реалий, мотивированного объяснения фразеологизмов и устойчивых сочетаний, точной передачи оценочной семантики, а также соблюдения норм диалогового взаимодействия. Дополнительно была построена типология ошибок, включающая культурные обобщения, подмену понятий и поверхностную интерпретацию контекста.
Анализ показал, что QazLLM чаще согласует национально специфичные понятия, фразеологию и оценочные оттенки с контекстом, тогда как ChatGPT демонстрирует более стабильные результаты в универсальных информационных запросах. Научная значимость работы связана с уточнением лингвистических критериев измерения культурной релевантности и с обоснованием роли локализованных корпусов. Практическая ценность результатов заключается в возможности их применения при совершенствовании казахоязычных чатботов, учебно-методических материалов, переводческих ассистентов и культурно-справочных сервисов.
Ключевые слова: большая языковая модель, искусственный интеллект, казахский язык, культурный контекст, трансформер, корпус данных, локализация.








