QazLLM vs. ChatGPT: қазақ этномәдени кодын жеткізудегі лингвистикалық ұқсастықтар мен басымдықтар

Т. Рамазанов; А. Жаңабекова; А. Садық

doi:10.26577/EJPh2022202612

Авторлар

Т. Рамазанов А.Байтұрсынұлы атындағы Тіл білімі институты, Қазақстан, Алматы қ. https://orcid.org/0000-0002-4405-5914 (неаутентифицированный)
А. Жаңабекова А.Байтұрсынұлы атындағы Тіл білімі институты, Қазақстан, Алматы қ. https://orcid.org/0000-0002-6199-7444
А. Садық К.Сағадиев атындағы Халықаралық бизнес университеті, Қазақстан, Алматы қ. https://orcid.org/0009-0007-8424-6735 (неаутентифицированный)

DOI:

10.26577/EJPh2022202612

Аңдатпа

Үлкен тілдік моделдер қазақ тіліндегі цифрлық қызметтерді кеңейтті, алайда көптеген жүйелердің ағылшынтілді дерекке көбірек сүйенуі ұлттық мазмұнды, әсіресе қазақтың этномәдени кодын дәл жеткізуде қиындық туғызады. Осы жұмыста QazLLM мен ChatGPT жауаптары қазақ тіліндегі мәдени-тарихи, құқықтық және идиомалық контексті түсіндіру қабілеті тұрғысынан салыстырмалы лингвистикалық талдаудан өтті.

Зерттеудің өзектілігі қазақ қоғамындағы мемлекеттік сервистер, білім беру және медиакеңістікте мәдени тұрғыдан дұрыс, прагматикалық тұрғыдан орнықты қазақша генерацияға сұраныстың артуымен айқындалады. Эмпирикалық негіз ретінде сарапшылар белгілеген 140 000 мысал қолданылып, нәтижелер қосымша түрде OpenAI жүйелері және Назарбаев Университеті жанындағы ISSAI әзірлемелерімен салыстырылды.

Зерттеу барысында ұлттық-мәдени реалияларды тану, фразеологизмдер мен тұрақты тіркестерді уәжді түсіндіру, бағалауыштық реңкті дәл беру, сондай-ақ диалогтік нормаларды сақтау сияқты көрсеткіштер бойынша моделдердің жауаптары бағаланды. Сондай-ақ қателердің типологиясы жасалып, мәдени жалпылау, ұғымды алмастыру, контексті үстірт түсіндіру тәрізді ауытқулар жіктелді.

Талдау QazLLM-нің ұлттық болмысқа тән ұғымдарды, фразеологизмдер мен бағалау реңктерін контекспен қабыстыра беруі жиірек екенін, ал ChatGPT-дің әмбебап ақпараттық сұрақтарда тұрақтырақ екенін көрсетті. Зерттеудің ғылыми құндылығы мәдени релеванттылықты өлшейтін лингвистикалық критерийлерді нақтылауымен және локалданған корпустың рөлін дәлелдеуімен маңызды. Практикалық тұрғыдан нәтиже қазақша чатботтар, оқу-әдістемелік материал, аудармаға көмекші құралдар және мәдени анықтамалық сервистерді жетілдіруге негіз бола алады.

Түйін сөздер: үлкен тілдік модель, жасанды интеллект, қазақ тілі, мәдени контекст, трансформер, деректер корпусы, локализация.

Автор өмірбаяндары

Т. Рамазанов, А.Байтұрсынұлы атындағы Тіл білімі институты, Қазақстан, Алматы қ.

Рамазанов Талғат Бекболатұлы – PhD, А. Байтұрсынұлы атындағы Тіл білімі институты (Қазақстан, Алматы қ., е-mail: tphd-92@mail.ru)
А. Жаңабекова, А.Байтұрсынұлы атындағы Тіл білімі институты, Қазақстан, Алматы қ.

Жаңабекова Айман Әбділдәқызы – филология ғылымдарының докторы, қауымдастырылған профессор, А. Байтұрсынұлы атындағы Тіл білімі институты (Қазақстан, Алматы қ., е-mail: aiman_miras@mail.ru)
А. Садық, К.Сағадиев атындағы Халықаралық бизнес университеті, Қазақстан, Алматы қ.

Садық Айнагүл Мақсатқызы – магистр, К.Сағадиев атындағы Халықаралық бизнес университеті (Қазақстан, Алматы қ., е-mail: s.ainagul_94@mail.ru)