QazLLM vs. ChatGPT: қазақ этномәдени кодын жеткізудегі лингвистикалық ұқсастықтар мен басымдықтар
DOI:
10.26577/EJPh2022202612Аңдатпа
Үлкен тілдік моделдер қазақ тіліндегі цифрлық қызметтерді кеңейтті, алайда көптеген жүйелердің ағылшынтілді дерекке көбірек сүйенуі ұлттық мазмұнды, әсіресе қазақтың этномәдени кодын дәл жеткізуде қиындық туғызады. Осы жұмыста QazLLM мен ChatGPT жауаптары қазақ тіліндегі мәдени-тарихи, құқықтық және идиомалық контексті түсіндіру қабілеті тұрғысынан салыстырмалы лингвистикалық талдаудан өтті.
Зерттеудің өзектілігі қазақ қоғамындағы мемлекеттік сервистер, білім беру және медиакеңістікте мәдени тұрғыдан дұрыс, прагматикалық тұрғыдан орнықты қазақша генерацияға сұраныстың артуымен айқындалады. Эмпирикалық негіз ретінде сарапшылар белгілеген 140 000 мысал қолданылып, нәтижелер қосымша түрде OpenAI жүйелері және Назарбаев Университеті жанындағы ISSAI әзірлемелерімен салыстырылды.
Зерттеу барысында ұлттық-мәдени реалияларды тану, фразеологизмдер мен тұрақты тіркестерді уәжді түсіндіру, бағалауыштық реңкті дәл беру, сондай-ақ диалогтік нормаларды сақтау сияқты көрсеткіштер бойынша моделдердің жауаптары бағаланды. Сондай-ақ қателердің типологиясы жасалып, мәдени жалпылау, ұғымды алмастыру, контексті үстірт түсіндіру тәрізді ауытқулар жіктелді.
Талдау QazLLM-нің ұлттық болмысқа тән ұғымдарды, фразеологизмдер мен бағалау реңктерін контекспен қабыстыра беруі жиірек екенін, ал ChatGPT-дің әмбебап ақпараттық сұрақтарда тұрақтырақ екенін көрсетті. Зерттеудің ғылыми құндылығы мәдени релеванттылықты өлшейтін лингвистикалық критерийлерді нақтылауымен және локалданған корпустың рөлін дәлелдеуімен маңызды. Практикалық тұрғыдан нәтиже қазақша чатботтар, оқу-әдістемелік материал, аудармаға көмекші құралдар және мәдени анықтамалық сервистерді жетілдіруге негіз бола алады.
Түйін сөздер: үлкен тілдік модель, жасанды интеллект, қазақ тілі, мәдени контекст, трансформер, деректер корпусы, локализация.








