Мәтінді автоматты жеңілдету: зерттеулер мен бағыттар
DOI:
10.26577/EJPh202220267Аңдатпа
Мақалада табиғи тілді өңдеу саласындағы дербес зерттеу бағыты ретінде автоматты мәтінді жеңілдетуге (АТS) жан-жақты шолу жасалады. Зерттеудің мақсаты – автоматты мәтінді жеңілдетудің дамуын, ағымдағы жағдайын және негізгі мәселелерін жүйелі және сыни тұрғыдан ұсыну. Scopus, Google Scholar және ACL Anthology дерекқорларындағы кең көлемді әдебиет шолуына сүйене отырып, 1998 жылдан 2025 жылға дейінгі зерттеулер талданады. Мақалада ATS дамуы ережеге негізделген тәсілдерден бастап, статистикалық және нейрондық модельдер арқылы үлкен тілдік модельдерді қолдануға дейінгі эволюциясы қарастырылады. Бұл үдеріс бірнеше тілде жоғары сапалы параллель корпустардың біртіндеп кеңеюімен қатар жүріп отырғаны көрсетіледі.
Күрделі сөздерді (1) анықтауды, сондай-ақ алмастыруды (2) іріктеу, (3) генерациялау және (4) дәрежелеуді қоса алғанда, лексикалық жеңілдету үдерісін талдауға ерекше назар аударылады. Зерттеу ережелерге, жиілікке немесе таза деректерге негізделген оқшауланған тәсілдер көбінесе өз шегіне жететінін және гибридті, лингвистикалық тұрғыдан хабардар шешімдер ең жақсы нәтиже беретінін көрсетеді. Негізгі мәселелер мағына мен үйлесімділіктің сақталуы, зерттеулерде ағылшын тілінің күшті басымдығы және қазақ тілі сияқты типологиялық тұрғыдан күрделі тілдер үшін ресурстардың жетіспеушілігі болып қала береді.
Мақалада мұндай тілдер үшін таза нейрондық тәсілдердің жеткіліксіз екені атап өтіледі. Оның орнына лингвистикалық тұрғыдан негізделген сенімді модельдеуге сүйенетін, сонымен қатар автоматтандырылған және нейрондық әдістермен толықтырылған кезең-кезеңмен жүзеге асатын тәсіл ұсынылады. Шолу автоматты мәтінді жеңілдетуді одан әрі дамыту үшін бағалау процедураларын жетілдірудің, сондай-ақ типологиялық тұрғыдан бағытталған, лингвистикалық негізделген зерттеулердің маңыздылығын көрсетеді.
Түйін сөздер: мәтін, жеңілдетілген мәтін, автоматты мәтінді жеңілдету, қазақ тілі








