Мәтінді автоматты жеңілдету: зерттеулер мен бағыттар

А. Карымхан; М. Мамбетова; Б. Нұрланғазықызы

doi:10.26577/EJPh202220267

Авторы

А. Карымхан Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы https://orcid.org/0009-0003-5439-1932 (неаутентифицированный)
М. Мамбетова Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы https://orcid.org/0000-0002-8870-4787 (неаутентифицированный)
Б. Нурлангазыкызы Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы https://orcid.org/0009-0003-0033-6911 (неаутентифицированный)

DOI:

10.26577/EJPh202220267

Аннотация

В статье дается всесторонний обзор автоматического упрощения текста (ATS) как самостоятельного направления исследований в области обработки естественного языка. Цель исследования систематически и критически представить развитие, текущее состояние и ключевые проблемы ATS. На основе обширного обзора литературы в Scopus, Google Scholar и ACL Anthology анализируются исследования с 1998 по 2025 год. В статье рассматривается эволюция развития ATS от подходов, основанных на правилах, до использования более крупных языковых моделей с помощью статистических и нейронных моделей. Показано, что этот процесс идет рука об руку с постепенным расширением высококачественных параллельных корпусов на нескольких языках.

Особое внимание уделяется анализу процесса лексического упрощения, включая определение (1) сложных слов, а также (2) отбор, (3) генерацию и (4) ранжирование замен. Исследование показывает, что изолированные подходы, основанные на правилах, частоте или исключительно на данных, часто достигают своих пределов, и что гибридные, лингвистически обоснованные решения дают наилучшие результаты. Ключевыми проблемами остаются сохранение смысла и связности, сильное доминирование английского языка в исследованиях и нехватка ресурсов для типологически сложных языков, таких как казахский.

В статье отмечается, что чисто нейронных подходов к таким языкам недостаточно. Вместо этого предлагается поэтапный подход, основанный на лингвистически обоснованном надежном моделировании, а также дополненный автоматизированными и нейронными методами. Обзор подчеркивает важность совершенствования процедур оценки для дальнейшего развития автоматического упрощения текста, а также типологически ориентированных лингвистически обоснованных исследований.

Ключевые слова: текст, упрощенный текст, автоматическое упрощение текста, казахский язык

Биографии авторов

А. Карымхан, Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы

Карымхан Акмарал Адилкызы – PhD докторант, Казахский Национальный Университет имени аль-Фараби (Казахстан, г. Алматы, е-mail: k.akmaral2309@gmail.com)
М. Мамбетова, Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы

Мамбетова Маншук Кудайбергеновна – кандидат филологических наук, ассоциированный профессор, Казахский Национальный Университет имени аль-Фараби (Казахстан, г. Алматы, е-mail: mmanshuk@gmail.com)
Б. Нурлангазыкызы, Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы

Нурлангазыкызы Балнур – преподаватель, Казахский Национальный Университет имени аль-Фараби (Казахстан, г. Алматы, е-mail: bbaitileuova@gmail.com)