Автоматическое упрощение текста: исследования и направления

Авторы

DOI:

10.26577/EJPh202220267

Аннотация

В статье дается всесторонний обзор автоматического упрощения текста (ATS) как самостоятельного направления исследований в области обработки естественного языка. Цель исследования систематически и критически представить развитие, текущее состояние и ключевые проблемы ATS. На основе обширного обзора литературы в Scopus, Google Scholar и ACL Anthology анализируются исследования с 1998 по 2025 год. В статье рассматривается эволюция развития ATS от подходов, основанных на правилах, до использования более крупных языковых моделей с помощью статистических и нейронных моделей. Показано, что этот процесс идет рука об руку с постепенным расширением высококачественных параллельных корпусов на нескольких языках.

Особое внимание уделяется анализу процесса лексического упрощения, включая определение (1) сложных слов, а также (2) отбор, (3) генерацию и (4) ранжирование замен. Исследование показывает, что изолированные подходы, основанные на правилах, частоте или исключительно на данных, часто достигают своих пределов, и что гибридные, лингвистически обоснованные решения дают наилучшие результаты. Ключевыми проблемами остаются сохранение смысла и связности, сильное доминирование английского языка в исследованиях и нехватка ресурсов для типологически сложных языков, таких как казахский.

В статье отмечается, что чисто нейронных подходов к таким языкам недостаточно. Вместо этого предлагается поэтапный подход, основанный на лингвистически обоснованном надежном моделировании, а также дополненный автоматизированными и нейронными методами. Обзор подчеркивает важность совершенствования процедур оценки для дальнейшего развития автоматического упрощения текста, а также типологически ориентированных лингвистически обоснованных исследований.

Ключевые слова: текст, упрощенный текст, автоматическое упрощение текста, казахский язык

Биографии авторов

  • А. Карымхан, Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы

    Карымхан Акмарал Адилкызы – PhD докторант, Казахский Национальный Университет имени аль-Фараби (Казахстан, г. Алматы, е-mail: k.akmaral2309@gmail.com)

  • М. Мамбетова, Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы

    Мамбетова Маншук Кудайбергеновна – кандидат филологических наук, ассоциированный профессор, Казахский Национальный Университет имени аль-Фараби (Казахстан, г. Алматы, е-mail: mmanshuk@gmail.com)

  • Б. Нурлангазыкызы, Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы

    Нурлангазыкызы Балнур – преподаватель, Казахский Национальный Университет имени аль-Фараби (Казахстан, г. Алматы, е-mail: bbaitileuova@gmail.com)

Опубликован

2026-07-01

Как цитировать

Автоматическое упрощение текста: исследования и направления. (2026). Eurasian Journal of Philology Science and Education, 202(2). https://doi.org/10.26577/EJPh202220267

Наиболее читаемые статьи этого автора (авторов)