Автоматическое упрощение текста: исследования и направления
DOI:
10.26577/EJPh202220267Аннотация
В статье дается всесторонний обзор автоматического упрощения текста (ATS) как самостоятельного направления исследований в области обработки естественного языка. Цель исследования систематически и критически представить развитие, текущее состояние и ключевые проблемы ATS. На основе обширного обзора литературы в Scopus, Google Scholar и ACL Anthology анализируются исследования с 1998 по 2025 год. В статье рассматривается эволюция развития ATS от подходов, основанных на правилах, до использования более крупных языковых моделей с помощью статистических и нейронных моделей. Показано, что этот процесс идет рука об руку с постепенным расширением высококачественных параллельных корпусов на нескольких языках.
Особое внимание уделяется анализу процесса лексического упрощения, включая определение (1) сложных слов, а также (2) отбор, (3) генерацию и (4) ранжирование замен. Исследование показывает, что изолированные подходы, основанные на правилах, частоте или исключительно на данных, часто достигают своих пределов, и что гибридные, лингвистически обоснованные решения дают наилучшие результаты. Ключевыми проблемами остаются сохранение смысла и связности, сильное доминирование английского языка в исследованиях и нехватка ресурсов для типологически сложных языков, таких как казахский.
В статье отмечается, что чисто нейронных подходов к таким языкам недостаточно. Вместо этого предлагается поэтапный подход, основанный на лингвистически обоснованном надежном моделировании, а также дополненный автоматизированными и нейронными методами. Обзор подчеркивает важность совершенствования процедур оценки для дальнейшего развития автоматического упрощения текста, а также типологически ориентированных лингвистически обоснованных исследований.
Ключевые слова: текст, упрощенный текст, автоматическое упрощение текста, казахский язык








