Comparative Analysis of Prosodic Characteristics of Spontaneous and Synthesized Speech (Based on Kazakh and English Ted Talks Video Materials)

G. Kussepova; R. Kondybaeva; К. Chingissova

doi:10.26577/EJPh202520047

Авторы

Г. Кусепова Евразийский национальный университет имени Л.Н. Гумилева, Казахстан, г. Астана https://orcid.org/0000-0001-9556-8763
Р. Кондыбаева Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы https://orcid.org/0000-0002-1208-8949
К. Чингисова Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы https://orcid.org/0009-0008-9490-1622

DOI:

https://doi.org/10.26577/EJPh202520047

Аннотация

Целью данного исследования заключается в осуществлении инструментально-сравнительного анализа просодических характеристик спонтанной (на материалах подкастов) и синтезированной речи на казахском и английском языках. В работе рассмотрены существующие исследовательские подходы к изучению просодии, а также выполнен акустический анализ основных просодических параметров (частоты основного тона, интенсивности и темпа) для указанных типов речевого материала. Для сравнительного анализа сформулирован корпус, включающий по 10 выступлений TED Talks на английском и казахском языках, которые далее транскрибированы и преобразованы в аудиофайлы с применением современных систем синтеза речи. Акустический анализ проводился программой Praat и нами разразботанной программой ProAG-2025 (с охраняемым документом № 58731 от «27» мая 2025 года). В данной статье формулируется гипотеза, согласно которой спонтанная речь характеризуется большей вариативностью просодических показателей, тогда как синтезированной речь отличается от естественной по статистически значимым акустико-просодическим признакам. Результаты инструментального анализа подтверждают, что синтезированная речь, несмотря на структурную нормативность, сохраняет комплекс параметров, позволяющих надёжно дифференцировать её от естественной: повышенную равномерность амплитудного и частотного контуров, отсутствие стохастических вариаций, а также упрощённый ритмико-паузовый рисунок. Полученные данные представляют практическую значимость для дальнейшего совершенствования алгоритмов синтеза речи, повышения степени её естественности и оптимизации коммуникативной эффективности медийных приложений.

Ключевые слова: спонтанная речь, синтезированная речь, просодика, акустические параметры, тональность, частота основного тона.

Биографии авторов

Г. Кусепова, Евразийский национальный университет имени Л.Н. Гумилева, Казахстан, г. Астана

Кусепова Гульзат Тунгушбаевна – PhD, Евразийский национальный университет имени Л.Н. Гумилева (Казахстан, г. Астана, e-mail: kussepova_gt_2@enu.kz);
Р. Кондыбаева , Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы

Кондыбаева Раушан Жумакеримовна – PhD, Казахский национальный университет имени аль-Фараби (Казахстан, г. Алматы, e-mail: kondybaeva.raushan85@gmail.com);
К. Чингисова, Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы

Чингисова Куралай Адилжановна – PhD докторант, Казахский национальный университет имени аль-Фараби (Казахстан, г. Алматы, e-mail: kuralay.cha@mail.ru).