Использование современных технологий Voice Cloning позволяет генерировать речь, которую сложно отличить от реальной человеческой. Однако, в различных сферах приложений аудиоконтента требуется персонализация и внесение изменений в синтезированную речь, уже полученной TTS-системой. Например, это может быть удаление и замена нежелательных слов, коррекция произношения и т.д. В настоящее время такие преобразования крайне тяжело получить с помощью современных подходов для TTS. Поэтому, это направление является весьма актуальным и, к сожалению, пока недостаточно изученным.
Кочарян А.М. (науч. рук. Рыбин С.В.) Адаптация и редактирование речи с помощью генеративного и самоконтролируемого обучения // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2024]. URL: https://kmu.itmo.ru/digests/article/13746