В силу развития генеративных моделей в сфере обработки естественного языка, генерации изображений и синтеза речи появились возможности для увеличения степени интерактивности диалоговых систем. В современные голосовые ассистенты уже внедрены большие языковые модели, однако набор инструментов для сравнительно лёгкого создания таких и даже более сложных систем невелик. Существующие фреймворки «JAICF» (язык программирования Kotlin) и «S.T.A.R.K.» (язык программирования Python) позволяют использовать текстовые каналы и аудиоканалы для взаимодействия. В целях повышения степени интерактивности предлагается реализовать собственный фреймворк, включающий возможность использования визуального канала взаимодействия для получения большего количества информации о пользователе в процессе диалога.
Хаяров Э.А. (науч. рук. Муромцев Д.И.) Разработка фреймворка для создания голосовых ассистентов // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2024]. URL: https://kmu.itmo.ru/digests/article/13479