Личный кабинет

Статья

< Назад

Информационные технологии / Речевые и биометрические технологии

Дутов Д.А., Митрофанов А.А. (науч. рук. Митрофанов А.А.) Разработка и тестирование мультимодальной аудио-текстовой модели

УДК тезиса: 004.8

Разработана универсальная модель для обработки аудио-текстовых запросов в рамках задач ряда доменов: аудио, музыка, речь. Выбрана модульная архитектура, которая включает в себя речевой энкодер WavLM, проекционный слой и языковую модель Qwen 2.5 7B Instruct с адаптером LoRa. Модель эффективно решает задачи на основе аудио и текста. Для тестирования используется бенчмарк Dynamic SuperB phase 2, включающий 180 задач. Результаты показали высокую гибкость модели и её способность адаптироваться к различным акустическим и языковым задачам.

Авторы:

Дутов Дмитрий Александрович

Митрофанов Антон Андреевич

Руководитель:

Митрофанов Антон Андреевич

Скачать файл

Дутов Д.А., Митрофанов А.А. (науч. рук. Митрофанов А.А.) Разработка и тестирование мультимодальной аудио-текстовой модели // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2025]. URL: https://kmu.itmo.ru/digests/article/15476