Личный кабинет

Статья

Дутов Д.А., Митрофанов А.А. (науч. рук. Митрофанов А.А.) Разработка интегральной системы для обработки и понимания естественной речи
УДК тезиса: 004.8

В докладе представлена универсальная модель для обработки аудио-текстовых запросов в рамках задач ряда доменов: аудио, музыка, речь. Протестированы различные аудио-энкодеры, среди которых USAD, Gemma-3n, WavLM. Выбрана архитектура на основе Dasheng как показавшая лучшие метрики на облегчённом варианте бенчмарка DynamicSuperB-phase 2. Результаты показали высокую гибкость модели и её способность адаптироваться к различным акустическим и языковым задачам.

Авторы:

Дутов Дмитрий Александрович

Митрофанов Антон Андреевич

Руководитель:

Митрофанов Антон Андреевич

Дутов Д.А., Митрофанов А.А. (науч. рук. Митрофанов А.А.) Разработка интегральной системы для обработки и понимания естественной речи // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2026]. URL: https://kmu.itmo.ru/digests/article/17216