Авдеева А.С. (науч. рук. Новоселов С.А.) Использование архитектуры Transformer в задаче диаризации
Диаризация – это процесс разметки речевой аудиозаписи, который заключается в сопоставлении каждому гомогенному сегменту речи идентификатора диктора. Проблема диаризации возникает при решении задач отекстовки совещаний, лекций, интервью, когда помимо распознавания произнесенной речи, необходимо также определить идентификатор диктора для каждой фразы. Задача диаризации тесно связана с областью распознавания речи и диктора, дикторские модели часто используются в качестве входных признаков для диаризации. В настоящее время большой успех имеют различные самообучающиеся модели, которые ввиду обучения на больших объемах неразмеченный данных способны извлекать репрезентативные представления из сегмента аудиозаписи. Такие модели могут также применяться в задаче диаризации.
Авдеева А.С. (науч. рук. Новоселов С.А.) Использование архитектуры Transformer в задаче диаризации // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2023]. URL: https://kmu.itmo.ru/digests/article/10996