Личный кабинет

Статья

Дутов Д.А., Митрофанов А.А. (науч. рук. Митрофанов А.А.) Разработка мультиязычного пунктуатора с использованием современных архитектур
УДК тезиса: 004.8

Развитие технологий распознавания речи повышают требования к читабельности текста, для чего используются модели восстановления пунктуации и капитализации. В данном исследовании разрабатывается подобная мультиязычная нейросетевая модель. В качестве базовой архитектуры выбран предобученный трансформер BERT, дообученный для классификационной задачи. Оценены различные варианты классификационных блоков, включая LSTM, Transformer, Mixture-of-Experts, а также более современные модели. Для обучения использовались мультиязычные текстовые наборы данных, собранные из таких датасетов, как Taiga и Tatoeba. Результаты показали, что лучшая русскоязычная модель достигает F1=0.8, а мультиязычная — F1=0.74.

Авторы:

Дутов Дмитрий Александрович

Митрофанов Антон Андреевич

Руководитель:

Митрофанов Антон Андреевич

Дутов Д.А., Митрофанов А.А. (науч. рук. Митрофанов А.А.) Разработка мультиязычного пунктуатора с использованием современных архитектур // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2025]. URL: https://kmu.itmo.ru/digests/article/14262