В контексте растущего интереса к использованию нейросетей на основе архитектуры трансформеров для анализа текстовых данных, данная работа представляет комплексное решение для улучшения эффективности и снижения затрат ресурсов таких сетей. На основе анализа существующих улучшений исследуются возможности оптимизации структуры трансформеров. Разработанная гипотеза предполагает, что трансформер с улучшенным механизмом внимания и ассоциативной памятью способен эффективно выделять значимые элементы входных данных и сохранять их в течение обработки. Предложенное решение направлено на снижение числа параметров в сети и увеличение эффективности вычислений.
Большим М.А. (науч. рук. Кугаевских А.В.) Оптимизация нейронной сети трансформер с сохранением контекста для задач обработки естественного языка // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2024]. URL: https://kmu.itmo.ru/digests/article/13887