Личный кабинет

Статья

Прокопов Е.М. (науч. рук. Бойцев А.А.) Использование матричных разложений для токенизации изображений в задаче обучения моделей типа transformer
УДК тезиса: 004.89

В последние годы модели архитектуры Transformer получили широкое распространение в задачах обработки естественного языка, а с появлением Vision Transformer (ViT) - в задачах компьютерного зрения. Для обработки изображений, алгоритм ViT предварительно разбивает их на малые части, чаще всего 16 на 16 пикселей, после чего подает на вход кодировщика. Такой подход может привести к избыточной длине входной последовательности, что увеличивает вычислительную сложность. В данной работе предложено использование матричных разложений (таких как сингулярное разложение или преобразование Фурье) для создания более гибких методов токенизации, позволяющих адаптировать длину контекста, сохраняя при этом основную информацию изображения.

Авторы:

Прокопов Егор Максимович

Руководитель:

Бойцев Антон Александрович

Прокопов Е.М. (науч. рук. Бойцев А.А.) Использование матричных разложений для токенизации изображений в задаче обучения моделей типа transformer // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2025]. URL: https://kmu.itmo.ru/digests/article/15582