Прокопов Е.М. (науч. рук. Бойцев А.А.) Использование матричных разложений для токенизации изображений в задаче обучения моделей типа transformer
В последние годы модели архитектуры Transformer получили широкое распространение в задачах обработки естественного языка, а с появлением Vision Transformer (ViT) - в задачах компьютерного зрения. Для обработки изображений, алгоритм ViT предварительно разбивает их на малые части, чаще всего 16 на 16 пикселей, после чего подает на вход кодировщика. Такой подход может привести к избыточной длине входной последовательности, что увеличивает вычислительную сложность. В данной работе предложено использование матричных разложений (таких как сингулярное разложение или преобразование Фурье) для создания более гибких методов токенизации, позволяющих адаптировать длину контекста, сохраняя при этом основную информацию изображения.
Прокопов Е.М. (науч. рук. Бойцев А.А.) Использование матричных разложений для токенизации изображений в задаче обучения моделей типа transformer // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2025]. URL: https://kmu.itmo.ru/digests/article/15582