В данной работе рассматривается алгоритм и архитектура программы генерации датасета документов для решения задач классификации и сегментации документов, а также оценки качества метрик алгоритмов предобработки данных. Основным преимуществом данной программы является автоматическая разметка документов по следующим признакам: тип документа (для решения задачи классификации), сегментные области документа (текст, таблицы, изображения, QR-коды, подписи и печати), параметры аугментации документа (зашумленность, угол наклона, ориентация документа). На основании результатов работы данной программы был создан набор данных для обучения гибридного алгоритма классификации документов.
Бушуев К.Р. (науч. рук. Муромцев Д.И.) Генератор аугментированного набора изображений документов с автоматическим построением разметки для задач сегментации и классификации // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2022]. URL: https://kmu.itmo.ru/digests/article/7772