Вершинин В.К. (науч. рук. Ходненко И.В.) Разработка алгоритма нормализации распознанного текста ocr моделями для строго-формализованных данных
В работе представлен лёгкий алгоритм нормализации OCR-текстов, ориентированный на строго формализованные данные (коды, реквизиты и т.д.). Методика сочетает фильтрацию шума, правила исправления и компактные языковые модели (LLaMA, Mistral), способные устранять ошибки по контексту при умеренном объёме вычислений. Экспериментальные результаты показывают сокращение типичных OCR-ошибок на 5–7% и повышение Word-Level Accuracy. Подход рекомендуется к применению в системах автоматизации документов, где важна точность каждого символа.
Вершинин В.К. (науч. рук. Ходненко И.В.) Разработка алгоритма нормализации распознанного текста ocr моделями для строго-формализованных данных // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2025]. URL: https://kmu.itmo.ru/digests/article/14123