Личный кабинет

Статья

Мазайшвили Е.К. (науч. рук. Авксентьева Е.Ю.) Быстрый метод распознавания текста официальных документов
УДК тезиса: 004.91

В юридических документах РФ, как правило, используются один из двух шрифтов: Arial и Times New Roman, а также междустрочный интервал и отступы, определяемые ГОСТ Р 7.0.97-2016. Для преобразования печатного документа в цифровой формат используются технологии распознавания текста — Optical Character Recognition (далее — OCR). Однако, скорость распознавания у большинства систем может быть не такой высокой, за счет того, что они пытаются распознать обширное множество шрифтов и сканируют весь лист. В статье предложен метод быстрого оптического распознавания текста таких документов с использованием набора ключевых областей символов известных шрифтов. Также сканируется не весь лист, а лишь области, в которых возможно появление текста при использовании этих отступов и шрифтов.

Авторы:

Мазайшвили Евгений Константинович

Руководитель:

Авксентьева Елена Юрьевна

Мазайшвили Е.К. (науч. рук. Авксентьева Е.Ю.) Быстрый метод распознавания текста официальных документов // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2025]. URL: https://kmu.itmo.ru/digests/article/14974