В докладе описываются алгоритмы для извлечения строк, абзацев и их свойств из электронных документов формата PDF. В ходе исследования были описаны проблемы, возникающие при извлечении данных, и представлены возможные методы их решения, которые легли в основу алгоритмов.
Марцинкевич В.И., Бережков А.В., Терещенко В.В. (науч. рук. Горлушкина Н.Н.) Разработка алгоритмов выделения и извлечения строк, параграфов, их свойств в PDF документах // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2023]. URL: https://kmu.itmo.ru/digests/article/9744