В ходе работы был предложен метод извлечения текста из PDF с восстановлением исходной структуры документа. Для определения элементов структуры используется нейронная сеть, анализирующая выбранные критерии. Предложен список критериев и разработано обучающее множество.
Ткешелашвили А.М. (науч. рук. Клименков С.В.) Извлечение структурированного текста из документов в формате PDF // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2021]. URL: https://kmu.itmo.ru/digests/article/5624