Статья

Ткешелашвили А.М. (науч. рук. Клименков С.В.) Извлечение структурированного текста из документов в формате PDF
УДК тезиса: 004.624, 004.912

В ходе работы был предложен метод извлечения текста из PDF с восстановлением исходной структуры документа. Для определения элементов структуры используется нейронная сеть, анализирующая выбранные критерии. Предложен список критериев и разработано обучающее множество.

Авторы:

Ткешелашвили Анна Мерабиевна

Руководитель:

Клименков Сергей Викторович

Ткешелашвили А.М. (науч. рук. Клименков С.В.) Извлечение структурированного текста из документов в формате PDF // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2021]. URL: https://kmu.itmo.ru/digests/article/5624