В ходе работы был проведён анализ существующих конвертеров из PDF, сделан обзор современных подходов к обработке PDF документов, предложен алгоритм извлечения текста из PDF документа с восстановлением исходной структуры.
Ткешелашвили Н.М., Ткешелашвили А.М., Анисимова М.А. (науч. рук. Клименков С.В.) Конвертер PDF-документов для использования в системе семантического анализа текстов на естественном языке // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2019]. URL: https://kmu.itmo.ru/digests/article/1632