Целью работы является анализ методов получения табличных данных из PDF документов. В докладе рассматривается структура PDF файла, а также выделяются две основные группы документов - текстовые и отсканированные. Для каждой группы рассматриваются методы получения информации из таблиц. Кроме того, доклад предоставляет конкретные примеры их практического применения и рекомендации по выбору наиболее оптимальных. Изученные наработки будут использованы при разработке серверной части модуля медицинской информационной системы “НМИЦ онкологии имени Н.Н. Петрова” для работы со статистическими формами.
Смирнов Н.А. (науч. рук. Береснев А.Д.) Анализ методов получения табличных данных из PDF документов // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2024]. URL: https://kmu.itmo.ru/digests/article/13237