Доклад посвящен проблеме распознавания форматирования текста, распознанного из pdf-документа. Решение основано на учете статистики расположения косвенных признаков в документе. Результат исследования может использоваться в парсерах натурального языка для увеличения доли сохраненного контекста.
Черный К.В. (науч. рук. Клименков С.В.) Постобработка форматирования pdf-документов, обработанных для использования в семантической сети // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2021]. URL: https://kmu.itmo.ru/digests/article/5788