Мурашов Н.А., Филатова А.А., Тимощак Е.В., Сандалов А.Д. (науч. рук. Насонов Д.А.) Инструмент для контроля качества парсинга текстовых документов на основе машинного обучения
Работа посвящена разработке алгоритма оценки качества данных, полученных в процессе парсинга PDF-документов с целью повышения качества последующего анализа с использованием систем на базе больших языковых моделей (LLM). Несмотря на успехи в области OCR и парсинга, многие PDF-документы содержат ошибки, что ухудшает точность последующих этапов обработки. В статье описан алгоритм валидации качества текстовых фрагментов (чанков), полученных путем парсинга PDF-документов, и иерархии заголовков. Алгоритм основан на методах машинного обучения и направлен на оценку качества парсинга, проверку корректности структуры и точности разделения текста. Результаты валидации позволяют повысить точность информационного извлечения и анализ данных, используя более качественные исходные данные.
Мурашов Н.А., Филатова А.А., Тимощак Е.В., Сандалов А.Д. (науч. рук. Насонов Д.А.) Инструмент для контроля качества парсинга текстовых документов на основе машинного обучения // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2025]. URL: https://kmu.itmo.ru/digests/article/14699