Личный кабинет

Статья

Мурашов Н.А., Филатова А.А., Тимощак Е.В., Сандалов А.Д. (науч. рук. Насонов Д.А.) Инструмент для контроля качества парсинга текстовых документов на основе машинного обучения
УДК тезиса: 004.89

Работа посвящена разработке алгоритма оценки качества данных, полученных в процессе парсинга PDF-документов с целью повышения качества последующего анализа с использованием систем на базе больших языковых моделей (LLM). Несмотря на успехи в области OCR и парсинга, многие PDF-документы содержат ошибки, что ухудшает точность последующих этапов обработки. В статье описан алгоритм валидации качества текстовых фрагментов (чанков), полученных путем парсинга PDF-документов, и иерархии заголовков. Алгоритм основан на методах машинного обучения и направлен на оценку качества парсинга, проверку корректности структуры и точности разделения текста. Результаты валидации позволяют повысить точность информационного извлечения и анализ данных, используя более качественные исходные данные.

Авторы:

Мурашов Никита Александрович

Филатова Анастасия Алексеевна

Тимощак Егор Владимирович

Сандалов Александр Дмитриевич

Руководитель:

Насонов Денис Александрович

Мурашов Н.А., Филатова А.А., Тимощак Е.В., Сандалов А.Д. (науч. рук. Насонов Д.А.) Инструмент для контроля качества парсинга текстовых документов на основе машинного обучения // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2025]. URL: https://kmu.itmo.ru/digests/article/14699