При работе с промышленными данными часто возникает проблема обработки различных видов документов. Эта проблема связана с тем, что за время работы предприятия накапливается массив разнородных текстовых данных, таких как документы (doc, pdf), таблицы (excel) и логи (txt). Извлечение данных из этих файлов – основной этап при реализации технологий индустрии 4.0. Помимо сложности и разнородности форматов данных, перед разработчиками систем обработки данных встаёт проблема неструктурированности их содержимого. Решением для обработки неструктурированных текстовых данных могут быть языковые модели. Применение больших языковых моделей в обработке документов включает в себя широкий спектр задач. Например, они могут автоматически генерировать резюме текстов, что значительно экономит время при работе
Першинов А.В., Воскресенский А.С., Сапельникова К.С., Басилаев Д.И. (науч. рук. Ковальчук М.А.) Разработка методов уменьшения семантического пространства для обработки специализированных текстов // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2024]. URL: https://kmu.itmo.ru/digests/article/12217