В проекте One Media разрабатываются инструменты, предназначенные для сбора, анализа и мониторинга контента, который публикуется и распространяется как в сетевых СМИ, так и в целых платформах и медиаэкосистемах. Одной из важнейших частей проекта являются инструменты, предназначенные для автоматического извлечения и архивирования данных широкого перечня сетевых источников. В данном исследовании представлены основные методы и практики, на основе которых мы построили архитектурное решение сканирования и извлечения веб-данных.
Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2022].