В статье приведен сравнительный анализ подходов к представлению естественного языка в задаче определения тематической близости публикуемых новостных статей в популярных интернет-медиа СМИ. Рассмотрены основные алгоритмы перевода текстовой информации в векторное пространство и применены алгоритмы кластеризации к полученным данным (k-means, k-minibatches, DBSCAN). Исследуются методы, основанные на статистической мере появления слов (TF-IDF), мешке слов (CBOW), тематическом моделировании (LDA), а также алгоритмы перевода слов и документов в векторное пространство, полученных на основе работы моделей нейронных сетей (word2vec). Работа направлена на поиск наиболее результативных алгоритмов представления текстовой информации и кластеризации, а также их комбинаций, исходя из оцениваемых метрик.
Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2022].