Статья

Бодунов Г.А., Тельбух В.В. (науч. рук. Бирюков Д.Н.) Подход к определению тематической близости текстов
УДК тезиса: 004.67

В статье приведен сравнительный анализ подходов к представлению естественного языка в задаче определения тематической близости публикуемых новостных статей в популярных интернет-медиа СМИ. Рассмотрены основные алгоритмы перевода текстовой информации в векторное пространство и применены алгоритмы кластеризации к полученным данным (k-means, k-minibatches, DBSCAN). Исследуются методы, основанные на статистической мере появления слов (TF-IDF), мешке слов (CBOW), тематическом моделировании (LDA), а также алгоритмы перевода слов и документов в векторное пространство, полученных на основе работы моделей нейронных сетей (word2vec). Работа направлена на поиск наиболее результативных алгоритмов представления текстовой информации и кластеризации, а также их комбинаций, исходя из оцениваемых метрик.

Авторы:

Бодунов Георгий Алексеевич

Тельбух Вячеслав Владимирович

Руководитель:

Бирюков Денис Николаевич

Бодунов Г.А., Тельбух В.В. (науч. рук. Бирюков Д.Н.) Подход к определению тематической близости текстов // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2022]. URL: https://kmu.itmo.ru/digests/article/8208