Мищенко М.Ю., Унтила А.А., Мустафин Д.Э. (науч. рук. Федоров Д.А.) Оценка релевантности неструктурированных данных для LLM и анализа
Данный доклад исследует методы оценки релевантности неструктурированных данных для обучения LLM. В работе рассматриваются методы обработки данных, такие как стемминг, лемматизация, удаление стоп-слов и применение метрики TF-IDF. Предложенный подход позволяет повысить качество модели LLM путем выбора наиболее релевантных данных и исключения малозначимых. Результаты исследования показывают, что комбинация различных методов обработки данных может значительно улучшить оценку релевантности данных для анализа.
Мищенко М.Ю., Унтила А.А., Мустафин Д.Э. (науч. рук. Федоров Д.А.) Оценка релевантности неструктурированных данных для LLM и анализа // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2024]. URL: https://kmu.itmo.ru/digests/article/13572