Статья

Мищенко М.Ю., Унтила А.А., Мустафин Д.Э. (науч. рук. Федоров Д.А.) Оценка релевантности неструктурированных данных для LLM и анализа
УДК тезиса: 004.622

Данный доклад исследует методы оценки релевантности неструктурированных данных для обучения LLM. В работе рассматриваются методы обработки данных, такие как стемминг, лемматизация, удаление стоп-слов и применение метрики TF-IDF. Предложенный подход позволяет повысить качество модели LLM путем выбора наиболее релевантных данных и исключения малозначимых. Результаты исследования показывают, что комбинация различных методов обработки данных может значительно улучшить оценку релевантности данных для анализа.

Авторы:

Мищенко Максим Юрьевич

Унтила Александр Александрович

Мустафин Данила Эльгизович

Руководитель:

Федоров Дмитрий Алексеевич

Мищенко М.Ю., Унтила А.А., Мустафин Д.Э. (науч. рук. Федоров Д.А.) Оценка релевантности неструктурированных данных для LLM и анализа // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2024]. URL: https://kmu.itmo.ru/digests/article/13572