Личный кабинет

Статья

Гарипов Р.И. (науч. рук. Аксенов В.Е.) Ускорение инференса больших языковых моделей с помощью метода спекулятивного декодинга
УДК тезиса: 004.896

Современные методы спекулятивного декодинга ускоряют авторегрессионную генерацию текста, предсказывая и валидируя токены с помощью вспомогательных моделей. Однако строгая проверка корректности ограничивает выигрыш в скорости. В данной работе рассматривается ослабленный спекулятивный декодинг, снижающий требования к проверке токенов, что позволяет достичь большего ускорения без значительной деградации качества.

Авторы:

Гарипов Роман Исмагилович

Руководитель:

Аксенов Виталий Евгеньевич

Гарипов Р.И. (науч. рук. Аксенов В.Е.) Ускорение инференса больших языковых моделей с помощью метода спекулятивного декодинга // Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, [2025]. URL: https://kmu.itmo.ru/digests/article/14642