Большие языковые модели, такие как ChatGPT и LLaMA, показывают впечатляющие результаты в генерации текста, переводе и других задачах, но их огромный размер делает их дорогими в использовании. Многие подобные системы невозможно или очень сложно запустить на одном графическом процессоре, и при этом их работа требует огромных вычислительных ресурсов