БЕНЧМАРКИНГ ВЫВОДА БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ НА HPC-КЛАСТЕРАХ: ЗАДЕРЖКА, ПРОПУСКНАЯ СПОСОБНОСТЬ И ЭНЕРГОЭФФЕКТИВНОСТЬ

БЕНЧМАРКИНГ ВЫВОДА БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ НА HPC-КЛАСТЕРАХ: ЗАДЕРЖКА, ПРОПУСКНАЯ СПОСОБНОСТЬ И ЭНЕРГОЭФФЕКТИВНОСТЬ

Authors

  • Эльвиз Исмайылов

DOI:

https://doi.org/10.5281/zenodo.20965060

Keywords:

большие языковые модели, HPC-кластеры, бенчмаркинг, задержка вывода, пропускная способность, энергоэффективность, квантизация, vLLM, TensorRT-LLM, параллелизм тензоров.

Abstract

В данной статье представлено комплексное исследование производительности вывода больших
языковых моделей (LLM) на высокопроизводительных вычислительных HPC-кластерах. Эксперименты
проводились с четырьмя моделями — LLaMA-3-70B, Mixtral-8x7B, Falcon-40B и Gemma-2-27B — с использованием
различных конфигураций квантизации: FP16, INT8, INT4, а также фреймворков vLLM и TensorRT-LLM.
Оцениваются три ключевых показателя: задержка первого токена (TTFT), пропускная способность (токенов/с) и
энергоэффективность (Дж/токен). Результаты свидетельствуют о том, что INT4-квантизация с параллелизмом
тензоров на 4 GPU обеспечивает оптимальный баланс между скоростью и потреблением энергии, достигая
снижения задержки до 84% при росте пропускной способности в 8,2 раза по сравнению с однопроцессорным
FP16-выводом.

Author Biography

Эльвиз Исмайылов

Азербайджанский Университет Нефти и Промышленности, г. Баку, Азербайджан

References

Ismayilov E. Harnessing Large Language Models for High-Performance Computing: Opportunities and

Challenges // Azerbaijan Journal of High Performance Computing. — 2025. — Vol. 7, Article e2025.02. — P. 1–7. — DOI:

32010/26166127.2025.04.

Ismayilov E. Difference between OpenHPC and HTCondor Cluster Systems: In-Depth Analysis // Azerbaijan Journal

of High Performance Computing. — 2023. — Vol. 6, No. 2. — P. 203–208. — DOI: 10.32010/26166127.2023.6.2.203.208.

Kwon W., Li Z., Zhuang S., Sheng Y., Zheng L., Yu C. H., Gonzalez J. E., Zhang H., Stoica I. Efficient Memory

Management for Large Language Model Serving with PagedAttention // Proceedings of the 29th Symposium on Operating

Systems Principles (SOSP ’23). — 2023. — P. 611–626. — DOI: 10.1145/3600006.3613165.

Aminabadi R. Y., Rajbhandari S., Zhang M., Awan A. A., Li C., Li D., Zheng E., Rasley J., Smith S., Ruwase O.,

He Y. DeepSpeed-Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale // Proceedings

of SC22: International Conference for High Performance Computing, Networking, Storage and Analysis. — IEEE, 2022. —

DOI: 10.1109/SC41404.2022.00051.

Patterson D., Gonzalez J., Le Q., Liang C., Munguia L.-M., Rothchild D., So D., Texier M., Dean J. Carbon

Emissions and Large Neural Network Training // arXiv preprint arXiv:2104.10350. — 2021.

Samsi S., Zhao D., McDonald J., Li B., Michaleas A., Jones M., Bergeron W., Kepner J., Tiwari D., Gadepally V.

From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference // 2023 IEEE High Performance

Extreme Computing Conference (HPEC). — IEEE, 2023. — P. 1–9. — DOI: 10.1109/HPEC58863.2023.10363447.

Dettmers T., Pagnoni A., Holtzman A., Zettlemoyer L. QLoRA: Efficient Finetuning of Quantized LLMs // Advances

in Neural Information Processing Systems. — 2023. — Vol. 36.

Ismayilov E., Mammadova N. Optimizing Deep Learning Model Training with Cyclic Data Parallelism: A Distributed

Computing Approach // Advances in Data Science and Management: Proceedings of ICDSM 2024 / ed. by S. Borah, S. K.

Mishra, M. Tuba, A. Mahanti, Z. Polkowski. — Singapore: Springer, 2026. — Lecture Notes in Networks and Systems, Vol.

— P. 209–216. — DOI: 10.1007/978-981-95-1320-8_19.

Touvron H., Martin L., Stone K. et al. Llama 2: Open Foundation and Fine-Tuned Chat Models // arXiv preprint

arXiv:2307.09288. — 2023.

Jiang A. Q., Sablayrolles A., Roux A. et al. Mixtral of Experts // arXiv preprint arXiv:2401.04088. — 2024.

Published

2026-06-01
Loading...