БЕНЧМАРКИНГ ВЫВОДА БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ НА HPC-КЛАСТЕРАХ: ЗАДЕРЖКА, ПРОПУСКНАЯ СПОСОБНОСТЬ И ЭНЕРГОЭФФЕКТИВНОСТЬ
##plugins.pubIds.doi.readerDisplayName##:
https://doi.org/10.5281/zenodo.20965060##article.subject##:
большие языковые модели, HPC-кластеры, бенчмаркинг, задержка вывода, пропускная способность, энергоэффективность, квантизация, vLLM, TensorRT-LLM, параллелизм тензоров.##article.abstract##
В данной статье представлено комплексное исследование производительности вывода больших
языковых моделей (LLM) на высокопроизводительных вычислительных HPC-кластерах. Эксперименты
проводились с четырьмя моделями — LLaMA-3-70B, Mixtral-8x7B, Falcon-40B и Gemma-2-27B — с использованием
различных конфигураций квантизации: FP16, INT8, INT4, а также фреймворков vLLM и TensorRT-LLM.
Оцениваются три ключевых показателя: задержка первого токена (TTFT), пропускная способность (токенов/с) и
энергоэффективность (Дж/токен). Результаты свидетельствуют о том, что INT4-квантизация с параллелизмом
тензоров на 4 GPU обеспечивает оптимальный баланс между скоростью и потреблением энергии, достигая
снижения задержки до 84% при росте пропускной способности в 8,2 раза по сравнению с однопроцессорным
FP16-выводом.
Библиографические ссылки
Ismayilov E. Harnessing Large Language Models for High-Performance Computing: Opportunities and
Challenges // Azerbaijan Journal of High Performance Computing. — 2025. — Vol. 7, Article e2025.02. — P. 1–7. — DOI:
32010/26166127.2025.04.
Ismayilov E. Difference between OpenHPC and HTCondor Cluster Systems: In-Depth Analysis // Azerbaijan Journal
of High Performance Computing. — 2023. — Vol. 6, No. 2. — P. 203–208. — DOI: 10.32010/26166127.2023.6.2.203.208.
Kwon W., Li Z., Zhuang S., Sheng Y., Zheng L., Yu C. H., Gonzalez J. E., Zhang H., Stoica I. Efficient Memory
Management for Large Language Model Serving with PagedAttention // Proceedings of the 29th Symposium on Operating
Systems Principles (SOSP ’23). — 2023. — P. 611–626. — DOI: 10.1145/3600006.3613165.
Aminabadi R. Y., Rajbhandari S., Zhang M., Awan A. A., Li C., Li D., Zheng E., Rasley J., Smith S., Ruwase O.,
He Y. DeepSpeed-Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale // Proceedings
of SC22: International Conference for High Performance Computing, Networking, Storage and Analysis. — IEEE, 2022. —
DOI: 10.1109/SC41404.2022.00051.
Patterson D., Gonzalez J., Le Q., Liang C., Munguia L.-M., Rothchild D., So D., Texier M., Dean J. Carbon
Emissions and Large Neural Network Training // arXiv preprint arXiv:2104.10350. — 2021.
Samsi S., Zhao D., McDonald J., Li B., Michaleas A., Jones M., Bergeron W., Kepner J., Tiwari D., Gadepally V.
From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference // 2023 IEEE High Performance
Extreme Computing Conference (HPEC). — IEEE, 2023. — P. 1–9. — DOI: 10.1109/HPEC58863.2023.10363447.
Dettmers T., Pagnoni A., Holtzman A., Zettlemoyer L. QLoRA: Efficient Finetuning of Quantized LLMs // Advances
in Neural Information Processing Systems. — 2023. — Vol. 36.
Ismayilov E., Mammadova N. Optimizing Deep Learning Model Training with Cyclic Data Parallelism: A Distributed
Computing Approach // Advances in Data Science and Management: Proceedings of ICDSM 2024 / ed. by S. Borah, S. K.
Mishra, M. Tuba, A. Mahanti, Z. Polkowski. — Singapore: Springer, 2026. — Lecture Notes in Networks and Systems, Vol.
— P. 209–216. — DOI: 10.1007/978-981-95-1320-8_19.
Touvron H., Martin L., Stone K. et al. Llama 2: Open Foundation and Fine-Tuned Chat Models // arXiv preprint
arXiv:2307.09288. — 2023.
Jiang A. Q., Sablayrolles A., Roux A. et al. Mixtral of Experts // arXiv preprint arXiv:2401.04088. — 2024.
Загрузки
##submissions.published##
##issue.issue##
##section.section##
Лицензия
Copyright (c) 2026 MUHANDISLIK VA IQTISODIYOT

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.