国产精品日本一区二区不卡视频 ,亚洲精品在线网站,一区二区三视频

推理性能提升10倍，成本下降一半！第四范式發布大模型推理加速卡、推理框架

2024-03-18

為破解大模型推理中GPU顯存瓶頸，第四范式發布了大模型推理框架SLXLLM以及硬件版本的推理加速卡4Paradigm Sage LLM Accelerator（簡稱SLX）。通過多任務共享存儲及處理優化技術，大模型推理性能提升10倍；在模型效果無損情況下，同樣使用8張24G顯存GPU對6B/7B大模型進行FP16推理，可部署的模型數量從8增至16，GPU利用率從55%最高提升至100%，推理成本僅為原來的一半。值得一提的是，該能力也將集成在4Paradigm Sage AIOS 5.0中，推動大模型落地應用。

當前，業界公認的大模型推理主要瓶頸之一是GPU顯存瓶頸。同算力一樣，顯存是衡量GPU性能的關鍵指標之一，用于存儲計算結果、模型參數等數據。在大模型推理的過程中，往往因為顯存受限，導致GPU的算力無法被“全部激活”用于推理過程，GPU算力利用率較低，大模型推理成本居高不下。

為此，第四范式發布了大模型推理框架SLXLLM以及推理加速卡SLX，在二者聯合優化下，在文本生成類場景中，大模型推理性能提升10倍。例如在使用4張80G GPU對72B大模型進行推理測試中，相較于使用vLLM，第四范式使用SLXLLM+SLX的方案，可同時運行任務數量從4增至40。此外，推理加速卡SLX也可兼容TGI、FastLLM、vLLM等主流大模型推理框架，大模型推理性能提升約1-8倍。

企業智能化轉型，第四范式助您一臂之力

咨詢售前顧問咨詢熱線：400-898-7788

4Paradigm SHIFT

4ParadigmSage

4Paradigm SHIFT

4Paradigm AlGS

關于第四范式

投資者關系