推理性能提升10倍,成本下降一半!第四范式發布大模型推理加速卡、推理框架
        2024-03-18
        為破解大模型推理中GPU顯存瓶頸,第四范式發布了大模型推理框架SLXLLM以及硬件版本的推理加速卡4Paradigm Sage LLM Accelerator(簡稱SLX)。通過多任務共享存儲及處理優化技術,大模型推理性能提升10倍在模型效果無損情況下,同樣使用8張24G顯存GPU對6B/7B大模型進行FP16推理,可部署的模型數量從8增至16GPU利用率從55%最高提升至100%推理成本僅為原來的一半。值得一提的是,該能力也將集成在4Paradigm Sage AIOS 5.0中,推動大模型落地應用。
        當前,業界公認的大模型推理主要瓶頸之一是GPU顯存瓶頸。同算力一樣,顯存是衡量GPU性能的關鍵指標之一,用于存儲計算結果、模型參數等數據。在大模型推理的過程中,往往因為顯存受限,導致GPU的算力無法被“全部激活”用于推理過程,GPU算力利用率較低,大模型推理成本居高不下。

        為此,第四范式發布了大模型推理框架SLXLLM以及推理加速卡SLX,在二者聯合優化下,在文本生成類場景中,大模型推理性能提升10倍。例如在使用4張80G GPU對72B大模型進行推理測試中,相較于使用vLLM,第四范式使用SLXLLM+SLX的方案,可同時運行任務數量從4增至40。此外,推理加速卡SLX也可兼容TGI、FastLLM、vLLM等主流大模型推理框架,大模型推理性能提升約1-8倍

        主站蜘蛛池模板: 安丘市| 威宁| 隆子县| 汉阴县| 成安县| 汉源县| 桐城市| 达孜县| 舒兰市| 且末县| 永定县| 东海县| 南康市| 宜丰县| 自治县| 河津市| 隆回县| 江口县| 台北县| 新营市| 台南市| 清水县| 灵武市| 柞水县| 邹平县| 炉霍县| 青冈县| 乐亭县| 毕节市| 漯河市| 永修县| 玉溪市| 广州市| 汉沽区| 吉安县| 泾源县| 林西县| 高淳县| 茌平县| 青河县| 中宁县|