推理性能提升10倍,成本下降一半!第四范式發(fā)布大模型推理加速卡、推理框架
        2024-03-18
        為破解大模型推理中GPU顯存瓶頸,第四范式發(fā)布了大模型推理框架SLXLLM以及硬件版本的推理加速卡4Paradigm Sage LLM Accelerator(簡(jiǎn)稱SLX)。通過多任務(wù)共享存儲(chǔ)及處理優(yōu)化技術(shù),大模型推理性能提升10倍在模型效果無損情況下,同樣使用8張24G顯存GPU對(duì)6B/7B大模型進(jìn)行FP16推理,可部署的模型數(shù)量從8增至16GPU利用率從55%最高提升至100%推理成本僅為原來的一半。值得一提的是,該能力也將集成在4Paradigm Sage AIOS 5.0中,推動(dòng)大模型落地應(yīng)用。
        當(dāng)前,業(yè)界公認(rèn)的大模型推理主要瓶頸之一是GPU顯存瓶頸。同算力一樣,顯存是衡量GPU性能的關(guān)鍵指標(biāo)之一,用于存儲(chǔ)計(jì)算結(jié)果、模型參數(shù)等數(shù)據(jù)。在大模型推理的過程中,往往因?yàn)轱@存受限,導(dǎo)致GPU的算力無法被“全部激活”用于推理過程,GPU算力利用率較低,大模型推理成本居高不下。

        為此,第四范式發(fā)布了大模型推理框架SLXLLM以及推理加速卡SLX,在二者聯(lián)合優(yōu)化下,在文本生成類場(chǎng)景中,大模型推理性能提升10倍。例如在使用4張80G GPU對(duì)72B大模型進(jìn)行推理測(cè)試中,相較于使用vLLM,第四范式使用SLXLLM+SLX的方案,可同時(shí)運(yùn)行任務(wù)數(shù)量從4增至40。此外,推理加速卡SLX也可兼容TGI、FastLLM、vLLM等主流大模型推理框架,大模型推理性能提升約1-8倍

        主站蜘蛛池模板: 云安县| 富源县| 罗源县| 衡阳市| 新乐市| 资阳市| 孟津县| 吴桥县| 化州市| 同仁县| 古丈县| 锡林浩特市| 横山县| 嘉黎县| 区。| 大安市| 巴彦县| 阿巴嘎旗| 时尚| 德钦县| 威海市| 柳河县| 甘德县| 德保县| 故城县| 桐梓县| 扬中市| 陇西县| 将乐县| 彭山县| 鸡西市| 彝良县| 平遥县| 吉水县| 丘北县| 永仁县| 于田县| 龙胜| 怀柔区| 佛教| 大同县|