2025 年 7 月 15 日,英偉達(dá) CEO 黃仁勛宣布了一個(gè)震動(dòng) AI 圈的消息:美國(guó)政府即日起解除 H20 芯片對(duì)華銷(xiāo)售禁令,而就在禁令解除后,云工場(chǎng)科技發(fā)布詳細(xì)測(cè)試數(shù)據(jù)--- 8 卡 141GB 顯存的 H20 服務(wù)器,能流暢運(yùn)行 671B 參數(shù)的滿血版非量化 DeepSeek-R1 模型,推理吞吐量突破預(yù)期。
硬核實(shí)測(cè):141GB H20 跑滿血版非量化 DeepSeek 性能全面解析
測(cè)試環(huán)境配置
一. 測(cè)試數(shù)據(jù)
二. 關(guān)鍵性能測(cè)試結(jié)果
測(cè)試顯示:
1.首 token 響應(yīng)快: 在測(cè)試的多個(gè)并發(fā)量下,首個(gè) Token 的響應(yīng)時(shí)間 (TTFT) 都保持在3秒以內(nèi)(實(shí)測(cè) 0.1s - 2.8s),用戶體驗(yàn)非常流暢,感覺(jué)不到任何延遲。
2.高并發(fā)吞吐大: H20 顯卡展現(xiàn)出優(yōu)秀的并發(fā)處理能力。在模擬 100 個(gè)用戶同時(shí)提問(wèn)(并發(fā)請(qǐng)求=100)的中高負(fù)載場(chǎng)景下:
·處理短問(wèn)題(輸入/輸出各 256 tokens),系統(tǒng)總吞吐量高達(dá) 約 1124 tokens/s。
·處理典型問(wèn)題(輸入/輸出各 1K tokens),總吞吐量穩(wěn)定在 約 1100 tokens/s。
·處理復(fù)雜問(wèn)題/長(zhǎng)對(duì)話(輸入/輸出各 2K tokens),總吞吐量仍能保持 約 1020 tokens/s。
分場(chǎng)景性能趨勢(shì):
1.低并發(fā)場(chǎng)景 (<10 用戶):
·響應(yīng)極快: TTFT 始終低于 0.9 秒,用戶幾乎感覺(jué)不到等待。
·吞吐未飽和: 系統(tǒng)能力遠(yuǎn)未被充分利用,吞吐量相對(duì)較低(32-208 tokens/s),性能表現(xiàn)輕松自如。
2.中高并發(fā)場(chǎng)景 (50-100用戶):
·響應(yīng)依然迅速: TTFT 保持在 1.9 秒 (1K上下文) 到 2.8 秒 (2K上下文),交互體驗(yàn)依然流暢。
·吞吐大幅躍升: 系統(tǒng)資源得到高效利用,總吞吐量急劇上升至 634 - 1124 tokens/s。
·長(zhǎng)上下文優(yōu)勢(shì)顯現(xiàn): 在相同并發(fā)下,處理更長(zhǎng)(1K/2K)的上下文通常能獲得比短上下文(256)更高的吞吐量(尤其在并發(fā)50時(shí)最明顯),充分體現(xiàn)了 vLLM 對(duì)長(zhǎng)文本的優(yōu)化效果。
3.極限場(chǎng)景 (100用戶 + 長(zhǎng)上下文 2K):
·響應(yīng)可控: TTFT 為 2.8 秒,交互體驗(yàn)依然流暢。
·吞吐維持高位: 即使在此壓力下,系統(tǒng)總吞吐量仍達(dá) 1020 tokens/s。
三.測(cè)試總結(jié)
云工場(chǎng)科技構(gòu)建了全面的異構(gòu)計(jì)算資源池,涵蓋 NVIDIA 全系高性能 GPU(包括 141GB 顯存 H20、L20、RTX 4090 等最新型號(hào))、AMD w7900 以及國(guó)產(chǎn)算力三巨頭(華為昇騰 910B 系列、百度昆侖芯 P800、燧原 S60)等等,可本地部署到就近機(jī)房,提供 DeepSeek、文心一言、華為盤(pán)古、LLaMA 等開(kāi)源大模型本地部署。
通過(guò)嚴(yán)格的橫向性能基準(zhǔn)測(cè)試,云工場(chǎng)科技驗(yàn)證了不同架構(gòu) GPU 在 LLM 推理、計(jì)算機(jī)視覺(jué)等場(chǎng)景的能效比差異,并為客戶提供"算力租賃 + 算力智能調(diào)度 + 平臺(tái)化交付"的完整 AI 服務(wù)體系,目前已在教育/工業(yè)/通信/交通等多領(lǐng)域成功落地,支撐其大模型部署、推理及場(chǎng)景化落地的全流程需求。