禁令解除72小時(shí)：141GB H20 跑滿血實(shí)測，DeepSeek 性能超預(yù)期

來源：投影時(shí)代　更新日期：2025-07-18 作者：佚名

商顯市場最大的看點(diǎn)何在年度評(píng)選盛典獲獎(jiǎng)揭曉 Infocomm China 深入報(bào)道

2025 年 7 月 15 日，英偉達(dá) CEO 黃仁勛宣布了一個(gè)震動(dòng) AI 圈的消息：美國政府即日起解除 H20 芯片對(duì)華銷售禁令，而就在禁令解除后，云工場科技發(fā)布詳細(xì)測試數(shù)據(jù)--- 8 卡 141GB 顯存的 H20 服務(wù)器，能流暢運(yùn)行 671B 參數(shù)的滿血版非量化 DeepSeek-R1 模型，推理吞吐量突破預(yù)期。

硬核實(shí)測：141GB H20 跑滿血版非量化 DeepSeek 性能全面解析

測試環(huán)境配置

一. 測試數(shù)據(jù)

1752803486229913.jpg"../../img_UpArticle/2025-07/28265349142127.jpg"

二. 關(guān)鍵性能測試結(jié)果

測試顯示：

1.首 token 響應(yīng)快：在測試的多個(gè)并發(fā)量下，首個(gè) Token 的響應(yīng)時(shí)間 (TTFT) 都保持在3秒以內(nèi)（實(shí)測 0.1s - 2.8s），用戶體驗(yàn)非常流暢，感覺不到任何延遲。

2.高并發(fā)吞吐大： H20 顯卡展現(xiàn)出優(yōu)秀的并發(fā)處理能力。在模擬 100 個(gè)用戶同時(shí)提問（并發(fā)請(qǐng)求=100）的中高負(fù)載場景下：

·處理短問題（輸入/輸出各 256 tokens），系統(tǒng)總吞吐量高達(dá) 約 1124 tokens/s。

·處理典型問題（輸入/輸出各 1K tokens），總吞吐量穩(wěn)定在約 1100 tokens/s。

·處理復(fù)雜問題/長對(duì)話（輸入/輸出各 2K tokens），總吞吐量仍能保持約 1020 tokens/s。

分場景性能趨勢(shì)：

1.低并發(fā)場景 (<10 用戶)：

·響應(yīng)極快： TTFT 始終低于 0.9 秒，用戶幾乎感覺不到等待。

·吞吐未飽和：系統(tǒng)能力遠(yuǎn)未被充分利用，吞吐量相對(duì)較低（32-208 tokens/s），性能表現(xiàn)輕松自如。

2.中高并發(fā)場景 (50-100用戶)：

·響應(yīng)依然迅速： TTFT 保持在 1.9 秒 (1K上下文) 到 2.8 秒 (2K上下文)，交互體驗(yàn)依然流暢。

·吞吐大幅躍升：系統(tǒng)資源得到高效利用，總吞吐量急劇上升至 634 - 1124 tokens/s。

·長上下文優(yōu)勢(shì)顯現(xiàn)：在相同并發(fā)下，處理更長（1K/2K）的上下文通常能獲得比短上下文（256）更高的吞吐量（尤其在并發(fā)50時(shí)最明顯），充分體現(xiàn)了 vLLM 對(duì)長文本的優(yōu)化效果。

3.極限場景 (100用戶 + 長上下文 2K)：

·響應(yīng)可控： TTFT 為 2.8 秒，交互體驗(yàn)依然流暢。

·吞吐維持高位：即使在此壓力下，系統(tǒng)總吞吐量仍達(dá) 1020 tokens/s。

三.測試總結(jié)

云工場科技構(gòu)建了全面的異構(gòu)計(jì)算資源池，涵蓋 NVIDIA 全系高性能 GPU（包括 141GB 顯存 H20、L20、RTX 4090 等最新型號(hào)）、AMD w7900 以及國產(chǎn)算力三巨頭（華為昇騰 910B 系列、百度昆侖芯 P800、燧原 S60）等等，可本地部署到就近機(jī)房，提供 DeepSeek、文心一言、華為盤古、LLaMA 等開源大模型本地部署。

通過嚴(yán)格的橫向性能基準(zhǔn)測試，云工場科技驗(yàn)證了不同架構(gòu) GPU 在 LLM 推理、計(jì)算機(jī)視覺等場景的能效比差異，并為客戶提供"算力租賃 + 算力智能調(diào)度 + 平臺(tái)化交付"的完整 AI 服務(wù)體系，目前已在教育/工業(yè)/通信/交通等多領(lǐng)域成功落地，支撐其大模型部署、推理及場景化落地的全流程需求。

返回投影機(jī)頻道首頁

推薦

年度大屏視聽行業(yè)評(píng)選，花落誰家？