榮格工業(yè)資源APP
了解工業(yè)圈,從榮格工業(yè)資源APP開始。
代理型AI工作負載正在重塑現(xiàn)代數(shù)據(jù)中心基礎設施的計算需求,將性能瓶頸從GPU為中心的推理轉向CPU密集的編排和工作流管理。傳統(tǒng)的AI推理流程主要依賴GPU執(zhí)行單次前向傳遞,輸入標記化、模型執(zhí)行和輸出生成依次完成。然而,新興的智能體人工智能系統(tǒng)將推理轉變?yōu)榉植际健⒍嗖搅鞒蹋ㄒ?guī)劃、工具調用、驗證和迭代推理。這一架構變革帶來了顯著的CPU需求,使CPU容量成為維持系統(tǒng)吞吐量和整體成本效益的關鍵因素。

在代理工作流中,CPU 執(zhí)行諸如控制流管理、分支邏輯、重試以及多個代理與外部服務之間的協(xié)調等編排任務。每次代理調用可能需要與數(shù)據(jù)庫、API、搜索引擎或向量存儲交互,這些都會產生額外的 CPU、內存和 I/O 開銷。此外,推理密集的工作負載通常需要沙箱執(zhí)行環(huán)境進行驗證和測試。這些迭代循環(huán)創(chuàng)造了多回合的工作流程,CPU決定端到端吞吐量。當CPU資源不足時,GPU會處于空閑狀態(tài),等待預處理、工具執(zhí)行或驗證步驟完成,導致昂貴的加速器硬件使用效率低下。
實驗基準測試進一步強調了CPU工作負載在代理流水線中的重要性。在基于監(jiān)管文件分析的金融異常檢測工作流程中,CPU負責數(shù)據(jù)加載、基線計算、異常檢測、文件檢索以及通過網頁搜索豐富等任務。結果表明,CPU操作主導了整個運行時間,僅富集操作所耗時間遠多于基于GPU的模型推斷步驟。這凸顯了僅靠推理加速無法優(yōu)化性能;相反,需要在CPU編排和GPU計算之間實現(xiàn)系統(tǒng)平衡。
第二個基準測試聚焦于AI輔助代碼生成,進一步揭示了CPU瓶頸。在這種工作流程中,GPU生成候選解決方案,而CPU則在沙箱環(huán)境中執(zhí)行和驗證代碼。在兩千多個任務中,基于CPU的沙箱執(zhí)行耗時略高于GPU代碼生成,盡管采用了高核心數(shù)系統(tǒng)。CPU階段包括子進程管理、測試執(zhí)行和結果分析,證明驗證循環(huán)在智能系統(tǒng)中可以媲美甚至超過推理時間。這些發(fā)現(xiàn)表明,僅靠提升GPU性能并不能提升整體吞吐量,除非CPU按比例擴展。
這些實驗中產生的基礎設施規(guī)模建議強調保持CPU與GPU比例的平衡。當前指導建議CPU與GPU的比例介于1:1到1.4:1之間,相當于每塊GPU約86到120個CPU核心,具體取決于工作負載特性。較小的模型更快地生成令牌,需要額外的CPU容量以保持GPU飽和,而更強大的CPU則可以降低所需的比例。未來的高性能GPU可能會進一步增加CPU需求,隨著編排復雜度增加,CPU比例可能進一步提升。
其影響不僅限于性能優(yōu)化。CPU資源配置不足會帶來編排延遲、延遲工具執(zhí)行和驗證循環(huán)變慢,這些都會降低GPU利用率并增加運營成本。相反,擴展型CPU確保了數(shù)據(jù)的持續(xù)準備、協(xié)調和驗證,使GPU能夠以最高效率運行。這種系統(tǒng)層級的平衡類似于微服務架構,后者整體性能依賴于最慢的組件而非最快的組件。
總結:隨著代理人工智能的不斷發(fā)展,CPU將在推理基礎設施中扮演越來越核心的角色。從單遍推理向多步工作流程的轉變,將價值轉向編排、協(xié)調和運行時管理。因此,部署代理系統(tǒng)的組織必須重新考慮傳統(tǒng)的以GPU為中心的擴展策略,轉而設計平衡的架構,以提供足夠的CPU容量。通過協(xié)調CPU和GPU資源,數(shù)據(jù)中心能夠持續(xù)吞吐量,減少空閑加速器,并優(yōu)化下一代AI部署的總擁有成本。

