結論:NVIDIA 是 AI 時代的操作系統、最佳平台公司
去年九月的會議,公司就告訴大家「NVIDIA 看到的長期市場機會六千億中,有一半來自軟體」。其中3000 億是晶片和系統等硬體、另外 3000 億則來自軟體(1500 億 NVIDIA AI Enterprise、1500 億 NVIDIA Omniverse)。
備註:當時公司對整個市場大餅為 IT 支出的一兆美元,其中六千億是 NVIDIA 的機會。但 2024/3/4 論壇上,公司有將一兆美元的預估值調升至兩兆美元,因此去年的預估也需要調升,我回顧這份論壇只是想用看一下先前公司對長期軟體營收佔比的看法。
參考 2016 年公司正式拆分資料中心營收開始,到 2017 年第一季營收佔比過半時受到市場熱烈討論,直到 2022 年第三季才正式超過營收比重五成;我認為公司何時把軟體從營收結構中正是拉出來,就有機會是公司開始進入軟體評價的階段(公司可能在新財年開始才做這件事情,至於目前佔比從 2023Q4 財報表明達到 10 億美元的年化收入運營率來看,約佔公司營收 1.6%)。
- 其實不管是軟體或是 DGX Cloud,都是 NVIDIA 直接自己下來當鯰魚,加速協助終端客戶應用落地、把餅做大。(策略上是對的,執行上則要留意不與 CSP 競爭,相關競合後續要再觀察)
整體而言,以目前 GenAI 發展來看,我依舊看好公司成為「AI 的操作系統平台公司」,軟硬體整合創造的護城河將使競爭者難以超越,短期受惠資料中心需求提升,長期則看軟體成為下一個飛輪(未來兩三年),屆時可望拉高 NVDA 長期評價。
高盛科技會議:「NVIDIA 將自己定位為 " AI 的操作系統 " 和運行時環境提供者。」
2023/9/6 NVIDIA企業計算負責人Manuvir Das
一、加速運算將取代傳統計算成為主流
NVIDIA 認為,隨著 AI 等新型應用的興起,傳統以 CPU 為主的計算架構已無法滿足性能和能效的需求。未來企業運算的大勢所趨是加速運算,即透過 GPU 等專用加速器來提升性能。NVIDIA 估計目前數據中心中只有個位數比例的伺服器配備 GPU,而未來大部分伺服器都將搭載 GPU,形成一個龐大的市場機會。這個機會主要分為兩個部分:
- 數據中心從傳統架構升級到加速運算:
全球每年在數據中心的 IT 支出約為 1 兆美元。隨著企業紛紛採用 AI,NVIDIA預計這筆支出將逐步從原有的 CPU 架構轉移到 GPU 為主的加速運算架構。加速計算是未來的趨勢,可以在相同的空間內實現 10-100 倍的工作量,生成式 AI 和大語言模型 (LLM) 是推動加速計算平臺普及的殺手級應用。 - 伺服器的換機潮:
企業會為了追求更高性能和更低成本,週期性地汰換老舊伺服器。NVIDIA 認為這波即將到來的換機潮代表了約 3000 億美元的GPU伺服器和系統商機。NVIDIA 已經與 OEM 合作推出主流伺服器如 L40S,可望顯著受惠於此趨勢。
二、軟體和服務收入將成為新增長點
除了硬體,NVIDIA 也看好軟體和服務市場,隨著企業越來越依賴 AI 模型來運行業務從研發階段轉向生產階段,他們需要企業級的軟件支持。Manuvir Das 強調,過去 NVIDIA 80% 的研發預算都投入了軟體,而這些投資在 AI 時代將產生豐碩的回報。NVIDIA 將軟體商機細分為兩塊,共 3000 億美元:
- AI 企業軟體 (NVIDIA AI Enterprise):
隨著企業將 AI 從研發實驗室帶到正式的生產環境,對企業級 AI 軟體的需求將大幅提升。NVIDIA AI Enterprise 軟體套件支援從AI模型開發、訓練、優化到部署的所有環節,並提供必要的安全性、可靠性和可管理性,讓企業能用類似企業軟體的方式使用 AI。NVIDIA 估計這個市場約 1500 億美元。
- 虛擬世界協作平臺 (NVIDIA Omniverse):
元宇宙概念持續發酵,NVIDIA 的 Omniverse 企業級虛擬世界平臺有望強力受惠。Omniverse 支援工業級 3D 設計協同、虛擬分身、數位孿生等應用,NVIDIA 估計這個市場也至少 1500 億美元。
三、推理市場是 NVIDIA 的重要增長機會
儘管 NVIDIA 在 AI 訓練市場已經具有壓倒性的領先地位,但 Manuvir Das 強調,推理市場同樣是 NVIDIA 的巨大機會。他指出,隨著越來越多企業將AI模型部署到生產環境,對高效、實惠的推理方案的需求正在快速增長。而 NVIDIA 已經為此做好了充分準備:
- 持續優化針對推理場景的 GPU 架構設計,如安培 (Ampere) 架構中增加了用於加速 Transformer 神經網絡的專用核心。
- 全棧優化推理性能,從編譯器、函式庫到驅動程式進行端到端加速。
- 發佈更多針對推理進行優化的 GPU 產品,如 L40S。
- 與 OEM 合作推出一系列針對推理場景優化的伺服器產品,並已獲得華為、Dell 等主流廠商的支持。
Das 認為,NVIDIA 在推理市場的一個重要優勢是,無論是雲端、資料中心、邊緣或終端設備,開發者都可以使用相同的 NVIDIA 軟體棧輕鬆進行推理應用的移植和部署。這種便利性和一致性,加上 NVIDIA 在 AI 領域積累的豐富經驗和龐大開發者社群,將幫助 NVIDIA 在推理市場佔據重要地位。
四、DGX Cloud 讓更多企業用上 NVIDIA 頂級 AI 基礎設施
談到 DGX Cloud,Das 表示這項服務的推出標誌著 NVIDIA 與雲服務供應商合作的里程碑,但絕不意味著要與合作夥伴競爭。他解釋說,DGX Cloud 的設計理念與 NVIDIA 過去推出 DGX 系列產品如出一轍,即:
- 將 NVIDIA 最前沿的 AI 硬體與軟體技術整合為一套優化的解決方案。過去是以內部部署的整機形式交付,現在則是在主流雲平臺上提供同等體驗。
- 為那些最先進的 AI 研發團隊提供所需的尖端性能和靈活性,幫助他們突破性能瓶頸,加速AI創新。
- 通過 DGX Cloud 提供的參考架構,推動雲服務商加快在其平臺上部署更優化的 AI 基礎設施,讓更多企業受益。
- 藉由這種創新的合作方式,NVIDIA 將與雲服務商共同促進 AI 的民主化,讓強大的 AI 計算力觸手可及。
Das 強調,NVIDIA 與所有主流雲服務商保持著緊密而穩固的合作關係,將持續深化合作,攜手推動 AI 行業的發展。DGX Cloud 絕非為了與合作夥伴搶生意,而是希望藉此擦亮 NVIDIA 品牌,為合作夥伴做出貢獻,共同催生更多 AI 的應用創新。(補充:我覺得是 NVIDIA 自己當鯰魚的概念)
五、生態系統齊心協力推動加速運算應用
- 雖然加速運算和 AI 的機會龐大,但 NVIDIA 堅信自己不是在與原有IT廠商對抗,而是要成為他們的最佳戰略夥伴。
- NVIDIA 將持續與 OEM、雲服務商、獨立軟體開發商等緊密合作,共同打造完善的產品、解決方案與服務,讓客戶能順暢採用 NVIDIA 技術。
- 而 NVIDIA 的角色則是提供領先的 GPU 硬體、統一的 CUDA 加速平臺、各種開發框架和工具,創造價值並分享成果。NVIDIA 強調其軟件堆棧可以在任何地方(本地、雲端、邊緣)運行 AI 工作負載。
六、負責任 AI 是 NVIDIA 的堅持
面對 AI 技術的快速演進,外界對 AI 的道德、法規、安全等議題愈加關注。NVIDIA 將負責任AI視為公司的核心原則。公司從硬體、軟體、資料等層面著手,為合作夥伴和客戶交付安全、可靠、可解釋、不涉及偏見的AI技術。唯有以負責任的心態去發展和應用 AI,才能讓AI真正造福人類,實現 NVIDIA 的使命。Das 特別提到了 NVIDIA 的 “Guardrails" 技術,用於控制AI模型的行為。

美銀全球 AI 會議:「軟體生態系的重要性,在推理業務更顯著放大。」
2023/9/11 NVIDIA 加速計算業務部門的副總裁 Ian Buck (CUDA 發明者)
關於軟體生態系統的重要性(包含推理優化的複雜性):
- 軟體優化的關鍵作用:雖然人們常關注硬體性能,但軟體優化在提升AI性能方面同樣重要,甚至可能帶來更大的提升。
- TensorRT-LLM 的具體案例:NVIDIA 最近發佈了 TensorRT-LLM,這是一個專門針對大語言模型 (LLM) 推理優化的軟體。僅在過去一個月內,通過這個軟體的優化,Hopper 架構 GPU 的推理性能就提高了一倍。
- 推理優化的複雜性:
- 推理優化比訓練優化更複雜,因為它涉及"最後一英里"的優化。在這個階段,模型需要適應各種實際限制和需求,如延遲要求、硬體限制、成本考慮等。
- 需要處理不同大小和類型的請求,從快速問答(可能需要毫秒級回應)、文本摘要(可能需要幾秒)到長文本生成(如郵件或PPT,可能需要更長時間),系統需要能夠有效地調度和處理這些不同的請求類型。
- 同時,需要保持 GPU 的高利用率。平衡不同大小和複雜度的任務,以確保 GPU 不會閒置或超載。這可能涉及到複雜的調度演算法和資源配置策略,需改進 GPU 資源的調度和執行管理,以提高計算效率和輸送量。
- 優化的具體方法:使用 8 位浮點數 (FP8) 以提高 Tensor Core 的效率,但這涉及在保持模型準確性和提高計算速度之間找到平衡點。
- 延遲 vs. 輸送量:推理優化需要在單個請求的回應速度 (延遲) 和系統整體處理能力 (輸送量) 之間取得平衡,這個平衡點可能因應用場景而異。
- 模型優化:在推理階段,可以對模型進行進一步的優化,超出訓練階段所能達到的程度。這可能包括模型壓縮、量化、剪枝等技術。
- 系統級優化:推理優化不僅涉及模型本身,還包括整個系統棧的優化,從硬體到作業系統,再到應用層。
- 持續適應:推理系統需要能夠適應新的模型架構和 AI 技術的快速發展。這要求優化策略具有靈活性和可擴展性。
- 持續優化的承諾:NVIDIA 會繼續投資於軟體優化,以進一步提升性能。這些優化不僅適用於新購買的硬體,也能提升客戶已有硬體的性能,無需額外成本。Ian 強調,NVIDIA 的軟體生態系統是其競爭優勢的關鍵部分,使 NVIDIA 能夠持續創新並保持領先地位。
關於 AI 訓練和推理的硬體需求:
- AI 訓練需求:
- 大語言模型 (LLM) 的訓練需求將持續增長,不會很快達到飽和點。原因是 LLM 需要理解和表達人類知識,這需要大量的資料和計算資源。
- 他預見不同行業會開發專門的 LLM,導致模型多樣性增加。
- NVIDIA 提供從 A100 到最新的 H100等高性能 GPU 來滿足這些訓練需求。
- AI 推理需求:NVIDIA 提供了一系列 GPU 來滿足不同規模和場景的推理需求
- L4:72 瓦的低功耗 GPU,適用於邊緣計算和小型 LLM 推理。
- L40:全尺寸 PCI 卡,用於較大規模的推理和微調任務。
- H100:高端 GPU,適用於大規模推理任務。
- Ian 強調,推理需求正在從傳統的圖像識別等任務擴展到更複雜的生成式 AI 任務。
- 性能提升:Ian 提到硬體升級結合軟體優化可以帶來顯著的性能提升,從 A100 到 H100,推理性能提升了約 8 倍,擁有權總成本 (TCO) 降低了約 5 倍。
- 融合架構:Grace Hopper 等 CPU-GPU 融合產品,這些產品通過提高 CPU 和 GPU 之間的頻寬和降低延遲來優化 AI 工作負載。
- 未來趨勢:Ian 預見資料中心設計正在向更多採用 GPU 架構轉變,以支援 AI 工作負載。他認為這種轉變為 NVIDIA 提供了持續增長的機會。

你必須登入才能發表留言。