美銀論壇整理:NVIDIA 看好 Token serving 與推論業務帶來的龐大市場

FinSight主編 的大頭貼Posted by

想法:「只要模型持續用這麼快的方式迭代,那推論市場就是只有Nvidia能吃的市場,同時軟體持續挖深他的護城河,可望成為Nvidia下一個飛輪」。

AI與雲端服務商佈局: Token serving(語言模型即服務)

NVIDIA副總裁Ian Buck認為,儘管GPU加速運算已經發展將近10年,但AI的成長週期仍處於早期階段。目前各大雲端服務商正在AI的三大領域快速發展:

  1. 基礎設施:以超大規模提供GPU運算資源給AI新創公司與開發者社群。雲端供應商從客戶GPU投資獲得高額報酬。
  2. Token serving(語言模型即服務):讓客戶使用GPT、LLaMA等大型語言模型。每投入1美元可在四年內獲得7美元收益。
  3. 建構新一代超大規模AI模型:需要廣大的基礎設施與演算法創新。未來訓練規模將從數十萬GPU擴展到百萬GPU。

此外,雲端服務商也開始把AI能力整合到自家產品中,例如微軟的GitHub Copilot。AI正透過改善既有功能與創造新服務,來提高這些產品的價值。

備註:我覺得Token serving和微軟的Model as a service是同樣的意思。

以下整理會議中說到Token serving的內容

  1. Token serving指的是提供大型語言模型的API服務,讓客戶可以藉由API來使用GPT、LLaMA等模型的推理能力。這是繼AI基礎設施服務之後,雲端大廠的第二大商機
  2. Ian Buck提到,從投資報酬率來看,token serving的效益甚至更高。平均而言,客戶每投入1美元在token serving,四年內可創造7美元的收益,優於AI基礎設施服務的1:5投資報酬率。
  3. NVIDIA已經發表NeMo Inference Megatron (NIM)平台,協助企業用容器化的方式快速部署GPT、LLaMA等大型模型,提供token serving服務。藉由NIM平台,企業可以用最有效率的方式提供模型推理服務,且確保使用者體驗一致。
  4. 大型雲端服務商除了提供token serving服務,也開始將大型語言模型整合到自家的應用服務中。未來AI assistive tool將成為許多應用服務的標準配備。
  5. 隨著市場對token serving的需求快速成長,NVIDIA也加速GPU產品世代更迭,以滿足token serving對運算密度與能效比的要求。Blackwell世代將大幅提升單位功耗下的推理效能。

AI模型參數量還有很大發展空間,AI應用將持續落地

  • Buck提到,AI語言模型的參數規模每6個月就在倍增,現在最大模型已接近2兆參數,但與人類大腦的100-150兆神經元連結相比,AI的複雜度還有很大的發展空間。
  • 目前AI模型主要透過大量參數來理解和生成語言,但尚未觸及推理(reasoning)與邏輯思考的能力。未來AI將往更高階智慧邁進。隨著運算架構與演算法的創新,AI模型的潛力遠未達到極限
  • 要訓練出萬億參數等級的超大語言模型,單靠增加GPU數量是不夠的,還需要軟體與算法的配合優化,才能讓系統有效率地擴展到數十萬乃至百萬顆GPU的規模。NVIDIA正與這些最頂尖的AI研究單位密切合作,促進AI基礎設施的發展。
  • AI加速器的市場需求非常強勁。去年市場規模超過400億美元,今年可望突破千億美元
  • 客戶在NVIDIA GPU上的投資回報率很高。平均而言,每投入1美元購買GPU,在四年內可以帶來5美元的報酬。而在token serving的應用場景,投資回收期更短,1美元投入可在四年內創造7美元收益。
  • Generative AI正在為微軟等公司的既有軟體產品帶來新的吸引力。例如GitHub Copilot可大幅提升開發人員的生產力。AI不僅能改善原有功能,更能催生出創新的應用,為這些產品創造新的價值。Generative AI正加速企業對傳統系統的汰換,以採用GPU加速平台
  • AI技術也正快速滲透到金融、醫療、電信等領域,這些擁有豐富數據的產業是AI落地的大規模市場機會。
  • 許多創新的AI模型是由新創公司或學界研發,而非大型科技公司。這些創新者需要一個普及、標準化的平台,讓他們的突破能被廣泛採用。NVIDIA與AI生態系統內各方緊密合作,加速AI技術的民主化與商業化進程。

AI inference市場與NVIDIA的優勢

  1. AI推論市場更大,而且NVIDIA產品優勢高
    • 大型語言模型的快速發展,已經改變了AI的訓練與推理方式。 Inference的市場規模與複雜度,已經從過去的簡單模型判別,演變為類似訓練的大規模部署。
    • 與training相比,AI inference的市場規模更大,也是NVIDIA未來成長的主要動能之一。雖然training的投資報酬率很高,但inference可創造更龐大的經常性營收
    • NVIDIA看到,客戶逐漸將GPU用於Tensorflow/PyTorch等模型的inference。過去這些framework主要用於training,但隨著模型不斷變大,高密度GPU也開始應用到inference,提供比CPU高數十倍的性價比。
    • 客戶對AI推理的需求快速成長,尤其是在語言模型即服務(token serving)、推薦系統等應用場景。隨著AI滲透到各行各業,對inference的需求只會與日俱增。
  2. 在AI inference(推理)市場,NVIDIA認為可程式化、通用型GPU相較於ASIC具有顯著優勢
    有人質疑,既然inference的模型架構相對固定,是否用ASIC等客製化晶片會比GPU更有效率?
    對此NVIDIA 以Transformer為例,指出這個架構是近幾年才快速竄起的,而且仍在持續演進,而AI模型創新的速度遠高於客製化晶片的開發週期,企業若是採用ASIC這類專用晶片,可能難以因應未來模型架構的變革。相較之下,而NVIDIA的GPU軟硬件的可程式化特性,可以與最新的AI模型同步演進,能確保客戶的投資與未來AI技術同步,幫助客戶保護長期投資
  3. 推論需要降低延遲提供完整解決方案
    公司認為就像5G基地台需要設置在用戶端附近以降低延遲,AI inference也需要在靠近數據源的地方執行。NVIDIA的產品策略是提供從雲端資料中心到邊緣端的完整解決方案,滿足各種inference部署情境。
    例如:在Blackwell世代,除了主打400W的旗艦H100產品,也將推出75W低功耗版本,適合部署在邊緣伺服器。而且從Hopper到Blackwell,NVIDIA的單位瓦數inference效能將提升30倍以上,大幅降低inference基礎設施的TCO。
  4. NVIDIA軟體已用來廣泛用於推論場景:在軟體方面,NVIDIA的TensorRT 加速引擎已被廣泛應用於各種inference場景。未來NVIDIA也將持續優化TensorRT對Transformer等新架構的支援。同時NVIDIA也提供兼容Kubernetes等標準架構的軟體開發套件,簡化inference部署。

Blackwell世代GPU的量產時程與系統創新

  • NVIDIA下一代GPU架構Blackwell已經進入量產階段。產品將在本季發貨,並於2024年底開始放量出貨。Blackwell將延續NVIDIA一年一個世代的產品節奏。
  • 不過公司坦言,繼Hopper之後,Blackwell的供需情況仍將相當吃緊。AI運算需求的爆發式增長,已經讓供應鏈面臨挑戰。NVIDIA需要與客戶提前2年規劃產能佈局。
  • Blackwell世代將導入多項系統層級的創新,例如支援最多72個GPU的NVLink互連、採用更高密度的液冷設計等。藉此大幅提高單一機架的運算效率,降低AI基礎設施的TCO(總持有成本)。
  • 企業正加速汰換傳統CPU伺服器,導入GPU加速平台。透過最佳化軟硬體設計,1台配備10個GPU的伺服器可取代1000台CPU伺服器,大幅節省空間與電力。隨著Blackwell的量產,NVIDIA有信心滿足市場的強勁需求。

Spectrum-X高速網路方案

  • AI的訓練正從萬GPU規模,快速邁向十萬、百萬GPU規模。這對高速網路互連提出了超級運算等級的需求。為此,NVIDIA推出了Spectrum-X高速乙太網路交換器。
  • Spectrum-X在乙太網路架構之上,導入了NVIDIA InfiniBand的創新技術,例如自適應路由、壅塞控制等,大幅強化東西向流量的低延遲特性。
  • 當前某個重大AI訓練案例已經採用Spectrum-X,其集群規模高達10萬顆GPU。未來Blackwell大規模部署時,Spectrum-X將可望迎來更高的attach rate(連接率)。
  • NVIDIA將持續加速Spectrum-X的產品藍圖,以乙太網路為基礎,滿足AI的超級運算需求。同時,面向追求極致效能的市場,NVIDIA也將繼續提供InfiniBand解決方案。

附註:問答整理

  1. 問: NVIDIA在Computex有哪些重要發表?Buck認為最令人興奮、對未來成長前景影響最大的是什麼?
    答:
    • NVIDIA發表全新系統架構標準MGX,可支援各種尺寸與用途的GPU伺服器設計,促進整體生態系統發展。
    • NVIDIA首次公開未來三年的產品藍圖:Hopper、Blackwell、Blackwell+,以及下一個世代Redstone。
    • NVIDIA發表新一代推理平台NeMo Inference Megatron (NIM),協助企業用容器化方式部署大型語言模型。

  2. 問:從終端市場來看,去年GPU加速器市場規模超過400億美元,今年可望超過千億美元,NVIDIA的客戶正如何利用這些加速運算資源?是用來訓練更大規模的語言模型嗎?目前的商業化進度如何?
    答:
    • GPU加速運算的應用主要可分為三大面向:
      (1)提供超大規模AI基礎設施。每投入1美元可獲得5美元回報。
      (2)推出模型即服務,例如提供GPT、LLaMA等大型語言模型API。每投入
      (3)1美元可獲得7美元回報。
      透過超大規模集群,建構下一代突破性AI模型。
    • 三大面向可同時進行,形成AI發展的正向循環。
    • 此外,企業也運用AI來強化自家產品,例如微軟的GitHub Copilot。

  3. 問:截至去年,最大語言模型已達到1750億參數,相較十年前僅有數千萬參數,成長非常驚人。NVIDIA認為模型參數量是否已接近極限?是否有可能反而要去追求更精簡的模型?
    答:
    • 就NVIDIA觀察,當前最大模型的參數量約2兆,離人腦的100~150兆神經元連結還有50倍以上的成長空間。
    • 目前AI模型主要複製語言理解與生成能力,尚未真正實現邏輯推理。未來AI將往更高階智慧發展。
    • 此外隨著AI架構創新,例如最近的mix-of-expert (MoE)技術,AI模型還有很大的效率提升潛力。
    • NVIDIA持續透過軟硬體、演算法創新,與產業共同探索AI模型的極限。目前尚未看到天花板。

  4. 問:Transformer類大型語言模型多由新創公司或學界創新,而非大型科技公司主導。NVIDIA如何看待這個現象對AI發展的意義?
    答:
    • 大型科技公司固然重要,但新創公司與學界是AI創新的重要動能。
    • 開放、標準化的AI平台,能讓新創公司的突破更快地被產業採用,加速AI技術的發展與商業化進程。
    • NVIDIA與整個AI生態緊密合作,持續推動GPU加速運算平台的普及,讓這些創新能茁壯並造福人類。

  5. 問: NVIDIA最近改採一年一個GPU世代的節奏,但AI模型參數量的成長速度可能更快。一年一個GPU世代是否跟得上AI的進展?客戶是否必須頻繁汰換設備?
    答:
    • 一年一個GPU世代是為了因應AI運算需求的爆炸性增長。同時NVIDIA也持續優化既有GPU世代的效能,例如Hopper比發表時的inferencing效能提升3倍。
    • NVIDIA與客戶達成長期產品藍圖,提前2年共同規劃GPU基礎設施的建置,在可預見的範圍內平衡創新力道與基礎設施的生命週期。
    • 此外NVIDIA也協助客戶透過最佳化軟硬體設計,提高GPU使用效率,避免過度汰換設備。

  6. 問: 隨著AI訓練、推理集群規模擴大,NVIDIA在高速網路方面的策略為何?尤其是面對既有乙太網路方案商,NVIDIA憑什麼說服客戶採用Spectrum-X?
    答:
    • AI集群正從萬GPU級,快速邁向十萬、百萬GPU級,對高速網路互連提出了超級運算的需求。
    • NVIDIA Spectrum-X在標準乙太網路架構上,導入了InfiniBand的創新技術,大幅強化AI應用的東西向傳輸效能。
    • 某重大AI案例的10萬GPU集群,已採用Spectrum-X解決方案。未來隨Blackwell上市,Spectrum-X可望迎來更高的attach rate。
      NVIDIA將以乙太網路為基礎,滿足AI的超級運算級網路需求。但針對特定市場,仍將提供InfiniBand方案以追求極致效能。
免責聲明:本文章內容僅供投資人參考,無任何推薦與買賣邀約之情事,投資人應獨立審慎判斷,自負買賣風險謹慎投資,本網站不負任何法律責任。