「業內人士看 GenAI 發展」之二:AI 推理成本將隨時間大幅下滑,創造應用落地甜蜜點?

FinSight主編 的大頭貼Posted by

延續上篇想知道業內人士對 AI 趨勢演變的看法,整理相關內容並將我的看法或補充用藍色顯示。

第二篇有趣的文章:The cost of AI reasoning over time.

文章發布於 2024/3/29,當時作者 Karina Nguyen 專注於 Anthropic 公司的對齊能力和誠實性研究,致力於減少大型語言模型中的幻覺現象,並訓練和評估具有新能力的模型。同時領導了 Claude Instant 1.2 的訓練和生產化。因此她對此領域的趨勢和動態應該有較為深入的了解。(至少可以作為 Anthropic 怎麼看未來發展)

AI 推理成本隨時間變化的趨勢分析

隨著時間推移,AI 模型在推理能力上不斷提升,同時其相關成本也持續大幅下降。本文分析了從 2022 年至今,語言模型在 MMLU 基準測試上的表現與其成本之間的關係。

主要發現

  • 從 2022 年到 2024 年,語言模型在 MMLU 上的準確率不斷提高,同時每百萬 token 的成本持續下降
  • 目前模型已能以比兩年前低幾個數量級的成本達到約 80% 的 MMLU 準確率。
  • 同一模型家族的新版本通常更強大且更高效,如 Claude 3 Sonnet 在準確率和成本上都優於 Claude 2。
  • 根據用戶的價格敏感度和性能需求,可以在成本-性能權衡中找到最佳模型。

AI 模型在 MMLU 基準測試中的表現與成本變化

  • AI 語言模型在 MMLU 基準測試中展現出卓越的推理能力。MMLU 是一個衡量語言模型在各種任務上表現的常用基準。
  • 模型的推理能力提升與成本下降同時發生,主要歸因於以下創新:
    • 專家混合 (Mixture of Experts, MoE)高效計算和參數訓練及推理技術
    • 硬體晶片進步
  • 圖表展示了從 2022 年到 2024 年,語言模型在 MMLU 上的準確率不斷提高,而相關成本卻以數量級的速度下降。
    • 令人印象深刻的是,一些模型在低於幾年前成本數個數量級的情況下,就能達到約 80% 的 MMLU 準確率。
    • 即使在同一個模型系列中,新版本往往在性能上優於舊版本,同時成本更低。例如,Claude 3 Sonnet 在準確性上優於 Claude 2,且價格更實惠。

備註:圖形我有進行加工,除了加上五月以來發布的 GPT-4o 和 Claude 3.5 Sonnet 之外,也加上了我自己定義的年度趨勢線。

針對不同客戶群體的最優模型選擇

根據客戶對價格和性能的敏感度,分析了三種客戶類型,並給出了相應的最優模型選擇。

  1. 價格敏感型客戶:
    • 特點:優先考慮成本,尋求最經濟實惠且性能達到最低要求的選擇
    • 案例:資金有限的小型初創公司、預算有限的獨立開發者
    • 最優選擇:
      • Claude 3 Haiku:同類產品中價格最實惠,MMLU 準確率達 75.2%
      • MMLU 準確率 70% 或以上的性價比之選 (從高到低):Claude Instant 1.2、Mistral 8x7B、Claude 3 Haiku、Gemini 1.0 Pro
      • 更偏好價格而非性能的選擇:Llama 2 7B、Mistral 7B
  2. 平衡型客戶:
    • 特點:尋求成本和性能之間的平衡,願意為提高準確性多付出一些,但仍希望避免最高端的定價
    • 案例:經歷增長階段的B2B科技公司,需要在支持擴展的同時控制成本
    • 最優選擇:
      • Claude 3 Sonnet:百萬 token 成本略低於 $1,MMLU準確率接近 79%
      • Grok-1.5:MMLU 準確率 81.3%(具體定價待公佈)
  3. 性能驅動型客戶:
    • 特點:不太在意成本,更看重模型的性能和能力
    • 案例:大型企業將 AI 用於關鍵應用,如金融預測或醫療診斷
    • 最優選擇:帕累托前沿上的高端模型,如 Anthropic Claude 2、PaLM 2等

對 AI 模型發展的未來趨勢預測

  • 預估未來一年內
    • 語言模型的 MMLU 準確率可能會進一步提高,超過 80%
    • 使用這些模型的成本可能會進一步下降,低於每百萬 tokens 1美元
  • 預估未來 1-1.5 年內
    • 語言模型在 MMLU 基準測試上的準確率將在 5-shot 和 0-shot 設置下達到 90% 或更高
    • 同時成本會逐步降低 (應該是比每百萬 tokens 1 美元更低),使採用門檻降低

備註:圖形我有進行加工,除了加上五月以來發布的 GPT-4o 和 Claude 3.5 Sonnet 之外,也加上了最近幾次關鍵大模型的發布時間,這樣對於成本降低的趨勢會比較明確。

  • 預估未來 2-5 年:
    • MMLU 準確率可能達到 95-100%,價格可能降至目前的一小部分。(圖上顯示的是每百萬 Tokens 成本 <0.1 美金
    • 隨著模型性能提升和成本下降,最優性價比的模型組合將發生變化。
    • 屆時對AI能力評估標準可能從基準測試轉移到其他方面。

我的想法:當模型能力提升到 >90% 且價格降至甜蜜點出現,會出現應用爆發

  1. 當模型在標準基準測試 (如 MMLU) 上的準確率將大幅提升,達到 90% 以上,甚至接近 100%。就代表著模型將能夠處理更加複雜多樣的任務,且能力將更接近人類水準,將可達成更多現在人類可以做到的任務。
  2. 使用這些高性能模型的成本將顯著下降,這代表更多個人、企業和機構將能夠負擔得起使用這些先進的語言模型。(可以有更多商業化的想像,將使應用大幅落地)
  3. 在不同性能和成本組合下,最優性價比的模型選擇將發生變化。這代表隨著技術進步和市場競爭,用戶將有更多高性價比的選擇,從而推動更廣泛的應用。

結論

  • AI 模型的推理能力和成本將持續快速演進,帶來更高的性能和更低的價格,而且速度可能會超乎想像。
  • 不同類型的客戶需要根據自身需求,權衡性能和成本,選擇最優的模型。
  • 隨著市場的成熟,我們可以期待看到更多針對特定需求的專門化模型。
  • AI 能力的評估標準也將隨時間而變化,以適應新的應用場景和需求。

我的想法:若真的以這麼快速度達到模型的價格甜蜜點,那對現有廠商而言,時間就是更重要的資產,因為率先達到價格甜蜜點的模型,更有能力綁住後續相關應用。(回應先前在 NVIDIA 報告中,認為 Time is Money 的想法,這樣對於未來四年相關的資源搶奪,可能還是趨勢主軸)

免責聲明:本文章內容僅供投資人參考,無任何推薦與買賣邀約之情事,投資人應獨立審慎判斷,自負買賣風險謹慎投資,本網站不負任何法律責任。

  

NVIDIA 隨手記文章:

  1. NVIDIA (NVDA) 2023Q4 財報:推理占比飆升至 40%,AI 工廠正在挖深護城河! (2024-04-10)
  2. NVIDIA (NVDA) 2024Q1 財報:軟體賦能硬體,推論與訓練的算力需求皆顯著成長 (2024-05-24)
  3. 美銀論壇整理:NVDA 看好 Token serving 與推論業務帶來的龐大市場 (2024-06-07)
  4. NVIDIA 軟體戰略全面解析:建構未來幾年內難以撼動、既寬且深的護城河 (2024-06-19)
  5. 回顧去年 NVIDIA 論壇:長期軟體營收可望過半,創造公司成長的下個飛輪 (2024-06-25)

AI 市場報告整理 – 隨手記文章:

  1. 整理:從史丹佛大學 2024 AI 報告看長線趨勢 (2024-05-08)
  2. 微軟 CEO Nadella 專訪解讀 AI 戰略:把握歷史性機遇,推進系統創新和平台構建 (2024-05-30)
  3. 「業內人士看 GenAI 發展」之一:從 OOM 推算人工智慧的指數型發展,預測 2027 年將迎來大突破 (2024-07-03)
  4. 「業內人士看 GenAI 發展」之二:AI 推理成本將隨時間大幅下滑,創造應用落地甜蜜點? (2024-07-05)
  5. 「業內人士看 GenAI 發展」之三:Anthropic CEO 暢談 AI 未來 (2024-07-05)