Anthropic youtube影片:AI prompt engineering: A deep dive
總結:AI 時代的溝通新思維 – 直接溝通!
隨著模型聰明程度提升到足夠理解世界,我們不需要把模型當作需要哄騙或討好的對象,而是要把它當作一個聰明但需要清晰指示的協作者。
- 關鍵心態轉變: 從「如何說服模型做事」到「如何清晰表達真實需求」。
- 提示工程的發展方向:從技術性的「提示技巧」,轉向更根本的「需求表達能力」。這不僅僅是技術層面的改變,更是與 AI 互動方式的質變。
- 模型能力提升帶來的改變:從「說服」到「表達」的轉變,反映了AI模型能力的重大進步。因為模型本身已經具備了理解和執行的能力,不再需要使用特殊技巧才能完成任務。相反的,清晰直接的需求表達反而能帶來更好的結果。
個人想法:上篇文章有講到,今年企業 AI 在提示工程的採用率,從去年的 55% 下滑至今年 16%。而我個人今年在 GenAI 協作上,對提示工程演進也是十分有感!
去年使用 GenAI 時,要花大把時間鑽研提示工程的技巧,包含概念對齊、思維鍊(CoT)、情緒勒索…等,還要花很多時間與隨機性對抗(驗證答案);而今年隨著更聰明的 AI 模型釋出,提示工程瞬間變得很直觀,驗證答案也可以透過更多 RAG 工作完成。與 AI 溝通要做的事情就如同這篇討論一樣:回歸本質(把話說清楚、重複迭代、理解模型可用邊界的過程)。
提示工程依舊重要,但這並不是要去尋找完美公式,而是發展一種清晰思考和表達的能力。這種能力不只適用於 AI 互動,更是職業發展的重要軟實力。
Anthropic 會議內容整理:提示工程的演進與未來
說明:這是一場在Anthropic公司內部進行的關於提示工程(Prompt Engineering)的圓桌討論。參與者包括:
- Alex:開發者關係主管,曾任Anthropic提示工程師
- David:客戶技術支持專家
- Amanda:微調團隊負責人
- Zack:資深提示工程師
討論深入探討了提示工程的本質、現狀和未來發展趨勢,揭示了與 AI 模型互動方式正在發生的根本性轉變。
一、AI 模型溝通出現本質上的轉變:從特殊技巧到清晰直接的需求
隨著 AI 模型變得更加智能,與模型互動的方式也需要相應改變,從早期技巧性的“討好/欺騙模型"提示轉向更直接、更自然的“清晰表達需求"溝通方式。
「直接溝通」:清晰表達的藝術
隨著模型能力的提升,與 AI 的互動方式正在發生根本性改變,從技術技巧轉向本質溝通,不需要角色扮演或複雜的場景設定,可直接告訴模型真實的任務背景和目標。
討論者們一致認為,清晰直接的溝通比特殊技巧更重要:
- “隨著模型更有能力和理解更多關於世界的事,我不覺得有必要對它們說謊。" – Amanda
- “模型知道什麼是語言模型評估,如果你問它不同的評估方法,它能告訴你,還能給出範例。" – Amanda
- “我給客戶的建議總是要尊重模型的能力。人們常常覺得要遷就系統,像在哄一個不太聰明的東西,但如果你把 Claude 當作一個聰明的對話者,它往往表現得更好。" – David
關鍵是把腦中的想法完整外化,而不是尋找"完美的提示句。Amanda分享了一個深刻的類比:"在哲學寫作中,我們的目標是讓受過教育的外行人能夠理解。這是一種反對廢話的裝置。"
告別角色扮演
提示工程的認知差距是最核心挑戰,關鍵在於準確傳達知識。現代 AI 模型已經不需要特殊的技巧或角色扮演來完成任務。
- “寫下任務指令真的很難。要從你的腦子裡把所有你知道但 Claude 不知道的事情解開並寫下來,這是一個極具挑戰性的任務。" – David
- “很多人會寫下他們知道的事情,但不會花時間系統地列出理解這個任務所需的全部信息集。" – David
- “人們經常用角色扮演作為捷徑,但這往往會讓你失去任務的細微差別。我經常在企業提示詞中看到這種情況。"– David
不要對模型隱藏複雜性
直接給予完整信息比簡化更有效(例如直接給論文而不是摘要):模型具備處理複雜任務的能力,信任它並給予完整資訊。
- “我給客戶的建議總是要尊重模型的能力。人們經常覺得要遷就系統,但如果你把 Claude 當作一個聰明的對話者,它往往表現得更好。"– David
- “與其假裝要做其他任務,不如直接告訴模型你真正想要完成什麼。模型理解評估數據集是什麼,所以不需要假裝在出題給學生。"- Amanda
- “如果我想讓模型學習某種提示技巧,很多人會開始描述這個技巧,但我更喜歡直接給它相關的論文。"- Amanda
補充:早期模型階段 (以前的困境)
- 主要是預訓練模型 (Pre-trained Models)
- 需要用特定方式引導才能得到想要的結果
- 常需要用類似任務來"欺騙"模型
- Zack 提到:"完成時代的模型 (completion era models),我們會擔心要把模型條件化到有用的潛在空間"
- 常見的技巧:
- 角色扮演("你是一個老師…")
- 用簡單類似的任務替代複雜任務
- 需要大量提示技巧和引導
現代模型的改變:
- RLHF (基於人類反饋的強化學習) 後:
- Amanda 說:"隨著模型更有能力和理解更多關於世界的事,我就不覺得有必要對它們說謊"
- 模型對任務本身有了更好的理解
- 不需要用替代任務或角色扮演
- 能力提升:
- 可以直接理解複雜任務
- 能夠處理專業文獻(Amanda 直接給模型讀論文)
- David 說很多客戶還停留在"需要寶寶語氣"的階段
- 理由:好用的技巧都會被訓練進下一代模型中
- “每當發現好用的提示工程技巧,下一步就是把他訓練進模型哩,因此最好的技巧總是短命的。" – Zack
- “以思維鏈為例,在某些情況下我們確實把它訓練進了模型。過去在處理數學問題時,你必須告訴模型要一步一步地思考,這樣才能獲得巨大的提升。後來我們想,’如果我們讓模型在看到數學問題時自然而然地想要一步一步思考會怎麼樣?’所以現在你不需要再特別要求它了,儘管你仍然可以給它一些關於如何組織思維的建議。它至少理解了這個基本概念。" – Zack
- “所以那些技巧都消失了,或者說在消失的過程中。而那些還沒消失的,我們也在積極地把它們訓練進模型中。" – Zack
實用解決方案:寫提示詞就像教學
把複雜的概念分解成清晰的步驟:要能設身處地為模型著想,理解它的思維方式。
- “這讓我想起寫哲學論文,目標是讓受過教育的外行人也能看懂。你需要把複雜的想法表達得極其清楚,但又不能顯得在說教。提示工程感覺很相似。" – Amanda
- “我經常建議客戶,先向我口頭描述任務是什麼,然後把這段話錄下來直接做為提示。這往往比他們精心設計的提示效果更好。" – David
Amanda分享了她的方法:
- 先給出初始提示
- 讓模型指出不清楚或有歧義的地方
- 基於反饋改進提示
二、實踐方法論:從理論到應用
*迭代和觀察的重要性:持續改進並學習觀察*
關鍵不在於完美的文字,而在於能否清楚表達意圖和持續改進。好的提示工程師會花時間閱讀模型的輸出,仔細觀察每個細節
- 持續改進的重要性:"在 15 分鐘內會發送數百個提示給模型,不斷來回測試和調整。" – Amanda
- 持續閱讀和分析其他人的成功提示: “閱讀提示,閱讀模型輸出。每當我在 Anthropic 看到別人寫的好提示,我都會仔細研究它在做什麼,為什麼要這樣做,然後自己測試。" – Zack
- 重視模型的輸出與過程:“在機器學習領域有句老話:要看你的數據。而在 prompt engineering 中,相應的原則是:要仔細閱讀模型的輸出。" “很多人會在提示中要求模型"逐步思考",但卻不去檢查模型是否真的在逐步思考。在提示工程中,模型輸出的往往是大量文字和內容,這些輸出之間蘊含著豐富的信息。不僅要看它是否完成了任務,更要關注它是如何到達那裡的?它經歷了什麼步驟?“
- 和模型互動可以學習並更理解模型:"每次與模型來回互動都能學到一些東西,如果不嘗試就等於放棄了獲取信息的機會“– Zack
想法:頻繁迭代不僅是優化提示,更是一個探索過程
- 理解模型的思維方式
- 發現潛在的邊界情況
- 累積對模型反應的直覺
識別模型的能力界限及異常處理
討論特別強調了考慮異常情況的重要性:要判斷是模型能力不足,還是提示需要改進;要能判斷某個任務是暫時做不到,還是需要更多嘗試。這要通過觀察模型的思維過程來判斷是否值得繼續嘗試。
- “人們很容易只考慮典型情況…但真正重要的是找出不尋常的案例。" – Amanda
- 給模型"逃生出口"- 當遇到無法處理的情況時的標準反應:"給模型一個出路很重要。如果出現意外情況,告訴它可以輸出 unsure 標籤。" – Amanda
- 越調越偏的時候不如放棄等新模型:"有些任務你能感覺到正在接近正確答案,而有些任務每次調整都讓結果更偏離目標。這時就該放棄了。" – David
- Zack 分享了他的 Pokemon 實驗:"我花了整個週末試圖讓它理解遊戲畫面。從完全沒反應到有一點反應是有進步,但離實用還差很遠。這時我就決定等下一代模型了。"
認知差距:把你知道但模型不知道的東西寫出來
提示工程最關鍵但常被忽視的挑戰是認知差距的處理。正如 David 所說:"寫下任務指令真的很難。要從你的腦子裡把所有你知道但 Claude 不知道的事情解開並寫下來,這是一個極具挑戰性的任務。"
討論揭示了兩個普遍存在的問題:
- 過度依賴個人理解:"我看到很多提示詞都建立在寫的人對任務的理解之上。當他們給我看時,我會說這完全說不通,因為我對你的特殊使用場景一無所知。" – David
- 假設知識共享:"很多人會寫下他們知道的事情,但不會花時間系統地列出理解這個任務所需的全部信息集。" – David
解決方法:從錯誤中學習
模型的錯誤往往揭示了提示詞的問題,要主動詢問模型,理解錯誤的原因。
- 善用模型協助改進提示:"有時我會先給模型提示詞,然後說’我不要你執行這些指令,我只想要你告訴我哪些地方不清楚或有歧義,或者你不理解的地方。'"– Amanda
- 讓模型解釋錯誤並修改:"有時候如果人們發現模型出錯,他們不會去問模型。其實你可以問模型:’你覺得為什麼會出錯?能幫我修改指令讓你不再犯錯嗎?’很多時候,模型能給出有用的建議。"– Amanda
- “我最喜歡的就是和 Claude一起改進測試案例,因為最常見的結果是我發現自己寫的測試案例有問題。當它答錯時,我會想’為什麼答錯了?’然後發現’噢,原來是我錯了。'" – David
- 自然表達需求:"把你口頭描述錄下來轉成文字,往往比精心設計的提示詞效果更好" – David
三、企業應用的特殊考量:現實場景的挑戰
- 用戶行為的不可預測性:用戶輸入往往不完美(無大寫、錯別字、無標點)
“客戶經常以理想情況設計提示,但實際用戶輸入常常從不使用 shift 鍵、到處都是拼寫錯誤、沒有標點符號。" – David - 規模化部署的考量:需要考慮大規模部署場景,一個提示可能被使用數百萬次,需要更嚴謹的測試。
“如果我在 Claude.ai 上寫提示,我只需要把它做對一次就可以了。但企業提示可能要用一百萬次,所以你投入的關注點是在測試所有可能的使用方式和輸入數據範圍。" – David - 系統性思考的重要性:數據來源的管理、延遲與數據量的權衡、整體系統架構的設計
四、提示工程的未來發展:從提示工程到需求釐清
角色轉變:隨著模型能力提升,提示工程的重點也在改變,未來可能從"教導模型"轉向"被模型訪談",可能會更注重如何有效地從用戶那裡獲取信息。
- “這可能從’臨時工’的關係轉變為’設計師’的關係" – Amanda
- “未來可能會變成模型在訪談我們,幫助我們更好地表達需求" – Amanda
- “我開始讓 Claude 來訪問我,因為我發現最難的部分是從我的腦子裡提取正確的信息。讓Claude來問問題,然後把對話轉成提示,這是我現在經常使用的方法。" – David
想法:未來提示工程師的角色可能會演變:
- 從指令編寫者→需求釐清者
- 從技術專家→領域翻譯者
- 從優化提示→優化人機對話流程
技能演進:核心能力(清晰思考和表達的能力)仍是關鍵
提示工程不僅僅是一種技術技能,更是一種思維方式和溝通藝術。因此雖然技術在進步,但提示工程本質的核心能力將持續重要:
- 能夠清晰地表達任務需求
- 理解模型的思維方式
- 善於觀察和分析模型的輸出
- 不斷學習和適應新的方法
- “從信息論的角度來看,你需要提供足夠的信息來明確指定你想要什麼。這一點不會改變。" – Amanda
- “只要你想要模型達到頂尖表現,提示工程就會一直存在。" – Amanda
想法:好的提示工程不在於使用特定技巧或模板,而在於發展一種能力 – 把複雜的隱含知識轉化為明確的指令。這種能力的培養需要:
- 大量實踐
- 仔細觀察
- 持續反思
- 跨領域思考
結論
提示工程正在從一個技術性工具演變為一種更深層的溝通藝術。這不僅是一項技術,更是一種思維方式,需要我們不斷適應和進化,以適應 AI 技術的快速發展。在這個過程中,清晰的思維、優秀的溝通能力和系統性的思考方式將是不變的核心能力。
免責聲明:本文章內容僅供投資人參考,無任何推薦與買賣邀約之情事,投資人應獨立審慎判斷,自負買賣風險謹慎投資,本網站不負任何法律責任。
喜歡我們的文章嗎?歡迎追蹤我們的臉書粉絲團,我們會持續提供更多產業趨勢的分析。
若我們的網站有幫助到您,也可以選擇贊助我們,讓我們更有動力繼續前進!
一次性贊助 ☕ 定期定額贊助 🥐
AI 市場報告整理 – 隨手記文章:
- 整理:從史丹佛大學 2024 AI 報告看長線趨勢 (2024-05-08)
- 微軟 CEO Nadella 專訪解讀 AI 戰略:把握歷史性機遇,推進系統創新和平台構建 (2024-05-30)
- 「業內人士看 GenAI 發展」之一:從 OOM 推算人工智慧的指數型發展,預測 2027 年將迎來大突破 (2024-07-03)
- 「業內人士看 GenAI 發展」之二:AI 推理成本將隨時間大幅下滑,創造應用落地甜蜜點? (2024-07-05)
- 「業內人士看 GenAI 發展」之三:Anthropic CEO 暢談 AI 未來 (2024-07-05)
- 解析大型雲端廠商的 AI 戰略 (2024Q3 財報):資本支出持續上修,預計可延續至 2026 (2024-11-04)
- 2024 企業 AI 市場雙重洗牌:OpenAI 市佔下滑與 RAG 技術崛起 (2024-12-03)
- Anthropic 討論提示工程的質變:從特殊技巧到清晰直接的需求 (2024-12-03)
