就像是人們普遍理解的自然經驗定律一樣,例如有上必有下,或者每個動作都有相等和相反的反應,人工智慧(AI)領域長期以來都是由單一想法所定義:更多的運算、更多的訓練資料和更多的參數,就可以產生更好的AI模型。
!此為分頁標誌前台不顯示!
在為開發人員生成複雜的客製化程式碼等工作上,這個AI推理過程可能需要幾分鐘,甚至幾小時的時間,而且相較於傳統大型語言模型的單次推論,高難度的查詢可能需要超過100倍的運算量,因為傳統大型語言模型不太可能在第一次嘗試時,就能對複雜的問題產生正確的答案。
這種測試階段運算能力可以讓AI模型探索問題的不同解決方案,並將複雜的要求拆解成多個步驟,在許多情況下,在推理過程中向使用者展示其工作。研究發現,當給予AI模型需要多個推理與規劃步驟的開放式提示時,測試階段擴展可以獲得更高品質的回應。
測試階段運算方法有多種方法,包括:
- 思維鏈(chain-of-thought)提示:把複雜的問題分解成一系列更簡單的步驟。
- 多數決抽樣:針對同一個提示產生多個回應,然後選擇最常出現的答案作為最終輸出。
- 搜尋:探索與評估回覆樹狀結構裡的多個路徑。
類似最佳解搜尋採樣的訓練後擴展方法也可用於推論過程中的長思考,以最佳化符合人類喜好或其他目標的回應。
測試階段運算技術的興起,讓AI有能力對使用者所提出複雜、開放式的查詢項目,提供有理有據、有幫助且更加準確的回應。這些能力對於自主代理型AI及實體AI應用所期待的詳細、多重推理任務來說至關重要。它們可以為各產業的使用者提供能力強大的助理來加速工作,從而提高效率和生產力。
在醫療保健領域,模型可以使用測試階段擴展技術來分析大量資料,推斷疾病的發展情況,以及根據藥物分子的化學結構,預測新療法可能產生的潛在併發症。或者,它可以梳理臨床試驗資料庫,建議符合個人病況的方案,分享其對不同研究利弊的推理過程。
在零售和供應鏈物流領域,長思考有助於解決近期營運挑戰和長期策略目標所需的複雜決策。推理技術可以同時預測與評估多種情境,協助企業降低風險,並因應在擴充方面的難題。這可以實現更精準的需求預測、簡化供應鏈行程路線,以及做出符合組織永續發展計畫的採購決策。
對於全球企業而言,這項技術可應用於草擬詳細的商業計畫、產生複雜的程式碼以對軟體進行除錯,或是最佳化貨車、倉儲機器人和無人駕駛計程車的行駛路線。
AI推理模型發展迅速。OpenAI o1-mini和o3-mini、DeepSeek R1以及Google DeepMind的Gemini 2.0 Flash Thinking都是在過去幾週推出,預計不久後還會有更多新的模型問世。
這些模型在推理過程中需要使用大量運算,才能對複雜問題進行推理與產生正確答案,這表示企業需要擴充加速運算資源,以提供能夠解決複雜問題、編寫程式碼和規劃多步驟的下一代AI推理工具。