擴展定律如何推動更有智慧又更強大的 AI 發展

2025-02-20

就像是人們普遍理解的自然經驗定律一樣，例如有上必有下，或者每個動作都有相等和相反的反應，人工智慧（AI）領域長期以來都是由單一想法所定義：更多的運算、更多的訓練資料和更多的參數，就可以產生更好的AI模型。

!此為分頁標誌前台不顯示!

訓練後擴展定律假設使用微調、剪枝、量化、蒸餾、強化學習和合成資料增強等技術，可以進一步改善預訓練模型在運算效率、準確性或領域特異性方面的效能。

微調（fine-tuning）使用額外的訓練資料，針對特定領域和應用量身打造AI模型。這可以使用組織的內部資料集，或是成對的樣本模型輸入和輸出內容來完成。
蒸餾（distillation）需要使用一對AI模型：一個大型複雜的教師模型和一個輕量級的學生模型。在離線蒸餾這個最常見的蒸餾技術中，學生模型學習模仿預先訓練的教師模型的輸出。
強化學習（reinforcement learning，RL）是一種機器學習技術，它使用獎勵模型來訓練代理做出符合特定用例的決定。代理的目標是在與環境互動的過程中，隨著時間的推移做出累積獎勵最大化的決策，例如聊天機器人大型語言模型會受到使用者做出「按讚」反應的正向強化。這種技術稱為基於人類回饋的強化學習（RLHF）。另一種較新的技術是基於 AI 回饋強化學習（RLAIF），它使用AI模型的回饋來引導學習過程，簡化訓練後的工作。
最佳解搜尋採樣（Best-of-n sampling）會從語言模型產生多個輸出，並根據獎勵模型選擇獎勵分數最高的一個。它通常用來提高AI的輸出，而不需要修改模型參數，提供一種使用強化學習進行微調的替代方法。
搜尋方法會在選擇最終輸出之前探索一系列潛在的決策路徑。這種訓練後擴展技術可以反覆改善模型的反應。

為了支援訓練後擴展，開發人員可以使用合成資料來增強或補充微調資料集。使用AI產生的資料來補充現實世界的資料集，有助於模型改善處理原始訓練資料中代表性不足或遺漏的邊緣案例的能力。

什麼是測試階段擴展？

大型語言模型會對輸入提示做出快速回應。這個過程非常適合用來獲得簡單問題的正確答案，但當使用者提出複雜的詢問，這個流程可能就沒那麼好使用。要回答複雜的問題，大型語言模型必須先對問題進行推理，才能給出答案，而回答複雜的問題是代理型AI工作負載的基本能力。

這跟大多數人的思考方式類似，在被問到二加二的答案時，他們會馬上脫口而出，而不需要講解加法或整數的基本原理。可是萬一當場被要求制定一個可以讓公司利潤成長10%的商業計畫時，人們可能會透過各種選項進行推理，並且提供一個多步驟的答案。

測試階段擴展也稱為長思考，發生在推論過程中。傳統的AI模型會快速針對使用者的提示產生一次性答案，而使用這項技術的模型則會在推論過程中分配額外的運算工作，讓模型在得出最佳答案前先推理出多個可能的回應。