就像是人們普遍理解的自然經驗定律一樣,例如有上必有下,或者每個動作都有相等和相反的反應,人工智慧(AI)領域長期以來都是由單一想法所定義:更多的運算、更多的訓練資料和更多的參數,就可以產生更好的AI模型。
然而,AI發展至今,需要三個不同的定律來描述不同方式利用運算資源如何影響模型效能。這些AI擴展定律合在一起,包含預訓練擴展(pretraining scaling)、訓練後擴展(post-training scaling),以及又稱為長思考(long thinking)的測試階段擴展(test-time scaling),反映出AI領域如何在各種日益複雜的AI用例中運用額外的運算技術演進發展。
近期興起的測試階段擴展,也就是在推論階段應用更多運算來提高準確度,已經實現AI推理模型這類新式的大型語言模型(LLM),以執行多次推論來處理複雜的問題,同時描述解決任務所需的步驟。測試階段擴展需要用到大量運算資源來支援AI推理,這將進一步推動對加速運算的需求。
預訓練擴展是AI發展的原始定律。它證明透過增加訓練資料集大小、模型參數數量和運算資源,開發人員可以期望模型智慧和準確度會出現可預期的改善。
資料、模型大小、運算這三個要素中的每一個都息息相關。根據本篇研究論文所概述的預訓練擴展定律,當大型模型獲得更多資料時,模型的整體效能就會提高。為了實現這個目標,開發人員必須擴大運算規模,這就需要強大的加速運算資源來運行那些較大的訓練工作負載。
這種預訓練擴展原則使得大型模型達到突破性的能力。它還激發了模型架構的重大創新,包括有著數十億個和上兆個參數的transformer 模型、混合專家模型和新式分散式訓練技術的興起,而這一切都需要大量的運算。
而預訓練擴展定律的相關性仍在不斷發展,隨著人類持續產生越來越多的多模態資料,這些文字、影像、音訊、影片和感測器資訊的寶藏庫將會被用來訓練未來強大的AI模型。
預先訓練大型基礎模型並非人人適用,這需要大量投資、熟練的專家和資料集。然而,一旦組織預先訓練好並發布模型,就能讓其他人使用其預先訓練的模型當成基礎,以配合自己的應用,從而降低採用 AI 的門檻。
這種訓練後的流程會推動企業及更廣泛的開發人員社群對加速運算的額外累積需求。受歡迎的開源模型可能有著上百個或上千個在多個領域裡訓練出的衍生模型。
針對各種用例開發衍生模型的生態系,可能需要比預先訓練原始基礎模型多出約30倍的運算時間。
訓練後技術可以進一步提升模型的特異性,以及與組織所需用例的相關性。預訓練擴展就像是將 AI模型送去學校學習基本技能,而訓練後擴展則是增強模型適用於其預期工作的技能。比如一個大型語言模型可以經過訓練後擴展來處理情感分析或翻譯等任務,或是理解醫療保健或法律等特定領域的術語。