非結構化數據扮要角　驅動領域專用LLM興起

2024-08-01

朱南勳

根據Gartner預測，到了2027年將有超過50%的GenAI模型為垂直領域專用型，以滿足特定領域的產業需求，提供更準確與可信任、更輕量化、專為企業客製、以地端或邊緣端部署為主要考量的模型。其中，非結構化數據將扮演著關鍵要角。

根據國際研究機構Gartner預測，相較於目前以通用大型語言模型（LLM）為主流、領域專用型的比重僅占約1%情況下，到了2027年將有超過50%的GenAI模型為垂直領域專用型，以滿足特定領域的產業需求。其中，非結構化數據將扮演著關鍵要角，優勢包括（一）提升數據效能：透過系統化的發現和萃取，企業能夠充分挖掘和利用大量隱藏的非結構化數據；（二）提高數據品質與安全性：透過清洗和分類，保證非結構化數據的品質，同時確保隱私與正確性；（三）保障數據合規與透明度：追蹤數據來源和使用情境，確保數據管理過程的透明和合規；（四）支援GenAI：完整和優質的非結構化數據管理，為GenAI的模型訓練提供可靠的資料基礎。

善用大量非結構化資料打造企業專屬大腦

根據統計，一般企業平均擁有的所有數據中，非結構化數據約占80～90%，這些數據也為企業創建及部署專屬的AI模型提供了重要契機。企業已意識到可以將專有數據貨幣化，以打造聚焦垂直應用的AI模型。這些專有模型具有成本較低、正確性更高和易於部署等優勢。非結構化數據占當今LLM訓練數據的大部分比重。為有效利用這些數據，企業可以從非結構化數據中釋放隱藏的價值，並整合非結構化數據與結構化數據，強化決策過程，並創造更個性化的服務和產品。

企業如果想讓LLM快速串接外部的最新資訊，可以使用Function Calling（函式呼叫）來獲取最即時的資料，也可以透過檢索增強生成（RAG）讓LLM無須重新訓練即可存取特定或最新資訊；串接API則允許安全、即時的數據檢索；以企業自有資料進行模型微調（Fine-tune）則對特定型任務有所幫助；而有效的提示工程（Prompt Engineering）則有立竿見影之效。一般而言，適當的結合或以混搭方式的組合技能夠產生最好的結果。在部署時，也必須要考慮數據隱私、安全性、可擴展性、時間延遲、數據時效性等，有效地將私有數據與LLM進行整合。

AI Agents解決複雜問題、賦予非結構化數據新價值

企業在坐擁大量的非結構化資料下，若缺乏適當的自動化工具處理，恐怕也是巧婦難為無米之炊。因此，可以看到愈來愈多的大廠或新創推出相關工具，例如Google Vertex AI Agent Builder或Fetch.AI Agentverse等。觀察AI Agents正朝向更加靈活、互動和協作方向發展，進而解決各種複雜問題。新型介面和工具正在簡化AI代理人與使用者之間的互動，讓非技術人員也能快速建立與部署。同時，透過整合自有和第三方模型，也能進一步處理及運用企業中大量的非結構化數據，為企業和個人用戶帶來更大價值。

AI應用模式的最終目標是讓AI從工具變成工作代理，也就是能夠自主完成任務的Agents模式。目前，AI Agent仍屬早期發展階段，記憶與規劃能力是產品能否完善發展的關鍵。此外，引入自我檢測和錯誤修正機制，讓AI Agent能夠自動改進其決策過程，也是邁向自主化的重要一環。惟在「AI in the loop」的自動化過程中，針對企業的非結構化數據，「Human in the loop」的參與至關重要，除了得以確保數據品質、合規性和道德使用外，更擁有AI無法取代的細膩決策能力以及最終責任歸屬。

開源模型表現強勢，帶動多模態與領域專用模型興起

在開源社群的助力與演算法優化迭代下，最新的Llama3、Mixtral 8x7B、Yi-34B等開源模型性能快速提升。透過RLHF/RLAIF（Reinforcement Learning from Human Feedback/Reinforcement Learning from AI Feedback）等技術，開源模型正努力提升其精確度和實用性，逐漸逼近甚至超越部分閉源模型，縮小了與大廠之間的差距。其次，多模態能力的增強使得開源模型不僅能處理文本，還能像GPT-4和Gemini那樣處理圖像和語音等多種數據類型，進一步推動開源模型在各種應用場景的表現。

例如，Salesforce最新發表的APIGen研究顯示，優化資料集可以顯著提升AI在函式呼叫（Function Calling）任務上的訓練效果。該公司的xLAM模型經過APIGen訓練後，在基準測試中超越了許多更大型的模型，其中7B參數版本在46個模型中排名第六，而1B參數的Tiny Giant版本更勝過Claude Haiku和GPT-3.5等知名模型。此舉也進一步挑戰了超大型LLM的趨勢，顯示透過智慧化、少即是多的企業數據治理與庋用可以提高小而美模型的效率與能力，並且賦予未來無所不在的AI終端（On-device AI）更即時、更聰明、更加個人化的能力。

數據驅動商業模式可望發揮LLM專用模型最大價值

隨著人工智慧技術的快速發展，企業級LLM的應用前景備受期待。更多的生成式AI模型將專注於垂直領域，以滿足特定產業需求。首先，開源模型性能迅速提升，逼近閉源模型水平，同時多模態能力的增強擴大了應用場景。其次，企業開始重視非結構化數據的價值，這些大量的數據成為打造專屬AI模型的重要資源，增強了模型在深度學習的能力，使企業能夠利用其獨特數據獲取競爭優勢，也推動了地端解決方案的需求，以安全地維護數據隱私和模型監管控制。透過Function Calling、RAG、API串接等技術，企業可以更有效地整合和利用這些數據。最後，AI Agents的發展簡化了處理複雜問題和非結構化數據轉換等流程，新型介面和工具的出現也降低了部署門檻，為企業帶來更大的競爭優勢和價值創造機會。

＜本文作者：朱南勳現任資策會MIC主任，專業於軟體與通訊產業研究，長期關注前瞻軟體應用與通訊技術發展趨勢。曾於緯創資通公司擔任產品經理、趨勢科技公司擔任市場競爭力研究員，負責新產品認證開發與國際電腦大廠專案，並曾任經濟部技術處5G辦公室副主任。資策會產業情報研究所（MIC）長期觀測高科技產業市場情報與發展趨勢，是臺灣資通訊產業與政府倚重的專業智庫。＞