生成式AI Gen AI LLM 大型語言模型 Llama GPT-4 資安

OpenAI GPT-4明確轉向閉源 Meta Llama則選擇大量開源

大型語言模型開源禍福難料 AI開源與否掀論戰

2024-01-11
2023年2月,Meta發布Llama語言模型,這是第一個主要的免費「開源」大型語言模型(根據傳統定義,Llama和Llama 2並未完全開放),開源AI開始風靡一時,並掀起一股AI是否開源的爭論風潮。

去(2023)年2月,Meta發布Llama語言模型,這是第一個主要的免費「開源」大型語言模型(LLM)(根據傳統定義,Llama和Llama 2並未完全開放)。

開源AI開始風靡一時,並掀起一股AI是否開源的爭論風潮,原因在於,大型語言模型需要龐大的運算預算(OpenAI使用10,000個NVIDIA GPU來訓練ChatGPT)以及高深機器學習專業知識,因此很少有企業能夠從頭開始訓練它們。 然而,擁有資源和專業知識的業者傾向不再向公眾開放他們的模型,而是依賴API串連。這就是開源人工智慧發揮之處:讓大型語言模型民主化。

例如Databricks發布類似ChatGPT的Dolly,其靈感來自於史丹佛大學3月中旬發布的另一款開源LLM Alpaca。 除此之外, Alpaca則使用2月底發布的Meta Llama模型,即便參數少了10倍,Llama仍因其比GPT-3模型優越的性能而受到歡迎。

人工智慧開源引發成本與使用權的辯論

當GPT-4於3月14日發布時,一份98頁的技術報告批評該模型並無包含有關模型「架構(包括模型大小)、硬體、訓練電腦」的詳細資訊,以及在資料庫建置、訓練方法或類似方法,幾乎讓使用者陷入黑盒子中。

即便OpenAI於2015年作為一家開源公司,但它當前的重點已經明顯轉移到閉源,OpenAI聯合創始人Ilya Sutskever近期認為,公開地分享研究成果是「錯誤的」,OpenAI不分享更多有關GPT-4資訊的原因是擔心競爭和擔心安全問題,避免被競爭對手超越是最大考量。

同時,針對這類大型語言模型的開源也引起不小隱憂,布魯金斯學會指出,開源人工智慧的可怕之處之一是它非常容易使用,幾乎任何有程式設計背景的人都能夠立即上手,但很多時候他們可能陷入黑盒子的陷阱中,並在無形中做出有害的行為。

Meta則反其道而行:大量開源

相反地,Meta則是一家特別「開放」的大型科技公司,這要歸功於FAIR(Meta的首席人工智慧科學家Yann LeCun於2013年創立的基礎人工智慧研究團隊),近期也出現受Llama啟發的開源模型:包括Vicuna,這是Llama的微調版本,可比擬GPT-4性能;Koala,來自柏克萊人工智慧研究所的模型;ColossalChat,一個ChatGPT類型的模型,是加州大學柏克萊分校Colossal-AI計畫的一部分,其中一些開源模型甚至經過優化,可以在最低功耗的設備上運行,從MacBook Pro到Raspberry Pi和舊iPhone。

但需要注意的是,這些開源模型尚未用於商業,因為Llama模型尚未發布用於商業用途,且OpenAI GPT-3.5使用條款禁止使用該模型來開發AI模型與OpenAI競爭。

事實上,根據Meta指出,自模型發布以來,開源AI社群已在Hugging Face平台上微調並發布了7,000多個Llama衍生品,還有許多其他開源模型,包括Mistral、Hugging Face和Falcon,但Llama是第一個擁有像Meta這樣的大型科技公司的數據和資源支援的模型。

相較之下,ChatGPT或許能視為2023年最賣座電影《芭比娃娃》,但Llama及其開源人工智慧群體更像是漫威宇宙,擁有無盡的衍生品和分支,這些衍生品和分支擁有累積的力量,可以對人工智慧領域產生巨大的長期影響。

公司的首席AI科學家Yann LeCun則推動Llama 2連同模型權重一起發布商業許可,他在9月的AI Native會議上指出,人工智慧開源是不可避免的趨勢,因為大型語言模型將成為每個人都會使用的基礎設施,它必須是開放的。與其他大型科技公司相比,Meta長期以來一直是開放研究的擁護者,尤其是透過PyTorch框架建立開源生態系統。Meta將慶祝FAIR(基礎人工智慧研究)成立10週年,該機構的目的在於透過開放研究推進人工智慧的發展水平,2013年12月9日,Facebook宣布紐約大學教授Yann LeCun領導FAIR,而當前它的確正在推動人工智慧的民主化。

資安問題可能會是開源的硬傷

但開源有個問題是資安,眾所周知,軟體依賴程式碼,其中大部分程式碼來自開源程式庫。根據Octoverse 2022的報告,97%的應用程式都使用開源程式碼。不僅開發人員擁抱開源,90%公司也擁抱開源。但是,如果任何一段開源程式碼有漏洞,都可能導致整個軟體供應鏈陷入資安危機。

根據Lineaje的調查發現,70%的軟體都是開源的,該報告研究Apache軟體基金會,稱其為開源的「黃金標準」。開源模式固然吸引許多開發者,但並不總是保證良好的安全,在這種情況下,開發人員可能會降低程式碼的質量,並增加知名度帶來的巨大風險。

‧由於漏洞、安全性問題、程式碼平等或可維護性問題,82%的開源軟體元件存在固有風險。

‧雖然大約68%的開源軟體元件是可證明的,但這意味著近三分之一的元件不可證明。

‧90%的Apache軟體出狀況後是「不可修補的」。

同時,Synopsys的一項研究也表明,開源軟體中的漏洞正在增加。在分析了1,703個程式碼庫後,研究發現76%是開源的,其中84%的程式碼包含開源漏洞,該數字較2022年增加了4%。

事實上,開源是脆弱的——比大多數人意識到的更加脆弱,因此這部分資安問題就成為反對者的攻擊焦點。

即便如此,開源依舊是較為可能的模式

因此,Meta這種免費開源方式就引起不同論戰:人工智慧模型是否應該免費提供,以便任何人都可以不受限制地修改、個人化和分發它們?或者它們應該受版權保護並需要購買許可?使用這些開源大型語言模型(相較於使用封閉的、成本高昂的大型語言模型)會產生哪些道德和安全影響?

1990年代末與2000年代初的開源軟體運動產生標誌性的創新,例如Mozilla的Firefox網路瀏覽器、Apache伺服器軟體和Linux作業系統,後者是為全球大多數智慧型手機提供支援的Android作業系統的基礎。

但在以學術界和研究為主的人工智慧領域,開源尤其具有影響力。Hugging Face執行長Clement Delangue曾指出,「過去五年人工智慧領域的大部分進步都來自開放科學和開源。」

長遠來看,專有模型和開源模型都會有一席之地,但不可否認的是,如果沒有開源社區,生成式人工智慧領域將是一個不夠先進、非常利基的市場,而不是一種具有潛力的技術,對工作和生活的許多方面產生巨大影響,開源社群已經並將成為許多重大長期影響的來源,並對生成式人工智慧的普及化相當重要。

<本文作者:Howie Su現為產業分析師>


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!