如果ChatGPT是20歲的博學青年,那麼台新腦就只要成為7歲的金融天才兒童,只要是與台新、金融知識有關,7歲的天才兒童也有機會能擊敗ChatGPT,而這才是台新腦想要達成的成果。
有別於先導入雲端封閉型的大型語言模型(LLM)服務,再以RAG技術來輔助生成較準確可靠內容的作法,台新金控選擇與台灣人工智慧實驗室(Taiwan AI Labs)合作,客製化專屬的大型語言模型,發展基於繁體中文的金融專業落地型金融GPT—「台新腦」。此項專案是結合AI Labs的聯邦式語言模型(FedGPT)佐以台新銀行內部的資料與知識庫進行預訓練,預計將於今年10月正式上線。
這項看似大膽的決策其實是台新金控經多方驗證且深思熟慮的結果。為了確認雲端大型LLM服務的適用性,早在去年3月,台新金控啟動雲端人工智慧專案,建置微軟Azure OpenAI(AOAI)環境,看重的即是AOAI可提供較封閉且安全環境的優勢,同年6月開始由同仁試驗以AOAI進行程式碼生成、對話式生成內容,逐步普及生成式AI應用。
「我們確實經歷了許多企業初次使用通用型LLM都面臨到問題,在建立試驗的初期,通用型LLM回答的準確率並不如預期,」台新金控資訊長孫一仕回憶,當時一連嘗試了好幾次詢問關於台新高階主管的大名,均沒有答對。也曾經詢問,哪張信用卡去日本無腦刷卡最好,結果回答的是非台新信用卡選項,即使後來用提示語(Prompt)設限,詢問哪張台新的信用卡去日本無腦刷卡最好,回答也不正確,於是再加個篩選器,層層下來其實非常複雜。
經此經驗才意識到,通用型LLM必須花很多的精神、餵進相關的資料集,以外掛的方式,透過微調或是RAG的方式輔助,才能提高回答的準確率。然而,在當時,從外圍進行微調或RAG確實是一大負擔。另一個考量則是成本,雖然Azure OpenAI以Token為單位計費易於掌控,但畢竟還是變動成本,幾經考量下,決定落地自建。
「其實,台新金控並不是想要打造與ChatGPT同樣強大,可以生成文字、程式碼、文字,幾乎無所不通的大型語言模型,而是想要打造在金融限定領域中,最懂金融知識、最熟悉台新、且擅長繁體中文的『台新腦』。」他笑著說,如果ChatGPT像個20歲的博學青年,那麼台新腦就只需成為7歲的金融天才兒童,但只要限定在與台新、金融知識有關的範圍,7歲的天才兒童就能擊敗ChatGPT。而這才是台新腦想要達成的成果,也是為何自專案啟動以來,台新金控不斷地想方設法,找來大學教授協助評估模型參數量、集結各子公司的知識,目的就是要讓LLM更懂台新與金融知識,進而在未來提供更優質的智能客服體驗。
自建LLM 人力、算力也要到位
然而,自建大型語言模型需要克服多個面向的挑戰。AI模型訓練不僅需要程式語言專長,也必須對金融領域深入了解,因此台新金控也特別設立了AI訓練師新職位,並成立創新科技應用部,自今年2月成立至今,在短短不到一年的時間,即從原本5人左右的配置成長到近30人的團隊。而且人員組成並不只有AI訓練師,還包含負責推廣尋找新AI應用場景的AI PM團隊、負責摸清模型與工具的AI工程師,包含圖片生成、報告生成等外圍的工具腦將由此團隊來掌握。此外,還有IT工程師,負責台新腦對外介接。
另外,針對大型語言模型訓練所需要的算力,台新金控在去年11月即購置內含8片H100的NVIDIA DGX伺服器來因應,即便如此,在模型訓練的過程中,還是需要設立資料的截止點,目前是以3月為基準,在今年3月之前的資料先進行訓練,而3月至10月上線前的資料則會先存放於暫存池中,當需要回答時,再把兩組資料組合一起後再回答。孫一仕舉例,如果詢問現在去日本無腦刷3%回饋無上限是哪一張信用卡,在3月之前的回答可能是台新FlyGo卡,但是3月到9月可能是JCB信用卡最有利,因此在回答前,會先把兩個資料組合在一起,而後再回答。「在暫存區內的資料可能會隨著時間的推移以及服務內容而改變,例如今年3有的有效資料到了明年3月可能就無效了,目前的作法是,當需要在適當時機下進行再次的資料訓練時,這些在暫存區的資料便須先經過清洗,才能進行訓練,如此持續以便台新腦能夠進行更貼切的運用。」
現階段,台新金控並沒有打算取代全部的智能客服,而是預計先從信用卡服務開始提供。但是除此之外,藉由台新腦的上線,台新金控也希望能夠有效縮短讓員工從新手到成為稍微資深的過程,提高同仁的生產力。舉例而言,同樣一通客服電話,資深客服立刻就能判斷並且知道這個問題的答案在哪裡,可以去哪一個系統撈資料來回覆客戶,但是新手客服接到這通電話可能要經過三次嘗試才能找到資料回覆,如果能夠把嘗試的過程從三次變成二次,最後變成一次,如此一來,不只生產力提高,客戶等待的時間變少,過程中無形也增加資淺同事的反應能力。
提升Prompt能力蔚為 重要
在提升生產力之前,讓員工更加熟悉並善用生成式AI也是不少企業會面臨的一道門檻。今年5月,台新金控運用開源的圖片生成模型Stable Diffusion,鎖定行銷人員平時需要花費在大量協作溝通的場景,進行小型的試驗。過去的作法是行銷同仁要把情境描述給廣告公司,先做一個草圖,感覺不對,再回去重做。可能要來來回回好幾次,才能符合。現在有了生成式AI,就可以讓生成式AI生成心目中的意象,再拿這個意象跟廣告公司說明就是要類似這樣感覺的情境,這時候廣告公司就可以以此為藍圖,做出廣告公司的版本。如此一來,往返的溝通時間就可以縮短。
「這個專案其實很有意思,」他提到,模型剛訓練好時,很興奮地想要展示給董事長看,於是就輸入幾個提示詞,Richart、盔甲、籃球、沙發,當時在腦中的意象是Richart穿著戰神的衣服坐在沙發上面玩個籃球,結果生成的是Richart站在沙發上,球在牆邊,手指頭還少一個……。坦白說,當時其實很洩氣,直覺認為模型訓練了老半天,結果卻不可行。後來同仁不服氣,隔天送了一張非常漂亮的圖,Richart穿著盔甲,拿著長劍在一個廢墟上面遙望遠方,後面是以戰場為背景,一開始以為是模型重新訓練,後來才理解到提示詞的重要性,這張圖是下了35個Prompt結果,而原先不可行的圖片才下了4個。
正是此次的衝擊,讓孫一仕感受到Prompt Engineering的重要性,後來台新金控內部便舉辦「2024台新金控圖像生成挑戰賽」,邀請公司及旗下銀行、人壽及證券子公司等同仁共同組隊參與。挑戰賽使用台新金控自行訓練中的生成式AI模型,讓參賽者透過輸入指令或提示的方式,運用限定的主角Richart、台新銀行的獅馬特和智能客服Sunny & Rose等品牌圖像元素,生成一幅幅蘊含各隊創作理念和意境的視覺作品。
他提到,除了核心「台新腦」之外,未來在周邊也將會有特殊目的的「功能腦」,圖片生成只是其中一項,另外還有報告生成,依不同目的,選定合適模型,打造特定用途的生成式AI。「其實,帶領AI團隊,最大挑戰是管理期望值,在報章媒體的大肆渲染下,太多人以為生成式AI無所不能,如果沒有管理好期望值就會從極度樂觀變成極度悲觀。但是如何從最高期望值拉到最適期望值,是現今正在著手進行的事。」
此外,所有的AI都需要呵護,企業可能會發現開放員工使用的前幾天使用率會快速攀升到高峰,然後就沒有下文了。因此前置的教育訓練,包含怎麼使用、期望值以及如何下Prompt,都需要照顧到。最後,高階主管的支持也很重要,因為不管是AI還是生成式AI,其效益都很難簡單量化,舉例而言,生成式AI可以提高客戶滿意度,但該算提升多少?而提升的客戶滿意度如何換算成金額?而換算出來的結果值不值得投資?如果沒有高階主管的支持,真的很難放手做。
三道保險機制協力合規
隨著全球對人工智慧監管環境日益嚴格,包括今年六月金管會發布的「金融業運用人工智慧(AI)指引」、歐盟的《人工智慧法案》近期將生效,以及2023年底由國際標準組織(ISO)和國際電子電機委員會(IEC)共同制定,全球第一個「人工智慧(AI)管理系統國際標準」ISO 42001標準,都突顯出AI系統的合規與安全性變得越來越重要。
對此,台新金控找來安永企業管理諮詢服務公司,依據金管會的AI指引,建構AI治理框架,未來這套框架將應用到整個金控,包含證券、人壽以及銀行等子公司,此外,也與OneDegree Global攜手合作進行概念性驗證,協助台新腦進行AI驗證服務,透過先進的AI測試解決方案,驗證大型語言模型的公平性、安全性及隱私保護等。
孫一仕解釋,AI Labs的聯邦式FedGPT本身即有保護隱私與資料安全的機制,達到符合金管會人工智慧資安以及隱私指引。而OneDegree則是透過AI攻擊技術和方法,進行全面且深入之測試,以確保AI系統在推出市場前的安全性和可信度。這兩者的角色,一為盾,另一為矛。另外,安永在協助制定AI治理框架的同時,也會帶進一些工具進行測試,主要會比較偏向回答面,是否具有公平性或偏見等等。「藉由多家優秀協力廠商的協助,等於有三道保險機制來助力且建立可信任且負責任的AI系統,並且合規金管會發布的金融業運用人工智慧(AI)指引要求。」他說。