自建精準LLM兼顧合規　台新腦專攻金融懂繁中

2024-10-17

余采霏

如果ChatGPT是20歲的博學青年，那麼台新腦就只要成為7歲的金融天才兒童，只要是與台新、金融知識有關，7歲的天才兒童也有機會能擊敗ChatGPT，而這才是台新腦想要達成的成果。

有別於先導入雲端封閉型的大型語言模型（LLM）服務，再以RAG技術來輔助生成較準確可靠內容的作法，台新金控選擇與台灣人工智慧實驗室（Taiwan AI Labs）合作，客製化專屬的大型語言模型，發展基於繁體中文的金融專業落地型金融GPT—「台新腦」。此項專案是結合AI Labs的聯邦式語言模型（FedGPT）佐以台新銀行內部的資料與知識庫進行預訓練，預計將於今年10月正式上線。

這項看似大膽的決策其實是台新金控經多方驗證且深思熟慮的結果。為了確認雲端大型LLM服務的適用性，早在去年3月，台新金控啟動雲端人工智慧專案，建置微軟Azure OpenAI（AOAI）環境，看重的即是AOAI可提供較封閉且安全環境的優勢，同年6月開始由同仁試驗以AOAI進行程式碼生成、對話式生成內容，逐步普及生成式AI應用。

「我們確實經歷了許多企業初次使用通用型LLM都面臨到問題，在建立試驗的初期，通用型LLM回答的準確率並不如預期，」台新金控資訊長孫一仕回憶，當時一連嘗試了好幾次詢問關於台新高階主管的大名，均沒有答對。也曾經詢問，哪張信用卡去日本無腦刷卡最好，結果回答的是非台新信用卡選項，即使後來用提示語（Prompt）設限，詢問哪張台新的信用卡去日本無腦刷卡最好，回答也不正確，於是再加個篩選器，層層下來其實非常複雜。

經此經驗才意識到，通用型LLM必須花很多的精神、餵進相關的資料集，以外掛的方式，透過微調或是RAG的方式輔助，才能提高回答的準確率。然而，在當時，從外圍進行微調或RAG確實是一大負擔。另一個考量則是成本，雖然Azure OpenAI以Token為單位計費易於掌控，但畢竟還是變動成本，幾經考量下，決定落地自建。

「其實，台新金控並不是想要打造與ChatGPT同樣強大，可以生成文字、程式碼、文字，幾乎無所不通的大型語言模型，而是想要打造在金融限定領域中，最懂金融知識、最熟悉台新、且擅長繁體中文的『台新腦』。」他笑著說，如果ChatGPT像個20歲的博學青年，那麼台新腦就只需成為7歲的金融天才兒童，但只要限定在與台新、金融知識有關的範圍，7歲的天才兒童就能擊敗ChatGPT。而這才是台新腦想要達成的成果，也是為何自專案啟動以來，台新金控不斷地想方設法，找來大學教授協助評估模型參數量、集結各子公司的知識，目的就是要讓LLM更懂台新與金融知識，進而在未來提供更優質的智能客服體驗。

自建LLM　人力、算力也要到位

然而，自建大型語言模型需要克服多個面向的挑戰。AI模型訓練不僅需要程式語言專長，也必須對金融領域深入了解，因此台新金控也特別設立了AI訓練師新職位，並成立創新科技應用部，自今年2月成立至今，在短短不到一年的時間，即從原本5人左右的配置成長到近30人的團隊。而且人員組成並不只有AI訓練師，還包含負責推廣尋找新AI應用場景的AI PM團隊、負責摸清模型與工具的AI工程師，包含圖片生成、報告生成等外圍的工具腦將由此團隊來掌握。此外，還有IT工程師，負責台新腦對外介接。

另外，針對大型語言模型訓練所需要的算力，台新金控在去年11月即購置內含8片H100的NVIDIA DGX伺服器來因應，即便如此，在模型訓練的過程中，還是需要設立資料的截止點，目前是以3月為基準，在今年3月之前的資料先進行訓練，而3月至10月上線前的資料則會先存放於暫存池中，當需要回答時，再把兩組資料組合一起後再回答。孫一仕舉例，如果詢問現在去日本無腦刷3%回饋無上限是哪一張信用卡，在3月之前的回答可能是台新FlyGo卡，但是3月到9月可能是JCB信用卡最有利，因此在回答前，會先把兩個資料組合在一起，而後再回答。「在暫存區內的資料可能會隨著時間的推移以及服務內容而改變，例如今年3有的有效資料到了明年3月可能就無效了，目前的作法是，當需要在適當時機下進行再次的資料訓練時，這些在暫存區的資料便須先經過清洗，才能進行訓練，如此持續以便台新腦能夠進行更貼切的運用。」

現階段，台新金控並沒有打算取代全部的智能客服，而是預計先從信用卡服務開始提供。但是除此之外，藉由台新腦的上線，台新金控也希望能夠有效縮短讓員工從新手到成為稍微資深的過程，提高同仁的生產力。舉例而言，同樣一通客服電話，資深客服立刻就能判斷並且知道這個問題的答案在哪裡，可以去哪一個系統撈資料來回覆客戶，但是新手客服接到這通電話可能要經過三次嘗試才能找到資料回覆，如果能夠把嘗試的過程從三次變成二次，最後變成一次，如此一來，不只生產力提高，客戶等待的時間變少，過程中無形也增加資淺同事的反應能力。

提升Prompt能力蔚為重要

在提升生產力之前，讓員工更加熟悉並善用生成式AI也是不少企業會面臨的一道門檻。今年5月，台新金控運用開源的圖片生成模型Stable Diffusion，鎖定行銷人員平時需要花費在大量協作溝通的場景，進行小型的試驗。過去的作法是行銷同仁要把情境描述給廣告公司，先做一個草圖，感覺不對，再回去重做。可能要來來回回好幾次，才能符合。現在有了生成式AI，就可以讓生成式AI生成心目中的意象，再拿這個意象跟廣告公司說明就是要類似這樣感覺的情境，這時候廣告公司就可以以此為藍圖，做出廣告公司的版本。如此一來，往返的溝通時間就可以縮短。

「這個專案其實很有意思，」他提到，模型剛訓練好時，很興奮地想要展示給董事長看，於是就輸入幾個提示詞，Richart、盔甲、籃球、沙發，當時在腦中的意象是Richart穿著戰神的衣服坐在沙發上面玩個籃球，結果生成的是Richart站在沙發上，球在牆邊，手指頭還少一個……。坦白說，當時其實很洩氣，直覺認為模型訓練了老半天，結果卻不可行。後來同仁不服氣，隔天送了一張非常漂亮的圖，Richart穿著盔甲，拿著長劍在一個廢墟上面遙望遠方，後面是以戰場為背景，一開始以為是模型重新訓練，後來才理解到提示詞的重要性，這張圖是下了35個Prompt結果，而原先不可行的圖片才下了4個。

正是此次的衝擊，讓孫一仕感受到Prompt Engineering的重要性，後來台新金控內部便舉辦「2024台新金控圖像生成挑戰賽」，邀請公司及旗下銀行、人壽及證券子公司等同仁共同組隊參與。挑戰賽使用台新金控自行訓練中的生成式AI模型，讓參賽者透過輸入指令或提示的方式，運用限定的主角Richart、台新銀行的獅馬特和智能客服Sunny & Rose等品牌圖像元素，生成一幅幅蘊含各隊創作理念和意境的視覺作品。

他提到，除了核心「台新腦」之外，未來在周邊也將會有特殊目的的「功能腦」，圖片生成只是其中一項，另外還有報告生成，依不同目的，選定合適模型，打造特定用途的生成式AI。「其實，帶領AI團隊，最大挑戰是管理期望值，在報章媒體的大肆渲染下，太多人以為生成式AI無所不能，如果沒有管理好期望值就會從極度樂觀變成極度悲觀。但是如何從最高期望值拉到最適期望值，是現今正在著手進行的事。」

台新金控資訊長孫一仕認為，管理期望值也是導入生成式AI過程中必須克服的一項挑戰。

此外，所有的AI都需要呵護，企業可能會發現開放員工使用的前幾天使用率會快速攀升到高峰，然後就沒有下文了。因此前置的教育訓練，包含怎麼使用、期望值以及如何下Prompt，都需要照顧到。最後，高階主管的支持也很重要，因為不管是AI還是生成式AI，其效益都很難簡單量化，舉例而言，生成式AI可以提高客戶滿意度，但該算提升多少？而提升的客戶滿意度如何換算成金額？而換算出來的結果值不值得投資？如果沒有高階主管的支持，真的很難放手做。

三道保險機制協力合規

隨著全球對人工智慧監管環境日益嚴格，包括今年六月金管會發布的「金融業運用人工智慧（AI）指引」、歐盟的《人工智慧法案》近期將生效，以及2023年底由國際標準組織（ISO）和國際電子電機委員會（IEC）共同制定，全球第一個「人工智慧（AI）管理系統國際標準」ISO 42001標準，都突顯出AI系統的合規與安全性變得越來越重要。
對此，台新金控找來安永企業管理諮詢服務公司，依據金管會的AI指引，建構AI治理框架，未來這套框架將應用到整個金控，包含證券、人壽以及銀行等子公司，此外，也與OneDegree Global攜手合作進行概念性驗證，協助台新腦進行AI驗證服務，透過先進的AI測試解決方案，驗證大型語言模型的公平性、安全性及隱私保護等。

孫一仕解釋，AI Labs的聯邦式FedGPT本身即有保護隱私與資料安全的機制，達到符合金管會人工智慧資安以及隱私指引。而OneDegree則是透過AI攻擊技術和方法，進行全面且深入之測試，以確保AI系統在推出市場前的安全性和可信度。這兩者的角色，一為盾，另一為矛。另外，安永在協助制定AI治理框架的同時，也會帶進一些工具進行測試，主要會比較偏向回答面，是否具有公平性或偏見等等。「藉由多家優秀協力廠商的協助，等於有三道保險機制來助力且建立可信任且負責任的AI系統，並且合規金管會發布的金融業運用人工智慧（AI）指引要求。」他說。