過往,輿情資料被視為雜亂無章且難以分析的資料,企業雖了解輿情的重要性,卻無法用科學的方式加以利用分析。如今,從非傳統且未經挖掘的資料中提煉出價值,就是大數據分析的真義。
大數據概念結合了資料分析、統計分析與商業智慧,近年來已被廣泛地應用在各種產業,如物聯網的各式感測器所回傳的資料,或是企業內部各式各樣的軟體、硬體、裝置所產生的資料分析,以及網路爬蟲(Web Scraping)蒐集商業模式所需要的戰情資料,都因為資料的獲取急劇地增加,硬體運算效能的提升與網路頻寬速度擴大,讓軟體科技帶動更簡易的搜尋結構與非結構資料,轉化成為高價值的統計化商業資訊。
關於大數據的定義,除了容量 (Volume)以及速度 (Velocity)之外,其實資料本身大多是非結構化多樣型的小檔案,而且除了整個系統面須在背景接受大量的資料,在前端則是各式各樣的搜尋條件,往往易被忽略的儲存效能問題也浮現檯面,如何設計與選擇一個好的儲存設備,建構強大的IT架構,也考驗著系統架構師經驗與能力。
企業的戰情軟體,可以運用各種開源的開發工具,以下列出一些比較熱門的軟體套件。Python是目前最廣泛被使用於網路爬蟲的軟體工具,只需要了解網頁的架構基礎,以簡易直覺的語法,就可以自動化擷取網頁資料。MongoDB則是NoSQL中最多人使用的非結構化資料庫之一,其與關聯性資料庫最大的不同是,資料總數並不是一個必要的數值,而是以一個大約的數值以獲取更快的搜尋速度。
Elasticsearch為分散式搜尋分析系統,在AWS上面也有套件可以使用,具有高可用性(HA)與叢集強大搜尋功能。R語言則是著重在統計分析、繪圖與資料探勘,內建強大統計模型,在蒐集資料之後,能夠更進一步地進行區間預測分析,例如提供決策人員跨年度的產品規劃與行銷方向。
過往,輿情資料被視為雜亂無章且難以分析的資料,企業雖了解輿情的重要性,卻無法用科學的方式加以利用分析。如今,從非傳統且未經挖掘的資料中提煉出價值,就是大數據分析的真義。近期某家汽車製造大廠便建立了大數據分析機制,定期分析客戶對社交媒體平台(如Facebook、Twitter和Mobile01)的回饋意見,並從相關論壇收集數據,進一步增強公司的營銷策略和開發計畫。
該車商藉由編寫語言JSON來抓取並匹配網路上的相關內容,將原始數據儲存到MongoDB資料庫中,各種查詢和搜索條件透過前端程式Elasticsearch,在1TB大小的資料庫上,使用捷鼎國際的NeoSapphire全快閃記憶體儲存陣列並搭配其獨家FlexiRemap軟體技術,將系統效能提高900%的速度,幾乎是即時的統計數據,保證了業務關鍵高效能資料庫的性能。
不管是哪種資料的挖掘或分析,擁有強大的數據分析系統,若無法突破運算與儲存之間的效能落差,分析系統仍只能苦等儲存系統的回應而無法提供即時的分析結果,因此在這一波新型態的數位轉型趨勢,除了尋找適合企業需求的數據分析系統,同步升級儲存平台才能真實掌握數據分析的優勢。
<本文作者:林建立,捷鼎國際首席解決方案架構師。>