這幾年,受到雲端運算與巨量資料帶動,資料科學家(Data Scientists)儼然成為職場中一股新顯學。隨著資料價值日益高漲,企業對於資料的價值也紛紛改觀,愈來愈多企業希望透過巨量分析工具,來瞭解市場、預測行為,並轉換成新商機。而資料科學家的存在,正是實現從凌亂繁雜的大量資料中理出脈絡,進而成為企業創新商機,引領市場的重要推手。
被喻為二十一世紀最性感的職業,不少評論均賦予資料科學家相當正面的評價,姑且不論這項職務是否能獲得較高的信任與自主權,單只從資料科學家的薪資等級,就足以羨煞旁人,國外不乏高薪的案例,而在台灣,也有不錯的薪資水準,例如2013年Gogolooky開出R軟體之資料科學家的職缺,薪資介於60k…^90k之間,就引起不少討論。
挖掘未知洞悉決策
恆逸Cloudera原廠認證講師申建忠指出,巨量資料分析並不是全新的領域,早在多年前,企業老早就依據資料分析的結果做出決策,其實商業智慧(Business Intelligence)或是資料探勘(Data Mining)的目的都是在分析資料,差別是對關聯式資料庫這類已結構化的資料進行分析,而現今則是轉向以文字、語音與影像等非結構化資料為主,因此使用的工具也不一樣。
|
▲恆逸Cloudera原廠認證講師申建忠建議,如果IT人員想轉型成為資料科學家,累積Domain Knowledge是一項非常重要的關鍵。 |
「但是,最真正的關鍵還是在於,未來的商業模式或創新模式有沒有被挖掘出來。」他提到,如果只是分析出已知的常識,例如台灣的智慧型手機使用者平均約莫24個月會有一波換機潮(其實是因為早年台灣多數的使用者在購買智慧型手機均會綁約兩年),或是統計出台灣新生兒最常見的「菜市場名」,像這類的結論並不會發揮太大的效益,資料科學家要做的並不是從資料中萃取已知的結論,而是催生一個會創新營運的決策,而這也是為什麼在國外,企業主願意支付給資料科學家相對高昂薪酬的原因。
但是光有資料科學家是不夠的。「許多人以為資料科學家要什麼都會,這其實並不合理。資料科學家並不一定需要IT背景,也不一定要會寫程式,重點在於能不能提出建議,並且提出證明說明結論的可信性。」申建忠分析,要真正取得巨量分析的效益,需要二種人才。一是可依照企業所提供的資料,分析得到結論,並且提出意見創造更高商業附加價值的預測人才。另一則是建構用以分析資料架構的設計人才,特別是當愈來愈多的企業慢慢從結構化資料分析轉向以Hadoop架構時,架構本身的設計與維運也相當重要。而這兩者缺一不可,也是有志於此者未來在職涯規劃上可選擇投入的地方。
預測鬼才抑或基礎架構師
申建忠建議,如果IT人員想轉型成為資料科學家,累積Domain Knowledge是一項非常重要的關鍵,「我會建議IT人員從最熟悉的領域出發。找出一個有興趣的知識領域,不管是醫療、保險還是製造皆可,唯有深入瞭解其中的Domain Knowledge,才有足夠的判斷力。」
舉個簡單的例子,最近Intel提供硬體平台以Cloudera的軟體技術投入阿茲海默症(Alzheimer's disease)研究,IT若想貢獻一己之力,就會發現有其難度。因為看不懂基因定序,也不知道什麼樣的基因代表有問題,也就無法寫出適用的程式。就算具備了Qualify資格,可以拿到資料,也一定要學過生物科學,否則就無法判斷。
|
▲有鑑於企業對於巨量資料分析人才的需求殷切,教育單位也紛紛針對巨量資料分析設計學分課程。(資料來源:國立交通大學http://www.stat.nctu.edu.tw/data/super_pages.php?ID=data1) |
換句話說,資料科學家不可能包山包海,而是要選定一個特定的專業Domain Knowledge,如果現在的專業是金融領域,那麼就鎖定在金融領域,如果是電子商務,那麼就專注在電子商務,因為資料科學家並不是找出「樣式」而已,同時也要判斷這個樣式的正確性,並且做出決策,而這就需要Domain Knowledge的協助。
但是如果不想成為資料科學家,那麼成為一名好的架構師,同樣也可以在職涯上發揮。資料科學家就像是站在浪潮上的衝浪者,必須具備的是高度判斷,甚至可以預測下一個浪潮的開始。但是巨量資料分析的架構師則像是提供衝浪用具的用品商,用以提供穩定且好的工具給資料科學家。「想要結論正確,就必須在收集、清潔與處理的步驟正確,才具有可信賴的價值,而這就是巨量資料分析架構師能提供的價值所在。」申建忠說。
三種課程取向 抒解技術人才荒
根據資策會前瞻所與IDC(國際數據資訊)共同執行的2013年台灣巨量資料分析市場調查報告指出,「不容易釐清商業需求」、「不容易建立資料分析模型」與「欠缺擁有巨量資料分析技能的員工」是企業在進行巨量資料分析時所面臨的三大挑戰。
有鑑於企業對於巨量資料分析人才的需求殷切,包括教育單位、訓練機構以及諸多廠商也都紛紛針對巨量資料分析設計學分課程、與經濟部工業局一同投入培育人才或是提供Hadoop相關訓練課程。日前,恆逸教育訓練中心也與Cloudera簽約合作成為台灣授權教育中心,提供三種培訓課程,包括管理者、開發者以及資料分析人員推出管理課程,並協助IT人員考取證照成為Hadoop領域的專家,抒解台灣在Hadoop技術上的人才荒。
申建忠解釋,管理者訓練課程將針對管理、操作、維護Hadoop叢集所需必要步驟進行廣泛介紹,由於Hortonworks、Cloudera、MapR的Apache Hadoop發行版本,多數建立在Linux作業系統上,也因此,IT人員未來如果要建構一套Hadoop的基礎架構,至少需具備Linux基本知識。而這套課程,也將從安裝、組態到負載平衡與效能調教一併解說,以協助管理人員從容面對各項挑戰。
「開發者訓練課程需具備的是JAVA程式開發的知識,課程範圍涵蓋工作流程的實作練習、API的應用到MapReduce撰寫及資料的結合。」他提到,針對商業分析人員則教授的是如何使用Apache Pig、Hive與Cloudera Impala這類給非IT、但是具有一定商業分析能力的人員,可以存取、操作、分析複雜的資料集。