實體活動:Johnson老師「如何在大數據時代提升資料力」會後精華
本次「如何在大數據時代提升資料力」活動,Johnson老師開宗明義就提到,這次講題的內容,對於想跨入資料科學領域,可能不會寫程式、或是數學不好的朋友們會有最多幫助。講座中也提到資料分析應用在「有用」的數據上(為什麼要強調有用,因為老師看過太多業主,蒐集了好幾年的資料卻完全派不上任何用場)其實就是時下很火的「Growth Hacking」哪怕只在茫茫資料海中找到1%業績提升的因子,都是讓企業持續獲利的關鍵。
講座內容主要分為四塊:
- 資料科學流程
- 資料思考
- Customer Journey(顧客旅程)
- 提升資料素養的方式
以下為影片及文字的重點摘錄,影片共長約24分鐘,建議時間不夠的朋友先閱讀文字部分。
影片精華
資料分析應用舉例
從A/B testing到市場區隔
2008年的時候,歐巴馬競選募款網站利用 A/B testing,觀察兩種版本的募款轉換率。雖然轉換率只相差1%,但卻多累積了6000萬美金的捐款。到了2012年,歐巴馬在募款網站首頁多新增一個欄位「行政區碼 zip code」用地方來分析不同行政區、人口屬性、種族…等差異的喜好度分析。得到結果後再利用IP分辨地區,傳送不同的風格頁面給對應區域之使用者,提昇該區域的募款轉換率。
如何描繪顧客樣貌
廠商提供免費App利用陀螺儀偵測手機經常擺放的方式(通常男生為直立插口袋、女生橫躺包包裡),以及利用歷史購買紀錄,來判斷實際心理性別,可以排除掉填寫假個資導致分析出錯的問題。
資料科學流程
資料科學是一門入世的學問,目的是在於解決真實存在的問題,所以專業領域的知識是最重要的第一步,第二及第三步為數理統計和資訊科學能力。
真實的問題<-->原始資料<-->整理資料<-->探索性資料分析<-->建立模型<-->視覺化溝通<-->真實的問題...循環
- 在資料科學中,專業領域的知識是最重要的,只有具備專業領域knowhow,才有辦法把真實問題轉成資料科學可以處理的問題(量化)
- 然後去蒐集原始資料
- 整理資料和清除資料
- 進行資料驗證、資料探索,了解數據是否有問題以及定義的問題(欲解決的問題)是否真實,若未處理好探索性資料分析,可能會有GIGO(garbage in garbage out)狀況產生
- 驗證資料後可建立模型
- 視覺化溝通or報告書,最後做決策,不斷循環、修正
資料思考
從資料的角度來解決問題
- 怎麼度量
- 怎麼收集
- 怎麼呈現
舉例:怎麼度量一首歌好不好聽
- 閱聽者使用行為:重複聽的頻率、點閱率的高低、分享的次數...
- 樂曲本身特徵:歌手是誰(同首歌不同人唱效果不同)、作詞作曲人是誰(過往記錄)、主副歌長短(起承轉合橋段)、樂器的種類(是否精緻)...
A:上述方式都正確,但因樂曲本身特徵難以度量和收集,目前普遍以閱聽者使用行為做為度量方式(借力使力,先讓閱聽者做過一次篩選後,再統計結果)
資料的極限
常見的資料分析瓶頸, 就是在於沒有可分析的資料紀錄,或是資料量不足、特徵不足。如果沒有存到重要因子或特徵(資訊嚴重失真),當然就分析不出顯著因子,所以紀錄的欄位和特徵最好要多一點。一個問題是否能透過資料解決和資料蒐集與紀錄的方式有關,而數據化的紀錄總會喪失某些訊息,基本上是無可避免。
舉例:演唱會的整體氣氛與演出,影片資料數據化效果>音頻資料數據化效果,但影片仍無法記錄到氣溫和場地的震動,或是我們知道哪些數據該被記錄,但礙於技術無法做記錄。
Customer Journey(顧客旅程)
「一種用圖示化來描述使用者旅程的方式」
這種方式很方便融入「資料思考」,能幫非統計或是非程式背景的朋友快速進入資料科學領域,顧客在每個touch point(check point)的地方如何做決策,每個決策的點都有對應到的資料數據,所以當我們把Customer Journey畫完時,就做完了資料盤點,也會發現真實的問題,接下來便可以執行資料科學流程。
學習資源
Johnson老師主要推薦以下六種管道
- 實體課程(長期/短期)
- 線上課程/書籍
- 參與資料社群
- 參加黑客松
- 線上資料競賽
- 資料英雄計畫(長期專案)
實體課程
長期
- 統計學、迴歸分析:統計的基本功
- 時間序列分析:IOT物聯網正紅,IOT的資料都是時間序列資料,想分析得會這招
- 機器學習:推薦台大 林軒田老師,講得非常好
- 資料結構
- 資料視覺化
- 資料探勘
- 平行運算程式設計
- R語言、Python、SQL(資料整理、處理、儲存、分析必備技能,三個都會是最好,若要分析推R跟Python,只會SQL做不太到資料分析)
短期
- 盡量衝實戰課程
推薦書籍
科普書
- 聰明學統計的13又1/2堂課:門檻不高,有趣味,講統計知識
-
統計學,最強的商業武器:偏重心法
- 統計學,最強的商業武器:實踐篇:比上一本多了,更多案例和建議流程
原文書
- How to mesure anything ,談如何收集和呈現資料
- An Introduction to Statistical Learning with Applications in R:中階教材,建議要會微積分跟線性代數再看,看得懂6成以上再進入建立資料模型的學習階段
部落格
- 60本免費的資料科學書籍:從初階內容到高階都有
線上課程
社群參與/黑客松/研討會
- 台灣資料科學愛好者年會
-
Kamera急診資料挑戰賽
- Data for social good fellowship(資料英雄計畫,D4SG)
#本會後筆記由學員和慕課 共同編輯
---
若對老師提到在慕課上的R語言課程有興趣,在此提供