本次「如何在大數據時代提升資料力」活動,Johnson老師開宗明義就提到,這次講題的內容,對於想跨入資料科學領域,可能不會寫程式、或是數學不好的朋友們會有最多幫助。講座中也提到資料分析應用在「有用」的數據上(為什麼要強調有用,因為老師看過太多業主,蒐集了好幾年的資料卻完全派不上任何用場)其實就是時下很火的「Growth Hacking」哪怕只在茫茫資料海中找到1%業績提升的因子,都是讓企業持續獲利的關鍵。

講座內容主要分為四塊:

  1. 資料科學流程
  2. 資料思考
  3. Customer Journey(顧客旅程)
  4. 提升資料素養的方式


以下為影片及文字的重點摘錄,影片共長約24分鐘,建議時間不夠的朋友先閱讀文字部分。


影片精華

資料科學流程

資料思考


不會統計不會程式該如何入門


Customer Journey(顧客旅程)



資料分析應用舉例

從A/B testing到市場區隔

2008年的時候,歐巴馬競選募款網站利用 A/B testing,觀察兩種版本的募款轉換率。雖然轉換率只相差1%,但卻多累積了6000萬美金的捐款。到了2012年,歐巴馬在募款網站首頁多新增一個欄位「行政區碼 zip code」用地方來分析不同行政區、人口屬性、種族…等差異的喜好度分析。得到結果後再利用IP分辨地區,傳送不同的風格頁面給對應區域之使用者,提昇該區域的募款轉換率。

如何描繪顧客樣貌

廠商提供免費App利用陀螺儀偵測手機經常擺放的方式(通常男生為直立插口袋、女生橫躺包包裡),以及利用歷史購買紀錄,來判斷實際心理性別,可以排除掉填寫假個資導致分析出錯的問題。



資料科學流程

資料科學是一門入世的學問,目的是在於解決真實存在的問題,所以專業領域的知識是最重要的第一步,第二及第三步為數理統計和資訊科學能力。

真實的問題<-->原始資料<-->整理資料<-->探索性資料分析<-->建立模型<-->視覺化溝通<-->真實的問題...循環

  • 在資料科學中,專業領域的知識是最重要的,只有具備專業領域knowhow,才有辦法把真實問題轉成資料科學可以處理的問題(量化)
  • 然後去蒐集原始資料
  • 整理資料和清除資料
  • 行資料驗證、資料探索,了解數據是否有問題以及定義的問題(欲解決的問題)是否真實,若未處理好探索性資料分析,可能會有GIGO(garbage in garbage out)狀況產生
  • 驗證資料後可建立模型
  • 視覺化溝通or報告書,最後做決策,不斷循環、修正



資料思考

從資料的角度來解決問題

  • 怎麼度量
  • 怎麼收集
  • 怎麼呈現


舉例:怎麼度量一首歌好不好聽

  • 閱聽者使用行為:重複聽的頻率、點閱率的高低、分享的次數...
  • 樂曲本身特徵:歌手是誰(同首歌不同人唱效果不同)、作詞作曲人是誰(過往記錄)、主副歌長短(起承轉合橋段)、樂器的種類(是否精緻)...

A:上述方式都正確,但因樂曲本身特徵難以度量和收集,目前普遍以閱聽者使用行為做為度量方式(借力使力,先讓閱聽者做過一次篩選後,再統計結果)



資料的極限

常見的資料分析瓶頸, 就是在於沒有可分析的資料紀錄,或是資料量不足、特徵不足。如果沒有存到重要因子或特徵(資訊嚴重失真),當然就分析不出顯著因子,所以紀錄的欄位和特徵最好要多一點。一個問題是否能透過資料解決和資料蒐集與紀錄的方式有關,而數據化的紀錄總會喪失某些訊息,基本上是無可避免。

舉例:演唱會的整體氣氛與演出,影片資料數據化效果>音頻資料數據化效果,但影片仍無法記錄到氣溫和場地的震動,或是我們知道哪些數據該被記錄,但礙於技術無法做記錄。



Customer Journey(顧客旅程)

「一種用圖示化來描述使用者旅程的方式」

這種方式很方便融入「資料思考」,能幫非統計或是非程式背景的朋友快速進入資料科學領域,顧客在每個touch point(check point)的地方如何做決策,每個決策的點都有對應到的資料數據,所以當我們把Customer Journey畫完時,就做完了資料盤點,也會發現真實的問題,接下來便可以執行資料科學流程。


學習資源

Johnson老師主要推薦以下六種管道

  • 實體課程(長期/短期)
  • 線上課程/書籍
  • 參與資料社群
  • 參加黑客松
  • 線上資料競賽
  • 資料英雄計畫(長期專案)


實體課程

長期

  • 統計學、迴歸分析:統計的基本功
  • 時間序列分析:IOT物聯網正紅,IOT的資料都是時間序列資料,想分析得會這招
  • 機器學習:推薦台大 林軒田老師,講得非常好
  • 資料結構
  • 資料視覺化
  • 資料探勘
  • 平行運算程式設計
  • R語言、Python、SQL(資料整理、處理、儲存、分析必備技能,三個都會是最好,若要分析推R跟Python,只會SQL做不太到資料分析)

短期

  • 盡量衝實戰課程


推薦書籍

科普書

  • 聰明學統計的13又1/2堂課:門檻不高,有趣味,講統計知識
  • 統計學,最強的商業武器:偏重心法
  • 統計學,最強的商業武器:實踐篇:比上一本多了,更多案例和建議流程

原文書

  • How to mesure anything ,談如何收集和呈現資料
  • An Introduction to Statistical Learning with Applications in R:中階教材,建議要會微積分跟線性代數再看,看得懂6成以上再進入建立資料模型的學習階段

部落格


線上課程


社群參與/黑客松/研討會

  • 台灣資料科學愛好者年會
  • Kamera急診資料挑戰賽
  • Data for social good fellowship(資料英雄計畫,D4SG)


#本會後筆記由學員和慕課 共同編輯

---

若對老師提到在慕課上的R語言課程有興趣,在此提供

課程傳送門