2014年2月27日 星期四

資料分析鍊金術(六)-付出越多、愛得越深-關鍵消費忠誠模型

        很多人在談感情的時候,常常因為愛,所以付出許多;而通常付出越多,這份感情也更珍貴,也越捨不得放棄這段感情。這是基於人們本性上對於損失的厭惡(或者可說是沉沒成本謬誤),所以當我投入越多的金錢或情感,這個關係也相對更為重要。而消費者與品牌的關係,是不是也會有這樣的聯結呢?

2014年2月25日 星期二

資料分析鍊金術(五)-TAG的威力

        DATA MINING最重要的觀念也是最常用的功能就是集群(Cluster)和關聯(Correlations)。在分析資料時,可以透過消費者(或產品)不同的特性來加以集群或測量關聯,例如35-44歲消費者的消費模式類似的分群,或年紀越高購衣頻次越高這樣的關聯分析。集群或關聯本身操作都很容易,難的事前的準備工作,也就是將消費者(或產品)標上不同的特性。能蒐集的特性越多,能分析的東西也就越多。
   

2014年2月13日 星期四

資料分析鍊金術(四)-利用八二法則建立客戶分層金字塔

        有天老總提了個要求,希望重新設定VP客戶分群,希望將客戶分成幾群來擬定行銷策略。CRM分析一個很重要的精神就是幫客戶分群,於是這個工作理所當然地落到我們的頭上。一般我們都會利用客戶的貢獻程度來將客戶分群,但是傳統上到底要切成幾群,或是要怎麼分一直沒有個依據(通常是依據直覺),所以這次我們就利用很紅的八二法則來將客戶分群。

2014年2月10日 星期一

研究方法的選擇(二) 如何面對任性情人?


        不管是在市調公司還是公司內部的市調部門,都要面對來自客戶或老闆的各種要求和疑難雜症。就算我們依據問題,規劃了合適研究方法,客戶(或老闆)總會在每次的簡報機會中,想在這次的調查案中加入更多的問題。

        身為金主的客戶和老闆,因為多半不是調查出身,自然對於什麼問題能用什麼方法來解沒有概念,他們唯一會做的就是不斷地提出問題,而研究員或分析人員最大的價值就是在於將金主大人的問題轉化為可行的研究方法加以證實。儘管我們熟知不同的問題可能都有不同的解法,但是站在金主的角度來看,隨便開個案都是時間、金錢、人力的投資,能得到的東西當然越多越好(類似健達出奇蛋或是吃到飽的概念),研究人員也只能在研究立場以及金主的要求中取個平衡點。研究員實在太常遇到這種499吃到飽的難題,以下提供幾種話術或方法來說服老闆(或說服自己)。

        1. 朝三暮四法:面對老闆的需求當然不可能馬上就拒絕,如果老闆覺得這個A問題無論如何這次調查都想知道,那我們就馬上答應老闆說這次的調查馬上將針對A問題重新設計,重新設計問卷後再勉為其難跟老闆說,因為時間和品質的關係,我們這次花了很多力氣在A問題上,因次B問題的部分可能要留到下次專案再執行。通常老闆如果記性不是很清楚,或是B問題現在看來沒那麼重要就會答應你的要求。

        2. 偷天換日法:其實概念和朝三暮四法類似,只是在於題目的縮減是偷偷自己抽掉,而非正式跟老闆提報。這種情形只適合用在老闆對於研究方法不熟,且沒認真看過問卷題目的時候。不然隨便跟客戶抽題目是會死得很慘的。

        3. 硬縮小腹法:接下需求A後,將原本的需求B和需求A兩者在問題的發想和延伸上同時進行縮減,兩個需求在調查中都能點到為止,但是沒法太深入的追問或是細分。

        4. 乞丐法:如果A、B兩個需求都非問不可,這時候只好加強問卷的訪問時間,家常訪問時間意味著需要更多的成本,請自行向金主下跪解釋為何依照他的需求需要增加成本的原因。通常金主被這樣一跪,就會願意採用較為節省成本,降低研究品質的路線。

        金主最大的特權就是耍任性,無論要求再不合理,研究人員都要接下來幫金主處理。但是也不是每個任性的需求都有辦法做到,當無法做到的情形發生時,研究人員也需要利用高EQ、高IQ、合理的解釋和計算安撫金主不滿的情緒。這是研究人員在研究設計外最需要學習的地方了。

2014年2月8日 星期六

研究方法的選擇?

        在念研究所的時候,系上的老師依照研究方法的途徑分成了理論派、量化派、以及質化派別。理論學家尋找理論問題、量化老師尋找可量化的問題、質化研究尋找可以質化解決的問題,但是這樣的分法對於解決問題來說完全是本末倒置的行為。研究方法本來是為了解決問題而存在,每個問題都有百百種解法,但是在學術上卻有點變成先決定自己解決問題的立場(也就是研究法)再來尋找可以用這個方法解決的問題。

        在實務環境中,套句老話,不管黑貓白貓,會抓老鼠的就是好貓。只要能解決問題,不管用量化、用質化、用資料庫、用理論沒人管你,只要用的方法合情合理合適,能夠正確解決問題就好。可惜很多人的解題能力和想像力,在還沒面對問題前,就先被限制住了。有些問題適合量化調查,有些問題適合質化調查,應該配合問題來選擇研究方法,而非遷就研究方法來曲解面對的難題。

        對於問題,我們沒有任何依靠,只能依照有邏輯的研究方法和假設來了解問題。研究方法就像是探索世界的工具,有些地方適合用十字起子,有些地方適合用一字起,有時候還需要用到壓力板手。如果你只會用十字起子,當然也可以解決很多問題,但是遇到其他狀況就無法妥善處理;但是當我們會的工具越多,自然能解決更多類型的問題,甚至可以挑選出最方便的工具來解決問題。

圖片來源:http://www.torinc.net/methodologies.html
     

2014年2月5日 星期三

資料分析鍊金術(三)--先從輪廓開始吧! 認識你的消費者!

        從這篇文章開始,會陸續帶入一些常用的分析方法,雖然分析方法百百種,但是在頭一次接觸資料時,總會有個先後順序,由淺入深,由外表到內在,由粗糙的細緻。整個資料分析的報告架構就如同說故事般,透過數據引導聽眾建立對於消費者的想像。故事的第一頁通常會描寫時間季節,寫到人物時也只會初步描述人物的年齡長相,資料分析的第一個環節也由這邊展開......

        以消費者資料庫為例,分析之前先確認要分析的資料期間,是最近一年有消費者消費者? 還是歷史以來的消費者? 以第一次接觸資料來說,可以先分析歷史以來的消費者以及最近一年的消費者,好處是可以知道整體的消費者樣貌,並且從整體以及今年的資料比較中了解消費者有沒有轉變。

        確定好分析的時間後,接著就會就各個人口變項觀察消費者的樣貌。通常我們在描述一個人的樣貌的時候,可能會說黑色短髮、身高160公分、體重60公斤、30歲男性上班族等等特性,然後透過每個人對於這些特性的了解,我們可以大致想像口中描述的人的樣貌,但這是對一個人的描述。資料庫分析或是統計分析,也是在描述消費者樣貌,但是不同的是分析對象並非"單一個人",而是"一群人"。如果我要介紹我辦公室的同事,或許有辦法跟你一一介紹,但是如果我需要介紹幾百人、幾千人、甚至幾萬人的時候,我就不可能用這種一一介紹的方式,而是會用組成結構的方式來描述這群人。例如,這一群人平均身高165公分,平均70公斤,有一半男生、一半女生。你可以發現,我所介紹的特性與剛剛介紹一個人的時候並無不同,只是我所描述的並非單一個人的狀況,而改用一些所謂"統計"術語(例如平均、百分比)來介紹這"一群人"的人狀況。以下我們將介紹兩種最常用來描述消費者輪廓的統計術語。

        1.) 平均數:平均應該是大家最常聽到的統計概念,但也是最容易被誤用的統計概念。平均數的計算單純就是把N個數量加總後除以N而得,像是平均身高160公分,表示有些人高於160公分、有些人低於160公分,雖然我不知道最高多少最低多少,但是這個群體整體來說大概就是160公分。如果我知道有另外一群人平均身高170公分,那我還可以進一步想像當兩群人同時出現,平均身高160公分的那群人應該是普遍比較矮的。因為平均數很好算,大部分的情況也通用,因此平均數很適合,也很常用來描述一群數量的中心位置。不過在使用平均數前,請先注意資料的分配是不是貼近常態,以及有沒有特別極端的值來影響數據。因為平均數雖然好用,但是也很常被誤用,甚至誤解。

        大部分的人對於平均數的想像其實更貼近統計上"眾數"的概念,而非真正的平均數。例如當我說A團體平均身高160公分的時候,腦海中會直覺的想像這一群人大部分都是在160公分上下。但是如果有個B團體裡面有十個人身高180公分,十個人身高140公分,這個B團體平均身高也是160公分。或是如果有個C團體,一個人身高200,另外幾個人身高都150的時候,C團體平均身高也會是160公分。那如果我們直接說A、B、C三個團體平均身高都160公分時,會容易誤導聽故事的人對於這三個團體的想像。因為一般人對於統計的不熟悉,以及誤用,所以研究者更需要注意這種情形,來選擇適合的描述方式,避免誤導聽眾。

        2.) 百分比:如果需要描述的特性是不能相加的,例如頭髮的顏色,或是"年齡層",那我們可以使用百分比的方式來描述消費者。百分比的計算也相當簡單,有該特性的人口數量,除以整體人口數量,再乘以100,即可知道具有該特性的人口佔所有人口的比例是多少。50%是女性,代表團體裡面有一半是女性。25-34歲占20%、35-44歲占30%、45-54歲占40%、55歲以上占10%,那我們可以知道這個團體大部分的人年齡在35-54歲之間。百分比的好處是相當直覺,生活中也相當常見,因此聽故事的人通常會很容易想像你所描繪的輪廓。

        但是在描述百分比的時候,會建議標一下實際數值在旁邊以供參考,然後選擇想要強調的重點來使用百分比或實際數值。比如說:"我們家會員有10萬人每年只消費一次",這是個聽起來很大的數字,但是說不定這10萬每年只消費一次的會員只占整體會員的0.1%,這時候就可以不用強調100萬這個實際數字。又或者"我們有30%的消費者不喜歡紅色的上衣",但是這個調查的母體只是個總共10人的焦點座談會,這時候就可以用實際人數來代替百分比。兩者的使用單純視需求而定。

        人口描述是最簡單,但是也最基本、最重要的分析。透過人口描述可以初步了解、觀察消費者的樣貌,提供想像的基礎,事後其他的分析都是從這些分析中延伸出來。當然,描述的方法當然不只有平均數和百分比而已,要用什麼統計值來描述資料純粹就資料的性質和需求而定。雖然我們常說數字不會說謊,但是選擇要使用何種數字以及何種解釋方式的,終究是人,這點我認為才是研究人員最為重要,也最難拿捏的地方。
     
     

2014年2月3日 星期一

自修課程推薦-Coursera-機器學習基石 (Machine Learning Foundations)


         開始工作後,對於各種技術和實務上的知識需求都快速成長,為了讓自己能跟得上技術和知識的發展,在職進修是不可缺少的一環。但是攤開職訓局或市面上的培訓課程,多是各種熱門課程,例如語言、投資、理財、行銷企劃等,像資料分析這種國外玩到爛但是台灣還尚未成氣候的學科,市面上的資源可以說是少之又少。幸好今天我們可以透過網路來獲取全世界的教育資源。

        今天要推薦的就是目前相當火紅的線上學習網站-Coursera-其中的課程

機器學習基石 (Machine Learning Foundations)

(https://www.coursera.org/course/ntumlone)

課程由台大資訊工程學系林軒田副教授開設,特別介紹這門課的原因在於這除了是第一個由台灣教授開設的線上課程外,同時也是難得的中文課程,可以讓大家不用擔心語言差異來學習有關機器學習的課程。

         機器學習也是資料分析的一環,以消費者分類為例,有別於傳統人工的分類法,機器學習讓我們可以利用一些Cluster分類法將消費者分類並取得規則後,讓機器自動幫我們為其他的使用者來做分類,這稱為機器學習。優點是在面對"大量"並且"即時"的資料時,能夠由機器自動幫我們處理分類程序。

        這堂課林老師從理論出法,佐以各種例題給同學即時練習,無論是初學者或是完全沒碰過機器學習的人都能夠從這堂課中理解機器學習。

        同場加映另外一個有關機器學習的線上課程網站:http://work.caltech.edu/telecourse.html  這是機器學習大師Yaser S. Abu-Mostafa自己開設的線上學習課程,內容當然就是以機器學習大作"Learning From Data"為主。感謝網路的發明讓我們有機會直接上到大師的課程。

2014年2月2日 星期日

資料分析鍊金術(二)--理解、分解、再構成

        雖然近年來流行將海量資料分析稱為是資料採礦(Data Mining),但是對我來說,整個資料分析的過程也很像是幾年前很紅的漫畫"鋼之鍊金術師(簡稱鋼煉)"中的煉金術。
資料來源:http://zh.wikipedia.org/wiki/%E9%8B%BC%E4%B9%8B%E9%8D%8A%E9%87%91%E8%A1%93%E5%B8%AB

        鋼煉畢竟是個漫畫,不是專門探討如何煉金,但是其中對於煉金術有幾個很棒的說明,那就是:理解、分解、再構成。
 
        理解、分解、再構成說明了煉金術的發動是來自理解自然,將自然元素分解後,再依自己的意願重新塑型,資料分析也是如此。資料分析不是說一定要套用很多很厲害的Model不可,任何資料分析的源頭都是來自於對於"問題"以及"資料"本身的理解。
 
        商務上會面對各種問題,而且原始問題都是相當模糊,像是"要如何增加銷售"、"為什麼業績下滑"、"為什麼某某商品賣不好"之類範圍很廣的問題。資料分析人員的主要工作就是將這些商業問題轉化為資料分析的問題。例如"影響銷售量的主要變項"、"業績與會員人數的關係"、"客戶喜歡的商品類型",可以透過資料分析來處理的題目。要能做到這樣的轉換,必須對於企業問題以及資料兩者都相當了解--我們必須了解手上的資料可以回答哪些問題,以及商業問題與資料之間的關係,才能將商業問題轉換為資料分析的問題,並且透過資料分析結果來回達商業問題。

        理解、分解、再構成的範圍不僅限於問題與資料,資料分析的本身亦然。我們必須足夠了解資料,並且在實務上可能需要將資料重新拆解、轉換為可以分析的資料類型。以及對於Model本身也需要有足夠的理解,才能更靈活的運用並解釋各種模型。實務上常遇到不了解資料、或是不懂model背後邏輯的人,在分析資料上不但少了靈活度,對於應用和解釋model更是容易發生悲劇。畢竟資料分析人員提供的各種分析報告都很可能影響公司未來數月或是當年的決策,在處理以及分析上不可不慎。