㈠ 如何做好數據分析讓運營效率提高100倍
如何做好數據分析讓運營效率提高100倍
大家好,今天跟大家分享一些做互聯網產品的一些心得,特別是數據分析方面的心得體會、還有一些教訓和經驗。
1、第一個故事
我先跟大家分享兩個故事。第一個故事是關於「中國股票研究中心」的故事。故事是這樣的,1月2號的時候,有一個人叫Peter,Peter收到一封來自「中國股票研究中心」的郵件,向他表示這個月市場會上漲。結果市場果然上漲,前段時間股票不錯,很多人不知道在座的大家有多少買過股票。然後Peter收到這封郵件的時候,他不是很在意,因為大家都知道所謂的元月效應這回事,即好幾年來都是一月份的股價漲的多。到了2月1號的時候,他又收到另外一封郵件,向他表示市場即將下跌,這一次,那封信又給說中了!Peter現在終於開始相信這個研究中心真的是有點水平。3月1號的時候,Peter又收到一封信,情形還是一樣的。
Peter覺得很神奇,他主動聯系對方,希望下個月還能收到同樣的郵件,過了一個月,4月1號郵件如期而至,但這時候這個研究中心表示,前幾封郵件預測太准了,結果引起了證監會的高度重視,他們以後不能再像以前那樣大規模的免費發送郵件了,只能對少數有見識的VIP客戶提供投資建議,而你是非常幸運的一名,獲得了有限的100個VIP購買資格。
你是怎麼看待這個「中國股票研究中心」呢?
A、這個肯定是有內幕的,否則怎麼可能預測得這么准呢?
B、世界上什麼樣的人物都有,估計真的是預測水平高吧。
C、不知道怎麼回事,既然這么准,要不買個VIP資格試試吧!
連續幾次收到這樣的郵件,我覺得要是換作在座的任何一個人,估計都會很心動。真實的情況是這樣的,這個所謂的「中國股票研究中心」,他向市場上的非特定對象群發了大概1000封的郵件,然後把這1000封裡面分為2組,一組是說告訴他接下來股票會漲,另一組告訴他會跌,每次發送的時候,總有一半的人是收到預測是準的郵件,而另一半的人可能就收到預測是錯誤的郵件。接下來循環同樣發送幾次之後,可能每次連續幾次總有幾個人收到的郵件是始終預測正確的,而Peter就是那個始終預測正確中的一個用戶。
這樣的案例可能大家在其他地方也看到過。他告訴我們一個道理,即在數據分析中你有時候會看到一些數據很穩定地朝一個方向變化,並不一定代表著真相就是這樣的。
2第二個故事
第二個故事,這個故事發生在二戰時候。英國,當時盟軍跟德軍在英國上空進行了慘烈的空戰。但是發現空戰的結果是盟軍受到很大的損失,所以盟軍就希望在自己的戰斗機上增加一些裝甲保護,但是大家都知道飛機的裝甲是不可能無限制的加的,因為裝甲越多,飛機一定是飛得越慢,然後耗油量越大。於是,空軍就請來一些專業的統計學家、數學家,一起來分析看看能從現有的飛機的數據上看看在那些部位增加裝甲是最劃算的。
這個故事的主人公沃德教授就跟空軍一起來到了維修基地,大家做了一輪統計下來之後,發現所有盟軍正在維修基地中維修的轟炸機的機翼上,彈孔是分布的最多。但是發動機艙跟駕駛員座艙的彈孔數是最少的。於是,空軍就比較傾向於希望能夠加強機翼部分的裝甲。在這個時候統計學家就有了跟那個空軍完全不一樣的看法,沃德教授就建議,他覺得應該是加強飛行員座艙跟發動機艙的裝甲,因為那裡發現的彈孔最少。
如果是你,你是同意沃德教授的看法呢還是同意空軍的看法?我給出的答案是說我同意統計學家的看法,因為這里涉及到我們數據分析中的一個「倖存者偏差」。大家可以看到,雖然我們統計下來是那個機翼上中彈是最多的,但是實際上大家不要忘了這里我們所選取的樣本並不是所有參與戰斗任務的所有的轟炸機,而只是在維修基地中這些能夠倖存下來的飛機。實際上我們在戰斗過程中大量損失的飛機並沒有在這個維修基地中出現,可能在空中就爆炸了或者怎樣。
統計學上把這個叫做「倖存者偏差」。因為我們在分析數據樣本的時候,只關注那些倖存者的數據。所以這個故事也告訴我們一個道理,做數據分析中選擇樣本是非常重要的。你如果只看到倖存者的樣本,導出來的數據跟結論就是有偏差的。
前面講的這幾個案例可能跟我們的互聯網產品工作都相差比較遠。但是,統計分析的道理不僅是在我們的產品設計中有用,實際上在我們工作生活的方方面面,我們只要帶著數據分析的思維,很多情況下都是非常實用的。
3、如何判斷競爭對手數據的真實性?
接下來繼續講一個跟我們產品分析工作比較相近的一個案例,是一個關於情報分析的一個案例。這個案例的對象是一個比較有名的視頻網站。這個網站在財報中披露到他們網站當年的高清視頻服務的收入1.2億,月均活躍付費的用戶超過70萬人。我們怎麼確定財報中的這些數據是真實的呢?大家在平時在工作中也會經常遇到各種各樣的數據,聽到各種各樣的八卦數據,到底是不是真實的呢?比如說,大家經常會聽到說那個什麼什麼APP,它的最近的活躍又有多少啦,注冊用戶又有多少,每天新增多少用戶啦,或者什麼什麼產品的訂單數最近又有多少啦,這些數據我們是可以通過一些其他的方法來校驗這是不是真實的。
我們就講這個現在要分析的這個視頻網站的案例。我們經過對他的網站進行研究之後,發現他的會員頻道,這個視頻網站的包月會員頻道上有一個欄目,叫做新增會員。連續24小時,每隔一到兩分鍾,我們就把這個網頁刷新一下,並且截圖,然後把所有出現的用戶名錄入這個表格。
大家可以看PPT上的這樣一個樣本,我們把這些東西都記下來,然後把這些東西整理成一個Excel表。這個案例是幾年前的一個案例,當時是在公司內分享,大家可以看一下,其實道理都是類似的。我當時是12年的時候,3月29號,這個是當時在網路上一個報道取下來的一個東西,就是3月29號的時候,這個報道中的記者,做了一個連續24小時的監測,從當天早上的九點到第二天早上的九點,取了這么多數據之後,我們會發現,這些數據是非常完整的,也 就是說這些數據有極少量的有斷點存在。比如說這次刷新的最後一名,剛好是下一次刷新的第一名,那就是連續的,沒有斷點的。