繼上一篇 從Plurk搜尋頁挖出來的有趣統計資料 之後,我對這 44916 筆 Taiwan 的人物搜尋結果 產生了點興趣.
今天就寫個小程式來抓Plurkers搜尋頁中標記有Taiwan 的USER資料回來進行分析,
Plurkers搜尋頁處裡是每頁吐10個Plurkers的資料(格式範例)交給前端的js進行處裡,所以我這邊直接用模擬http post的方式去單抓用戶資料,因為Taiwan的搜尋結果有44916筆,所以總共得作4492次的post才能抓完全部資料,等全部資料抓回來以後在本地進行分析,另外還在每次post之間做了兩秒的間隔以避免太大量的request會把Plurk搞壞.
整個資料抓取的時間是 20062009-02-05 22:14 ~ 20062009-02-06 00:52,如果這段期間plurk有卡卡的話~~絕對不是我幹的啦~~
抓完要開始做後續分析時才發現並不是每一頁都有10筆資料的,雖然清單上顯示的是44916筆,但是實際上抓出來的Plurkers只有44754筆.
像是第六頁圖備份就只有9筆資料, 第1467頁圖備份就只有8筆資料,實際抓回來的資料跟清單上列出的差了162筆.
接下來針對這44754筆資料作Karma的排序&分析
雖然plurkers搜尋網頁上顯示的Karma只有到小數點後一位(個人頁面中的Karma是顯示到小數點後二位),不過實際吐出來的資料最多有到小數點後18位 (EX: 0.089999999999999997)
以下是針對Karma值進行區段分析.
Karma | 人數 | % |
0 (0.0) | 30722 | 68.65% |
0.01~9.99 | 1732 | 3.87% |
10~19.99 | 1154 | 2.58% |
20~29.99 | 1294 | 2.89% |
30~39.99 | 1419 | 3.17% |
40~49.99 | 2611 | 5.83% |
50~59.99 | 2024 | 4.52% |
60~69.99 | 1779 | 3.98% |
70~79.99 | 867 | 1.94% |
80~89.99 | 939 | 2.10% |
90~99.99 | 212 | 0.47% |
Karma 100 | 1 | ClubEddy |
扣掉Karma完全為0的三萬多以後的結論是:
估計其實台灣真正有在活動的Plurker最多只有一萬多人而已,這個第三名44916的數字水分實在是高了點.
ps:
1.當我寫到這的時候(2009-02-06 02:50)再去Taiwan Karma第一頁看了下, 第二名無敵小恩恩在排名頁上顯示也是100圖備份,不過在無敵小恩恩個人頁面是顯示99.96圖備份,他實際的Karma值是99.959999999999994,
所以可以推出Karma值小數點後超過的部份是四捨五入的.而我在(2009-02-05 22:14) 抓回來的資料中無敵小恩恩的Karma值是99.950000000000003 ,這代表這份清單在產生出來之後,裡面的資料是即時的.
2.因為這個國家資料完全是依賴使用者自行選擇輸入的,所以並非100%正確,不過應該還是有一定程度的參考價值.
3.寫完以後真的覺得~~我實在是吃飽撐著了啊~~
4 則留言:
plurk 越年輕越多人玩啊!!
我拉了幾個朋友都說不習慣玩plurk XD
Karma 這東西可以自己改 .....
http://briian.com/?p=6098
Re: idsky.
不來恩那篇我看過了,那只是把Karma的顯示改用圖檔蓋掉,實際的Karma值是存在Server端的,雖然顯示的是:∞+1 不過briian目前實際的Karma是 "karma": 86.310000000000002 ,這是改不了的 :P
喜歡的原因!反而是因為自己是從17,8年前的BBS世代開始所以喜歡Pluk的優點
可以Offline, 不即時, 可以主題式聊天(跟以前BBS聊天版很像)
比MSN的即時性沒壓力
這些特點而吸引!
也可以這樣交到很多因為共通主題而認識的朋友!不賴...
張貼留言