2009-04-21

2009-04-21 TWNIC上的Google Tw連線/頻寬資料

今天在看TWNIC-連線頻寬登錄查詢系統 的時候,赫然發現有Google出現在裡面(其實是之前沒注意)


2009年第2次 Flash圖 (調查時間2009年4月)



從TWNIC這份資料來看,跟GOOGLE台灣Data Center對接的單位如下

國內連線頻寬資料
互連單位
英文簡名
互連單位
中文簡名
AS Number頻寬種類數量(條)總頻寬(Mbps)
ASNet中研院92641G11000
e-MAX超級資訊網路
1G11000

裡面的 e-MAX 超級資訊網路 引起了我的好奇,所以開始查TWNIC那邊的歷史資料.

首先是看GOOGLE第一次出現在TWNIC連線頻寬資料之中,是在2009年第一次(1月)的報告
2009年第1次 Flash圖(調查時間2009年1月)


當時只有跟 ASNet 中研院有1G的連線頻寬.

而GOOGLE到了2009年第2次(調查時間2009年4月) 才出現跟 e-MAX 超級資訊網路有1G的連線頻寬

另外再看看 e-MAX 超級資訊網路 這單位的背景/連線頻寬資訊 http://map.twnic.net.tw/main01_1.php?UnitESName=e-MAX&UnitType=C


e-MAX並沒有直接連到國外的線路


國內連線頻寬資料
互連單位
英文簡名
互連單位
中文簡名
AS Number頻寬種類數量
(條)
總頻寬
(Mbps)
google
151691G11000
KGEx和宇寬頻99181G11000
NTTNTT29141G11000
TCOL永大數位動力17809Other220000
TFN台灣固網99241G11000

比較特別的是他對 TCOL 永大數位動力 有20G的連線頻寬

接下來再看看 TCOL 永大數位動力 的資料 http://map.twnic.net.tw/main01_1.php?UnitESName=TCOL&UnitType=C

看TCOL的負責人跟上面的e-MAX 是同一位,看來屬於同一個集團的不同公司.
而TCOL 在對國外也只有通過 EBIX 亞太交換中心 2G的線路,在對國外連線上並沒有特別的優勢

看了下 e-MAX/TCOL的網頁資料,他們是屬於 午陽集團 ,而該集團是在台中地區經營地區寬頻服務的..

午陽關係企業網站中還有一個歷史悠久讓人懷念的 酷必得購物網

看到這裡真的是挺好奇的,GOOGLE TW Data Center為什麼除了中研院之外就只跟e-MAX對接??
還是說TWNIC的調查資料有其他與GOOGLE對接的單位沒有回報上去??
從TWNIC的資料中看GOOGLE的詳細資訊都是空的,可能GOOGLE並沒有去TWNIC登錄,而是其他單位登錄資料中有出現GOOGLE才會有的吧.
有人知道真正的原因嗎?? PLURK討論串
============================================================

============================================================
2009-04-22 update: 在PLURK討論串中感謝熱心網友提供資料
costw : PCZONE 討論區:華信與google
談戀愛都是上世紀末的事了 : 在peeringdb上面看到的資料在台灣只有跟Chief LY Building Taipei做peering
只是看完以後疑問更多 =_=""

2009-04-18

2009-04-18 SSH入侵嘗試密碼蒐集

在去年 (2008-05-30) 做過一次 SSH入侵嘗試所使用的密碼蒐集記錄 之後,
本週(2009-04-10~2009-04-18)又做了一次針對SSHD (TCP/22)的暴力入侵嘗試帳號/密碼蒐集.
2009-04-10 到 2009-04-18 總共蒐集到 10,538 次的入侵帳密嘗試
依據來源IP/次數統計,共有36個IP,排序如下

ip次數國家/地區
59.179.244.52257印度
211.44.250.2351420韓國
58.62.125.1621365中國廣東省廣州市
122.117.101.25893臺灣 中華電信
202.125.47.222848澳大利亞
82.87.10.24713西班牙
61.152.169.68669中國上海市
60.220.248.57610中國山西省長治市
59.124.0.194482臺灣 中華電信
200.49.156.246343巴西
203.110.208.68223印度
204.15.194.76118美國
193.194.81.53109阿爾及利亞
222.218.156.41107廣西北海市
218.1.118.6957中國上海市
221.194.128.6641中國河北省廊坊市
211.75.183.11537臺灣 中華電信
59.144.1.2333印度
78.143.45.231德國
211.138.191.5025中國安徽省
210.18.127.22721印度
220.229.57.15216臺灣 新世紀資通
61.191.57.3215中國安徽省合肥市
218.22.67.12315中國安徽省蕪湖市
61.147.115.14715中國江蘇省揚州市
61.150.111.19815中國陝西省安康市
59.125.137.4110臺灣 中華電信
218.36.124.13810韓國
124.128.93.1189中國山東省濟南市
218.56.61.1149中國山東省濟南市
89.212.76.1116斯洛文尼亞
211.100.17.876北京市
58.196.29.335中國 教育網
88.169.116.2442法國
41.241.234.2452南非
61.175.196.1821中國浙江省杭州市


依據使用的帳號/次數統計,這10,538 次的帳號密碼嘗試總共用了2,834個帳號,
以下是超過40次的帳號排序
ID次數
root2558
test183
admin131
user93
guest90
oracle75
tester73
testing65
mysql54
ftp51
administrator49
postfix45
adm41


依據使用的密碼/次數統計,共嘗試了5,339個密碼
以下是超過40次的密碼排序
PWD次數
123456441
password365
test193
12345171
1234166
123160
test123152
passwd138
182
123456754
admin46


而從中發現到幾個比較特別含有特殊字元的密碼有
!@#$%^&*()
#no6412temp
%5%7%4%5%1%4%8%7
&thecentercannothold&
';lkjhgfdsa
+#SGU9&rbf-#

基本上從這邊導出的結論跟去年差不多

以下是簡單歸納出的幾個已知規則
a.一般常見英文名/系統預設服務名/單辭
b.單一/重複數字 (ex: 1,2222 , 33333333)
c
.順序數字 or 帳號+順序數字 (ex: 123 , 1234 , 987654321, root123)
d.順序符號 (ex: !@#$% , !@#$%^&*() , )(*&^%$#@! )
e.鍵盤順序字母(ex: qwerty , asdfgh , 1qaz2wsx3edc4rfv , 3edc4rfv5tgb)
f.簡單文字符號代換(ex: r@@t , p@ssw0rd )

針對sshd安全建議:

1.可能的話把port改掉,不要用default的TCP/22
2.不要允許root登入(
PermitRootLogin no)
3.若情況允許,使用AllowUsers來設定允許SSH登入帳號的正面表列
4.直接關掉PasswordAuthentication,改用authentication key驗證


完整的時間/ID/PWD/IP紀錄已放在GOOGLE DOC上,請自行參閱 http://spreadsheets.google.com/pub?key=pj62VKrg9JNMO9SbmF2eIRA
如果在那裡面能蒐到所使用的密碼,建議立即更換.


2009-04-19 update: 後續持續蒐集,發現到 59.179.244.5 這個印度IP持續在做帳號密碼嘗試的動作,截至 2009-04-19 18:54:17 為止, 59.179.244.5 總共TRY了13509次,完整LOG http://spreadsheets.google.com/pub?key=pj62VKrg9JNNTcj_DnPbAdw 而且頻率並不固定,同時有出現帳密互換後來TRY的情況,推測不像一般是WORM之類的在自動跑而是有人為介入的在嘗試; 這邊特別把這IP用過的ID/PWD字典整理排序出來 http://spreadsheets.google.com/pub?key=pj62VKrg9JNNJaaATx94HUA

2009-04-16

2009-04-16 沒有任何防護的Windows 2000掛上網路能撐多久?

前兩天吃飽撐著時有個想法,弄台沒有任何防護(無防毒/防火牆)也沒update的Windows 2000 (SP4)直接掛上Internet,看它能撐多久.
測試日期為2009-04-13~2009-04-14 , 拿我一個閒置很久的IP來掛上.
多次測試的結果是..頂多撐10分鐘.
過程中只要發現有中標後就將測試環境整個還原後重新測試. 每次都在10分鐘之內淪陷.

這裡有用wireshark錄到的三次worm成功打進來的cap檔,可以從中看出所使用的手法,也有紀錄到打進來以後指定下載的惡意檔案位置.

從實測看來,目前Internet上四處流竄的worm主要是針對去年底MS08-067的漏洞針對 TCP:445來進行滲透感染.
成功後通知下載指定的惡意檔案.
其中有發現到的有三隻,分別是
http://83.111.115.55:4243/yxwhmqfu (4/16再次測試時還在)

這隻是 WORM/Conficker.AC ThreadExpert的報告& Virustotal的報告

http://59.125.12.124:33220/x (4/16再次測試時此連結已失效)

這隻是 Worm/Autorun.fla.1 ThreadExpert的報告& Virustotal的報告

tftp 59.147.183.11 ssms.exe (4/16再次測試已失效)

這隻是 WORM/SdBo.167936.56 (當時手滑沒留檔..不過從cap將封包資料重組匯出後小紅傘報的是這個)

另外還有一隻 http://doiluc.com/demo.exe 在當時就404了


等上述的檔案下完以後就自行感染並成為宿主向外狂掃/打 tcp:445
當然這試驗有點過分的刻意了,任何防護都沒有就掛上internet是挺蠢的一件事..

其實Windows 2000只要勤快點把update追到最新,原則上可以稍微抵擋一下這些四處流竄的worm攻勢(起碼不至於被秒殺).

目前看到的 頻率是大概10分鐘就會被不特定來源的worm搞一次;

看來最大的問題是這世界啥都可能會缺.可是就不缺懶人,難怪永遠都會有一堆的肉雞.

2009-04-05

2009-04-05 Plurk一天產生多少則新訊息?(續)

繼上次二月中算過一次2009-02-18 Plurk一天產生多少則新訊息? 之後

今天(4/5)再來算一次,看看隔了一個半月有沒有什麼改變.
目前搭配了 Plurk Time Jumper外掛以後整個找指定時間噗的速度比上次快多了.
.只要到 "更多有趣的噗浪客" 那邊, 篩選條件都選全部..基本上公開河道上就會SHOW 所有的噗...


然後再用Plurk Time Jumper的JumpTo去指定時間來找噗.... 指定2009/4/3 0:0:1 可以找到 4/3 0:0:0前後的噗 (以我這邊設定的台北時間為準)


找到的整點採線噗URL頁面編號是 mc3h4


之後依序用Plurk Time Jumper的JumpTo指定 2009/4/4 0:0:1 & 2009/4/3 0:0:1找出的整點採線噗URL頁面編號
2009/4/4 0:0:0 整點採線噗URL頁面編號是 mhpvs


2009/4/5 0:0:0 整點採線噗URL頁面編號是 mmf1e


所以這邊得到了3個plurk_ids 編號 4/3 mc3h4 4/4 mhpvs 4/5 mmf1e
而單筆plurk的ids編號是36進位,這噗有從PLURK用的Javascript中找到他們轉的方法,是用javascript的 toString(36)去把10進位轉為36進位的字串,
利用javascript轉回去則可用parseInt('string',36); 所以把那三個編號代入相減便可得到當天的總噗量.
用下面這段直接貼到瀏覽器的URL列就可以得到結果

javascript:alert('4/3 Plurks= '+(parseInt('mhpvs',36)-parseInt('mc3h4',36))+' \n4/4 Plurks= '+(parseInt('mmf1e',36)-parseInt('mhpvs',36)) );

得出:
4/3 Plurks= 262320
4/4 Plurks= 219226

也就是
4月3日 星期五,整個Plurk總共產生了26萬2千筆新訊息
4月4日 星期六,整個Plurk總共產生了21萬9千筆新訊息


上次計算後得出的結論一樣,也就是假日的噗會少不少.
而單日總噗量則是由二月中的 (工作日)19 & (假日)17萬 成長到 26 & 22萬

PS:p.s. 這數字是全球的單日噗總量,不單是台灣的.
另外"更多有趣的噗浪客" 那邊公開可查的目前大概是10天左右的量.. 2009-04-06 看來PLURK把那邊的資料有清過了..囧..
低調同場加映另一個惡搞下的發現XD
====PLURK有多少用戶(原噗)==== 圖檔備份XD

2009-03-31

Plurk Time Jumper - 可跳至指定日期河道的Greasemonkey外掛.

隨著Plurk河道越來越長,朋友越來越多,要往前找過去的噗都會特別累人.
plurkhistory 又只能看自己的噗,總是覺得缺少了點什麼..
要是能直接指定河道時間的功能就好了,不過PLURK官方一直沒有出現這功能,那就自己來幹吧..

上網查了一下,去年七月有位 YungSang 寫了 Plurk Time Machine 有符合這需求,不過因為之後Plurk改變部分變數的名稱跟處理方式,使得這外掛失效了,
後續也沒人修正,那就來給他改改看好了.
目前改好的檔案就先取名叫Plurk Time Jumper,位置在 http://userscripts.org/scripts/show/45523 ,原始碼 .
需配合 Greasemonkey 使用.
Greasemonkey的安裝可參考 我們的放浪人生 - 噗浪(Plurk)台灣的非官方部落格:幫你的噗浪加上外掛turbo!(上)

雖然改的有點二二六六,不過還能用,安裝啟用後,在PLURK的最上方會出現一個SelectDate JumpTo的選項.
按下後會跳出輸入日期的提示,確認後便會開始處理跳轉.不過目前跳轉機置處理的有點糟..經常會跳失敗.XD
v0.2改為開新視窗,確保參數帶入生效,所以此版本已無跳轉失敗問題.
v0.3直接呼叫Plurk的function來做河道時間切換.

也可以直接在URL網址列後面輸入 #2009/02/20 (想要跳轉的日期).後將整個頁面重新載入即可.
跳轉成功後河道最左邊就是所指定的時間,接下來可以往前拉來找噗.

後續就有待高手們協助完善囉..

PS: [PLURK] 2009/03/31 Plurk Time Jumper @ 040's Box :: 痞客邦 PIXNET ::: 這篇介紹寫的比較詳細,有興趣的噗友可以參考看看~

2009-04-01 update: Plurk Time Jumper v0.2 改了一點小地方,把原本的SelectDate按鈕改成**JumpTo** , 然後是按下確定後會開新視窗(比之前原視窗reload的方式好些,可確保100%成功)
2009-04-03 update: Plurk Time Jumper v1.0直接呼叫Plurk的function來做到河道時間的跳轉,而且不管是自己還是別人的河道都能轉.這原則上算是完成版了

2009-03-11

非廣告: WEBI 開站了~~ @20090311

在歷經千辛萬苦之後,WEBI http://webi.cc/ 終於小有所成了,整個首頁也換新了~

目前整體操作&效能跟之前相比有很大的進步了...

身為創辦人大姊頭的前同事,當然要給他情意相挺一下的啦..
附上簡單的操作影片,告訴大家 WEBI該怎麼玩~~


另外也試試嵌入號稱HD高畫質的Vimeo.

WEBI.CC 20090311 OPEN

WEBI怎麼玩? 上傳照片隨意拖拉,愛放哪放哪, 放大縮小,釘在桌面~~ 就是這樣玩~~
現在還有拉攏PPT鄉民的活動呢~~


PS: Youtube要等他把影片轉成HD還不知道要等到民國哪一年,原始影片1280x720在沒轉之前實在有點糊..
試試便當狗的也會清楚些.. http://www.badongo.com/vid/640x480/1052980

2009-03-10

ARP 掛馬的作業模式觀察

這是拿網上隨手搜到的ARP掛馬工具測試

環境說明

VM HOST 192.168.1.2 (Windows2003) VMware Server 1.08

VMNAT 192.168.200.0/24 HOST GW 192.168.200.2
VMNAT Port Forward Host Port 80 => 192.168.200.100:80

VM WEB 192.168.200.100 tcp:80 (Debian Apache2)
MacAddress 00:0c:29:a7:a3:c6

VMARPATTACK 192.168.200.128(DHCP) (Windows 2003)
MacAddress 00:0c:29:4d:a8:bd


正常情況,在此環境內連結http://192.168.1.2/ 會經由VMNAT轉至VM內的 192.168.200.100:80
顯示結果如下 Wireshark紀錄 http://www.swm.idv.tw/20090310_A.pcap


在那台VMARPATTACK 192.168.200.128上面執行ARP掛馬工具 (當然這台肉雞上是沒有任何防護的)
測試工具下載位置 http://soft1.hackdos.com/soft/2008713arp.rar
(這種工具不需要特意去找,GOOGLE一挖就有一堆的..取得上一點難度也沒有)
不過那些被放出來的東西裡面通常都藏了些有的沒的,沒事的話不建議隨便以身試法..XD


其中設定插入代碼給一個便於識別的 1.1.1.1/mm.js (當然目前這個是不存在的)
執行以後安裝,從Wireshark上面就可以看到這個ARP spoofing開始運作了
Wireshark紀錄 http://www.swm.idv.tw/20090310_B_ARP.pcap


此時再去看 http://192.168.1.2/
Wireshark 紀錄 http://www.swm.idv.tw/20090310_C_ARP.pcap


由title來看可以確定已經成功被掛馬了
IE得到的網頁原始檔

Wireshark針對VMNET的封包擷取過程
連線建立時就有抓到重複的封包
而在第六個封包發出GET 時,目的地MacAddress 00:0c:29:4d:a8:bd
已經是 VMARPATTACK 192.168.200.128(DHCP) (Windows 2003) 偽裝成 192.168.200.100了




第10個封包,是VM WEB正常吐回的respond,但是目的地MacAddress 00:0c:29:4d:a8:bd 卻是 VMARPATTACK 192.168.200.128




然後在第12個封包才由MacAddress 00:0c:29:4d:a8:bd VMARPATTACK 192.168.200.128
將插入過的html返回

因為測試的環境是在內部NAT做port轉發,所以可能跟實況會有誤差.

不過理論上如果拿到外網環境應該也是可以通的,

這種攻擊模式的現成程式很多,每一款實作上可能也有些許差異,不過基本概念都是類似的.
等於是從同網段gateway/router之前攔截了http的封包硬插代碼後再送出.

這代表了什麼?代表我不需要實際去入侵每一台機器,

只要在IDC機房內同網段內抓出一台給他搞一下,
其他同網段沒有作ARP綁定防護的WEB SERVER就都會被插惡意代碼了..
管你是APACHE還是IIS..通通都會有..XD

而且被插的網站就算把整個網站程式碼翻到爛也找不到哪裡被插..

恐怖嗎?.....

相關閱讀:去年(2008)聖誕節時的舊文 MSN SHELL 所在SERVER遭ARP掛馬??

另外這模式初步看起來似乎跟

大規模網頁綁架轉址:威脅未解除,但專家都猜錯了:
&
破解新型態大規模網頁轉址攻擊

裡面提到的封包偽造特徵有點類似..看來也是從中間攔截封包硬插..不過目前手邊缺乏實例進行比對..不知道此特徵與此次的網頁轉址攻擊有無關聯

2009-03-10 19:25 Update: 再看了下並且經過交叉比對後發現似乎又跟這次的大規模網頁轉址有些不同,用這種掛馬工具出了gateway後並不會有兩個重複封包,而是直接修改封包後發出.
看來與這次的大規模轉址事件在實作方式上有些許不同,而且arp掛馬侷限性較高,若是從某個骨幹節點直接攔截造假封包送出,影響更為嚴重.

2009-03-13 update:
另外附上2008-12-24發現MSN SHELL 所在SERVER遭ARP掛馬??時用wireshark錄到的封包樣本 http://www.swm.idv.tw/20081224_cap.zip 有興趣或是手上有2009-03大規模轉址封包樣本的朋友可以抓回去分析比對看看.

2009-02-18

2009-02-18 Plurk一天產生多少則新訊息?

因為每則Plurk(噗)都有一個獨立網址,
像是 http://www.plurk.com/p/gj24u 這樣的url.


所以做了一個小實驗,同時開三個瀏覽器視窗,然後把要發的Plurk先打好以後連續發出
結果得到的三個Plurk為
http://www.plurk.com/p/giz1i

http://www.plurk.com/p/giz1j

http://www.plurk.com/p/giz1m


這三個URL尾碼依序是giz1i giz1j (中間稍微慢了一下下,所以 giz1k giz1l被搶走了) giz1m .

由這實驗結果推測,每一個噗的獨立頁面url後面那五位英文/數字組合應該屬於流水號排序,
再經過與其他獨立頁面的尾碼比對驗證後得到的結論是,url的五位尾碼每一位為10個數字+26個英文字母的組合(0-9 a-z) 可視為36進位, 也就是目前 五位的url組合共可容納 36^5 = 60,466,176 個噗的獨立url.

推測出這個規則以後,興起了一個統計一天大約總共有多少plurk的想法.
做法非常簡單,先抓出一個大約時間內的plurk url尾碼區間,再以基本的二分逼近法找出我所想要的時間點的plurk url尾碼. 這樣只要有兩個時間點的plurk url尾碼就能估出該段時間內共有多少個plurk ulr被產生=所有plurker總共發了多少的plurk.

這邊時區以UTC為準,以 2009-02-13(週五) ~ 2009-02-16(週一)
這四天的00:00 ~ 23:59 作為計算區間 找出的結果是
2009-02-13 00:00 第一噗的url尾碼為 g014p 將36進位換算為10進位= 26,875,321
2009-02-13 23:59 最後一噗的url尾碼為 g48nk 將36進位換算為10進位= 27,071,696
相減得出2009-02-13 (週五)這天所有plurkers總共發了 196,375個噗
2009-02-14 00:00 第一噗的url尾碼為 g48nl 將36進位換算為10進位= 27,071,697
2009-02-14 23:59 最後一噗的url尾碼為 g7u7o 將36進位換算為10進位= 27,239,604
相減得出2009-02-15 (週六)這天所有plurkers總共發了 167,907 個噗
2009-02-15 00:00 第一噗的url尾碼為 g7u7p 將36進位換算為10進位= 27,239,605
2009-02-15 23:59 最後一噗的url尾碼為 gbi3y 將36進位換算為10進位= 27,410,542
相減得出2009-02-15 (週日)這天所有plurkers總共發了 170,937 個噗
2009-02-16 00:00 第一噗的url尾碼為 gbi3z 將36進位換算為10進位= 27,410,543
2009-02-16 23:59 最後一噗的url尾碼為 gfl02 將36進位換算為10進位= 27,600,914
相減得出2009-02-16 (週一)這天所有plurkers總共發了190,371 個噗

從這四天得到的結果可以歸納出的結論為:

Plurk在工作日(一~五)一天約有19萬多個新噗產生,

而在假日(週六日)一天大概約有16萬多個新噗產生 .

以上推測出來的結果缺乏官方資料驗證,故僅供參考..XD
PS: 剛試著往前撈,還能挖出2007年12月時Plurk開發團隊的一些測試噗咧 ^^"

2009-02-13

2009-02-13 Taiwan Plurkers Rank

繼前幾天的Plurk國籍/Karma排名分析後,今天又針對PLURK搜尋頁中以TAIWAN搜出來的USER來做進一步的資料分析.

此次PLURK帳號清單是以上次處裡(2009-02-05)時抓回的44754筆帳號,扣掉當時Karma為0的30722之後所剩的14032筆帳號為基準.
(此份帳號清單其實並不完全準確,因為是依賴plurk在某個時間點所產出的,而且若USER基本資料內沒有Taiwan的關鍵字就不會出現在這裡面,有興趣的朋友可以到http://www.plurk.com/search 輸入 "Taiwan 帳號" 來看看自己是否在這清單之內)

2009-02-13將這14032筆帳號的plurk頁面( http://www.plurk.com/OOXX )抓回進行後續分析處裡, 由公開的plurk個人頁面可得到的資訊如下 :
NickName-(帳號),UID-(PLURK使用者編號),gender-(性別) ,fans-(粉絲數), friends-(好友數), Karma-(Karma值), Profile View-(個人資料頁面瀏覽數), Friend invited-(邀請朋友數), Plurks-(發過的Plurk數),Responses-(回應過的次數),since-(帳號創立時間),last login-(最後登入時間)

另外在實際抓取資料的過程中發現在14032筆的清單中有16個帳號是沒有資料的
( ex: BlueHill這個帳號在搜尋頁有1 筆紀錄但卻無資料,可能是在2009-02-05~2009-02-12之間被刪除的帳號所以2009-02-05有抓到他的karma資料但2009-02-12就消失了)

扣掉這16個消失帳號後剩下的14016筆就是本次台灣Plurkers資料抓取標的.

此次Taiwan Plurkers 14016筆個人公開資料的撈取時間為 2009-02-13 00:15 ~ 2009-02-13 05:37

經過處裡之後的一些排名相關資料如下

1.最早加入PLURK的Taiwan User(以隱藏值UID進行排序).

AccountUIDSince
tino8551May-08
nepttako8785May-08
vista13177Jun-08
buzzjiang14211Jun-08
maxchu15808Jun-08
kenworker16116Jun-08
cloudy122216154Jun-08
angelsmileoo16272Jun-08
mitnik18688Jun-08
alice42519088Jun-08

2. Fans粉絲數前10名
NickNamefansfriendsKarmaProfile ViewFriend invitedPlurksResponsessince
briian199152888.671587656411093362Jun-08
bonobo1443293883.37151147119021713Jun-08
dogg880199282.21267315736704472Jun-08
KateJ747103197.8208423810244810Jun-08
jason217122836.95651110393Jul-08
siaoyu6626050.5311180116610Sep-08
erica10591658343.6810832172390Oct-08
yolla6574175.680002841270Oct-08
esorhjy65471378.4128433604361059Jun-08
toysRus62511695.83195541978367704Jul-08

3.Friends好友數前10名
NickNamefansfriendsKarmaProfile ViewFriend invitedPlurksResponsessince
bonobo1443293883.37151147119021713Jun-08
IamKaKi41221261.611003622894476Oct-08
dogg880199282.21267315736704472Jun-08
orden21120081.685340784817220Jun-08
Jojam545109776.2512402360944212Oct-08
ioio36104434.4450815194756Jul-08
KateJ747103197.8208423810244810Jun-08
turnturn3688463.4565802119513207Jun-08
mitnik19987160.22457756362178Jun-08
itemark1877769.7453940246711616Nov-08

4.Karma 前10名
NickNamefansfriendsKarmaProfile ViewFriend invitedPlurksResponsessince
andytn18171110082862238836777Jun-08
CGS1415091001109621150715168Jun-08
ClubEddy23427110056833925297274Jun-08
chapters5817999.793621515738954Jun-08
tsukiei687399.518360252545399Jul-08
sanyuan1421599.4838585149833843Jun-08
bear053112522699.34521742187831892Jul-08
pomelo352349939665146313117Jun-08
lman1198198.7832651020508767Jun-08
randy3256913298.613186477327740Jul-08

5.Profile View檔案檢視前10名
NickNamefansfriendsKarmaProfile ViewFriend invitedPlurksResponsessince
ashleywei3746196.4932156144156111665Jun-08
dogg880199282.21267315736704472Jun-08
billypan22472696.25236289510188144Jul-08
paperdodo016.1322436012330Nov-08
KateJ747103197.8208423810244810Jun-08
toysRus62511695.83195541978367704Jul-08
subing11369479.3216205140156031281Jun-08
briian199152888.671587656411093362Jun-08
bonobo1443293883.37151147119021713Jun-08
jeremy_3c34849695.321463224210607207Jun-08

6.Friend invited邀請朋友數前10名
NickNamefansfriendsKarmaProfile ViewFriend invitedPlurksResponsessince
dogg880199282.21267315736704472Jun-08
briian199152888.671587656411093362Jun-08
esorhjy65471378.4128433604361059Jun-08
Jojam545109776.2512402360944212Oct-08
jeremy_3c34849695.321463224210607207Jun-08
XYZ00710129990.4415742415359989Nov-08
toysRus62511695.83195541978367704Jul-08
miawko17829156.2166661785079040Jun-08
Formosa3742496.1821491714902009Sep-08
ashleywei3746196.4932156144156111665Jun-08

7.發Plurk數(最會碎碎念)前10名
在處裡這個排序時發現有12個帳號顯示異常,Plurks數都顯示4294967295 可能是PLURK秀逗了吧,囧rz.. 異常的12個帳號分別是 :
lusasa1002 annie0606 liaomeow chenpochang dennis99 ying_wei
dofu0128 MartinFang iop0926520 pinkmeow sweetchaio Leila_chou
排除掉這12個異常帳號後的排名如下
NickNamefansfriendsKarmaProfile ViewFriend invitedPlurksResponsessince
yongwei_robot606294.5423091536583200Jul-08
kaygenius253887.711541040117545Jul-08
andytn18171110082862238836777Jun-08
HungMingWu727496.222049435188659Jun-08
RoronoaZoro257897.2323293333310704Jul-08
StrawberryMilkTea93880.8217281331011683Jun-08
funnyshian8719395.9832384310616302Jun-08
lazymeg15038697.351258037291013968Jul-08
kej73175.983780270582Sep-08
tchang51683844191.9251512266710876Jun-08

8.Responses回應數(最愛湊熱鬧)前10名
NickNamefansfriendsKarmaProfile ViewFriend invitedPlurksResponsessince
jo0322608694.945389278786815Aug-08
yongwei_robot606294.5423091536583200Jul-08
nicaliu667395.0732916259254156Sep-08
tsukiei687399.518360252545399Jul-08
MissOdd327682.92258163942040Sep-08
brianyang2024.82460041986Jan-09
amy_0210139384.953668254040913Jul-08
winner3825074.2897111026639966Jun-08
angelghost1911595.522849359839912Jul-08
brianyang01954.2512417036934Nov-08

9.其他數據:
在這14016個帳號中
  • 男:5831 女:8185
  • Karma總值為613,582 ,平均每人Karma為43.77
  • Plurks總數為2,691,478 ,平均每人發192噗
  • Responses(回應)總數為19,385,306 ,每人平均回應數為1383
  • 平均每人有7.69個Fans粉絲,23.2個朋友
不過看來最厲害的還是那位 超猛日本人妻 酪梨壽司 XD..
NickNamefansfriendsKarmaProfile ViewFriend invitedPlurksResponsessince
cwyuni233726701001557431402147611651Jun-08

匯整過的詳細資料可至GOOGLE DOC查閱

後記:
1.因為PLURK沒有提供相關功能或API,以上資料都是硬抓出來的,而且由於基礎帳號清單本身準確度就有限,所以這份資料僅供娛樂參考~^^
短期內大概也不會再抓了,因為這樣搞會造成SERVER多餘的負擔(光這一萬四千多筆就要392M),是系統網管最討厭的行為~XD
2.Plurk的Design lead alvin http://www.plurk.com/alvin 現在好像在台灣
http://www.plurk.com/p/g1n4c
alvin says wants to organize a taiwanese plurkers meet up but don't know where to start...
alvin says if any taiwanese sees this message, feel free to email me at alvin@plurk.com maybe we can set something up.
個人覺得 果子咖啡 應該可以站出來~~ XD

2009-02-06

2009-02-06 Taiwan Plurkers Karma analysis

繼上一篇 從Plurk搜尋頁挖出來的有趣統計資料 之後,我對這 44916 筆 Taiwan 的人物搜尋結果 產生了點興趣.
今天就寫個小程式來抓Plurkers搜尋頁中標記有Taiwan 的USER資料回來進行分析,
Plurkers搜尋頁處裡是每頁吐10個Plurkers的資料(格式範例)交給前端的js進行處裡,所以我這邊直接用模擬http post的方式去單抓用戶資料,因為Taiwan的搜尋結果有44916筆,所以總共得作4492次的post才能抓完全部資料,等全部資料抓回來以後在本地進行分析,另外還在每次post之間做了兩秒的間隔以避免太大量的request會把Plurk搞壞.
整個資料抓取的時間是 20062009-02-05 22:14 ~ 20062009-02-06 00:52,如果這段期間plurk有卡卡的話~~絕對不是我幹的啦~~
抓完要開始做後續分析時才發現並不是每一頁都有10筆資料的,雖然清單上顯示的是44916筆,但是實際上抓出來的Plurkers只有44754筆.
像是第六頁圖備份就只有9筆資料, 第1467頁圖備份就只有8筆資料,實際抓回來的資料跟清單上列出的差了162筆.

接下來針對這44754筆資料作Karma的排序&分析
雖然plurkers搜尋網頁上顯示的Karma只有到小數點後一位(個人頁面中的Karma是顯示到小數點後二位),不過實際吐出來的資料最多有到小數點後18位 (EX: 0.089999999999999997)
以下是針對Karma值進行區段分析.

Karma人數
%
0 (0.0)30722 68.65%
0.01~9.991732 3.87%
10~19.99 1154 2.58%
20~29.99 1294 2.89%
30~39.99 1419 3.17%
40~49.99 2611 5.83%
50~59.99 2024 4.52%
60~69.99 1779 3.98%
70~79.99 867 1.94%
80~89.99 939 2.10%
90~99.99 212 0.47%
Karma 100 1 ClubEddy
注.那位Karma滿百 好友兩千六粉絲兩千三的 超猛 日本人妻 並不在台灣清單內,而是在日本清單之中

扣掉Karma完全為0的三萬多以後的結論是:
估計其實台灣真正有在活動的Plurker最多只有一萬多人而已,
這個第三名44916的數字水分實在是高了點.

ps:
1.當我寫到這的時候(2009-02-06 02:50)再去Taiwan Karma第一頁看了下, 第二名無敵小恩恩在排名頁上顯示也是100圖備份,不過在無敵小恩恩個人頁面是顯示99.96圖備份,他實際的Karma值是99.959999999999994,
所以可以推出Karma值小數點後超過的部份是四捨五入的.而我在(2009-02-05 22:14) 抓回來的資料中無敵小恩恩的Karma值是99.950000000000003 ,這代表這份清單在產生出來之後,裡面的資料是即時的.
2.因為這個國家資料完全是依賴使用者自行選擇輸入的,所以並非100%正確,不過應該還是有一定程度的參考價值.
3.寫完以後真的覺得~~我實在是吃飽撐著了啊~~