中国独立博客应用之冰山一角

由于最近在开发博客档案库,开发的过程中需要对中国独立博客数据进行分析,因此写了一个程序抓取并识别一些博客属性。识别的过程中发现一些数据还挺有意思,贴出来与大家分享。在看数据之前,说说我的一些发现。

数据抓取和分析的起点是“卢松松”的主页,通过对数万相关链出的网址进行抓取并进行多次分析后,逐步改善程序,最后进行了一次小规模试验,抓取了大约1000个有效网址(其实过滤掉的大约有20倍左右),其中得到422个独立博客。程序处理过程中有些无法正确识别的只能任其流逝,不过经过我多次的人工比对,这种漏网率在10%以下,而对那过滤掉的20倍网址中,错误过滤掉的博客低于千分之一。可以忽略。

博客系统

首先让我们看看大家可能比较关心的关于博客系统的数据,Wordpress当之无愧占有了绝大部分市场份额,达到67%,其次是z-blog,以23%屈居第二位,接下来的pjblog和bo-blog系统位列第三、第四,第五名开外的博客系统应用就更少了。

 image  image

但是我注意到,一些国内比较著名的独立博客,比如月光博客,使用的就是z-blog程序。虽然wordpress被大家更加广泛的使用,但是z-blog作为博客应用程序,并没有明显的劣势。

独立域名

接下来我们看看博客域名的使用情况。从下图统计数据看,使用最多的还是大家最熟悉,资格最老的.com,其次是.cn,不过估计在09/10年交替的“整风运动”中,.cn的比例会有不小的下降;.net和.org的域名紧随其后,分别是42和27,还有一些其他的,大家从图中一目了然了。

image 

我本人的几个网站也全部都是.com域名,曾经也注册过.net的,.cn的,总归还是倾向于.com,算个人喜好吧,从这个统计数据看,多数人也还是在使用.com。

定义域名使用情况

最后我们看一下顶级域名使用情况,这个说法可能并不准确,其实我的意思是是否使用诸如www.bokedb.com 这样的域名,还是使用zaban001.com这样的域名。

image

从上图中看,多数人倾向于www开头的域名,但是直接使用顶级域名的独立博客也占到了大约三成。

忙活了将近一个礼拜,写的程序给我带来了这个结果,让我很欣慰,其实这些都是副产品,我原本是要抓取博客数据,建立档案,分析更多的属性,但是在这个过程中我也发现了一些有价值的信息,希望对各位博主有所帮助。一个星期下来,从最初对链接识别博客不足30%的比例逐渐提高到90%,已经能满足应用的需要了。

今天才看了卢松松的博客,说关于“整风运动”中,个人独立博客可能要遭灭顶之灾,而我还在没日没夜的为个人独立博客开发着博客数据库的应用程序,不知道将来会怎样,既然开始做了,就让我做好,做完吧。

发表评论

邮箱地址不会被公开。 必填项已用*标注