如何去分类信息网站防范垃圾信息

来源:本站日期:2018-7-28

  方法一通过提取信息里的联系方式,建立联系方式黑名单垃圾信息制造者不管IP如何变、内容如何变,但是联系方式是不变的。我们可以根据这一点来建立联系方式黑名单数据库。目前中国用户用的最多的联系方式有:电话号码、QQ号、网址、Email地址等。

  方法一通过提取信息里的联系方式,建立联系方式黑名单

垃圾信息制造者不管IP如何变、内容如何变,但是联系方式是不变的。我们可以根据这一点来建立联系方式黑名单数据库。目前中国用户用的最多的联系方式有:电话号码、QQ号、网址、Email地址等。这些联系方式都有一定的特征,很容易通过正则表达式提取出来。

那么具体如何建立黑名单呢?列表网的做法是:如果一条信息被用户恶评五次,那么该信息自动标记为恶评状态并隐藏。经确认的被用户投诉的信息也被置于恶评状态。当一条信息被置于恶评的时候,该恶评信息里的所有联系方式均被存入黑名单数据库中,并且出现频率字段加1。这样我们就有了联系方式黑名单数据库了,该数据库有联系方式的出现频率及最新出现时间等信息。所有这些操作除了用户投诉需要人工辨别外,其他的都是机器自动完成的。

有了这个黑名单之后就可以通过它来鉴别垃圾信息了。怎么鉴别垃圾信息呢?列表网的做法是:机器定时地对用户发布的信息进行检查。如果该信息里面含有黑名单数据库里的联系方式,并且该联系方式的出现频率大于1且最近出现的时间是半年以内,那么该信息自动删除。限定半年是给该发布者一个改过自新的机会。

以上是这个方式的简单描述。其实要实现起来还有许多的细节需要考虑,还要避免惩罚过度。比如提取联系方式之前,需要对数据进行处理,比如把1、①、Ⅰ等改为1、删除数字间的空格等;用户投诉为中介的信息不应该做恶评,而是将之改为中介,同时将联系电话放入中介数据库中,以后该中介发布房屋信息的时候系统会自动识别为中介信息。如果中介信息也被恶评的话,那么该中介以后就发不了信息了,这样有点过了。

另外,考虑一种情况,如果一个用户在培训类目里发布了大量的虚假招生信息,如果该用户想发布房屋信息,这个时候如果该用户的联系方式落入了黑名单的话他是发不了房屋信息的。一个比较好的解决方法是在黑名单数据库里增加类目字段。通过黑名单判断垃圾信息的时候还需要检查类目字段。这样就避免了以上情况的发生。

方法二鉴别并删除异地商家信息

分类信息网站的特点之一就是本地性,本地用户到分类信息网站上来看的就是本地的租房、交友、服务等信息。因此如果信息里面出现异地的电话号码的话则应该作为垃圾信息处理。这个可以通过手机属地数据库及电话区号数据库来判断。并不是所有的类目都适用这条方法的,像交友、寻人类目就不应该采用这种方法。但是像二手车类目、服务类目则完全可以采用这种方法过滤掉异地信息。

方法三限制某些类目同一天内一个用户只能发布一条信息

重复的信息太多了,对用户的体验也不好。在这里重复信息的定义是:同一个用户或商家(包括商家聘请的信息发布者)发布的内容相同或相似的信息。这些类目包括:生活服务、商务服务、培训、交友、车辆等。那么如何避免重复信息的发布呢?列表网的做法是:在这些类目中用户一天内发布的所有信息中只保留最近发布的信息,其他信息则删除。

方法四关键字过滤

最后不要忘了关键字过滤。一些有害的、敏感的关键字是肯定需要过滤的。

以上是分类信息网站可以采纳的反垃圾信息的简单的行之有效的几种方式。如果能配合贝叶斯算法过滤垃圾信息那就更完美了。


0
首页
报价
案例
联系
中宏衬氟阀门  赤峰保洁公司  金拓維信息技術  中国跆拳道一如会联盟  连云港新娘跟妆  名表维修  工业吸尘器风机  徐州人事人才网  环友劳务服务  墙壁开关