根据用户形为来发现垃圾信息
2009年6月4日
没有评论
这两天看了一些对于垃圾信息的处理,对于推荐系统来说,大量的数据收集,其中也包括如何去理垃圾信息。同样是一篇paper,作者邮箱:yiqunliu@tsinghua.edu.cn,没有全部翻译,只选了较重要的部分,内容如下
对于网络中爆炸性增长的各种信息,搜索引擎在人们日常生活中的地位变得越来越重要。根据调查的结果(当然,大家也都知道),绝大多数的搜索用户只看结果列表中的前几条结果,所以,大多数信息和服务提供者都希望自己的内容能尽可能的排名靠前,以便能得到用户更多的关注。网络垃圾信息,可以定义为“相对网页的真正价值,任何不合理的提高相关性和评分的网页”。因为垃圾信息会对用户获取信息时造成障碍,垃圾信息的侦测被当成搜索引擎的一个主要的挑战。
目前,反垃圾信息的技术通常利用页面内容和链接的特点来分级并确认垃圾页面。当有垃圾信息出现在搜索结果列表中时,工程师会检查这种垃圾信息的类型和特点,然后设计具体的对策。然而,每当一种垃圾信息被处理,垃圾信息的制作者们就会想办法创建新的信息。根据这样的方法,垃圾信息处理技术只能识别已经定义过的信息,或者是已经造成了严重损失的情况。
相对于普通的防垃圾信息方法,我们提出一种新的防垃圾信息方法框架,在此框架上,有垃圾信息的网站会被事先标记出来。因为我们考虑欺诈的动机优先于页面的内容和链接。我们通过用户行为的统计分析介绍三种特性,然后设计一种基于学习的方法来与用户行为特点相结合,来定义垃圾信息。
最新评论