网页的提交一般都是采用表单的方式,通过各种各样的表单项和组合可以形成各种各样的查询。表单的提交方式有两种,POST方式和GET方式,POST方式所有的提交网址都是同一种形式,表单内容都隐藏在HTTP的请求中一起提交的,而GET方式则每次都是不一样的。
我们可以想象每一个Form后面都有一个数据库,每一次Form的提交就类似于查询SQL语句一样:select * from DB where I1=V1 and … and IN=VN 。但是也不是所有Form中的每一个表单都是对于这个数据库是有意义的。比如:排序,分页大小的选择等等。如何得到一个非常适合的Query集合是非常关键的。
为了得到更合适的Query集合,我们想到了采用Query模版,也就是一个Query的表单集,能够迭代得到最多可能的所有的Query。对于一个卖书的商店,对应的Query集合可能如下:
<Z> {select * from DB where zip = z | z are valid zip codes }
<T> {select * from DB where type = t | t are valid store types }
<T, Z> {select * from DB where zip = z and type = t | … }
阅读全文…
Google Squared已经不仅仅是Searchology上的一段视频的介绍了,我们可以在Google Labs里面实际体验它了。体验了几个Query之后未免有些失望。从数据量和准确性来说都不尽如人意,只是有一个很好的Idea。例如你可以搜索“digital cameras”,然后Google会给你将网页的数据以表格的形式格式化处理好,供你来对比。而且你还可以根据自己的需要增加对比例。比如增加Brand,Pixel Resolution等等。值得一提的是在增加Columns的时候提示的内容显然是根据Query来的,例如输入字母P的搜索digital cameras提示的是Pixel Resolution,而US presidents的时候提示的则是Political Party,这做的还是挺厉害的,和我们要搞的Navigation可能有相通的地方。只不过有时候没有值而已。不过我想在Google强大的数据挖据的能力的支持这个产品还是蛮有潜力的。
本文是翻译的:
我说过N次,搜索的王道是理解用户意图。一个只有两三个词的搜索语句,因为语言本身的复杂语义,不足以让搜索引擎提供相关的,有用的结果。但是现在,我们有了解决这个问题的方法,搜索方面的竞赛给我们提供了在关键词搜索顶部消除关键词语言干扰的层,而且有较多方法来实现。
接下来,我们看看Baynote是通过什么样的方法来消除搜索词的歧义的。我们有机会跟Baynote的营销总监 Mike Svatek交流,向他咨询Baynote在这方面的做法。
阅读全文…
这两天看了一些对于垃圾信息的处理,对于推荐系统来说,大量的数据收集,其中也包括如何去理垃圾信息。同样是一篇paper,作者邮箱:yiqunliu@tsinghua.edu.cn,没有全部翻译,只选了较重要的部分,内容如下
对于网络中爆炸性增长的各种信息,搜索引擎在人们日常生活中的地位变得越来越重要。根据调查的结果(当然,大家也都知道),绝大多数的搜索用户只看结果列表中的前几条结果,所以,大多数信息和服务提供者都希望自己的内容能尽可能的排名靠前,以便能得到用户更多的关注。网络垃圾信息,可以定义为“相对网页的真正价值,任何不合理的提高相关性和评分的网页”。因为垃圾信息会对用户获取信息时造成障碍,垃圾信息的侦测被当成搜索引擎的一个主要的挑战。
目前,反垃圾信息的技术通常利用页面内容和链接的特点来分级并确认垃圾页面。当有垃圾信息出现在搜索结果列表中时,工程师会检查这种垃圾信息的类型和特点,然后设计具体的对策。然而,每当一种垃圾信息被处理,垃圾信息的制作者们就会想办法创建新的信息。根据这样的方法,垃圾信息处理技术只能识别已经定义过的信息,或者是已经造成了严重损失的情况。
相对于普通的防垃圾信息方法,我们提出一种新的防垃圾信息方法框架,在此框架上,有垃圾信息的网站会被事先标记出来。因为我们考虑欺诈的动机优先于页面的内容和链接。我们通过用户行为的统计分析介绍三种特性,然后设计一种基于学习的方法来与用户行为特点相结合,来定义垃圾信息。
阅读全文…
Google升级了在海外的Auto Suggestion功能,简单的说增加了如下几个Features。记录下,便于今后产品改进时候学习。
- 改进了在结果页的搜索框也增加了Auto Suggestion的提示逻辑。之前是根据输入的内容提示,改进后根据当期页面结果的内容进行提示。比如在首页输入M,提示的会是Myspace之类的热门Query,但是在结果页以介绍Mp3为主的页面提示的则可能是Mp3相关的Query优先推荐。
- 加入个性化推荐的内容。这部分内容来自于Web History的里记录的内容。同时你可以通过上面提供的remove功能删除。

- 增加了导航类的提示。这点之前我们在雅虎的Suggestion里面也增加过。有道也有过这样的功能。
- 在Suggestion里面增加了广告。目前处于Beta的阶段。

其实对于这个区域还有很多更花哨的方式,今后有机会再一一列举。
最新评论