存档

文章标签 ‘Deepweb’

Google工程师在2008年VLDB大会上关于Deep Web的演讲稿(续)

2009年6月5日 jinhe.zengjh 没有评论

网页的提交一般都是采用表单的方式,通过各种各样的表单项和组合可以形成各种各样的查询。表单的提交方式有两种,POST方式和GET方式,POST方式所有的提交网址都是同一种形式,表单内容都隐藏在HTTP的请求中一起提交的,而GET方式则每次都是不一样的。

我们可以想象每一个Form后面都有一个数据库,每一次Form的提交就类似于查询SQL语句一样:select * from DB where I1=V1 and … and IN=VN 。但是也不是所有Form中的每一个表单都是对于这个数据库是有意义的。比如:排序,分页大小的选择等等。如何得到一个非常适合的Query集合是非常关键的。

为了得到更合适的Query集合,我们想到了采用Query模版,也就是一个Query的表单集,能够迭代得到最多可能的所有的Query。对于一个卖书的商店,对应的Query集合可能如下:

<Z> {select * from DB where zip = z | z are valid zip codes }

<T> {select * from DB where type = t | t are valid store types }
<T, Z> {select * from DB where zip = z and type = t | … }

阅读全文…

Google工程师在2008年VLDB大会上关于Deep Web的演讲稿

2009年6月2日 jinhe.zengjh 没有评论

FromGoogle工程师Jayant Madhavan2008VLDB大会上的发言。

Deep Web指的是隐藏在HTML表单之后的信息内容,举例来说,对于一个网上卖书的网页来说,用户必须反复的尝试不同的值去提交表单,网站返回给用户的是一个列表展示的各种书的页面,这些内容其实都是属于Deep Web的内容。

e688aae59bbe33

阅读全文…

搜索的难题之Invisible Web/Deep Web

2009年3月1日 Rogers 没有评论

Deep Web (invisible Web) 中文可以翻译成深层网页或暗网。迈克尔.伯格曼将当今互联网上的搜索服务比喻为像在地球的海洋表面的拉起一个大网的搜索,巨量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎所错失掉。

数据来源:“Accessing the Deep Web”, Communications of the ACM, May 2007

Deep Web所涉及到的数量级要比我们想想的要大。实际上可以由搜索引擎的蜘蛛抓取的部分只是这巨大冰山浮出水面的很小的一部分。根据上图的一组数据所示,实际我们目前主流的搜索引擎只覆盖到了其中的37%这样的数量级。所以如何获取更深层网页是各家搜索引擎所面临的挑战和机遇。 阅读全文…