Google工程师在2008年VLDB大会上关于Deep Web的演讲稿(续)
2009年6月5日
没有评论
网页的提交一般都是采用表单的方式,通过各种各样的表单项和组合可以形成各种各样的查询。表单的提交方式有两种,POST方式和GET方式,POST方式所有的提交网址都是同一种形式,表单内容都隐藏在HTTP的请求中一起提交的,而GET方式则每次都是不一样的。
我们可以想象每一个Form后面都有一个数据库,每一次Form的提交就类似于查询SQL语句一样:select * from DB where I1=V1 and … and IN=VN 。但是也不是所有Form中的每一个表单都是对于这个数据库是有意义的。比如:排序,分页大小的选择等等。如何得到一个非常适合的Query集合是非常关键的。
为了得到更合适的Query集合,我们想到了采用Query模版,也就是一个Query的表单集,能够迭代得到最多可能的所有的Query。对于一个卖书的商店,对应的Query集合可能如下:
<Z> {select * from DB where zip = z | z are valid zip codes }
<T> {select * from DB where type = t | t are valid store types }<T, Z> {select * from DB where zip = z and type = t | … }
最新评论