,规则为一行一个。

最常用的就是使用通配符,在指定字符前后加星号 *

技巧

一般我们在采集时,注意观察运行日志,如果出现了如下提示:

页面加载超过 30 秒限制. 超时请求: Transferring data from ih1.redbubble.net…

我们可以添加规则:*ih1.redbubble.net* ,过滤掉所有包含 ih1.redbubble.net 的请求,这种请求一般是外站图片、或者js请求。

注意:不要屏蔽你采集的网站主域名,比如你要采集 https://www.baidu.com/s?wd=x ,却加上规则 *www.baidu.com*,这样的话,可能就采集不到数据。

返回顶部