在采集网站时,如果目标网站有防采集机制,那么就无法达到批量采集的目的,这里介绍下火车采集器中的二级代理功能,可以在火车采集器中调用代理IP以及拨号功能

   一.二级代理功能

二级代理功能分为两种类型:固定代理以及商业代理,下面介绍下,使用二级代理功能前需要先进行的设置:

1.设置  [代理验证网页及数据缓存设置]:点击如图向下箭头可设置此步骤,此步骤是用于验证代理IP是否可用。原理是通过设置代理IP访问地址,若是能正常返回设定的字符,则代理IP验证通过。

这里的[访问地址]一般使用的是你要采集的目标站的地址,[返回字符] 用该地址正常访问时返回的源码

自定义占位符图片

2.设置好步骤后,就可以选择使用[固定代理]还是[商业代理]了。

(1)固定代理:固定代理可以选择两种添加方式,

①点击[添加]按钮,手动填写ip以及相关信息

②若是大批量的IP,可以使用文本[导入]的方式,如下图文本中格式。如果是有用户名密码,格式为:user:paaword@58.218.200.228:9053。若无,如下图正常的IP格式即可。一行一个分割IP。

然后点击代理验证,验证IP的是否可用。

自定义占位符图片

自定义占位符图片

(2)[商业代理]:商业代理是基于付费代理的api来获取IP的。需要您从网上购买代理IP的api来使用,这里介绍下使用过程中的注意事项:

自定义占位符图片

①请求网址:您需要在您购买代理的付费网站生成api,该api要求访问一次可以获取一个IP,是文本格式,你用该api直接在浏览器中打开,显示如下图:

自定义占位符图片

②代理数量:有效的代理IP数量,即同时请求几个代理IP供用户使用。比如写2,即两个代理Ip轮流使用,若是IP失效了,或者是封禁了,那么就会自动请求网址api,补充代理IP,保证同时可用的IP数量为2。

③代理更换方式:

定时:按照指定的时间间隔更换IP

定量:每个IP使用指定次数后,就更换IP

封禁:当采集到的内容出现指定的字符串后,则代表IP不可用,就更换IP。

以上方式进行更换的代理IP,若是勾选下面的选项,则会自动验证代理IP是否有效。

自定义占位符图片

以上两种代理可以任选一种方式设置,设置好之后,可以设置一个空闲的端口,然后点击启动代理,接着在规则中调用该代理IP,保存后运行任务,接着就可以在http二级代理服务器中看到运行日志:

自定义占位符图片

自定义占位符图片