住宅IP:高匿是付费代理的基本要求,不是高匿的就不在本次讨论范围,就好像我们讨论哪款汽车好,不应该考虑自行车一样,那什么是住宅IP?我们可以理解成IP真人率的问题,你获取的IP代理,通过检测网站:https://ip.rtbasia.com/



那么问题来了,如果你是目标网站,你发现访问你网站的IP都来自于数据中心,你会认为它是正常用户吗?当你认为它是爬虫程序时,你还会给它返回正常的数据吗?拒绝访问、返回空白这些都还是轻的,有些网站会返回给你“加工”过的数据,而你自己还不自知,这才是最恐怖的,当你利用了这些不正确的数据,后果你细品。



这里要说明一点,检测是不是真实宽带或者数据中心的IP,一定要检测发送请求的IP,而不是服务器的ip,服务器的IP一定是显示数据中心的,因为有些二次转发的模式,返回给你的IP都是服务器IP,但是请求IP会另外分配。




独享IP:是指当你获取IP后,这段时间内,这个IP就只提供给你使用而不会分配给其他人使用,这样保证了IP的稳定性,同时确保了带宽,不会受到其它用户干扰,如果是共享IP,那同时有很多人在使用这个IP发送请求,速度就得不到保证,如果同时有另外一个用户也在爬取跟你一样的网站,同一个IP发送多个请求,你细品会发生什么?那么如何区分独享还是共享呢?很简单,提取不收费,使用才收费的,就都是共享的,因为IP放在哪里,你不用别人在用,我没什么损失,独享IP一般都是提取就计费的,因为分配给你之后,这个IP就被你占用了,我无法卖给其它人,所以无论你用不用,我都会收费,现在你还觉得提取不扣费,使用才扣费的就是好产品吗?




IP池大小:现在声称几十万、几百万、几千万IP的都有,但是重复调用的和真实IP要区分开,有些有1万IP,重复调用每天能有几十万,会声称自己几十万IP,有些有十万IP,重复调用每天可到百万级别,会吹嘘自己有几百万IP,我目前用到过的,真实IP每天能获取240万左右,重复调用在4000万左右,避免广告嫌疑,我就不说是哪家了,不过真有这么大需求的话,我想你也不会轻易下手购买,市面上主流的都测试一遍,你就知道我说的是哪家了。无论广告怎么吹嘘,一测就什么都出来了,所以重要的事情说三遍:多测试多对比!多测试多对比!多测试多对比!




并发量:并发是什么意思大家都懂,测试一家供应商实力除了看IP池,其实看并发量也是很好的一个指标,小打小闹的,并发量肯定是不高的,我用过最高的并发可以达到万级的。同样是上面的那家。




分布:真正离散分布的住宅IP,分布肯定是遍布全国所有的城市,或者全球几乎所有互联网覆盖的国家和地区,只是数量多与少的问题,这样与网民IP高度重合的,才是网站反爬程序最无解的。




时效:其实爬虫对于IP时效要求很低,因为一个IP一般短时间内根据反爬,发送几次请求就需要更换了,所以对时效要求不高,短的几十秒1分钟就够,长的也就十几分钟半个小时。所以这点对爬虫不那么重要。