本篇内容介绍了“爬虫代理IP的类型和原理是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
成都创新互联服务项目包括南昌县网站建设、南昌县网站制作、南昌县网页制作以及南昌县网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,南昌县网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到南昌县省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!
1、代理类型:透明代理IP、匿名代理IP、高匿名代理
代理IP可以分为四种类型。除透明代理IP、匿名代理IP、高匿名代理IP外,还有一类是混淆代理IP。就基本安全性而言,它们的排列顺序是高匿>混淆>匿名>透明。
2、代理原理:REMOTE_ADDR、X-Forwarded-For(XFF)、HTTP_VIA。
代理类型主要依赖于代理服务器端的配置,不同的配置形成不同的代理类型。在配置中,这三个变量REMOTE_ADDR、HTTP_VIA、HTTP_X_FORWARDED_FOR是决定性因素。
(一)REMOTE_ADDR
REMOTE_ADDR代表客户机的IP,但是它的值不是由客户机提供的,而是由服务器根据IP指定。
如果您使用浏览器直接访问站点,则站点的web服务器(Nginx、Apache等)将REMOTE_ADDR设置为客户端的IP地址。
如果我们为浏览器设置代理,我们访问目标站点的请求首先通过代理服务器,然后代理服务器将请求转换为目标站点。网站的web代理服务器将REMOTE_ADDR设置为代理服务器的IP。
(二)X-Forwarded-For(XFF)
X-Forwarded-For是HTTP扩展头,用于表示HTTP请求端的真实IP。当客户端使用代理时,网络代理服务器不知道客户端的真实IP地址。为了避免这种情况,代理服务器通常会添加X-Forwarded-For的头部信息,并将客户端的IP添加到头部信息中。
X-Forwarded-For请求头格式如下:
X-Forwarded-For:client,proxy1,proxy2
client表示客户端的IP地址;proxy1是离服务器最远的设备IP;proxy2是次级代理设备的IP;从格式上可以看出,从client到server可以有多层代理。
在HTTP请求到达服务器之前,通过3个代理Proxy1、Proxy2、Proxy3,IP分别为IP1、IP2、IP3,用户的实际IP为IP0时,根据XFF标准,服务器最终会收到以下信息
X-Forwarded-For:IP0,IP1,IP2
Proxy3直接连接到服务器,并将IP2添加到XFF,以帮助Proxy2转发请求。列表中没有IP3,IP3可以在服务器上通过RemoteAddress字段获得。众所周知,HTTP连接是以TCP连接为基础的,HTTP协议中没有IP概念,RemoteAddress来自TCP连接,这意味着与服务器建立TCP连接的设备IP就是IP3。这里我建议爬虫使用http的时候尽量用像太阳http这样正规的产品
(三)HTTP_VIA
via是HTTP协议中的header,记录了HTTP请求的代理和网关,通过一个代理服务器添加一个代理服务器的信息,通过两个添加两个。
“爬虫代理IP的类型和原理是什么”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站,小编将为大家输出更多高质量的实用文章!