如何从UserAgent识别搜索引擎并判断真假蜘蛛-快上网网站建设公司

如何从UserAgent识别搜索引擎并判断真假蜘蛛

小编给大家分享一下如何从UserAgent识别搜索引擎并判断真假蜘蛛，希望大家阅读完这篇文章后大所收获，下面让我们一起去探讨吧！

创新互联公司从2013年成立，是专业互联网技术服务公司，拥有项目网站制作、做网站网站策划，项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命，1280元宁津做网站,已为上家服务,为宁津各地企业和个人服务,联系电话:18980820575

一般搜索引擎去爬取一个网站时，首先是去读取网站的robots.txt 文件，看看网站管理员有没有在该文件设置禁止某些蜘蛛，或禁止访问

哪些路径。然而一些流氓蜘蛛不会顾及robots.txt 文件，想爬哪就爬哪。这种情况管理员只能通过应用程序去识别判断，是否限制某些访

问。

识别搜索引擎

通过UserAgent 字符串来识别，下面例子是使用Go 来实现

简单的是通过正则来识别：

spiderReg = regexp.MustCompile(`(?i)bot|crawl|spider|slurp|sohu-search|lycos|robozilla|google|Baidu`)

上面的正则就能识别大多数搜索引擎，使用方法：

if spiderReg.MatchString(r.Header.Get("User-Agent")) {
    // 对搜索引擎作响应
}

如果要想要从UserAgent 里分析出更多的信息，可借助一些库来解析，如下面：

import "github.com/mssola/user_agent"

ua = user_agent.UserAgent{}
ua.Parse("Mozilla/5.0 (compatible; Googlebot/2.1;+http://www.google.com/bot.html)")

fmt.Printf("%v\n", ua.Bot())      // => true
name, version = ua.Browser()
fmt.Printf("%v\n", name)          // => Googlebot
fmt.Printf("%v\n", version)       // => 2.1

识别真假

UserAgent 字符串可以在 http 请求时设置，任何一个客户端都可以伪造成一个搜索引擎去访问你的网站。可以通过下面两个步骤去识别真正的搜索引擎。

在 *nix 系统下使用 host 命令，使用方法如下面两个示例：

$ host 207.46.13.178
178.13.46.207.in-addr.arpa domain name pointer msnbot-207-46-13-178.search.msn.com.
$ host msnbot-207-46-13-178.search.msn.com
msnbot-207-46-13-178.search.msn.com has address 207.46.13.178
$ host 203.208.60.24
24.60.208.203.in-addr.arpa domain name pointer crawl-203-208-60-24.googlebot.com.
$ host crawl-203-208-60-24.googlebot.com
crawl-203-208-60-24.googlebot.com has address 203.208.60.24

解释一下上面的过程，首先通过来访 IP 作DNS反向查询，得到相关域名，再把得到的域名再做一次查询，得到 IP，与原来的IP 相同才是比较靠谱的搜索引擎。

Go 语言里的 net 包可以实现这样的查询：

names, err := net.LookupAddr(ip)
addrs, err := net.LookupHost(name)

通过这种方式建立一个IP白名单，就可以屏蔽掉一些来路不明的蜘蛛。

看完了这篇文章，相信你对如何从UserAgent识别搜索引擎并判断真假蜘蛛有了一定的了解，想了解更多相关知识，欢迎关注创新互联行业资讯频道，感谢各位的阅读！

当前题目：如何从UserAgent识别搜索引擎并判断真假蜘蛛
分享链接：http://cdkjz.cn/article/joocdo.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

如何从UserAgent识别搜索引擎并判断真假蜘蛛

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

如何从UserAgent识别搜索引擎并判断真假蜘蛛

相关资讯

java交易所开源代码 开源java商城

关于周口sap系统服务的信息

包含sap的mes系统的词条

Java姓名性别年龄代码 用java怎么写出姓名

c语言函数求正整数平方根 c语言求正整数的平方根

阿里云架设求生之路服务器 阿里云架设求生之路服务器错误

Linux命令完全记不住 linux命令速记

c语言itoa函数格式的简单介绍

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

java交易所开源代码开源java商城

Java姓名性别年龄代码用java怎么写出姓名

阿里云架设求生之路服务器阿里云架设求生之路服务器错误

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接