网站建设 >

查看其它板块

记一次不太成功的爬取dingtalk上的企业的信息

首先打开这个链接https://www.dingtalk.com/qiye/1.html，可以网页列出了很多企业，点击企业，就看到了企业的信息。
记一次不太成功的爬取dingtalk上的企业的信息
所以，我们的思路就很明确了，通过https://www.dingtalk.com/qiye/1.html这个入口链接获取企业的URL，然后通过访问企业的URL获取企业的信息。在jupyter notebook中试一下。

企业的URL已经获取到了，然后再访问企业的URL，看看能否获取到企业的信息。
没有。
写请求头，请求头包含两项，一个是cookie，一个user-agent。加上请求头再试试看，有了。
记一次不太成功的爬取dingtalk上的企业的信息
发现企业信息在js代码里，写正则表达式

创新互联公司服务电话：18980820575，为您提供成都网站建设网页设计及定制高端网站建设服务，创新互联公司网页制作领域十载，包括护栏打桩机等多个行业拥有丰富的网站制作经验，选择创新互联公司，为网站保驾护航。

patterns = r'"businessInfoData":{"enterpriseName":"(.*?)","frName":"(.*?)","enterpriseType":"(.*?)","enterpriseStatus":"(.*?)","regCap":"(.*?)","regCapCur":"(.*?)","esDate":"(.*?)","regOrg":"(.*?)","operateScope":"(.*?)","address":"(.*?)","regNo":"(.*?)","creditCode":"(.*?)","region":"(.*?)"}'
results = re.findall(patterns, html)

ok，成功匹配出来
记一次不太成功的爬取dingtalk上的企业的信息
到此，发现很简单了，立马就把代码给写了出来，但发现一些问题，只有一部分企业的信息爬取了出来，大部分企业信息都获取失败了。这是咋回事呢，原来啊，有的企业URL源码里有企业信息，而有的没有。
记一次不太成功的爬取dingtalk上的企业的信息

然后，我查看完整企业信息，发现这个

但是，我无法构造这个链接，忧伤。
所以，整个爬虫到此为止。写代码的时候，原本想用入口链接不断下一页获取所有企业URL，但一想，算了吧，直接简单粗暴一点。然后呢，爬取的时候，爬取速度好慢。
最后，附上垃圾的源码github。

本文名称：记一次不太成功的爬取dingtalk上的企业的信息
网页链接：http://cdkjz.cn/article/ghodsg.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

南充网站建设公司宣传册设计成都建站成都网站建设无纺布袋定制做网站设计微信开发成都托管服务器成都营销网站制作网站设计公司

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

记一次不太成功的爬取dingtalk上的企业的信息

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

记一次不太成功的爬取dingtalk上的企业的信息

相关资讯

Windows OpenGL 图像饱和度调节

c++ 对象模型 函数

Windows OpenGL ES 图像伽马线

驱动开发：内核特征码扫描PE代码段

&lt;一&gt;类,对象,this指针

OpenGL 亮度调节

分治的理解

OpenGL 饱和度调节

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

c++ 对象模型函数

<一>类,对象,this指针

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接