网站建设 >

查看其它板块

古诗文网站的网络爬虫编写方式，通过网络爬虫抓去内容

1. 以下就是古诗文网站的爬虫代码，请看：

为阳明等地区用户提供了全套网页设计制作服务，及阳明网站建设行业解决方案。主营业务为成都网站建设、网站建设、阳明网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

# encoding:utf-8
import requests
import re
import json
 
 
def parse_page(url):
    # 1.请求网站
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"
    }
    response = requests.get(url, headers=headers)
    text = response.text
    # 2.解析网站
    titles = re.findall(r'.*?(.*?)', text, re.DOTALL)
    # print json.dumps(titles, encoding="utf-8", ensure_ascii=False)
    times = re.findall(r'.*?(.*?)', text, re.DOTALL)
    # print json.dumps(times, encoding="utf-8", ensure_ascii=False)
    authors = re.findall(r'.*?(.*?)', text, re.DOTALL)
    poems_ret = re.findall(r'(.*?)

', text, re.DOTALL) poems = [] for poem in poems_ret: temp = re.sub("<.*?>", "", poem) poems.append(temp.strip()) # for index, value in enumerate(titles): # print titles[index] # print times[index] # print authors[index] # print poems[index] # print "*"*50 # zip函数自动实现上述组合 results = [] for value in zip(titles, times, authors, poems): title, time, author, poem = value result = { "标题": title, "朝代": time, "作者": author, "原文": poem } print result["标题"] results.append(result) # print results def main(): url_base = "https://www.xzslx.net/gushi/" for i in range(1, 11): url = url_base.format(i) print " "*20+"优美古诗文"+" "*20 print "*"*50 parse_page(url) print "*"*50 if __name__ == '__main__': main()

2. 输出来的结果是：

C:\DDD\python22\python.exe C:/PyCharm/dytt_spider/poems.py
                    古诗文                    
**************************************************
关山月
明月出天山，苍茫云海间。
长风几×××，吹度玉门关。 
汉下白登道，胡窥青海湾。
[2] 由来征战地，不见有人还。
戍客望边邑，思归多苦颜。 
高楼当此夜，叹息未应闲。
**************************************************
                    古诗文                    
**************************************************
陇西行四首·其二
誓扫匈奴不顾身，五千貂锦丧胡尘。
可怜无定河边骨，犹是春闺梦里人！
**************************************************
                    古诗文                    
**************************************************
嫦娥（嫦娥应悔偷灵药)
云母屏风烛影深， 长河渐落晓星沉。 嫦娥应悔偷灵药， 碧海青天夜夜心。
**************************************************

Process finished with exit code 0

网站栏目：古诗文网站的网络爬虫编写方式，通过网络爬虫抓去内容
URL网址：http://cdkjz.cn/article/igidgo.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

眉山做网站成都定制网站 syruijie.cn 定制网站设计 pzhzwz.com 成都微信小程序开发 app软件开发混凝土密封固化剂食品包装设计电信内江机房

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

古诗文网站的网络爬虫编写方式，通过网络爬虫抓去内容

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

古诗文网站的网络爬虫编写方式，通过网络爬虫抓去内容

相关资讯

jQuery之选择器

大数据需要学Java编程语言吗

怎么将div固定浮动网页底部

sendmail安装

mysql怎么导入dmp文件

PHP、MySQL和JavaScript学习手册笔记（二）

使用go-mysql-postgresql实现MySQL实

Android编程实现的首页左右滑动切换功能示例

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接