网站建设 >

查看其它板块

BeautifulSoup怎么在Python中使用-创新互联

BeautifulSoup怎么在Python中使用？很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。

广元网站制作公司哪家好，找创新互联公司！从网页设计、网站建设、微信开发、APP开发、自适应网站建设等网站项目制作，到程序开发，运营维护。创新互联公司自2013年创立以来到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选创新互联公司。
python有哪些常用库

python常用的库：1.requesuts；2.scrapy；3.pillow；4.twisted；5.numpy；6.matplotlib；7.pygama；8.ipyhton等。

第一步，访问网址并抓取源码

# -*- coding: utf-8 -*-

import urllib
import urllib2
import re
import os

if __name__ == '__main__':
  # 访问网址并抓取源码
  url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'
  user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
  headers = {'User-Agent':user_agent}
  try:
    request = urllib2.Request(url = url, headers = headers)
    response = urllib2.urlopen(request)
    content = response.read()
  except urllib2.HTTPError as e:
    print e
    exit()
  except urllib2.URLError as e:
    print e
    exit()
  print content.decode('utf-8')

第二步，利用正则表达式提取信息

首先先观察源码中，你需要的内容的位置以及如何识别
然后用正则表达式去识别读取
注意正则表达式中的 . 是不能匹配\n的，所以需要设置一下匹配模式。

# -*- coding: utf-8 -*-


import urllib
import urllib2
import re
import os

if __name__ == '__main__':
  # 访问网址并抓取源码
  url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'
  user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
  headers = {'User-Agent':user_agent}
  try:
    request = urllib2.Request(url = url, headers = headers)
    response = urllib2.urlopen(request)
    content = response.read()
  except urllib2.HTTPError as e:
    print e
    exit()
  except urllib2.URLError as e:
    print e
    exit()

  regex = re.compile('.*?(.*?).*?

', re.S) items = re.findall(regex, content) # 提取数据 # 注意换行符，设置 . 能够匹配换行符 for item in items: print item

第三步，修正数据并保存到文件中

# -*- coding: utf-8 -*-


import urllib
import urllib2
import re
import os

if __name__ == '__main__':
  # 访问网址并抓取源码
  url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'
  user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
  headers = {'User-Agent':user_agent}
  try:
    request = urllib2.Request(url = url, headers = headers)
    response = urllib2.urlopen(request)
    content = response.read()
  except urllib2.HTTPError as e:
    print e
    exit()
  except urllib2.URLError as e:
    print e
    exit()

  regex = re.compile('.*?(.*?).*?

', re.S)   items = re.findall(regex, content)   # 提取数据   # 注意换行符，设置 . 能够匹配换行符   path = './qiubai'   if not os.path.exists(path):     os.makedirs(path)   count = 1   for item in items:     #整理数据，去掉\n,将
换成\n     item = item.replace('\n', '').replace('
', '\n')     filepath = path + '/' + str(count) + '.txt'     f = open(filepath, 'w')     f.write(item)     f.close()     count += 1

第四步，将多个页面下的内容都抓取下来

# -*- coding: utf-8 -*-


import urllib
import urllib2
import re
import os

if __name__ == '__main__':
  # 访问网址并抓取源码
  path = './qiubai'
  if not os.path.exists(path):
    os.makedirs(path)
  user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
  headers = {'User-Agent':user_agent}
  regex = re.compile('.*?(.*?).*?

', re.S)   count = 1   for cnt in range(1, 35):     print '第' + str(cnt) + '轮'     url = 'http://www.qiushibaike.com/textnew/page/' + str(cnt) + '/?s=4941357'     try:       request = urllib2.Request(url = url, headers = headers)       response = urllib2.urlopen(request)       content = response.read()     except urllib2.HTTPError as e:       print e       exit()     except urllib2.URLError as e:       print e       exit()     # print content     # 提取数据     # 注意换行符，设置 . 能够匹配换行符     items = re.findall(regex, content)     # 保存信息     for item in items:       #  print item       #整理数据，去掉\n,将
换成\n       item = item.replace('\n', '').replace('
', '\n')       filepath = path + '/' + str(count) + '.txt'       f = open(filepath, 'w')       f.write(item)       f.close()       count += 1   print '完成'

使用BeautifulSoup对源码进行解析

# -*- coding: utf-8 -*-


import urllib
import urllib2
import re
import os
from bs4 import BeautifulSoup

if __name__ == '__main__':
  url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'
  user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
  headers = {'User-Agent':user_agent}
  request = urllib2.Request(url = url, headers = headers)
  response = urllib2.urlopen(request)
  # print response.read()
  soup_packetpage = BeautifulSoup(response, 'lxml')
  items = soup_packetpage.find_all("div", class_="content")

  for item in items:
    try:
      content = item.span.string
    except AttributeError as e:
      print e
      exit()

    if content:
      print content + "\n"

这是用BeautifulSoup去抓取书本以及其价格的代码
可以通过对比得出到bs4对标签的读取以及标签内容的读取
（因为我自己也没有学到这一部分，目前只能依葫芦画瓢地写）

# -*- coding: utf-8 -*-

import urllib2
import urllib
import re 

from bs4 import BeautifulSoup 


url = "https://www.packtpub.com/all"
try:
  html = urllib2.urlopen(url) 
except urllib2.HTTPError as e:
  print e
  exit()

soup_packtpage = BeautifulSoup(html, 'lxml') 
all_book_title = soup_packtpage.find_all("div", class_="book-block-title") 

price_regexp = re.compile(u"\s+\$\s\d+\.\d+") 

for book_title in all_book_title: 
  try:
    print "Book's name is " + book_title.string.strip()
  except AttributeError as e:
    print e
    exit()
  book_price = book_title.find_next(text=price_regexp) 
  try:
    print "Book's price is "+ book_price.strip()
  except AttributeError as e:
    print e
    exit()
  print ""

看完上述内容是否对您有帮助呢？如果还想对相关知识有进一步的了解或阅读更多相关文章，请关注创新互联行业资讯频道，感谢您对创新互联的支持。

本文名称：BeautifulSoup怎么在Python中使用-创新互联
标题链接：http://cdkjz.cn/article/deegih.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

广汉锦华橡塑香港空间成都网站制作公司成都花箱厂家攀枝花网站设计成都网站制作网站报价方案成都力比特成都网站建设成都网站建设推广

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

BeautifulSoup怎么在Python中使用-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

BeautifulSoup怎么在Python中使用-创新互联

相关资讯

mysql怎么做高可用 consul mysql高可用

vb.net串口通信控件 vb 串口通信

java输入输出窗口代码 java输出框

go语言直接跳过输入 go语言技巧

zblog应用 zblog应用市场真难上

域名系统记录怎么查找不到 我的域名怎么查询不到

关于sap系统硬件坚决方案的信息

mac怎么用阿里云服务器 mac使用云服务器

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

域名系统记录怎么查找不到我的域名怎么查询不到

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接