怎么用python爬取猫眼电影的前100部影片-快上网网站建设公司

怎么用python爬取猫眼电影的前100部影片

这篇文章主要介绍“怎么用python爬取猫眼电影的前100部影片”，在日常操作中，相信很多人在怎么用python爬取猫眼电影的前100部影片问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么用python爬取猫眼电影的前100部影片”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

成都创新互联是一家集网站建设,柘城企业网站建设,柘城品牌网站建设,网站定制,柘城网站建设报价,网络营销,网络优化,柘城网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

import requestsimport refrom bs4 import BeautifulSoupfrom lxml import etreeimport tracebackimport csv#定义一个函数获取豆瓣电影第一页def get_one_page(url,code = 'utf-8'):    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36'}    try:        r = requests.get(url,headers = headers)        if r.status_code == 200:            r.encoding = code            return r.text        else:            print("相应失败")            return None    except:        traceback.print_exc()def process(raw):    right = raw.split("@")    return right[0]def area(a):    if a[-1] == ")":        return a[16:]    else:        return None
def parse_one_page(slst,html):    #正则表达式    # rank = re.findall('.*?',html,re.S)    # name = re.findall('(.*?)',html,re.S)    # star = re.findall('
(.*?)
',html,re.S)    # time = re.findall('(.*?)
',html,re.S)    # print(time)    #正则表达式别忘了加上r,防止转义,否则会报错    # 把上面的正则表达式合在一起    pattern = re.compile(r'
.*?.*?(.*?).*?
(.*?)
.*?(.*?)
.*?<.*?>(.*?)(.*?)
',re.S)    items = re.findall(pattern,html)    #print(items)    for item in items:        #yield就相当于return的功能，但也有所不同，yield语句把程序编程迭代器        yield {            'rank':item[0],            'img':process(item[1]),            'MovieName':item[2],            "star":item[3].strip()[3:],            "time":item[4].strip()[5:15],            "area":area(item[4].strip()),            "score":str(item[5]) + str(item[6])        }    # return ""def write_to_file(item):    with open("猫眼top100.csv",'a',encoding = "utf_8_sig",newline="") as f:        #a追加模式 newline区分换行符        fieldnames = ['rank','img','MovieName','star','time','area','score']        w = csv.DictWriter(f,fieldnames = fieldnames)  #字典写入到csv        # w.writeheader()        w.writerow(item)     return ""def down_img(name,url,num):    try:        response = requests.get(url)        with open('C:/Users/HUAWEI/Desktop/py/爬虫/douban/'+name+'.jpg','wb') as f:            f.write(response.content)            print("第%s张图片下载完毕"%str(num))            print("="*20)    except Exception as e:        print(e.__class__.__name__) #打印错误类型名称def main(i):    num = 0    url = 'https://maoyan.com/board/4?offset=' + str(i)    html = get_one_page(url)    #print(html)    lst = [] #这个在这里没啥用，但以后若要单独存储某类信息，可是这样写，后面再对应加上函数参数    iterator = parse_one_page(lst,html)    for a in iterator:        #print(a)        num += 1        write_to_file(a)        down_img(a['MovieName'],a['img'],num)                # if __name__ == '__main__':#     for i in range(10):#         main(i)        #多线程抓取 from multiprocessing import Poolif __name__ == '__main__':    pool = Pool()    pool.map(main,[i * 10 for i in range(10)])

最终运行结果如下：

保存封面图片

把爬到的信息储存到csv文件中

到此，关于“怎么用python爬取猫眼电影的前100部影片”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注创新互联网站，小编会继续努力为大家带来更多实用的文章！

标题名称：怎么用python爬取猫眼电影的前100部影片
转载来于：http://cdkjz.cn/article/poiijs.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

怎么用python爬取猫眼电影的前100部影片

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

怎么用python爬取猫眼电影的前100部影片

相关资讯

java代码风格格式化,java格式化sql语句

鸿蒙系统开发资金,鸿蒙系统投资多少?

php中大量数据如何优化,php大数据量循环遍历优化

oracleguan网如何登陆,服务器登录oracle

android面试试题,android面试题大全

mysql数据库怎么维护,SQL数据库的维护

oracle怎么设置分区,oracle怎么建分区

oracle视图如何去重,数据库视图去重

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接