从品牌网站建设到网络营销策划,从策略到执行的一站式服务
# https://movie.douban.com/top250?start=25&filter= 要爬取的网页
import re
from urllib.request import urlopen
def getPage(url):
response=urlopen(url)
return response.read().decode('utf-8')
def parsePage(s):
ret=com.finditer(s)
for i in ret:
ret={
'id': i.group('id'),
'move_name':i.group('move_name'),
'move_d':i.group( 'move_d'),
'move_t':i.group('move_t'),
'content': i.group('content'),
'infor':i.group('infor')
}
yield ret
def main(num):
url='https://movie.douban.com/top250?start=%s&filter= ' %num
res=getPage(url)
ret=parsePage(res)
print(ret)
f=open('move',mode='a+',encoding='utf-8')
for obj in ret:
print(obj)
data1=str(obj).replace('\\n','')
data2=data1.replace(' ','')
f.write(data2 + '\n')
f.close()
com=re.compile('(?:.*?)(?P.*?) (?:.*?)alt=(?P.*?)src(?:.*?)导演:'
'(?P.*?) (?:.*?)
(?P.*?) (?:.*?) / (?P.*?)(?:.*?)(?P.*?) ',re.S)
count=0
for i in range(10):
main(count)
count+=25
本文标题:爬取豆瓣的tp250电影名单
文章路径:http://cdkjz.cn/article/jopjji.html
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图