怎么用python爬取世界大学排行数据-快上网网站建设公司

怎么用python爬取世界大学排行数据

今天小编给大家分享一下怎么用python爬取世界大学排行数据的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。

成都创新互联公司长期为上千多家客户提供的网站建设服务，团队从业经验10年，关注不同地域、不同群体，并针对不同对象提供差异化的产品和服务；打造开放共赢平台，与合作伙伴共同营造健康的互联网生态环境。为澜沧企业提供专业的成都网站设计、网站制作，澜沧网站改版等技术服务。拥有10余年丰富建站经验和众多成功案例,为您定制开发。

创新互联建站2013年至今，先为枝江等服务建站，枝江等地企业，进行企业商务咨询服务。为枝江企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。

数据获取

我们这里选取的就是上海交通大学的 ARWU 网站

该网站包含了历年的大学分数以及排名情况。

通过分析页面可以发现，通过 pandas 的 read_html 函数来获取相关信息是最为方便的

table = pd.read_html(url)
college = table[0]

同时我们还发现，大学所对应的国家数据是图片，所以需要特殊处理下

def get_country_name(html):
    soup = BeautifulSoup(html,'lxml')
    countries = soup.select('td > a > img')
    lst = []
    for i in countries:
        src = i['src']
        pattern = re.compile('flag.*/(.*?).png')
        country = re.findall(pattern,src)[0]
        lst.append(country)
    return lst

最后我们把得到的数据进行下处理，去除掉不需要的字段，再增加年份字段等

for i in range(2005, 2020):
    print('year', i)
    url = 'http://www.shanghairanking.com/ARWU%s.html' % i
    html = requests.get(url).content
    table = pd.read_html(url)
    college = table[0]
    college.columns = ['world rank','university', 2,3, 'score', 5]
    college.drop([2,3,5],axis = 1,inplace = True)
    college['year'] = i
    college['index_rank'] = college.index
    college['index_rank'] = college['index_rank'].astype(int) + 1
    college['country'] = get_country(html)
    college.to_csv(r'College.csv', mode='a', encoding='utf_8_sig', header=True, index=0)

这样，我们就得到了 College.csv 文件

以上就是“怎么用python爬取世界大学排行数据”这篇文章的所有内容，感谢各位的阅读！相信大家阅读完这篇文章都有很大的收获，小编每天都会为大家更新不同的知识，如果还想学习更多的知识，请关注创新互联行业资讯频道。

分享题目：怎么用python爬取世界大学排行数据
标题来源：http://cdkjz.cn/article/iijpoh.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

怎么用python爬取世界大学排行数据

数据获取

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

怎么用python爬取世界大学排行数据

数据获取

相关资讯

Qt如何编写安防视频监控系统实现掉线重连

LaravelCarbon扩展包的作用有哪些

linux运维必须要学python吗

在.NET中编辑器在用伪静态后不能正常使用的解决方法

虚拟主机怎样备份

基于JavaScript实现购物车功能

Angular5中提取公共组件之radiolist的实例代码

AndroidDaggerActivityComponent错误解决办法详解

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接