从品牌网站建设到网络营销策划,从策略到执行的一站式服务
今天就跟大家聊聊有关HTMLParser模块怎么在python中使用,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
创新互联是一家专业提供房山企业网站建设,专注与做网站、成都网站设计、HTML5、小程序制作等业务。10年已为房山众多企业、政府机构等服务。创新互联专业网络公司优惠进行中。安装:
npm install htmlparser
htmlparser提供构造函数:
function Parser(handler) { this._handler = handler; }
HTMLParser解析HTML:
from html.parser import HTMLParser from html.entities import name2codepoint class MyHTMLParser(HTMLParser): def handle_starttag(self, tag, attrs): print('<%s>' % tag) def handle_endtag(self, tag): print('%s>' % tag) def handle_startendtag(self, tag, attrs): print('<%s/>' % tag) def handle_data(self, data): print(data) def handle_comment(self, data): print('') def handle_entityref(self, name): print('&%s;' % name) def handle_charref(self, name): print('%s;' % name) parser = MyHTMLParser() parser.feed('''Some html HTML tutorial...
''')
END
HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,大家也可以尝试利用HTMLParser解析HTML。
知识点扩展:
常用方法介绍
l feed(data):主要用于接受带html标签的str,当调用这个方法时并提供相应的data时,整个实例(instance)开始执行,结束执行close()。
l handle_starttag(tag, attrs):这个方法接收Parse_starttag返回的tag和attrs,并进行处理,处理方式通常由使用者进行覆盖,本身为空。
例如,连接的start tag是,那么对应的参数tag='a'(小写)。attrs是start tag <>中的属性,以元组形式(name, value)返回(所有这些内容都是小写)。
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询028-86922220
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图