本文由我司收集整编,推荐下载,如有疑问,请与我司联系
从HTML文档中提取链接
2012/11/21 0  应用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、...Admin2011年8月31日名人名言:开放、搞活政策延续多久,端正党风的工作就得干多久,纠正不正之风,打击犯罪就得干多久,这样才能保证我们开放,搞活政策扔正确执行——对搜刮引擎、文件索引、文档转换、数据检索、站点备份或迁徙等应用法度来说,经常用到对网页(即HTML文件)的解析处理惩罚。事实上,经由过程Python说话供给的各类模块,我们无需借助Web办事器或者Web浏览器就可以或许解析和处理惩罚HTML文档。本文上篇中,我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中,我们将论说如何应用Python模块来敏捷解析在HTML文件中的数据,从而处理惩罚特定的内容,如链接、图像和Cookie
等。同时还会介绍如何规范HTML文件的局标签。
 一、从HTML文档中提取链接网页html下载
 Python说话还有一个很是有效的模块HTMLParser,该模块使我们可以或许按照HTML文档中的标签来简洁、高效地解析HTML文档。因此,在处理惩罚HTML
文档的时辰,HTMLParser是最常用的模块之一。
  import HTMLParser import urllib class parseLinks(HTMLParser.HTMLParser): def handle_starttag(self,tag,attrs): if tag == a : for name,valuein attrs: if name == href : print value _starttag_text()lParser = parseLinks()lParser.feed (urllib.urlopen(python/index.html ).read())处理惩罚HTML文档的时辰,我们经常须要从此中提取出所有的链接。应用HTMLParser模块后,这项任务将变得易如反掌。起首,我们须要定义一个新的HTMLParser类,以覆盖handle_starttag ()办法,我们将应用这个办法来显示所有标签的HRef属性。
 定义好新的HTMLParser类之后,须要创建一个实例来返回HTMLParser对象。然后,就可以应用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。