python获取网页标题_python抽取指定url页面的title方法--688IT编程网

python获取⽹页标题_python抽取指定url页⾯的title⽅法

今天简单使⽤了⼀下python的re模块和lxml模块，分别利⽤的它们提供的正则表达式和xpath来解析页⾯源码从中提取所需的title，xpath 在完成这样的⼩任务上效率⾮常好，在这⾥之所以⼜使⽤了⼀下正则表达式是因为xpath在处理⼀些特殊的页⾯的时候会出现乱码的情况，当然这不是xpath的原因，⽽是页⾯本⾝编码，跟utf-8转码之间有冲突所致，这⾥看代码：

# !/usr/bin/python

#-*-coding:utf-8-*-

'''

功能：抽取指定url的页⾯内容中的title

'''

import re

import chardet

import urllib

from lxml import etree

def utf8_transfer(strs):

'''

utf8编码转换

'''

try:

if isinstance(strs, unicode):

strs = de('utf-8')

elif chardet.detect(strs)['encoding'] == 'GB2312':

strs = strs.decode("gb2312", 'ignore').encode('utf-8')

elif chardet.detect(strs)['encoding'] == 'utf-8':

strs = strs.decode('utf-8', 'ignore').encode('utf-8')

except Exception, e:

print 'utf8_transfer error', strs, e

return strs

def get_title_xpath(Html):

'''

⽤xpath抽取⽹页Title

'''

Html = utf8_transfer(Html)

Html_encoding = chardet.detect(Html)['encoding']

page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding))

title = page.xpath('/html/head/title/text()')

try:

title = title[0].strip()

except IndexError:

print 'Nothing'

print title

def get_title(Html):

'''

⽤re抽取⽹页Title

'''

Html = utf8_transfer(Html)

compile_rule = ur'

.*'

title_list = re.findall(compile_rule, Html)

if title_list == []:

title = ''

else:

title = title_list[0][7:-8]

print title

if __name__ == '__main__':

url = 'www.baidu'

html = urllib.urlopen(url).read()

new_html = utf8_transfer(html)

try:

get_title_xpath(new_html)

get_title(new_html)

url编码和utf8区别except Exception, e:

print e

下⾯是结果：

百度⼀下，你就知道

简单的⼩实践，继续学习，欢迎交流。

以上这篇python抽取指定url页⾯的title⽅法就是⼩编分享给⼤家的全部内容了，希望能给⼤家⼀个参考，也希望⼤家多多⽀持脚本之家。

688IT编程网

python获取网页标题_python抽取指定url页面的title方法

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

python获取网页标题_python抽取指定url页面的title方法

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则