python编码转换在线_python实现html代码转义转换--688IT编程网

python编码转换在线_python实现html代码转义转换

之前记录了从⽹上翻来的 Python HTMLParser处理HTML转义字符⽂档。不过在对带有中⽂字符的内容进⾏处理的时候会报错，代码如下：

# cat html.py

#/usr/bin/python

#coding=utf-8

import HTMLParser

html_parser = HTMLParser.HTMLParser()

title = 'eclipse功能<template>学习。e.g : 快速在代码中插⼊时间戳 - 361way'

newtitle = html_parser.unescape(title)

print newtitle

报错内容如下：

Traceback (most recent call last):

File "html.py", line 7, in

newtitle = html_parser.unescape(title)

File "/usr/lib64/python2.6/HTMLParser.py", line 390, in unescape

return re.sub(r"&(#?[xX]?(?:[0-9a-fA-F]+|w{1,8}));", replaceEntities, s)

File "/usr/lib64/python2.6/re.py", line 151, in sub

return _compile(pattern, 0).sub(repl, string, count)

html代码转链接

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 7: ordinal not in range(128)

解决⽅法如下：

#/usr/bin/python

#coding=utf-8

import HTMLParser

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

html_parser = HTMLParser.HTMLParser()

title = 'eclipse功能<template>学习。e.g : 快速在代码中插⼊时间戳 - SegmentFault'

newtitle = html_parser.unescape(title)

print newtitle

需要载⼊sys模块，重新设置默认编码为utf8，就不会出错了。不过要处理的内容只不过是⼀个⽂章的title部分，⽽常⽤的html转义内容也就如下⼏个：字符⼗进制转义字符

"""

&&&

<<<

>>>

不断开空格(non-breaking space)

于是决定使⽤python的replace功能实现⼀个简单的转义功能函数，具体如下：

#/usr/bin/python

#coding=utf-8

def replace_html(s):

s = s.replace('"','"')

s = s.replace('&','&')

s = s.replace('<','<')

s = s.replace('>','>')

s = s.replace(' ',' ')

s = s.replace(' - 361way','')

print s

replace_html(title)

优点就是快速简洁，不依赖于模块，实⽤时也⽆需再reload sys模块指定默认编码。

688IT编程网

python编码转换在线_python实现html代码转义转换

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python编码转换在线_python实现html代码转义转换

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式