python解析xml中⽂解决⽅式(转)
今天⽤python解析xml⽂件,出现异常信息如下:
pat.ExpatError: not well-formed (invalid token): line 13, column 31
解决⽅式:
将⽂件重新编码成utf-8格式就可以了。
在linux下⼀种取巧的解决⽅式:
python处理xml文件对于中⽂,这⾥选了⼀种取巧的⽅法。即先通过iconv命令将xml⽂件变成utf-8格式,然后将xml中指定编码格式的内容去掉即可。
可参考如下代码:
cmd = "iconv " + filename + " -t \"utf-8\" &p"
os.system(cmd)
utf_filename = "p"
f = open(utf_filename)
data = f.read()
f.close()
os.system("rm -p")
#----delete the encode type in  xml file-----
#result = re.sub(regex, newstring, subject)
data = place('encoding="GB2312"', '')
data = place('encoding="gb2312"', '')
#self.dom.unlink
self.dom = xml.dom.minidom.parseString( data )

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。