python把字符串中的中文去除_处理python字符串中的中文字符--688IT编程网

python把字符串中的中⽂去除_处理python字符串中的中⽂字

符

# -*- coding:utf-8 -*-

import sys,os

txta = open('a.txt','r')

str = ''

for line in txta:

中文字符unicode查询

str += line.strip().decode('utf-8')

txta.close()

for word in str:

de('utf-8')

直接输出，是会乱码的，得先解码，再编码。

⾸先要明⽩的是，python⾥⾯默认的字符串都是ASCII编码，是string类型，ASCII编码处理中⽂字符是会出问题的。python的内部编码格式是unicode，在字符串前加‘u’前缀也可直接声明unicode字符串，如 u'hello'就是unicode类型。

如果处理的字符串中出现⾮ascii码表⽰的字符，要想不出错，就得转成unicode编码了。具体的⽅法有：

decode()，将其他边编码的字符串转换成unicode编码，如str1.decode('gb2312')，表⽰将gb2312编码的字符串str1转换成unicode编码；

encode()，将unicode编码转换成其他编码的字符串，如de('gb2312')，表⽰将unicode编码的字符串str2转换成gb2312编码；

unicode()，同decode()，将其他编码的字符串转换成unicode编码，如unicode(str3, 'gb2312')，表⽰将gb2312编码的字符串str3转换成unicode编码。

转码的时候⼀定要先搞明⽩字符串str是什么编码，然后decode成unicode，最后再encode成其他编码。

另外，对⼀个unicode编码的字符串在进⾏解码会出错，所以在编码未知的情况下要先判断其编码⽅式是否为unicode，可以⽤

isinstance(str, unicode)。

不仅是中⽂，以后处理含⾮ascii编码的字符串时，都可以遵循以下步骤：

1、确定源字符的编码格式，假设是utf8；

2、使⽤unicode()或decode()转换成unicode编码，如str1.decode('utf8')，或者unicode(str1, 'utf8');

3、把处理后字符串⽤encode()编码成指定格式。

发表评论

688IT编程网

python把字符串中的中文去除_处理python字符串中的中文字符

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python把字符串中的中文去除_处理python字符串中的中文字符

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式