python读取ansi编码⽂件,如何在Python中同时读取ANSI和
Unicodetxt⽂件?
我是python新⼿,遇到了⼀个奇怪的问题:
当⼀个⽬录中有50个txt⽂件时,我希望读取每个.txt⽂件并将其内容保存在⼀个唯⼀的变量中,例如:**file = open(fcf[i], 'r')
text[i] = ad()**
当我只读取⼀个⽂件时,没关系:
^{pr2}$
但是,在循环中读取txt⽂件是错误的:
下⾯是我的代码,出现了⼀个⾮常奇怪的错误**text = np.zeros((np.shape(fcf)[0],1))
for flag in range(np.shape(fcf)[0]):
file = open(fcf[flag], 'r')
text = ad() # string
file.close()**
---------------------------------------------------------------------------
UnicodeDecodeError Traceback (most recent call last)
in ()
2 for flag in range(np.shape(fcf)[0]):
3 file = open(fcf[flag], 'r')
----> 4 text = ad() # string
5 file.close()
**UnicodeDecodeError: 'gbk' codec can't decode byte 0x94 in position 418: illegal multibyte sequence**
更新:
以循环形式:file = open(fcf[flag], 'r', encoding='UTF-8')
错误也会发⽣:UnicodeDecodeError: 'utf-8' codec can't decode byte 0x94 in position 418: invalid start byte
有⼈能帮我吗?⾮常感谢你!在
更新2:
在这些.txt⽂件中,⼤多数⽂件都是Unicode格式的,这对于python来说是持久的。我发现,在记事本中,有2.txt⽂件是ANSI编码的,这就导致了这个问题。在
如何在python中同时读取ANSI和Unicode?在
更新3:
谢谢⼤家。这个问题已经解决了。在
出现此问题有两个原因:⼀些ANSI txt⽂件在整体UTF8⽂件中。
ANSI编码中出现⼀些奇怪的匹配:
没有-没有
不是-不是,等等
(“井-井)
虽然我的电脑完全是英⽂,但这个问题仍然发⽣在ANSI txt上。(需要⼿动修改,因为记事本只更改编码,⽽不是上⾯奇怪的字符…)希望对其他⾯临类似问题的⼈有所帮助。泰铢
>python怎么读取txt

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。