Python⽂件读写、StringIO和BytesIO
1 IO的含义
在计算机中,IO是Input/Output的简写,也就是输⼊和输出。
由于程序和运⾏时数据是在内存中驻留,由CPU这个超快的计算核⼼来执⾏,涉及到数据交换的地⽅,通常是磁盘、⽹络等,就需要IO接⼝。
⽐如你访问百度⾸页,浏览器就需要通过⽹络IO获取⽹页。浏览器先会发送请求给百度服务器,告诉它想要的html⽹址,这个动作是往外发数据,叫Output。接着百度服务器把⽹页的内容发送过来,这个动作是从外⾯接收数据,叫Input。
所以,通常,程序完成IO操作会有Input和Output两个数据流。当然也有只⽤⼀个的情况,⽐如,从磁盘读取⽂件到内存,就只有Input操作,反过来,把数据写到磁盘⽂件⾥,就只是⼀个Output操作。
输⼊输出是相对的,要考虑具体的对象是什么。⼀般,当我们写的程序需要读取磁盘⽂件时,相当于把磁盘的数据输⼊到程序中,对于程序来说,读取的数据就属于Input,但是对于磁盘来说,相当于把数据输出给程序,输出的数据属于Output。
IO编程中,Stream(流)是⼀个很重要的概念,可以把流想象成⼀个⽔管,数据就是⽔管⾥的⽔,但是只能单向流动。Input Stream就是数据从外⾯(磁盘、⽹络)流进内
存,Output Stream就是数据从内存流到外⾯去。对于浏览⽹页来说,浏览器和服务器之间⾄少需要建⽴两根⽔管,才可以既能发数据,⼜能收数据。
python怎么读文件夹下的文件夹由于CPU和内存的速度远远⾼于外设的速度,所以,在IO编程中,就存在速度严重不匹配的问题。举个例⼦来说,⽐如要把100M的数据写⼊磁盘,CPU输出100M的数据只需要0.01秒,可是磁盘要接收这100M数据可能需要10秒,怎么办呢?有两种办法:
第⼀种是CPU等着,也就是程序暂停执⾏后续代码,等100M的数据在10秒后写⼊磁盘,再接着往下执⾏,这种模式称为同步IO。
另⼀种⽅法是CPU不等待,只是告诉磁盘,“您⽼慢慢写,不着急,我接着⼲别的事去了”,于是,后续代码可以⽴刻接着执⾏,这种模式称为异步IO。
同步和异步的区别就在于是否等待IO执⾏的结果。好⽐你去麦当劳点餐,你说“来个汉堡”,服务员告诉你,对不起,汉堡要现做,需要等5分钟,于是你站在收银台前⾯等了5分钟,拿到汉堡再去逛商场,这是同步IO。
你说“来个汉堡”,服务员告诉你,汉堡需要等5分钟,你可以先去逛商场,等做好了,我们再通知你,这样你可以⽴刻去⼲别的事情(逛商场),这是异步IO。
很明显,使⽤异步IO来编写程序性能会远远⾼于同步IO,但是异步IO的缺点是编程模型复杂。想想看,你得知道什么时候通知你“汉堡做好了”,⽽通知你的⽅法也各不相同。如果是服务员跑过来到你,这是回调模式,如果服务员发短信通知你,你就得不停地检查⼿机,这是轮询模式。总之,异步IO的复杂度远远⾼于同步IO。
操作IO的能⼒都是由操作系统提供的,每⼀种编程语⾔都会把操作系统提供的低级C接⼝封装起来⽅便使⽤,Python也不例外。
读写⽂件是最常见的IO操作。Python内置了读写⽂件的函数,⽤法和C是兼容的。
读写⽂件前,我们先必须了解⼀下,在磁盘上读写⽂件的功能都是由操作系统提供的,现代操作系统不允许普通的程序直接操作磁盘,所以,读写⽂件就是请求操作系统打开⼀个⽂件对象(通常称为⽂件描述符),然后,通过操作系统提供的接⼝从这个⽂件对象中读取数据(读⽂件),或者把数据写⼊这个⽂件对象(写⽂件)。
2 读⽂件
要以读⽂件的模式打开⼀个⽂件对象,使⽤Python内置的open()函数,传⼊⽂件名和标⽰符:
>>> f = open('C:\\Users\\hfqn\\Desktop\\', 'r')
标⽰符'r'表⽰读,这样,我们就成功地打开了⼀个⽂件。
如果⽂件不存在,open()函数就会抛出⼀个IOError的错误,并且给出错误码和详细的信息告诉你⽂件不存在:
>>> f=open('C:\\Users\\hfqn\\Desktop\\', 'r')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\hfqn\\Desktop\\'
如果⽂件打开成功,接下来,调⽤read()⽅法可以⼀次读取⽂件的全部内容,Python把内容读到内存,⽤⼀个str对象表⽰:
>>> f.read()
'Hello, world!'
最后⼀步是调⽤close()⽅法关闭⽂件。⽂件使⽤完毕后必须关闭,因为⽂件对象会占⽤操作系统的资源,并且操作系统同⼀时间能打开的⽂件数量也是有限的:
>>> f.close()
由于⽂件读写时都有可能产⽣IOError,⼀旦出错,后⾯的f.close()就不会调⽤。所以,为了保证⽆论是否出错都能正确地关闭⽂件,我们可以使⽤try ... finally来实现:
try:
f = open('\path\to\file', 'r')
ad())
finally:
if f:
f.close()
但是每次都这么写实在太繁琐,所以,Python引⼊了with语句来⾃动帮我们调⽤close()⽅法:
with open('\path\to\file', 'r') as f:
ad())
这和前⾯的try ... finally是⼀样的,但是代码更佳简洁,并且不必调⽤f.close()⽅法。
调⽤read()会⼀次性读取⽂件的全部内容,如果⽂件有10G,内存就爆了,所以,为保险起见,可以反复调⽤read(size)⽅法,每次最多读取size个字节的内容。
另外,调⽤readline()可以每次读取⼀⾏内容,调⽤readlines()⼀次读取所有内容并按⾏返回list。因此,要根据需要决定怎么调⽤。
如果⽂件很⼩,read()⼀次性读取最⽅便;如果不能确定⽂件⼤⼩,反复调⽤read(size)⽐较保险;如果是配置⽂件,调⽤readlines()最⽅便:
with open('\path\to\file', 'r') as f:
for line adlines():
print(line.strip()) # 把末尾的'\n'删掉
前⾯讲的默认都是读取⽂本⽂件,并且是UTF-8编码的⽂本⽂件。要读取⼆进制⽂件,⽐如图⽚、视频等等,⽤'rb'模式打开⽂件即可:
>>> f = open('C:\\Users\\hfqn\\Desktop\\test.jpg', 'rb')
>>> f.read()
b''\x89PNG\r\n\x1a\n\x00\' # ⼗六进制表⽰的字节
要读取⾮UTF-8编码的⽂本⽂件,需要给open()函数传⼊encoding参数,例如,读取GBK编码的⽂件:
>>> f = open('C:\\Users\\hfqn\\Desktop\\','r',encoding='gbk')
>>> f.read()
'⼈⽣苦短,我⽤python'
遇到有些编码不规范的⽂件,你可能会遇到UnicodeDecodeError,因为在⽂本⽂件中可能夹杂了⼀些
⾮法编码的字符。遇到这种情况,open()函数还接收⼀个errors参数,表⽰如果遇到编码错误后如何处理。最简单的⽅式是直接忽略:
>>> f = open('C:\\Users\\hfqn\\Desktop\\','r',encoding='gbk', errors='ignore')
关于Python的编码,可参考《Python2与Python3的字符编码与解码》:
3 写⽂件
写⽂件和读⽂件是⼀样的,唯⼀区别是调⽤open()函数时,传⼊标识符'w'或者'wb'表⽰写⽂本⽂件或写⼆进制⽂件:
>>> f = open('C:\\Users\\hfqn\\Desktop\\', 'w')
>>> f.write('Hello, world!')
>>> f.close()
你可以反复调⽤write()来写⼊⽂件,但是务必要调⽤f.close()来关闭⽂件。
当我们写⽂件时,操作系统往往不会⽴刻把数据写⼊磁盘,⽽是放到内存缓存起来,空闲的时候再慢
慢写⼊。只有调⽤close()⽅法时,操作系统才保证把没有写⼊的数据全部写⼊磁盘。忘记调⽤close()的后果是数据可能只写了⼀部分到磁盘,剩下的丢失了。所以,还是⽤with语句来得保险:
with open('C:\\Users\\hfqn\\Desktop\\', 'w') as f:
f.write('Hello, world!')
要写⼊特定编码的⽂本⽂件,请给open()函数传⼊encoding参数,将字符串⾃动转换成指定编码。
4 StringIO和BytesIO
很多时候,数据读写不⼀定是⽂件,也可以在内存中读写。StringIO就是在内存中读写str。
要把str写⼊StringIO,我们需要先创建⼀个StringIO,然后,像⽂件⼀样写⼊即可:
>>> from io import StringIO
>>> f = StringIO()
>>> f.write('hello')
5
>>> f.write(' ')
1
>>> f.write('world!')
6
>>> value())
hello world!
getvalue()⽅法⽤于获得写⼊后的str。
要读取StringIO,可以⽤⼀个str初始化StringIO,然后,像读⽂件⼀样读取:
>>> from io import StringIO
>>> f = StringIO('Hello!\nHi!\nGoodbye!')
>>> while True:
.
.. s = f.readline()
... if s == '':
... break
... print(s.strip())
Hello!
Hi!
Goodbye!
StringIO操作的只能是str,如果要操作⼆进制数据,就需要使⽤BytesIO。
BytesIO实现了在内存中读写bytes,我们创建⼀个BytesIO,然后写⼊⼀些bytes:
>>> from io import BytesIO
>>> f = BytesIO()
>>> f.write('中⽂'.encode('utf-8'))
6
>>> value())
b'\xe4\xb8\xad\xe6\x96\x87'
注意,写⼊的不是str,⽽是经过UTF-8编码的bytes。
和StringIO类似,可以⽤⼀个bytes初始化BytesIO,然后,像读⽂件⼀样读取:
>>> from io import BytesIO
>>> f = BytesIO(b'\xe4\xb8\xad\xe6\x96\x87')
>>> f.read()
b'\xe4\xb8\xad\xe6\x96\x87'
StringIO和BytesIO是在内存中操作str和bytes的⽅法,使得和读写⽂件具有⼀致的接⼝。
如果您发现⽂中有不清楚或者有问题的地⽅,请在下⽅评论区留⾔,我会根据您的评论,更新⽂中相关内容,谢谢!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论