Python文件读写、StringIO和BytesIO--688IT编程网

Python⽂件读写、StringIO和BytesIO

1 IO的含义

在计算机中，IO是Input/Output的简写，也就是输⼊和输出。

由于程序和运⾏时数据是在内存中驻留，由CPU这个超快的计算核⼼来执⾏，涉及到数据交换的地⽅，通常是磁盘、⽹络等，就需要IO接⼝。

⽐如你访问百度⾸页，浏览器就需要通过⽹络IO获取⽹页。浏览器先会发送请求给百度服务器，告诉它想要的html⽹址，这个动作是往外发数据，叫Output。接着百度服务器把⽹页的内容发送过来，这个动作是从外⾯接收数据，叫Input。

所以，通常，程序完成IO操作会有Input和Output两个数据流。当然也有只⽤⼀个的情况，⽐如，从磁盘读取⽂件到内存，就只有Input操作，反过来，把数据写到磁盘⽂件⾥，就只是⼀个Output操作。

输⼊输出是相对的，要考虑具体的对象是什么。⼀般，当我们写的程序需要读取磁盘⽂件时，相当于把磁盘的数据输⼊到程序中，对于程序来说，读取的数据就属于Input，但是对于磁盘来说，相当于把数据输出给程序，输出的数据属于Output。

IO编程中，Stream（流）是⼀个很重要的概念，可以把流想象成⼀个⽔管，数据就是⽔管⾥的⽔，但是只能单向流动。Input Stream就是数据从外⾯（磁盘、⽹络）流进内

存，Output Stream就是数据从内存流到外⾯去。对于浏览⽹页来说，浏览器和服务器之间⾄少需要建⽴两根⽔管，才可以既能发数据，⼜能收数据。

python怎么读文件夹下的文件夹

由于CPU和内存的速度远远⾼于外设的速度，所以，在IO编程中，就存在速度严重不匹配的问题。举个例⼦来说，⽐如要把100M的数据写⼊磁盘，CPU输出100M的数据只需要0.01秒，可是磁盘要接收这100M数据可能需要10秒，怎么办呢？有两种办法：

第⼀种是CPU等着，也就是程序暂停执⾏后续代码，等100M的数据在10秒后写⼊磁盘，再接着往下执⾏，这种模式称为同步IO。

另⼀种⽅法是CPU不等待，只是告诉磁盘，“您⽼慢慢写，不着急，我接着⼲别的事去了”，于是，后续代码可以⽴刻接着执⾏，这种模式称为异步IO。

同步和异步的区别就在于是否等待IO执⾏的结果。好⽐你去麦当劳点餐，你说“来个汉堡”，服务员告诉你，对不起，汉堡要现做，需要等5分钟，于是你站在收银台前⾯等了5分钟，拿到汉堡再去逛商场，这是同步IO。

你说“来个汉堡”，服务员告诉你，汉堡需要等5分钟，你可以先去逛商场，等做好了，我们再通知你，这样你可以⽴刻去⼲别的事情（逛商场），这是异步IO。

很明显，使⽤异步IO来编写程序性能会远远⾼于同步IO，但是异步IO的缺点是编程模型复杂。想想看，你得知道什么时候通知你“汉堡做好了”，⽽通知你的⽅法也各不相同。如果是服务员跑过来到你，这是回调模式，如果服务员发短信通知你，你就得不停地检查⼿机，这是轮询模式。总之，异步IO的复杂度远远⾼于同步IO。

操作IO的能⼒都是由操作系统提供的，每⼀种编程语⾔都会把操作系统提供的低级C接⼝封装起来⽅便使⽤，Python也不例外。

读写⽂件是最常见的IO操作。Python内置了读写⽂件的函数，⽤法和C是兼容的。

读写⽂件前，我们先必须了解⼀下，在磁盘上读写⽂件的功能都是由操作系统提供的，现代操作系统不允许普通的程序直接操作磁盘，所以，读写⽂件就是请求操作系统打开⼀个⽂件对象（通常称为⽂件描述符），然后，通过操作系统提供的接⼝从这个⽂件对象中读取数据（读⽂件），或者把数据写⼊这个⽂件对象（写⽂件）。

2 读⽂件

要以读⽂件的模式打开⼀个⽂件对象，使⽤Python内置的open()函数，传⼊⽂件名和标⽰符：

>>> f = open('C:\\Users\\hfqn\\Desktop\\', 'r')

标⽰符'r'表⽰读，这样，我们就成功地打开了⼀个⽂件。

如果⽂件不存在，open()函数就会抛出⼀个IOError的错误，并且给出错误码和详细的信息告诉你⽂件不存在：

>>> f=open('C:\\Users\\hfqn\\Desktop\\', 'r')

Traceback (most recent call last):

File "<stdin>", line 1, in <module>

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\hfqn\\Desktop\\'

如果⽂件打开成功，接下来，调⽤read()⽅法可以⼀次读取⽂件的全部内容，Python把内容读到内存，⽤⼀个str对象表⽰：

>>> f.read()

'Hello, world!'

最后⼀步是调⽤close()⽅法关闭⽂件。⽂件使⽤完毕后必须关闭，因为⽂件对象会占⽤操作系统的资源，并且操作系统同⼀时间能打开的⽂件数量也是有限的：

>>> f.close()

由于⽂件读写时都有可能产⽣IOError，⼀旦出错，后⾯的f.close()就不会调⽤。所以，为了保证⽆论是否出错都能正确地关闭⽂件，我们可以使⽤try ... finally来实现：

try:

f = open('\path\to\file', 'r')

ad())

finally:

if f:

f.close()

但是每次都这么写实在太繁琐，所以，Python引⼊了with语句来⾃动帮我们调⽤close()⽅法：

with open('\path\to\file', 'r') as f:

ad())

这和前⾯的try ... finally是⼀样的，但是代码更佳简洁，并且不必调⽤f.close()⽅法。

调⽤read()会⼀次性读取⽂件的全部内容，如果⽂件有10G，内存就爆了，所以，为保险起见，可以反复调⽤read(size)⽅法，每次最多读取size个字节的内容。

另外，调⽤readline()可以每次读取⼀⾏内容，调⽤readlines()⼀次读取所有内容并按⾏返回list。因此，要根据需要决定怎么调⽤。

如果⽂件很⼩，read()⼀次性读取最⽅便；如果不能确定⽂件⼤⼩，反复调⽤read(size)⽐较保险；如果是配置⽂件，调⽤readlines()最⽅便：

with open('\path\to\file', 'r') as f:

for line adlines():

print(line.strip()) # 把末尾的'\n'删掉

前⾯讲的默认都是读取⽂本⽂件，并且是UTF-8编码的⽂本⽂件。要读取⼆进制⽂件，⽐如图⽚、视频等等，⽤'rb'模式打开⽂件即可：

>>> f = open('C:\\Users\\hfqn\\Desktop\\test.jpg', 'rb')

>>> f.read()

b''\x89PNG\r\n\x1a\n\x00\' # ⼗六进制表⽰的字节

要读取⾮UTF-8编码的⽂本⽂件，需要给open()函数传⼊encoding参数，例如，读取GBK编码的⽂件：

>>> f = open('C:\\Users\\hfqn\\Desktop\\','r',encoding='gbk')

>>> f.read()

'⼈⽣苦短，我⽤python'

遇到有些编码不规范的⽂件，你可能会遇到UnicodeDecodeError，因为在⽂本⽂件中可能夹杂了⼀些

⾮法编码的字符。遇到这种情况，open()函数还接收⼀个errors参数，表⽰如果遇到编码错误后如何处理。最简单的⽅式是直接忽略：

>>> f = open('C:\\Users\\hfqn\\Desktop\\','r',encoding='gbk', errors='ignore')

关于Python的编码，可参考《Python2与Python3的字符编码与解码》：

3 写⽂件

写⽂件和读⽂件是⼀样的，唯⼀区别是调⽤open()函数时，传⼊标识符'w'或者'wb'表⽰写⽂本⽂件或写⼆进制⽂件：

>>> f = open('C:\\Users\\hfqn\\Desktop\\', 'w')

>>> f.write('Hello, world!')

>>> f.close()

你可以反复调⽤write()来写⼊⽂件，但是务必要调⽤f.close()来关闭⽂件。

当我们写⽂件时，操作系统往往不会⽴刻把数据写⼊磁盘，⽽是放到内存缓存起来，空闲的时候再慢

慢写⼊。只有调⽤close()⽅法时，操作系统才保证把没有写⼊的数据全部写⼊磁盘。忘记调⽤close()的后果是数据可能只写了⼀部分到磁盘，剩下的丢失了。所以，还是⽤with语句来得保险：

with open('C:\\Users\\hfqn\\Desktop\\', 'w') as f:

f.write('Hello, world!')

要写⼊特定编码的⽂本⽂件，请给open()函数传⼊encoding参数，将字符串⾃动转换成指定编码。

4 StringIO和BytesIO

很多时候，数据读写不⼀定是⽂件，也可以在内存中读写。StringIO就是在内存中读写str。

要把str写⼊StringIO，我们需要先创建⼀个StringIO，然后，像⽂件⼀样写⼊即可：

>>> from io import StringIO

>>> f = StringIO()

>>> f.write('hello')

>>> f.write(' ')

>>> f.write('world!')

>>> value())

hello world!

getvalue()⽅法⽤于获得写⼊后的str。

要读取StringIO，可以⽤⼀个str初始化StringIO，然后，像读⽂件⼀样读取：

>>> from io import StringIO

>>> f = StringIO('Hello!\nHi!\nGoodbye!')

>>> while True:

.. s = f.readline()

... if s == '':

... break

... print(s.strip())

Hello!

Hi!

Goodbye!

StringIO操作的只能是str，如果要操作⼆进制数据，就需要使⽤BytesIO。

BytesIO实现了在内存中读写bytes，我们创建⼀个BytesIO，然后写⼊⼀些bytes：

>>> from io import BytesIO

>>> f = BytesIO()

>>> f.write('中⽂'.encode('utf-8'))

>>> value())

b'\xe4\xb8\xad\xe6\x96\x87'

注意，写⼊的不是str，⽽是经过UTF-8编码的bytes。

和StringIO类似，可以⽤⼀个bytes初始化BytesIO，然后，像读⽂件⼀样读取：

>>> from io import BytesIO

>>> f = BytesIO(b'\xe4\xb8\xad\xe6\x96\x87')

>>> f.read()

b'\xe4\xb8\xad\xe6\x96\x87'

StringIO和BytesIO是在内存中操作str和bytes的⽅法，使得和读写⽂件具有⼀致的接⼝。

如果您发现⽂中有不清楚或者有问题的地⽅，请在下⽅评论区留⾔，我会根据您的评论，更新⽂中相关内容，谢谢！

688IT编程网

Python文件读写、StringIO和BytesIO

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

Python文件读写、StringIO和BytesIO

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行