⼀篇⽂章搞懂Python反斜杠的相关问题
⼤家在开发Python的过程中,⼀定会遇到很多反斜杠的问题,很多⼈被反斜杠的数量搞得头⼤。
⾸先我们写⼀段⾮常简单的Python代码,它的作⽤是把⼀个字段先转换为JSON格式的字符串,然后把这个字符串再转换为JSON格式的字符串:
import json
info = {'name': 'kingname', 'address': '杭州', 'salary': 99999}
info_json = json.dumps(info)
# 第⼀次转换以后,打印出来
print(info_json)
info_json_json = json.dumps(info_json)
# 第⼆次转换以后,再打印出来
print(info_json_json)
它的运⾏效果如下图所⽰。
第⼀次,字典转成JSON格式的字符串,只有中⽂杭州变成了Unicode编码\u676d\u5dde,其余地⽅没有出现反斜杠。
在Python⾥⾯,反斜杠不能单独出现,这⾥\u676d\u5dde中的两根反斜杠,实际上应该是\u。表⽰这两个编码是Unicode编码。
接下来,把第⼀次⽣成的JSON字符串:{"name": "kingname", "address": "\u676d\u5dde", "salary": 99999}再⼀次转成JSON格式的字符串,这⼀次变成了:
"{\"name\": \"kingname\", \"address\": \"\\u676d\\u5dde\", \"salary\": 99999}"
为什么突然出现了这么多反斜杠?这是因为,JSON格式的字符串本⾝是使⽤双引号来表⽰字符串的。如果原来的字符串⾥⾯本⾝就有双引号,那就会导致混淆。此时,Python需要把原来字符串的双引号变成普通的字符,失去双引号的作⽤。因此使⽤\"让双引号变成普通的字符。
这就相当于在Python中,可以这样定义⼀个包含双引号的字符串:
>>> a = "跟我说:\"你好\""
>>> print(a)
跟我说:"你好"
这⾥,你好两侧的双引号都加上了反斜杠,让它成为普通的字符,防⽌它们提前与最外层的双引号配对。
如果不加反斜杠,就会导致字符串⾥⾯的双引号提前与外层的双引号配对,引起语法错误:
>>> b = "跟我说:"你好""
File "<stdin>", line 1
b = "跟我说:"你好""
字符串常量中不能直接包括双引号和反斜杠符号^
SyntaxError: invalid syntax
这⾥,"跟我说:"成为了⼀个字符串,末尾的""成为了⼀个空字符串。那么中间的你好就变成了⼀个没有定义的变量。⽽Python⾥⾯,是不存在字符串未定义的变量字符串这种写法的,所以会报语法错误。
⽽JSON格式的字符串,本质上也是字符串,所以⾃然⽽然也需要遵循这样的规则。因此,字符串原来
⾃带的双引号左侧就被加上了反斜杠。
那么,原来的\u676d\u5dde为什么变成了\\u676d\\u5dde?
这是因为,当第⼆次执⾏json.dumps的时候,传⼊的参数是⼀个JSON格式的字符串,本质就是字符串。⽽⼀个字符串⾥⾯如果⾃带反斜杠,那么JSON在对他再次转换的时候,需要标记这是⼀个普通的字符串形式的反斜杠,不是⼀个有特殊意义的反斜杠,所以使⽤\\表⽰⼀个普通的反斜杠。
好了,那么你可以猜⼀下,如果把info_json_json再json.dumps⼀下会怎么样?
会变成:
"\"{\\\"name\\\": \\\"kingname\\\", \\\"address\\\": \\\"\\\\u676d\\\\u5dde\\\", \\\"salary\\\": 99999}\""
为什么出现了三个反斜杠连⽤和四个反斜杠连⽤的问题?
实际上⾮常简单,当你对info_json_json执⾏json.dumps的时候,Python是怎么转换的?
我们来看:
"{\"name\": \"kingname\", \"address\": \"\\u676d\\u5dde\", \"salary\": 99999}"
对字符串执⾏json.dumps的时候,记住⼀个关键⽅法——从左到右,⼀个字符⼀个字符的转换。
1. 第⼀个字符是双引号,所以变成\"
2. 第⼆个字符是{,不是特殊符号,保留
3. 第三个字符是\,把它变成\\
4. 第四个字符是",把它变成\"
5. ……
全部执⾏完成了,由于这次转换是把⼀个字符串转换为JSON格式的字符串,所以最外侧加上双引号。
于是就得到了:
"\"{\\\"name\\\": \\\"kingname\\\", \\\"address\\\": \\\"\\\\u676d\\\\u5dde\\\", \\\"salary\\\": 99999}\""
我们在爬⾍开发过程中,可能会遇到上⾯这种经过多次JSON转换后的字符串,此时,千万不要轻易使⽤字符串的.replace⽅法把多个反斜杠替换为空或者把两个反斜杠替换为⼀个反斜杠。那样做只会导致你的数据更难解析。
正确的做法应该是尝试对数据⼀层⼀层使⽤json.loads,把它⼀层⼀层还原,还原到最初的{'name': 'kingname', 'address': '杭州', 'salary': 99999}这种简单形式。
好了,今天的介绍就到这⾥,最后留⼀个思考题:
还是上⾯的代码,现在把PyCharm的调试模式打开,然后数⼀数info_json和info_json_json⾥⾯反斜杠的个数,如下图所⽰:
为什么在info_json⾥⾯,出现了\\u676d\\u5dde,为什么在info_json_json⾥⾯双引号前是两根反斜杠,⽽\"\\u676d\\u5dde\"竟然变成了\\"\\\\u676d\\\\u5dde。
总结
到此这篇关于⼀篇⽂章搞懂Python反斜杠的⽂章就介绍到这了,更多相关Python反斜杠内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论