python爬虫实践-02-大众点评评论爬取-破解CSS字体加密--688IT编程网

python爬⾍实践-02-⼤众点评评论爬取-破解CSS字体加密

warning：⼤众点评反爬策略更新的很快，即使机制没变，也会在其它地⽅设置障碍，让你之前的爬⾍完全没法⽤。⽐如我在写这篇博客的前⼏天写好的爬⾍，解析出了映射表，结果写博客的时候就⽤不了。⽽且它不仅更换了相应的⽂件，还把⽂件的格式给改了，这样对⽂件的解析也得重新来，⽐如这次，它就把svg的⽂件格式给改了，解析的难度⼤了很多，我对这⽅⾯不太了解，只能猜+验证。

关键：破解字体加密CSS+SVG

⽹页：

⽹页源代码：

⼆者对⽐可知：

1. 完整的评论由HTML中的两部分组成

2. 评论中⼤量的字被加密了，⽐如“吃”就被加密为<svgmtsi class'qxszj'></svgmtsi>

要解决加密问题，我们再打开开发者⼯具进⾏查询，选中加密字1，查看style。

selenium获取cookie从上图可以知道，<svgmtsi class="qxszj"></svgmtsi>被background-image给替换了，并且是将back-ground-image上坐标为-42.0px,-1420.0px处的元素替换的。2号该URL对应着⼀个分布着⼀⾏⼀⾏汉字的SVG⽂件。⽽右上⾓的3号CSS⽂件则是⽤于根据 class的

值qxszj，来从background-image中根据坐标来选取某个汉字的，即其功能是映射。

由于其映射规则保存在CSS⽂件中，**因此我们需要将该CSS⽂件和SVG⽂件都下载下来进⾏分析。**根据CSS定位背景图⽚的规则：

x y⽤百分⽐或者px表⽰的时候，其值可以为负数。我们应⽤坐标规则就很容易理解负数表⽰的意义，x为负数时候表⽰图⽚左顶点在容器左顶点的左侧，y为负数时表⽰图⽚的左顶点在容器的左定点的上⽅

我们⾸先针对⼀个字进⾏分析，即<svgmtsi class="qxszj"></svgmtsi>映射为“吃”。

读取SVG⽂件【需要注意的是SVG⽂件不仅内容会变，格式也会变，写博客的时候，原来的SVG格式就变了】

其中“吃”字所⾏为：<textPath xlink:href="#36" textLength="322">纸盒秘吃净培杀侄掠留抚源甩宣脑邪蓬⾮勺吸洞极呼</textPath>即处于第36⾏，第4个字。

读取CSS⽂件，到字段.qxszj{background:-42.0px -1420.0px;}即“吃”字加密后的<svgmtsi class="qxszj"></svgmtsi>被SVG中坐标-42.0px -1420.0px的⽂字替代。为了到坐标和汉字所处⾏列的规则，我们查看SVG的头部信息：

该字段指明：font-size：14px，⽽“吃”字：x=-42.0px，第4个字，下标为3，显然：下标为abs(x)/14

⽽y坐标与⾏的关系，需要知道⾏⾼，但SVG头部并没有直接给出，猜测path id='1' d='M0 33 H600'表⽰的是id为1的⾏，其⾏所在的y坐标为33，那么的话，“吃”所在的href=36，⽽此处<path id="35" d="M0 1399 H600"/><path id="36" d="M0 1443 H600"/>'可以得出规律，要到第⼀个d⼤于y的path id，从⽽定位到⾏。

由于缺乏相关知识，上⾯只是猜测得到的规律，不⼀定正确，以后有需要再进⾏研究。

基于上述规律，可以根据CSS⽂件和SVG⽂件构建映射表：

import requests

from bs4 import BeautifulSoup

import re

with open('dianping.svg',mode='r',encoding='utf-8')as f:

svg_text = f.read()

# 提取⾏号与其所处y坐标的关系

svg_col_height = re.findall(r'<path id="(\d+)" d="M0 (\d+) H600"/>',svg_html)

svg_col_height =[(int(id),int(height))for id, height in svg_map]

print(svg_col_height[0])

# 提取SVG图⽚中的⽂字矩阵

svg_words = re.findall(r'<textPath xlink:href="#\d+" textLength="\d+">(.+)</textPath>',svg_html)

print(svg_words[0])

with open('dianping.css',mode='r',encoding='utf-8')as f:

css_text = f.read()

#提取class_name与x,y坐标的对应关系

class_map = re.findall(r'\.(\w+)\{background:-(\d+)\.0px -(\d+)\.0px;\}',css_text)

class_map =[(cls_name,int(x),int(y))for cls_name,x,y in class_map]

print(class_map[0])

# 构建class_name到⽂字的映射

#不知道是我解析地有问题，还是⼤众点评好像很鸡贼地添加了⼀些⽆法解析的⼲扰项，CSS⽂件内的有些class_name是没有映射关系的。

parse_map={}

for class_name, x, y in class_map:

col =int(x/14)

row =0

for id, height in svg_col_height:

if height > y:

row =id

break

try:

parse_map[class_name]=svg_words[row-1][col]

#print((class_name,col,row),svg_words[row-1][col])

except Exception as e:

print('该字解析失败：',(class_name,col,row),svg_words[row-1])

print(parse_map['qxszj'])

# 打印为’吃‘，初步验证成功

需要注意的是：⼤众点评的字体映射关系是会变化的，因此构造好的映射表可能很快就失效了。5天前获取的CSS+SVG⽂件构造出来的映射表，已经不适⽤于解析当前评论信息了。eg.

⽤5天前构造的映射表解析出来的结果：

终下3钻餐，菜单上要尝试，奈帝每菜⼝，别欢再来⼝，我个⼆线城市阿，点个⾊菜，以燎胃瘠……必须原～没喝，来⾃⾷本⾝甜，总觉得盅……再来⼴州，她们⽐受宠哎，种烹制⽅法使得她们得百魅骄，要去宠幸……，没腥，股殊，在⽤东⽅精马杀龄…\n，⾊，还⾃⼰来品吧……

显然，⽜头不对马嘴。更隔应⼈的是，SVG⽂件⽂字排版还改了，导致得重新解析SVG⽂件。

模拟登录

⼤众点评在没有登录之前，是⽆法查看所有评价的，并且我发现，⼤众点评在登录与未登录的时候，虽然都是采取了字体加密的反爬⼿段，但是⽅式却不⼀样，未登录前好像是⽐较⽼版本的，采⽤的是CSS+woff⽂件进⾏字体映射，⽽登录后则是采⽤CSS+SVG⽂件进⾏字体映射。

⽐较奇怪的是，我是5天前获取的Cookie，结果现在还能拿来⽤，有点⼉迷惑，我在浏览器上访问⼤众点评是需要重新登录的。

模拟登录的⽅法有很多种，可以通过Selenium进⾏模拟登录，然后获得Cookie；或者通过requests库获取Cookie；或者在浏览器中进⾏登录，然后将获取的请求头部复制下来即可，其中包括Cookie

由于本次实践的重点是破解字体解密，因此我采⽤了⽐较简单的第三种，⽽且由于其Cookie失效的时间蛮长的，因此“性价⽐”⾼。获取的头部信息如下：

raw_headers ="""Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v =b3;q=0.9

Accept-Encoding: gzip, deflate

Accept-Language: en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7

Cache-Control: max-age=0

Connection: keep-alive

Cookie: s_ViewType=10; _lxsdk_cuid=17983edd8ed75-0a10f6120f599a-2363163-1fa400-17983edd8eec8; _lxsdk=17983edd8ed75-0a10f6120f599a-2363 163-1fa400-17983edd8eec8; _hc.v=b58e1d27-879d-6fb3-bb85-7c3d7975becc.1621416074; cy=4; cye=guangzhou; ua=%E5%8C%97%E6%9C%88%E5% 8D%97%E5%AE%89; ctu=e0d1fb9a8019d4f1b7f1e6fa069fc6735ca72ea96fa7930227688c08b5e7e438; fspop=test; _lx_utm=utm_source%3DBaidu%26ut m_medium%3Dorganic; thirdtoken=3a936f56-3646-4fa9-a718-94cb525cdebc; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1622095754,1622976283, 1623030832,1623033389; dper=6ea96f6ba58ffa2b1efb2841699855d852c5e48a0e9fec61e40f927cd3c9ef7ae45005cf7f5a42e43512a466fac84d0183bdf6 dd74d2eacb7fe2fada0aaec8333eea2ada6291028577b09cf8a9a81cce8750350bc5b99c979a5d5f4feac59e95; ll=7fd06e815b796be3df069dec7836c3df; ua mo=130********; dplet=778acd373e790e1ff7703c193ad541b5; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1623038459; _lxsdk_s=179e48a3339-2a0-24-dc4%7C%7C226

Host: www.dianping

Referer: www.dianping/shop/jYLWhDRaJsHy5PAB

Upgrade-Insecure-Requests: 1

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36"""

# 将复制下来的头部转为字典形式

headers =dict([line.split(": ",1)for line in raw_headers.split("\n")])

获取评论数据并解析

response = (url ="www.dianping/shop/jh631305VtnDuXpl/review_all",headers=headers)

webText =

for key,value in parse_map.items():

webText = place('<svgmtsi class="'+key+'"></svgmtsi>',value)

soup = BeautifulSoup(webText,'lxml')

review = soup.find_all(attrs={'class':repile('review-words.*')})

print(review[0])

其结果为：

与浏览器页⾯对⽐：

显然，字体加密已经解析成功了，剩下的就是需要进⼀步的信息整理了。

688IT编程网

python爬虫实践-02-大众点评评论爬取-破解CSS字体加密

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python爬虫实践-02-大众点评评论爬取-破解CSS字体加密

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式