基于Python的信息采集系统设计与实现--688IT编程网

各类功能应用包括、朋友圈、聊等，也影响了传统的信息生态。由个人或企业组织机构申请，通过用户订阅的模式将消息直接推送给用户，成为近年来新媒体平台的“宠儿”[2]。越来越多的个体和商家选择开通发布文章或商品销售信息，将当做一对多的思想、观点、广告等信息发布平台，导致出现虚假消息传播以及用户评论出现“水军”留言的现象。此外，某些突发事件发生后，的文章和用户评论直接反映了最新的网络舆情动态。政府及相关监管部门有必要及时掌握的文章和用户留言，了解最新的舆情动态，面对虚假消息的传播立即制止，针对网络舆情危机及时化解并科学引导[3]。因此本系统设计并实现了一个自动采集文章及用户评论的系统，对于新媒体平台舆情管控工作的开展具有重要意义。

1 系统设计

■1.1 系统整体架构

信息采集系统整体架构如图1所示。■1.2 模拟登录模块

本系统利用Selenium库中Webdriver[4]模块进行模拟登录。借助Webdriver调用chrome浏览器，通过get请求直接转到平台的登录界面，采用Webdriver 的元素定位方式对账号框、密码框以及登录按钮进行元素定位，跳出的二维码选择手动方式进行扫描登录。图1 系统整体架构图

■1.3 获取文章标题及链接模块

文章接口的获取经过测试发现可以通过两种途径获取，一种是通过平台开放的接口来获得文章列表及相关内容，另一种是通过中间人的方式抓取手机访问APP的流量包，分析所得数据包的数据结构来获得文章的相关信息。

（1）通过平台获取

官方在2017年6月6号发布了一则消息：对所有开放在图文消息中插入全平台已发文章链接（消息的链接地址mp.weixin.qq/s/67sk-uKz9Ct4niT-f4u1KA）。也就是说至此以后发布文章的时候可以直接插入其他的文章。能够插入其他的文章说明在平台中有了所有已发布文章的接口，通过这个接口可以获取到所需的文章相关信息。

access集团融资

（2）通过Fiddler抓包工具获取Windows下常用的中间人抓包工具有Fiddler、Wireshark、HTTPwatch等[5]。其中Fiddler是以代理服务器的形式工作，通过改写HTTP代理，让数据从它那通过，来监控并且截取到数据，同时能够解析HTTP、HTTPS加密的内容，比较适合本系统的需要。通过分析Fiddler抓取到的访问历史信息的数据包可以获得相应的文章接口以及所需的参数。

58 | 电子制作 2021年03月

www�ele169�com | 59

软件开发

■1.4 获取文章评论模块

PC 客户端以及手机端因其自带浏览器，故而能够

看到用户评论信息，因此评论接口和文章接口一样，通过访问文章获得其加载的评论信息数据包，然后解析该数据包的数据结构，获得所需信息即可。

2 采集系统实现与测试

■2.1 环境搭建及配置

（1）系统环境选择安装Python 3.7.0以及Pycharm，python请求并解析json数据

以及需要下载安装Python 第三方库包括Selenium 库、time 库、json 库、requests 库、re 库、random 库等。Selenium 库用于模拟自动登录，time 库用于设置等待时间避免爬取速度过快导致反爬，json 库用于解析网页返回的json 格式数据包，requests 库用于对目标URL 发起请求并解析，re 库用于正则匹配目标，random 库用于产生递交

参数时所需要的随机数。

（2）Fiddler 的配置， Fiddler 需要安装HTTPS 证书

才能对这类协议内容进行抓取。采集系统通过抓包手机端APP 来获得评论页的URL 时，需要对Fiddler 以及手机进行一系列的配置来达到电脑端的Fiddler 能抓取手机端数据流量的目的。在FiddlerOptions 的HTTPS 标签中选择from remote clients only，这是为了防止PC 端的流量干扰抓包。接着在Connections 标签中，由于是手机连接代理，所以选择allow remote computers to connect。配置完电脑端后，还需要对手机端进行相应的配置。首先保证手机与PC 在同一个局域网中，打开cmd，输入ipconfig，查看自己的IP 地址。将手机连入与电脑相同的局域网中，并开启代理。代理选项选择手动，在代理服务器主机名中填入刚才查看到的IP 地址，在代理服务器端口选择8888（Fiddler 默认端口为8888）。然后在手机默认浏览器中输入HTTP://IP 地址：8888，点击最下面的FiddlerRoot Certificate 下载安装证书。因为目标是的流量，可以对Fiddler 设置一下过滤。对手机端

文章浏览的抓包效果如图2所示。

extend名词形式图2 文章浏览抓包结果

计算机编程都是干什么

■2.2 模拟登录模块的实现

模拟登录过程中，需要自动填入账号密码并点击登录，

因此需要对账号框、密码框、以及登录按钮进行元素定位。定位完成后，通过清空账号框、密码框并递交自己预存的账号密码，完成自动登录部分。接下来跳出的就是界面，这里用手机的扫一扫。 ■2.3 获取文章标题及链接的实现

（1）通过平台获取

在对文章标题及链接的获取前，需要对爬虫进行一下

伪装，即添加header 信息伪装成浏览器访问，如果不添

加则会报错。这里只需要用到其中的user-agent 部分，

native名词将其与host 信息组成header 字典以备用。读取上一步获得cookies，登录之后的首页URL

变化为：mp.weixin.qq/cgi-bin/home?t=home/index &lang=zh_CN& token=XXX，可以从这里获取token 票据。爬取文章列表需要进行循环，在每次请求文章列表接口时都需要传入相关参数，每篇文章的相关信息都存储在app_msg_list 中，对其进行get 请求并存储到一个字典中，对该字典进行循环采集就能够将所需的文章标题及链接进行爬取，菜单栏工具栏任务栏

最后将采集到的文章标题及链接存储到本地就可以了。

（2）通过Fiddler 抓包工具获取

将手机配置好后，通过访问手机的历史信

息，Fiddler 可以截取到文章列表页的相关信息，可以发现

是一个json 数据包。多加载几篇历史文章能够返回多个关于文章列表的json 数据包，对比发现这些json 的URL 发生变化的参数都为offset，即偏移量每次增加10，由此可以获得文章列表页URL 的变化规律。文章列表的具体信息都在general_msg_list 字典中，将其保存为本地的.txt 文件分析其数据结构。文章具体信息包含在app_msg_ext_info 以及multi_app_msg_item_list 中，其中前者是每个

的每日推送的第一篇文章，后者则是每日推送的附加文章，可能不止一篇。 ■2.4 获取文章评论的实现

与调用搜索接口以及文章列表接口一样，

在调用文章评论接口时同样需要传入一些所需的参数。

通过比对几次评论页链接的变化发现其中发生变化的有appmsgid、comment_id、appmsg_token、pass_

ticket。_biz 是的id 不会改变，前面已经做过相应的存储所以这里也可以直接传入。appmsgid、comment_id 以及appmsg_token 需要去网页中提取，可

以在文章链接中通过正则匹配获得。pass_ticket 因为之前没有做过相应的存储，这里选择的是从抓包软件中直接复制进代码中。通过构建通用的评论页URL，传入所需参数，对该URL 进行get 请求并以json 格式解析即可获得评论页

（下转第64页）

subscriber_attr集中在某类属性、某类异常如生失效时间一样等，采用聚类分析法和排除法。然后通过分析相关的前后业务，中间过程判断可能产生的原因，并在bcv模拟用户数据进行问题重现等。

2 结束语

本文提出的基于BOSS的内存库物理库用户资料一致性稽核方法，解决了电信系统长期一直无法解决的疑难投诉，作为收入保障重要监控点，提供了一套内存库物理库用户资料稽核工具，且完成的不仅

仅是新工具系统，是一套完整的一致性保障体系，包括完备的监控体系，一致性保障机制（自动化全量稽核和增量稽核能力，自动化修复能力），清晰的系统维护手册和系统流程图说明，紧密的组织保障（日常保障，技术支持流程）。同时本成果完成的不仅仅是＊ [1]许思宁，唐雯敏，周圣，郭熠，朱明星.基于深度学习的网络业务一致性稽核保障系统研发[J].通信电源技术.2020(03).＊ [2]李义超，陈彤，刘委婉，吕振山，范福鑫.一种业务支撑系统数据一致性的解决方法[J].中国新通信.2017(01).

＊ [3]何玉林，金一，戴德鑫，黄柏皓，黄家杰.混合属性数据集分布一致性度量的新方法[J].深圳大学学报(理工版).2020(12).＊ [4]Yang Tian;Wang Xin;Sun Shaobo;Wang Daqian;Zhong Bin bin. A universal method to improve the consistency betwe en simulated results of celestial distribution of polarized light from analytical models and measured data[J]. Optics Commu nications. 2021(01).

＊ [5]田俊峰，王彦骉.一种基于HashGraph的NoSQL型分布式存储因果一致性模型[J].计算机研究与发展.2020(12).

＊ [6]李艳杰. MySQL数据库中数据参照完整性和一致性的设计与实现 [J]. 信息技术与信息化. 2020(11).

（上接第59页）

的内容[6]。

3 总结

自媒体时代，的低门槛可能会带来虚假信息的传播以及“水军”留言的出现等问题。针对上述问题，对的文章和评论内容进行自动化采集显得尤为重要。本文介绍了如何设计一个基于的信息采集系统，并对系统的各个功能模块的实现做了简要说明。该系统的实现对于新媒体平台舆情管控工作的开展具有重要的现实意义。

参考文献

＊ [1]王仕勇，马逸凡.情绪共振视域下的正能量传播:

理论与实证[J].重庆工商大学学报(社会科学版),2021:1-17.＊ [2]刘玉洁.新媒体时代的内容营销——以为例[J].新闻研究导刊,2021,12(01):243-244.

＊ [3]张岩.突发公共事件网络舆情引导之构想——基于生命周期视角[J].行政与法,2020(11):37-43.

＊ [4]Chandraprabha C, Kumar A, Saxena S. Data Driven Testing Framework using Selenium WebDriver[J].International Journ al of Computer Applications,2015, 118(18):18-23.

＊ [5]王伟兵，秦浩.论网络抓包与分析技术在网络犯罪侦查中的应用[J].中国人民公安大学学报(自然科学版),2018,24(02):74-78.

＊ [6]龚建华.JSON格式数据在Web开发中的应用[J].办公自动化,2013(20):46-48.

64 | 电子制作 2021年03月

688IT编程网

基于Python的信息采集系统设计与实现

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于Python的信息采集系统设计与实现

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式