python爬取抖⾳个⼈信息_python爬⾍抖⾳个⼈资料仅供学习
参考切勿⽤于商业
本⽂仅供学习参考 切勿⽤于商业
本次爬取使⽤fiddler+模拟器(下载抖⾳APP)+pycharm
1. 下载最新版本的fiddler(⾃⾏百度下载),以及相关配置
1.1.依次点击,菜单栏-Tools-Options-HTTPS,如图1红框打钩,HTTPS旁边Connections配置,如图2红框打钩
1.2.再次点击HTTPS栏,点击Actions选择第⼆个…to Desktop这个选项,发送证书到桌⾯(⽅便到,模拟器中需要安装)
2.下载安装模拟器,我⽤的是夜神模拟器
⾃⾏修改页⾯或内存等。。。。
2.1.回到电脑桌⾯, 到刚才保存的证书,拖动到模拟器,看⼀下下图红框中的路径。
2.2. 返回模拟器桌⾯,打开设置,下拉到进⼊-安全-选择从SD卡安装-如下图所⽰,到证书进⾏安装,提⽰的随便输⼊。
2.3.返回到模拟器设置, 到WiFi,进去,左键长按,修改⽹络,如图修改,本机ip查询,cmd输⼊ipconfig,IPv4后边的就是本机IP
程序设计基础智慧树答案3. 模拟器应⽤市场中下载抖⾳App,到此配置已完成,重启模拟器,之后测试fiddler是否能抓到请求包。
4.测试能抓到请求。然后分析请求。
5,本⽂爬取的是 '抖⾳昵称', '抖⾳ID', '个⼈简介' 因此查看到 抓包返回的是图2的数据
6.得到的数据不可能⼀个⼀个的复制保存到本地,因此可使⽤fiddler⾃⾏编写脚本保存数据, ⾛起,⾃⼰去添加⼀个,如图3,添加的脚本⾃动保存相应数据到本地json⽂件
7.以下是fiddler脚本,根据需要⾃⾏修改
if (oSession.uriContains("aweme-eagle-hl.snssdk/aweme/v1/user/")){
//上边的⽹址是你需要保存数据的⽹址开头的部分,⽹站修改的话需要及时修改url
var strBody=oSession.GetResponseBodyAsString();
var sps = oSession.PathAndQuery.slice(-64,-54);
//FiddlerObject.alert(sps)
var filename = "E:/此处是本地路径" + "/" + sps + ".json";
var curDate = new Date();
var sw : System.IO.StreamWriter;
if (System.IO.File.Exists(filename)){
sw = System.IO.File.AppendText(filename);
sw.Write(strBody);
}
else{
sw = System.IO.File.CreateText(filename);
sw.Write(strBody);
}
sw.Close();
sw.Dispose();
}
8.在模拟器抖⾳中, 不断的去往下翻,往右翻, 查看⽤户页,fiddler编写的脚本就⾃动保存了你需要的数据。如图
9. 那么问题来了 当想⼤量的爬取数据时, 不可能⼈⼯翻页,所以这时候⽤到了模拟器⾃带的操作助⼿功能。
9.1,⾃⼰动⼿录取⼀段,你想让模拟器不断循环的操作,设置循环次数,往下翻,记得保存。
python解析json文件
9.2. 点击播放按钮,模拟器就会⾃动循环你录制的操作,⼀直往下翻页,fiddler,会不断有新的相应被抓到,本地的json数据越来越多。=======================================================
基本操作搞完了,那么拿到的json⽂件如何解析呢,这时候敲代码去吧。
=======================================================
java虚拟机创建失败
10。说⼀下思路,具体代码不做展⽰。
10.1,从本地去到json⽂件,放到⼀个列表中,循环列表中的json
10.2 json.load()读取json⽂件content
10.3 取json中你所需的资料。
10.4 存储,我存的excel⽂件,出现了⼀些问题,这⾥我说⼀下。
# 存储时特殊字符会报错,此处⽤codecs存储,存储的csv会出现编码乱的问题,解决办法,右键⽤记事本打开保存的csv⽂件,另存为⼀下,编码格式选utf-8.
源代码2 在线播放
with codecs.open("./douyin/douyin.csv", "a+", encoding='utf-8') as f:
writer = csv.writer(f, dialect="excel")
writer.writerow(l)
split的例句
java appid如何生成10.5 爬到的数据,会有从重复的,去重很简单,这⾥就不说了。
展⽰⼀下我爬到的数据

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。