Python金融大数据挖掘与分析
第八讲金融数据挖掘之爬虫
技术进阶
chrome浏览器最新版8.1 爬虫进阶1 -IP代理简介
8.2 爬虫进阶2 -爬虫利器selenium库详解
第八讲金融数据挖掘之爬虫技
术进阶
爬虫过有些网站还是有数据获取的难度:
•网站对同一个IP的访问次数就有限制
•通过常规的爬虫技术没有办法获取网页源代码
有的网站对IP是有监控的:
如果IP在短时间内访问该网站太多次,那么该IP会被直接冻结,网络被该网站列入它的“黑名单”了
网页会跳出一个:
•“您的IP访问频率太高”的提示
•验证码让我们输入才可以解封
这将会导致之后的访问失败。
8.1.1 IP代理原理
IP有点类似于id,就是你所用网络的身份证号码
IP代理就是IP伪装,把本机的IP伪装成其他的IP地址。
IP代理商有海量IP地址,这些海量IP地址被称为IP代理池。
在这个IP代理池里提取IP地址
把提取IP地址写到Python程序里(自己的IP伪装成别的IP )这样躲过某些网站对于固定IP访问次数的限制。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论