如何使⽤Python和BeautifulSoup抓取任何⽹站(动态⽹页)我们现在将学习如何处理⽹页或有很多功能的⽹页,⽽不仅仅是 HTML/CSS。这些页⾯⽤beautifulsoup 爬取⽐较棘⼿,因为有时代码发⽣在服务器端,⽽beautifulsoup 需要让浏览器运⾏它。
如果有⼀种⽅法可以让我们编写代码并让我们的代码假装它是浏览器,那岂不是很好?……恰好,这正是本⽂要讨论的内容!
现在,我第⼀次在读到了这,并且我⼀直在这篇⽂章中更专注于确切的实现,因此有关更多详细信息,请务必查看!
1. 下载 Chrome 或 Firefox
⽬前我所知道的只有这两个具有此功能,因此请务必使⽤其中之⼀。在本⽂中,我们使⽤。
2. 下载⽹络驱动程序
我们将使⽤的⽹络驱动程序是,您可以在该链接的底部到所有下载。下载后,从下载中提取⽂件(只需双击 zip ⽂件)。
Web 驱动程序有点挑剔,并且在操作系统上运⾏
得不太好,因此我们需要:将 geckodriver 移动到可执⾏路径所在的位置。请查看以了解如何使⽤ Windows 进⾏操作。
我们可以通过运⾏来出我们的可执⾏路径在哪⾥:
selenium怎么使用然后我们可以:
1. cp geckodriver ⽂件从 zip 到您的$PATH变量告诉您的位置之⼀(运⾏后echo $PATH)
2. $PATH向您的$PATH环境变量添加⼀个新位置,并将可执⾏⽂件 geckodriver 放⼊其中。项⽬地址:
然后重新启动终端以使更改⽣效。如果您使⽤的是 MacOS(我就是),您可能还需要对应⽤程序进⾏。你可以通过运⾏来做到这⼀点:
3.开始⽤python编码!
运⾏后:pip install selenium,您现在可以开始使⽤⽹络驱动程序了!⽽不是拉动动态⽹页⽹址,你会拉动它,像这样:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论