如何⽤Python爬取⼩游戏⽹站,把喜欢的游戏收藏起来(附源
码)
简介:
Python 是⼀门简单易学且功能强⼤的编程语⾔,⽆需繁琐的配置,掌握基本语法,了解基本库函数,就可以通过调⽤海量的现有⼯具包编写⾃⼰的程序,轻松实现批量⾃动化操作,可以极⼤提⾼办公和学习效率。Python爬⾍可以批量获取⽹页上的数据。
Python的环境配置
1. 代码编辑器 Pycharm community
2. 代码解释器 Python
3.7.6
3. 在Pycharm中创建项⽬并配置Python环境
4. 安装⼯具包的两种⽅式
4399⼩游戏爬⾍实战
1、爬⾍的基本步骤
使⽤requests下载⽹页
使⽤BeautifulSoup将requests下载的内容解析为DOM (⽂档对象模型)
通过DOM获取所需要的数据
2、4399⼩游戏的本地运⾏
网页游戏小游戏⽀持下载到本地的游戏 : 以 .swf 为扩展名的游戏
游戏主体页的<embed>的src属性可以得到绝对地址
游戏绝对地址⽰例: sxiao.4399/4399swf/upload_swf/ftp29/liuxinyu/20190731/7/main.swf
1. 游戏信息页可以获取相对地址: 在<script>标签中 , Ctrl+F 搜索关键字 _strGamePath可以得到
游戏相对地址⽰例: /upload_swf/ftp29/liuxinyu/20190731/7/main.swf
1. 所需⽂件: 爱奇艺万能播放器 ( 已更名为万能联播 ) ( )万能联播PC版
3、4399⼩游戏爬⾍实现思路
爬取4399好玩的⼩游戏页⾯(www.4399/flash/gamehw.htm), 通过解析得到DOM来获取所有的游戏链接
遍历所有的游戏链接, 开启线程下载该链接的⽹页并判断该游戏是否⽀持下载到本地, 如果⽀持则拼接下载地址, 并开启游戏下载线程
游戏下载线程: 根据下载地址来下载 .swf ⽂件并保存到本地
完整代码
1import os 2import re 3import threading 4 5from bs4 import BeautifulSoup as bs 6import requests 7 8 9def getAllGameUrl(): 10 """ 11 获取所有游戏的名称和游戏信
欢迎点击左上⾓关注⼩编,除了分享技术⽂章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练、PDF电⼦⽂档、⾯
试集锦、学习资料等。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论