webscraper多页爬取_WebScraper翻页——控制链接批量抓取数据(--688IT编程网

webscraper多页爬取_WebScraper翻页——控制链接批量抓

取数据（WebSc。。。

这是简易数据分析系列的第 5 篇⽂章。

上篇⽂章我们爬取了⾖瓣电影 TOP250 前 25 个电影的数据，今天我们就要在原来的 Web Scraper 配置上做⼀些⼩改动，让爬⾍把 250条电影数据全部爬取下来。

前⾯我们同时说了，爬⾍的本质就是规律，当初这些程序员设计⽹页时，肯定会依循⼀些规则，当我们到规律时，就可以预测他们的⾏为，达到我们的⽬的。

今天我们就⾖瓣⽹站的规律，想办法抓取全部数据。今天的规律就从常常被⼈忽略的⽹址链接开始。

1.链接分析

scraper我们先看看第⼀页的⾖瓣⽹址链接：

top250 这个⼀看就是⽹页的内容，⾖瓣排名前 250 的电影，也没啥好说的

后⾯有个start=0&filter= ，根据英语提⽰来看，好像是说筛选(filter)，从 0 开始(start)

再看看第⼆页的⽹址链接，前⾯都⼀样，只有后⾯的参数变了，变成了 start=25，从 25 开始；

我们再看看第三页的链接，参数变成了 start=50，从 50 开始；

分析 3 个链接我们很容易得出规律：

start=0，表⽰从排名第 1 的电影算起，展⽰ 1-25 的电影

start=25，表⽰从排名第 26 的电影算起，展⽰ 26-50 的电影

start=50，表⽰从排名第 51 的电影算起，展⽰ 51-75 的电影

…...

start=225，表⽰从排名第 226 的电影算起，展⽰ 226-250 的电影

规律到了就好办了，只要技术提供⽀持就⾏。随着深⼊学习，你会发现 Web Scraper 的操作并不是难点，最需要思考的其实还是这个规律。

2.Web Scraper 控制链接参数翻页

Web Scraper 针对这种通过超链接数字分页获取分页数据的⽹页，提供了⾮常便捷的操作，那就是范围指定器。

⽐如说你想抓取的⽹页链接是这样的：

那么像我们之前分析的⾖瓣⽹页呢？它不是从 1 到 100 递增的，⽽是 0 -> 25 -> 50 -> 75 这样每隔 25 跳的，这种怎么办？

其实也很简单，这种情况可以⽤ [0-100:25] 表⽰，每隔 25 是⼀个⽹页，100/25=4，爬取前 4 个⽹页，放在⾖瓣电影的情景下，我们只要把链接改成下⾯的样⼦就⾏了；

这样 Web Scraper 就会抓取 TOP250 的所有⽹页了。

3.抓取数据

解决了链接的问题，接下来就是如何在 Web Scraper ⾥修改链接了，很简单，就点击两下⿏标：

1.点击 Stiemaps，在新的⾯板⾥点击 ID 为 top250 的这列数据：

2.进⼊新的⾯板后，到 Stiemap top250 这个 Tab，点击，再点击下拉菜单⾥的 Edit metadata：

3.修改原来的⽹址，图中的红框是不同之处：

修改好了超链接，我们重新抓取⽹页就好了。操作和上⽂⼀样，我这⾥就简单复述⼀下：

点击 Sitemap top250 下拉菜单⾥的 Scrape 按钮

新的操作⾯板的两个输⼊框都输⼊ 2000

点击 Start scraping 蓝⾊按钮开始抓取数据

抓取结束后点击⾯板上的 refresh 蓝⾊按钮，检测我们抓取的数据

如果你操作到这⾥并抓取成功的话，你会发现数据是全部抓取下来了，但是顺序都是乱的。

我们这⾥先不管顺序问题，因为这个属于数据清洗的内容了，我们现在的专题是数据抓取。先把相关的知识点讲完，再攻克下⼀个知识点，才是更合理的学习⽅式。

这期讲了通过修改超链接的⽅式抓取了 250 个电影的名字。下⼀期我们说⼀些简单轻松的内容换换脑⼦，讲讲 Web Scraper 如何导⼊别⼈写好的爬⾍⽂件，导出⾃⼰写好的爬⾍软件。

4.参考阅读：

5.联系我

因为⽂章发在各⼤平台上，账号较多不能及时回复评论和私信，有问题可关注 ——「卤蛋实验室」，(或 wx 搜索 egglabs)关注上车防失联。

688IT编程网

webscraper多页爬取_WebScraper翻页——控制链接批量抓取数据(

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

webscraper多页爬取_WebScraper翻页——控制链接批量抓取数据(

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式