使用nodejsCrawler模块爬取页面dom数据,图片和视频等详解--688IT编程网

使⽤nodejsCrawler模块爬取页⾯dom数据，图⽚和视频等详解jquery下载文件请求

使⽤ nodejs Crawler模块爬取页⾯数据

你好！这是你第⼀次使⽤ Markdown编辑器所展⽰的欢迎页。如果你想学习如何使⽤Markdown编辑器, 可以仔细阅读这篇⽂章，了解⼀下Markdown的基本语法知识。

1. 安装 crawler 模块

npm install Crawler

2. 创建爬⾍对象，开始爬取

var c =new Crawler({

maxConnections :10,

// This will be called for each crawled page

callback :function(error, res, done){

//爬好之后会执⾏这个回调函数

if(error){

console.log(error);

}else{

noargsconstructor

//将爬好的数据赋值给juqery对象

var $ = res.$;

// $ is Cheerio by default

//a lean implementation of core jQuery designed specifically for the server

// 爬取页⾯结构dom树

console.log($("html").html());

// 爬取页⾯的图⽚

console.log($('#lg > img').attr('src'));

memorystream c

}

done();

}

});

// 写⼊需要爬取⽹页的地址

tree的复数形式

c.queue('www.baidu');

3. 爬取⽂件

3.1 爬取页⾯结构dom树

通过 $ 获取 html 节点的html ⽂本信息

console.log($("html").html());//获取的是页⾯的所有 dom 树，如下所⽰

3.2 爬取页⾯的图⽚

此时就可以根据页⾯结构获取dom树，进⾏数据获取，如：获取页⾯ #lg 下⾯的 src 图⽚地址数据console.log($('#lg > img').attr('src'));

4. 爬取视频⽂件

我们这⾥爬取的是哔哩哔哩⼤型视频⽹站，基本上⼤型⽹站都可以爬取的话，⼩⽹站更别说了。

需要使⽤操作⽂件模块，所有需要引⼊ fs 模块

var crawler =require("crawler");

var fs =require('fs');

var c =new crawler({

encoding:null,

jQuery:false,// set false to suppress warning message.

phpstrtouppercallback:function(err, res, done){

if(err){

<(err.stack);

}else{

//将爬取好的⽂件通过fs模块写⼊⽂件

}

done();

}

});

//绝⼤多数⽹站，都有反爬机制。只有⼩众⽹站没有。所以我们需要使⽤以下配置

//浏览器可以下载，但是服务端爬⾍⽆效。反爬：检测你这个请求是通过浏览器发出来，还是服务端（解决⽅案：让服务端伪装成浏览器来发这个请求）

c.queue({

url:"upos-hz-mirrorcos.acgvideo/upgcxcode/97/31/76823197/76823197-1-6.mp4?um_deadline=1550575994&platform=html5&rate=77500&oi =3085779014&um_sign=db48251bc5b1372571ebb345b6a1a098&gen=playurl&os=cos&trid=84e2a7ae166240fbb86a73d28ff5f1c1",

filename:"./video/11111.mp4",//写⼊⽂件名默认在根⽬录

headers:{'User-Agent':'requests'}//让服务端伪装成客户端

});

web前端源码根据页⾯的 vidio 标签，可以获取到视频的地址，我们只需要在 url：地址⾥⾯拼接上 http + 获取的地址即可

本地⽂件存放地址和⽂件名

5. 总结

可以爬页⾯结构dom数，就可以根据页⾯结构的标签，类名获取页⾯需要的数据。

可以利⽤页⾯结构的数据地址，爬取下载图⽚，视频等。

但是爬取视频，有的⽹站是爬取不了的，有反扒机制。PC端视频如果是flash插件加载的视频是不能爬取的。但是可以切换到⽆线端，爬取⽆线端的数据。像哔哩哔哩这种⼤型PC和⽆线都有数据的⽹站

只有浏览器可以下载，服务端爬⾍⽆效。需要反爬：检测你这个请求是通过浏览器发出来，还是服务端（解决⽅案：让服务端伪装成浏览器来发这个请求）

688IT编程网

使用nodejsCrawler模块爬取页面dom数据,图片和视频等详解

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

使用nodejsCrawler模块爬取页面dom数据,图片和视频等详解

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式