C#使用selenium写爬虫提高速度的关键--688IT编程网

C#使⽤selenium写爬⾍提⾼速度的关键

这段时间⼀直在搞爬⾍，学了⼀段时间之后，最后还是使⽤的selenium模拟浏览器来进⾏爬取。

就来记录⼀下⾃⼰踩的坑。⼀开始在⽹上提升selenium爬⾍速度的⽅法，都是说什么多线程，关闭图⽚读取之类的。当然我也贴⼀个关闭图⽚读取的代码，毕竟还是挺有⽤的。

var options = new FirefoxOptions();

options.SetPreference("permissions.default.image", 2);//⽆图

var driver = new FirefoxDriver(options);

接下来就是⾃⼰总结出来的⼲货了。

⾸先你如果想要提⾼速度，就⼀定不能使⽤每次爬取⼀个页⾯就要打开⼀个浏览器，然后关闭的⽅式。对，在c#中每new⼀个driver，就是打开了⼀个浏览器，⽽打开浏览器的时间花费很长，并且彻底关闭也要花时间。代码如下：`

selenium怎么使用void craw(stirn url)

{

var options = new FirefoxOptions();

options.SetPreference("permissions.default.image", 2);//⽆图

FirefoxDriver driver = new FirefoxDriver(options);//这⾥的new⼀个对象就是在打开⼀个浏览器，很费时间

driver.Url=url;//读取⽹址

Console.WriteLine(driver.Title);//你对⽹址的操作，我就是输出了⼀下标题

driver.Quit();//彻底退出该浏览器

}

这个函数，每调⽤⼀次就是在打开⼀个浏览器，如果多线程执⾏，就是不断的同时打开多个浏览器，并且耗时间和内存。

然后我当时想到了⼀种思路就是，我先创建创建好⼀个浏览器，不关闭，然后直接改变他的url，这样

提升起来的速度就是快了近10倍。上⾯的代码⼀分钟能爬200个左右的⽹站，还是开了五个浏览器同时在跑的结果。⽽下⾯的⽅法也是五个浏览器，却能⼀⼩时⼤概3000条左右。

FirefoxDriver driver=null;

void initialize()

{

var options = new FirefoxOptions();

options.SetPreference("permissions.default.image", 2);//⽆图

driver = new FirefoxDriver(options);//这⾥的new⼀个对象就是在打开⼀个浏览器，很费时间

}

void craw(string url)

{

driver.Url=url;//读取⽹址

Console.WriteLine(driver.Title);//你对⽹址的操作，我就是输出了⼀下标题

driver.Quit();//彻底退出该浏览器

}

这样你每次调⽤的时候，就只需要调⽤改变读取⽹页就⾏了，不需要等待浏览器开关。在爬取多个⽹页的时候的速度就能够有很多倍的提升。

下⾯还有⼀个更加惊爆的提速⽅法在等着⼤家，这个⽅法，只要你硬件⽹速跟得上，这个速度有能提⾼⼗倍。如果想要知道，就在下⾯留⾔，没错，我就是看到⼀直没⼈评论，不爽了想看看有没有想知道。

好吧！已经发了，仅粉丝可见！

688IT编程网

C#使用selenium写爬虫提高速度的关键

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

C#使用selenium写爬虫提高速度的关键

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式