PYTHON爬虫测试题(面试必备)--688IT编程网

PYTHON爬⾍测试题（⾯试必备）

爬⾍测试题（⾯试必备）

1.简述⼀下爬⾍的步骤

答案:

matlab length函数用法

1.确定需求（⼈）

2.确定资源（⼈）

3.通过URL获取⽹站的返回信息（爬⾍）

4.定位数据（爬⾍）

5.存储数据（程序）

2.遇到反爬机制怎么处理

答案:

反爬机制（headers）：

1.判断User-Agent

2.判断Referer

3.判断Cookie

如果以上操作还是没有成功爬取页⾯，就⽤将浏览器中的全部头信息放进来

注意：如果把全部headers拿过来的话记得把Accept-Encoding: gzip, deflate注释掉

3.Http与Https的区别是什么?

• HTTP 的URL 以开头，⽽HTTPS 的URL 以开头

• HTTP 是不安全的，⽽ HTTPS 是安全的

• HTTP 标准端⼝是80，⽽ HTTPS 的标准端⼝是443

• 在OSI ⽹络模型中，HTTP⼯作于应⽤层，⽽HTTPS 的安全传输机制⼯作在传输层

• HTTP ⽆法加密，⽽HTTPS 对传输的数据进⾏加密

• HTTP⽆需证书，⽽HTTPS 需要CA机构颁发的SSL证书

• HTTP全称是Hyper Text Transfer Protocol，中⽂全称为超⽂本;

• HTTPS全称是Hyper Text Transfer Protocol over Secure Socket Layer，也就是说⽐HTTP多了安全层，通俗的讲来说就是HTTP的安全版;

4.常见的页⾯数据抽取⽅式有哪些？

xpath

beautifulsoup4

jsonpath

答案:

re.match：尝试从字符串的起始位置匹配⼀个模式，如果不是起始位置匹配成功的话,match()就返回None;

python基础知识测试re.search：扫描整个字符串并返回第⼀个成功的匹配

match于search的区别:re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None;⽽re.search匹配整个字符串，知道到⼀个匹配;

re.findall：在字符串中到正则表达式所匹配的所有⼦串，并返回⼀个列表，如果没有到匹配的，则返回空列表.注意:match和search是匹配⼀次findall匹配所有; re.finditer和findall类似，在字符串中到正则表达式所匹配的所有⼦串，并把它们作为⼀个迭代器返回

6.如果让你来防范⽹站爬⾍，你应该怎么来提⾼爬取的难度？数据表格图片

答案：

1.爬取⾏为是对页⾯的源⽂件爬取，如爬取静态页⾯的html代码，可以⽤jquery去模仿写html

2.对Headers的User-Agent进⾏检测

3.通过检测⽤户⾏为，同⼀IP短时间内多次访问同⼀页⾯，或者同⼀账户短时间内多次进⾏相同操作

4.数据通过ajax来获取

7.考虑如下表结构，写出建表语句

ID(⾃增主键) NAME(⾮空) Blance(⾮空)

1 A 19.50

火狐浏览器pc2 A 20.50

3 B 100.00

python list 长度为什么replace函数用不了create table text (id int primary key,NAME varchar(10)not null,Blance double not null);

8.--删除stu表中id值为20到30的数据（等级于上⾯写法）

mysql> delete from stu where id between 20and30;

9.查询lamp138期的男⽣信息（sex为m）

mysql> select *from stu where classid='lamp138'and sex='m';

10.排除stu表中前2条后再获取4条信息

mysql> select *from stu limit 2,4;

688IT编程网

PYTHON爬虫测试题(面试必备)

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

PYTHON爬虫测试题(面试必备)

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

非零金额正则表达式

半小时正则表达式