大数据预处理技术题库
模块一
一、填空题
1. 网络爬虫是一种运行在(  )上用来数据的自动化程序和脚本。
答案:互联网
2. 网站的(  )就是服务程序。
答案:本质
3. POST请求包含请求头、请求行(  )。
答案:请求体
4. 服务器无法到页面状态码是(  )。
答案:404
5. 服务器端错误报的状态码是(  )。
答案:500
6. 请求成功的状态码是(  )。
答案:200
二、判断题
7. 语言是没有任何限制,爬虫可以用(python,java,net)中任何一种。
答案:对
8. 在爬虫项目中Request可以提交请求信息,response不可以获得数据。
答案:错
9. 开发网络爬虫,就是使用HTTP协议模拟浏览器进行网络请求。
答案:对
10. 爬虫爬取的数据可以用来做数据分析,数据分析是爬虫的一个功能。
答案:对
11. 数据分析就是从一堆错乱无章的数据中到规律,帮助做决策。
答案:对
12. 爬虫爬取的数据可以帮助我们做搜索引擎。
答案:对
13. 站内搜索也需要使用爬虫技术。
答案:错
14. 垂直爬虫也叫做小爬虫,是爬取某个特定领域的爬虫。
答案:对
15. 通用爬虫是全网数据爬取的爬虫,百度或者360等搜索引擎都是通用爬虫。
答案:对
16. GET请求有请求体。
答案:错
17. 在C:\Windows\System32\drivers\etc\hosts目录下可以配置主机名和ip地址的映射。
答案:错
18. 网络请求本质上就是发送HTTP请求,、HTTP请求的两种方式,get、post。
答案:
19. 使用decument可以获取文本数据。
redis doc
答案:对
20. 使用jsoup可以操作html文档
答案:对
模块二
一、填空题
21. 解析首页的信息的核心步骤:(1)指定url;(2)将url对象封装成httpget对象;(3)使用httpclient发送一个请求;(4)从响应中,获得首页的html文档;(5)(  )
答案:打印首页
22. (  )是运行在进程中的一个独立实体,是CPU调度和分派的基本单位。
答案:线程
23. (  )基本不拥有系统资源,可以与同属一个进程。
答案:线程
二、判断题
24. 商品的SKU是电商中商品的最细粒度划分
答案:对
25. HttpGet indexHttpGet=new HttpGet(indexUrl);这行代码的意思是将url对象封装成http对象。
答案:对
26. if(200=indexRes。getStatusLine().getStatusCode())
}
这行代码逻辑的意思是从响应结果中,获取首页的html文档。
答案:对
27. 定位到商品列表使用Elements liList=indexDoc.select(“#J_goodsList li[data-pid]”);
答案:对
28. parserProductDetail(pUrl);依次每个商品的详情页,并解析出数据。
答案:对
29. String title=detailDoc.select(“.sku-name”).get(0).text;
Product.setTitle(title);这行代码的逻辑是用来获取商品名称的。
答案:错
30. String name=detailDoc.select(‘’[class=parameter2 p-parameter-list] li”).get(0).text();Product.setName(name);这行代码的逻辑是用来获取标题的。
答案:错
31. SPU是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。通俗点讲,属性值、特性相同的商品就可以称为一个SPU。
答案:对
32. 下面这行代码创建阻塞队列
ArrayBlockingQueue<String> arrayBlockingQueue=new ArrayBlockingQueue<String>(100);
答案:错
33. 使用线程技术消费队列的数据
New Thread(new Runnable(){
Public void run(){
While(true){
}
}
}).start();

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。