首页教程专区正文内容

python-爬虫工程师简历模板

教程专区

2025-03-04 18:35:22

模块数据进行网页

Xxx

电话：邮箱：

住址：北京市海淀区

教育背景

2013.09–2017.06 毕业院校：南开大学滨海学院学历：本科专业：信息管理与信息系统个人能力

有充足的编程能力，了解计算机网络、数据结构，Http/Https；

熟练使用MySQL数据库，熟悉Redis，MongoDB等NoSQL数据库；

熟练使用XPath、re、json模块进行数据提取；

熟练使用Selenium+PhantomJS实现动态HTML抓取；

熟练掌握Scrapy框架、了解scrapy-redis分布式组件；

掌握常见的爬虫、反爬虫知识及应对措施；熟悉Django框架、熟悉Linux 系统；

熟悉JavaScript、Ajax、JQuery、CSS、HTML等WEB前端技术；

工作经历

2016.06-2017.07 天津坤禾生物

分析网站、网页、链接的特征，对指定的多个网站的网页进行网页抓取、数据提取, 负责特殊网页采集任务的分析及采集方案设计。负责特殊网页采集任务的分析及采集方案设计。搭建分布式爬虫

环境。

项目经验

2015.09-2016.04 在学校跟着老师做项目

项目名称：抓取新浪微博数据（利用移动端抓取数据）

过程:

1.分析url，到正确的首页start_url，

2.引擎从调度器中抽取start_url用于抓取数据；

3.引擎把url封装成request传给下载器；

4.下载器把资源下载下来并封装成应答包Response；

5.解析Response，把item交给实体管道Pipeline进行下一步处理；

6.若解析了url则交给调度器等待抓取。

项目名称：爬去斗鱼全部房间内容

过程：

1. 到start_url；导入selenium的webdriver包；

2. 发送get请求，获得响应；

3. 利用find_elements_by_xpath来获取数据，并获取下一页这个元素；

4. 提取数据及下一页的元素；

5. 保存数据，点几下一页进入循环。

项目名称：web开发

项目模块：

1. 用户模块（注册、登陆、密码等）

2. 商品模块

3. 购物车模块（用户对产品的临时存储）

4. 用户订单模块

参与项目模块：用户模块（注册，登录，密码等）

职责描述：

1. 参与了数据库的设计。

2.参与对用户注册、登录及密码等信息进行增、删、改、查处理。注册时对用户名等信息进行唯一性校验，确认不重复后使用uid为用户生成唯一标示，对用户注册时的密码加密后存入数据库。

3.参与了前端页面注册、登录、及修改密码页面的开发。

scrapy分布式爬虫

2016.06-2017.05 天津坤和生物

项目简介：各大农业资讯类网站的爬取

使用技术描述：

1. 使用scrapy框架；

2. 使用XPath（lxml），正则（re）进行页面分析并提取数据；

3. 使用MangoDB进行信息存储。

模块介绍：

1. spider模块：处理url地址和需要的数据；

2. 下载中间件模块：设置代理ip和User-Agent；

3. 管道模块：与数据库交互并保存数据。

。

版权声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198，我们将在24小时内删除。

爬虫的原理

« 上一篇

python爬虫是什么

下一篇 »

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]
2025-02-08
能被5整除的十进制整数的正规表达式
2025-02-08
大于0小于等于1的正则表达式
2025-02-08
linux grep 26个字母
2025-02-08
java pattern 正则表达式
2025-02-08
掌握文本编辑器中的搜索和替换技巧
2025-02-08

标签列表