Xxx
电话:邮箱:
住址:北京市海淀区
教育背景
2013.09–2017.06 毕业院校:南开大学滨海学院学历:本科专业:信息管理与信息系统个人能力
有充足的编程能力,了解计算机网络、数据结构,Http/Https;
熟练使用MySQL数据库,熟悉Redis,MongoDB等NoSQL数据库;
熟练使用XPath、re、json模块进行数据提取;
熟练使用Selenium+PhantomJS实现动态HTML抓取;
熟练掌握Scrapy框架、了解scrapy-redis分布式组件;
掌握常见的爬虫、反爬虫知识及应对措施;熟悉Django框架、熟悉Linux 系统;
熟悉JavaScript、Ajax、JQuery、CSS、HTML等WEB前端技术;
工作经历
2016.06-2017.07 天津坤禾生物
分析网站、网页、链接的特征,对指定的多个网站的网页进行网页抓取、数据提取, 负责特殊网页采集任务的分析及采集方案设计。负责特殊网页采集任务的分析及采集方案设计。搭建分布式爬虫
环境。
项目经验
2015.09-2016.04 在学校跟着老师做项目
项目名称:抓取新浪微博数据(利用移动端抓取数据)
过程:
1.分析url,到正确的首页start_url,
2.引擎从调度器中抽取start_url用于抓取数据;
3.引擎把url封装成request传给下载器;
4.下载器把资源下载下来并封装成应答包Response;
5.解析Response,把item交给实体管道Pipeline进行下一步处理;
6.若解析了url则交给调度器等待抓取。
项目名称:爬去斗鱼全部房间内容
过程:
1. 到start_url;导入selenium的webdriver包;
2. 发送get请求,获得响应;
3. 利用find_elements_by_xpath来获取数据,并获取下一页这个元素;
4. 提取数据及下一页的元素;
5. 保存数据,点几下一页进入循环。
项目名称:web开发
项目模块:
1. 用户模块(注册、登陆、密码等)
2. 商品模块
3. 购物车模块(用户对产品的临时存储)
4. 用户订单模块
参与项目模块:用户模块(注册,登录,密码等)
职责描述:
1. 参与了数据库的设计。
2.参与对用户注册、登录及密码等信息进行增、删、改、查处理。注册时对用户名等信息进行唯一性校验,确认不重复后使用uid为用户生成唯一标示,对用户注册时的密码加密后存入数据库。
3.参与了前端页面注册、登录、及修改密码页面的开发。
scrapy分布式爬虫2016.06-2017.05 天津坤和生物
项目简介:各大农业资讯类网站的爬取
使用技术描述:
1. 使用scrapy框架;
2. 使用XPath(lxml),正则(re)进行页面分析并提取数据;
3. 使用MangoDB进行信息存储。
模块介绍:
1. spider模块:处理url地址和需要的数据;
2. 下载中间件模块:设置代理ip和User-Agent;
3. 管道模块:与数据库交互并保存数据。
。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论