(完整版)爬虫开题报告--688IT编程网

爬虫程序

一、国内外发展形势

随着数据科学的迅速发展，诸如机器学习，人工智能等新兴技术极大地方便了人们的生活。来越多的应用涉及到大数据,而这些大数据的属性、包括数量、速度、多样性等等都是呈现了大数据不断增长的复杂性。从而，大数据的获取和分析在大数据领域就显得尤为重要，可以说是决定最终信息是否有价值的决定性因素。

万维网上有着无数的网页，包含着海量的信息,无孔不入、森罗万象。但很多时候，无论出于数据分析或产品需求，我们需要从某些网站，提取出我们感兴趣、有价值的内容，但是纵然是进化到21世纪的人类，依然只有两只手，一双眼，不可能去每一个网页去点去看，然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序，这就是爬虫。爬虫本身不区分到底是运行在windows还是Linux，又或是OSX，但从业务角度讲,我们把运行在服务端（后台）的,称之为后台爬虫。而现在，几乎所有的爬虫都是后台爬虫。

而爬虫数据获取的基础，经过这么多年的发展，除了面对surfaceweb(即表层Web，由网页沟通，网页之间通过超链接关联）的常用爬虫,各种面对垂直领域和特定主题的爬虫（focusedcrawler)成为热点。

二、项目解决了什么问题及创新点

本项目解决了数据科学所依赖的数据来源的问题，帮助数据科学工作者获取更多更有价值的数据。同时,本项目聚焦于新浪微博、拉勾网、房天下等各项极有价值的数据,利用现有技术在项目中实现了免登陆、多目标爬取数据，同时针对爬取的数据进行了初步的筛选过滤，去掉多余信息，除了可以节省本地空间之外还方便数据科学工作者对数据进行二次清洗、提炼,从而得到更有价值的信息.本项目还针对爬虫的作用机制以及设计模式进行了优化,采用多线程的技术可以明显提高I/O操作的速度，同时因为采用了合适的设计模式，可以及时地将内存中的数据导入到数据库中，极大地减少了内存资源的占用，使爬虫程序在运行期间，尽可能少地占用计算机资源。

>爬虫可以干什么

688IT编程网

(完整版)爬虫开题报告

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

(完整版)爬虫开题报告

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式