毕业设计(论文)任务书
老头滚动条的真名叫什么第1页
毕业设计(论文)题目: 基于网络爬虫技术的网络新闻分析 毕业设计(论文)要求及原始数据(资料): 1.综述国内外网络爬虫技术研究现状; 2.深入了解网络爬虫与文字分析的相关技术; 3.熟练掌握网络爬虫爬取策略以及分析策略; 4.设计并实现针对网络新闻的爬虫程序;爬虫软件 app 5.深入分析与整合爬取到的网络新闻数据; 6.训练检索文献资料和利用文献资料的能力; 7.训练撰写技术文档与学位论文的能力。 |
第2页
毕业设计(论文)主要内容: 1.综述网络爬虫在大数据分析中的应用; 2.了解网络爬虫以及文字分析的相关技术; 3.熟悉网络爬虫的开发环境; 4.设计以网络新闻为目标的爬虫程序; 5. 学习研究文字分析的关键技术与编写网络爬虫的设计流程; 6.熟练掌握程序绘制分析结果统计图的技术; 7.设计与实现针对网络新闻爬取与分析整合的程序。 学生应交出的设计文件(论文): 1.内容完整、层次清晰、叙述流畅、排版规范的毕业设计论文; 2.包括毕业设计论文、源程序等内容在内的毕业设计电子文档及其它相关材料。 |
第3页
编程软件下载后怎麼解压主要参考文献(资料): 下列不是powerpoint视图的是[1] 于娟,刘强. 主题网络爬虫研究综述[J]. 计算机工程与科学, 2015, 37(02):231-237. [2] 张红云. 基于页面分析的主题网络爬虫的研究[D]. 武汉理工大学, 2010. [3] 张莹. 面向动态页面的网络爬虫系统的设计与实现[D]. 南开大学, 2012. [4] 张晓雷. 面向Web挖掘的主题网络爬虫的研究与实现[D]. 西安电子科技大学, 2012. [5] 奉国和,郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011, 55(2):41-45. [6] 许智宏,张月梅,王一. 一种改进的中文分词在主题搜索中的应用[J]. 郑州大学学报, 2014(5):44-48. [7] 欧振猛,余顺争. 中文分词算法在搜索引擎应用中的研究[J]. 计算机工程与应用, 2000, 36(08):80-82. [8] Batsakis.S, Petrakis E G M, Milios E. Improving the performance of focused web crawlers[J]. Data & knowledge engineering, 2009, 68(10):1001-1013. param函数[9] Pant.G, Menczer F. MySpiders:Evolve Your Own Intelligent Web Crawlers[J]. Autonomous agents and multi-agent systems, 2002, 5(2):221-229. [10] Ahmadi-Abkenari F, Ali S. A Clickstream-based Focused Trend Parallel Web Crawler[J]. International Journal of Computer Applications, 2010, 9(5):24-28. |
基于网络爬虫技术的网络新闻分析
摘 要
自从大数据的概念被提出后,互联网数据成为了越来越多的科研单位进行数据挖掘的对象。网络新闻数据占据了互联网数据的半壁江山,相比传统媒体,其具有传播迅速、曝光时间短、含有网民舆论等相关特征,其蕴含的价值也愈来愈大。
利用相关网络爬虫技术与算法,实现网络媒体新闻数据自动化采集与结构化存储,并利用中文分词算法和中文相似度分析算法进行一些归纳整理,得出相关的新闻发展趋势,体现网络新闻数据的挖掘价值。
如果商业公司能选取其中与自身相关的新闻进行分析,则可以得到许多意想不到的收获,例如是否有幕后黑手故意抹黑、竞争对手情况如何。第一时间掌握与其相关的网络新闻负面效应,动用公关力量,及时修正错误,平息负面新闻,这对当今的企业来说价值是巨大的。
关键词:网络爬虫;网络新闻;数据挖掘
Netnews Analysis Based On Web Spider Technology
Abstract
Since the concept of the big data is put forword, data on the Internet became more and more scientific research units for the object of data mining. Netnews data occupies half of Internet data, compared with traditional media, it has spread rapidly, short exposure time and contains the related characteristics of public opinion.
The related web spider technology and algorithm, to realize the Netnews automatic data collection and structured storage, and summarizes some finishing, draw related news development, reflect the value of Netnews data mining, is the main purpose of this paper.
If a business can choose news which related to their own and to do some professional analysis, they can get many unexpected gains, for example, if there is someone behind d
eliberately smear, or a competitors. First to master relevant negative effects of Netnews, the use of public power, timely and correct mistakes, to calm the negative news, which is the value of today’s enterprise is enormous.
Key words: web spider; Netnews; data mining
运行截图:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论