毕业设计(论文)题目: 基于网络爬虫技术的网络新闻分析 毕业设计(论文)要求及原始数据(资料): 1.综述国内外网络爬虫技术研究现状; 2.深入了解网络爬虫与文字分析的相关技术; 3.熟练掌握网络爬虫爬取策略以及分析策略; 4.设计并实现针对网络新闻的爬虫程序;爬虫软件 app 5.深入分析与整合爬取到的网络新闻数据; 6.训练检索文献资料和利用文献资料的能力; 7.训练撰写技术文档与学位论文的能力。 |
毕业设计(论文)主要内容: 1.综述网络爬虫在大数据分析中的应用; 2.了解网络爬虫以及文字分析的相关技术; 3.熟悉网络爬虫的开发环境; 4.设计以网络新闻为目标的爬虫程序; 5. 学习研究文字分析的关键技术与编写网络爬虫的设计流程; 6.熟练掌握程序绘制分析结果统计图的技术; 7.设计与实现针对网络新闻爬取与分析整合的程序。 学生应交出的设计文件(论文): 1.内容完整、层次清晰、叙述流畅、排版规范的毕业设计论文; 2.包括毕业设计论文、源程序等内容在内的毕业设计电子文档及其它相关材料。 |
主要参考文献(资料): 下列不是powerpoint视图的是[1] 于娟,刘强. 主题网络爬虫研究综述[J]. 计算机工程与科学, 2015, 37(02):231-237. [2] 张红云. 基于页面分析的主题网络爬虫的研究[D]. 武汉理工大学, 2010. [3] 张莹. 面向动态页面的网络爬虫系统的设计与实现[D]. 南开大学, 2012. [4] 张晓雷. 面向Web挖掘的主题网络爬虫的研究与实现[D]. 西安电子科技大学, 2012. [5] 奉国和,郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011, 55(2):41-45. [6] 许智宏,张月梅,王一. 一种改进的中文分词在主题搜索中的应用[J]. 郑州大学学报, 2014(5):44-48. [7] 欧振猛,余顺争. 中文分词算法在搜索引擎应用中的研究[J]. 计算机工程与应用, 2000, 36(08):80-82. [8] Batsakis.S, Petrakis E G M, Milios E. Improving the performance of focused web crawlers[J]. Data & knowledge engineering, 2009, 68(10):1001-1013. param函数[9] Pant.G, Menczer F. MySpiders:Evolve Your Own Intelligent Web Crawlers[J]. Autonomous agents and multi-agent systems, 2002, 5(2):221-229. [10] Ahmadi-Abkenari F, Ali S. A Clickstream-based Focused Trend Parallel Web Crawler[J]. International Journal of Computer Applications, 2010, 9(5):24-28. |
摘 要
Netnews Analysis Based On Web Spider Technology
Since the concept of the big data is put forword, data on the Internet became more and more scientific research units for the object of data mining. Netnews data occupies half of Internet data, compared with traditional media, it has spread rapidly, short exposure time and contains the related characteristics of public opinion.
The related web spider technology and algorithm, to realize the Netnews automatic data collection and structured storage, and summarizes some finishing, draw related news development, reflect the value of Netnews data mining, is the main purpose of this paper.
If a business can choose news which related to their own and to do some professional analysis, they can get many unexpected gains, for example, if there is someone behind d
eliberately smear, or a competitors. First to master relevant negative effects of Netnews, the use of public power, timely and correct mistakes, to calm the negative news, which is the value of today’s enterprise is enormous.
Key words: web spider; Netnews; data mining