Python网络爬虫-网易新闻数据分析--688IT编程网

Python⽹络爬⾍-⽹易新闻数据分析

⼀、选题的背景

为什么要选择此选题？要达到的数据分析的预期⽬标是什么？

随着社会⽇新⽉异和互联⽹进⼊⼤数据时代，⾃媒体得到了迅猛的发展，⼈们获取新闻资讯的⽅式越来越多，接触和使⽤新闻信息的⽅式正在逐渐改变，受众从被动接受信息到按需主动搜索信息，⽽新闻的种类繁多杂乱，各类⼈需要的新闻也不尽相同，为此当前以今⽇头条为代表的各⼤媒体通过数据分析，数据挖掘等⽅式，在内容⽣产上做到精确定位⽤户需求，着⼒打造消费痛点等特点。因此，开发⼀款新闻定制推送系统有助于为⼈们提供更为优质的新闻信息推送服务，⼈们完全可以根据⾃⼰的喜好定制报纸和杂志，随着⼈们使⽤时间的增长，可以做到“机器越来越懂你”。

本次实验⽬的是爬⾍⽹易新闻，⾸先利⽤爬⾍⼯具将获取新闻数据，然后进⾏分析的结果可视化输出。

⼆、主题式⽹络爬⾍设计⽅案

1.主题式⽹络爬⾍名称

⽹易新闻数据分析

2.主题式⽹络爬⾍爬取的内容与数据特征分析

爬取⽹易新闻界⾯信息，选取了国内、国际、军事、航空、科技这五个分类进⾏数据分析

3.主题式⽹络爬⾍设计⽅案概述（包括实现思路与技术难点）

本爬⾍主要从⼀下⼏个⽅⾯进⾏设计：导⼊需要⽤到的库，获取界⾯，数据分析，将数据保存⾄新闻数据集.csv⽂件⾥，然后根据爬取到的数据做可视化分析.

三、主题页⾯的结构特征分析

1.主题页⾯的结构与特征分析

数据来源：news.163/

2.Htmls 页⾯解析

四、⽹络爬⾍程序设计

爬⾍程序主体要包括以下各部分，要附源代码及较详细注释，并在每部分程序后

⾯提供输出结果的截图。

1.数据爬取与采集

导⼊相关库

1import requests

2import json

3import re

5import pandas as pd

6import numpy as np

8from sklearn.naive_bayes import MultinomialNB

del_selection import train_test_split

ics import accuracy_score, confusion_matrix,f1_score,classification_report

11from sklearn. import TfidfTransformer

12from sklearn. import TfidfVectorizer

14import jieba as jb

15import matplotlib.pyplot as plt

16import itertools

Params['font.sans-serif']="SimHei"

Params['axes.unicode_minus']=False

19import warnings

20 warnings.filterwarnings('ignore')

21#要爬取的新闻分类地址国内、国际、军事、航空、科技

22 url_list={'国内':[ 'temp.163/special/00804KVA/cm_guonei.js?callback=data_callback',

23'temp.163/special/00804KVA/cm_guonei_0{}.js?callback=data_callback'],

24'国际':['temp.163/special/00804KVA/cm_guoji.js?callback=data_callback',

25'temp.163/special/00804KVA/cm_guoji_0{}.js?callback=data_callback'],

26'军事':['temp.163/special/00804KVA/cm_war.js?callback=data_callback',

27'temp.163/special/00804KVA/cm_war_0{}.js?callback=data_callback'],

28'航空':['temp.163/special/00804KVA/cm_hangkong.js?callback=data_callback&a=2', 29'temp.163/special/00804KVA/cm_hangkong_0{}.js?callback=data_callback&a=2'], 30'科技':['tech.163/special/00097UHL/tech_datalist.js?callback=data_callback',

31'tech.163/special/00097UHL/tech_datalist_0{}.js?callback=data_callback']}

爬取数据

1def parse_class(url):

2'''获取分类下的新闻'''

3 (url)

5 res=re.findall("title(.*?)\\n",text)

6#去除不规范的符号

7for i in range(len(res)):

8 res[i]=re.sub("\'|\"|\:|'|,|","",res[i])

9return res

10 titles=[]

11 categories=[]

12def get_result(url):

13global titles,categories

14 temp=parse_class(url)

15if temp[0]=='>⽹易-404</title>':

16return False

17print(url)

18 d(temp)

19 temp_class=[key for i in range(len(temp))]

20 d(temp_class)

21return True

23for key in url_list.keys():

24#按分类分别爬取

25print("=========正在爬取{}新闻===========".format(key)) 26#遍历每个分类中的⼦链接

27#⾸先获取⾸页

28 get_result(url_list[key][0])

29#循环获取加载更多得到的页⾯

30for i in range(1,10):

31try:

32if get_result(url_list[key][1].format(i)):

33pass

34else:

35continue

36except:

37break

38print("爬取完毕！")

数据合并

1 new=pd.DataFrame({

2"新闻内容":titles,

3"新闻类别":categories

4 })

5 ad_csv("新闻数据集.csv",encoding='utf-8',engine='python')

6def update(old,new):

7'''

8更新数据集：将本次新爬取的数据加⼊到数据集中（去除掉了重复元素） 9'''

10 data=new.append(old)

11 data=data.drop_duplicates()

12return data

13print("更新数据集...")

14 df=update(old,new)

_csv("新闻数据集.csv",index=None,encoding='gbk')

16print("更新完毕，共有数据:",df.shape[0],"条")

17 df.head()

2.对数据进⾏清洗和处理

1def remove_punctuation(line):

2 line = str(line)

3if line.strip()=='':

4return''

5 rule = repile(u"[^a-zA-Z0-9\u4E00-\u9FA5]")

6 line = rule.sub('',line)

7return line

9def stopwordslist(filepath):

10 stopwords = [line.strip() for line in open(filepath, 'r', encoding="UTF-8").readlines()]

11return stopwords

13#加载停⽤词

14 stopwords = stopwordslist("./")

15#删除除字母，数字，汉字以外的所有符号

16 df['clean_review'] = df['新闻内容'].apply(remove_punctuation)

17#分词，并过滤停⽤词

19 df['cut_review'] = df['clean_review'].apply(lambda x: "".join([w for w in list(jb.cut(x)) if w not in stopwords])) 20print("数据预处理完毕！")

4.数据分析与可视化（例如：数据柱形图、直⽅图、散点图、盒图、分布图）

404页面网站源码

1 df.新闻类别.value_counts().plot(kind='bar')

2 plt.title("各个类别新闻爬取数⽬统计")

1# 绘制混淆矩阵函数

2def plot_confusion_matrix(cm, classes,

3 normalize=False,

4 title='Confusion matrix',

5 Blues):

6 plt.figure(figsize=(8,6))

7 plt.imshow(cm, interpolation='nearest', cmap=cmap)

8 plt.title(title)

9 lorbar()

10 tick_marks = np.arange(len(classes))

11 icks(tick_marks, classes, rotation=45)

12 icks(tick_marks, classes)

14 fmt = '.2f'if normalize else'd'

15 thresh = cm.max() / 2.

16for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):

17 (j, i, format(cm[i, j], fmt),

18 horizontalalignment="center",

19 color="white"if cm[i, j] > thresh else"black")

21 plt.tight_layout()

22 plt.ylabel('真实标签')

23 plt.xlabel('预测标签')

24 plt.show()

25 class_names=['军事','国内','国际','科技','航空']

26 cm= confusion_matrix(y_test, y_pred)

27 title="分类准确率:{:.2f}%".format(accuracy_score(y_test,y_pred)*100)

688IT编程网

Python网络爬虫-网易新闻数据分析

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

Python网络爬虫-网易新闻数据分析

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性