python之初学爬虫并且将爬回来的数据存为csv文件--688IT编程网

python之初学爬⾍并且将爬回来的数据存为csv⽂件

⼀、开发⼯具：

1. 运⾏环境： python3.7 win10

2. python 第三⽅库： requests (⾃⾏安装） >>> cmd --->pip install requests, 具体不做介绍)

⼆、检测是否安装成功

在命令⾏中输⼊python，敲击回车，进⼊python环境。

再输⼊以下指令并回车：

import requests 如果不报错，那⼀般是已经安装好了。

三、request库简介：

四、response属性

五、我们⽤requeses库的个体（）函数访问必应主页20次，打印返回状态，text内容，并且计算text（）属性和content属性返回⽹页内容的长度

代码如下：

import requests

def getHTMLText(url):

try:

for i in range(0,20): #访问20次

r = (url, timeout=30)

r.raise_for_status() #如果状态不是200，引发异常

return r.status_,r.content,),t) ##返回状态，text和content内容，text（）和content（）⽹页的长度

except:

return""

url = "cn.bing/?toHttps=1&redig=731C98468AFA474D85AECB7DB98B95D9"

print(getHTMLText(url))

运⾏结果如下：显⽰结果太多了所以只截⼀部分

六、最后分享⼀下我爬取的2019年中国最好⼤学的排名（这⾥只显⽰排名前⼗的学校了）并且把它保存为csv⽂件

代码如下：

import requests

import csv

import os

import codecs

from bs4 import BeautifulSoup

allUniv = []

def getHTMLText(url):

try:

r = (url, timeout=30)

r.raise_for_status()

except:

return""

def fillUnivList(soup):

data = soup.find_all('tr')

for tr in data:

ltd = tr.find_all('td')

if len(ltd)==0:

continue

singleUniv = []

for td in ltd:

singleUniv.append(td.string)

allUniv.append(singleUniv)

def printUnivList(num):

print("{:^4}{:^10}{:^5}{:^8}{:^10}".format("排名","学校名称","省市","总分","培养规模"))

for i in range(num):

u=allUniv[i]

print("{:^4}{:^10}{:^5}{:^8}{:^10}".format(u[0],u[1],u[2],u[3],u[6]))

'''def write_csv_file(path, head, data):

try:

with open(path, 'w', newline='') as csv_file:

writer = csv.writer(csv_file, dialect='excel')

if head is not None:

python怎么读csv数据writer.writerow(head)

for row in data:

writer.writerow(row)

print("Write a CSV file to path %s Successful." % path)

except Exception as e:

print("Write an CSV file to path: %s, Case: %s" % (path, e))'''

def writercsv(save_road,num,title):

if os.path.isfile(save_road):

with open(save_road,'a',newline='')as f:

csv_write=csv.writer(f,dialect='excel')

for i in range(num):

u=allUniv[i]

csv_write.writerow(u)

else:

with open(save_road,'w',newline='')as f:

csv_write=csv.writer(f,dialect='excel')

csv_write.writerow(title)

for i in range(num):

u=allUniv[i]

csv_write.writerow(u)

title=["排名","学校名称","省市","总分","⽣源质量","培养结果","科研规模","科研质量","顶尖成果","顶尖⼈才","科技服务","产学研究合作","成果转化"] save_road="F:\\python\csvData.csv"

def main():

url = 'www.zuihaodaxue/zuihaodaxuepaiming2019.html'

html = getHTMLText(url)

soup = BeautifulSoup(html, "html.parser")

fillUnivList(soup)

printUnivList(10)

writercsv('F:\\python\csvData.csv',10,title)

main()

代码显⽰结果如下：

打开⽂件:

好了，今天的分享就到这⾥了~~~~~~

688IT编程网

python之初学爬虫并且将爬回来的数据存为csv文件

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

python之初学爬虫并且将爬回来的数据存为csv文件

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性