林天宇用Python3学习编写网络爬虫
(之一:入门实践)
作者:***
一、写在前面
1、本文适应的读者范围
会一点点Python的基本语法;
已经安装好了Python3PyCharm
python网络爬虫书籍推荐网络爬虫新手
2、本文所使用的开发环境
Mac pro / iOS
Python3
PyCharm
3、本文不纠结以下内容
为什么选择Python3而不是Python2
答:没什么特别原因,个人喜好。
如何安装Pyhon3
请查阅其他文档。
PyCharm是什么?为什么不用其他工具。
一个常用的Python开发工具,个人喜欢,可参阅其他文档。如果你不喜欢,你也可以用其他工具编码和调试。
二、快速开始
东北人有句话说:能动手,尽量不瞎叨叨。少些废话,快速开干。
1、新建项目和文件
启动PyCharm,“Create New Project”。
因为估计不需要到特别的框架,所以类型就默认地选择了“Pure Python”,名字就起成了“WebSpider”(我瞎命名的,就是觉得Spider比较帅气而已)然后“Create”如下图:
新建一个Python文件,命名为Spider001,毕竟也是我的第一只小爬虫嘛。
OK,到目前为止,已经新建一个名字叫做Spider001的Python空白文件了。
可以在项目等资源管理器中看到WebSpider项目下面,有一个Sider001.py的文件。我们接下来就对这个Sider001.py文件进行编辑和测试。
2、第一爬
先写代码,感受一下效果,成就感,然后再详细分析和思考。
代码如下:
quest
url = "www.baidu"
data = quest.urlopen(url).read()
data = data.decode('UTF-8')
print(data)
然后,Run,选择Spider001.py,运行结果如下:
由上图可以见,运行正常,而且已经将百度的HTML代码获取到了(见运行窗口的第二行HTML代码)。百度心想,我也不知道倒了什么霉,你们爬虫测试的HelloWorld都喜欢拿我测试,无谓增加我压力。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。