python菜鸟3.0-终于清楚python菜鸟⼊门教程
Python是⼀款功能强⼤的脚本语⾔,具有丰富和强⼤的库,重要的是,它还具有很强的可读性,易⽤易学,⾮常适合编程初学者⼊门。以下是⼩编为你整理的python菜鸟⼊门教程
环境配置:下载Python并安装,安装完成后,配置windows的环境变量:打开⾼级系统设置,将Python的安装⽬录添加到系统变量path 中。配置完成后,在cmd命令⾏,输⼊命令"Python",出现Python版本号,即配置成功
教程学习:上⽹百度下载⼀份Python教程,进⾏学习。初学者⼊门的话,没必要整份教程看⼀遍,只需要将基础的语法及模块挑出学习,如:字符串、列表、字典、元组、⽂件及数据库的操作
上机实践:单纯地学习教程绝对是没法学好编程语⾔的,我们需要通过实践将理论知识转为实打实的技
能。在学习的过程中,可以在Ulipad 上尝试编写脚本,也可以将教程上的代码⾃⼰敲⼀遍。总之,⼀定要"多敲”
下载安装步骤
趁着在家有个⼲净的windows环境,我⾃⼰尝试从头配置Python+webdriver,公司的配置是前辈已经帮忙配好的。本⽂档在于帮助菜鸟扫盲。有些内容是引⽤⾍师的
1.下载python,好吧官⽹有,直接exe安装吧少年,推荐下载py
2.7,
3.3不太稳定(说错别砍我,我很菜)
2.下载setuptools(python的基础包⼯具),同样是exe ⽂件,默认会到python 的安装路径,将安装到C:Python27Libsite-packages ⽬录下
3.下载pip,(python安装包管理⼯具),我默认解压在了C:pip-1.3.1 ⽬录下
powder pink是什么颜4.打开命令提⽰符(开始---cmd 回车)进⼊C:pip-1.3.1⽬录下输⼊:
C:pip-1.3.1 > python setup.py install
(如果提⽰python 不是内部或外部命令!别急,去配置⼀下环境变量吧)
python入门教程25.再切换到C:Python27Scripts ⽬录下输⼊:
C:Python27Scripts > easy_install pip
如果是联⽹状态的话,可以直接在C:Python27Scripts 下输⼊命令安装:
C:Python27Scripts > pip install -U selenium
如果没联⽹(这个⼀般不太可能),下载selenium 2.33.0 (⽬前的最新版本)
并解压把整个⽬录放到C:Python27Libsite-packages ⽬录下。
列表中到
selenium-server-standalone-XXX.jar
对!就是这个东西,把它下载下来并解压;
在selenium-server-standalone-xxx.jar ⽬录下使⽤命令java -jar
selenium-server-standalone-xxx.jar 启动(如果打不开,查看是否端⼝被占⽤:
netstat -aon|findstr 4444)。
⾄此步骤完毕
接下来是⼀些注意事项,是我配置想启动的过程中遇到的问题,希望对你们有所帮助:
1.我写了个⼊门的python+webdriver脚本:
出现error:
Traceback (most recent call last): File "C:Python27Libaa.py", line 1, in from selenium import webdriverImportError: No module named selenium
重启电脑,这⾥如果不重启,不⽣效,OK,这个重启电脑搞定这个问题
2.我相信很多⼈会去⼿写python脚本
请⼤家注意调⽤浏览器⾸字母要⼤写。。。(今天差点弄死我),如:Firefox,Chrome,Ie
3.注意得把IEDriverServer跟chromedriver放到对应浏览器的安装⽬录下
index英语怎么读配置浏览器的环境变量Path:如
Chrome:C:UserswyxAppDataLocalGoogleChromeApplication
4.在python的安装⽬录下也放IEDriverServer,chromedriverPython⼊门
第⼀步:Python⼊门
这⼀阶段,你需要学习的知识点:
如果学习能⼒还不错的话,这⼀阶段,只需要⼀个多⽉的时间
教程如下:
第⼆步:熟悉Scrapy各模块
教程简介:
(1)Scrapy的简介。
主要知识点:Scrapy的架构和运作流程。
(2)搭建开发环境:
主要知识点:Windows及Linux环境下Scrapy的安装。
(3)Scrapy Shell以及Scrapy Selectors的使⽤。
(4)使⽤Scrapy完成⽹站信息的爬取。
主要知识点:创建Scrapy项⽬(scrapy startproject)、定义提取的结构化数据(Item)、编写爬取⽹站的 Spider 并提取出结构化数据(Item)、编写 Item Pipelines 来存储提取到的Item(即结构化数据)。
第三步:Django教程
教程简介:
(1)Django的简介。
主要知识点:MVC设计模式以及Django的MVT。
(2)搭建开发环境:
主要知识点:Linux的虚拟环境搭建和应⽤、Django的安装。
(3)利⽤Django框架完成简单的图书项⽬:
主要知识点:编写模型,使⽤API与数据库交互、使⽤Django的后台管理管理数据、通过视图接收请求,通过模型获
第四部:Python全栈教程
教程简介:
(1)HTTP协议的分析:
HTTP格式。
包含知识点:HTTP GET请求的格式、HTTP POST请求的格式、HTTP响应的格式。
爱课程网(2)HTTP协议的使⽤(实现Web静态服务器):
利⽤HTTP协议实现Web静态服务器。
包含知识点:浏览器⾸先向服务器发送HTTP请求、服务器向浏览器返回HTTP响应、使⽤类。
(3)服务器动态资源请求(实现Web动态服务器):
利⽤WSGI实现Web动态服务器。
包含知识点:浏览器请求动态页⾯的过程介绍、WSGI的介绍、定义WSGI接⼝。
教程下载地址:
掌握分布式爬⾍技术与数据去重技术
有⼀些站点,通过常规的爬⾍很难去进⾏爬取,这个时候,你需要借助⼀些⼯具模块进⾏,⽐如PhantomJS、Selenium等,所以,你还需要掌握PhantomJS、Selenium等⼯具的常规使⽤⽅法。
如果你已经学习或者研究到到了这⾥,那么恭喜你,相信现在你爬任何⽹站都已经不是问题了,反爬对你来说也只是⼀道形同虚设的墙⽽已了。
toothlesslylength缩写但是,如果要爬取的资源⾮常⾮常多,靠⼀个单机爬⾍去跑,仍然⽆法达到你的⽬的,因为太慢了。
所以,这个时候,你还应当掌握⼀种技术,就是分布式爬⾍技术,分布式爬⾍的架构⼿段有很多,你可以依据真实的服务器集进⾏,也可以依据虚拟化的多台服务器进⾏,你可以采⽤urllib+redis分布
式架构⼿段,也可以采⽤Scrapy+redis架构⼿段,都没关系,关键是,你可以将爬⾍任务部署到多台服务器中就OK。
⾄于数据去重技术,简单来说,⽬的就是要去除重复数据,如果数据量⼩,直接采⽤数据库的数据约束进⾏实现,如果数据量很⼤,建议采⽤布隆过滤器实现数据去重即可,布隆过滤器的实现在Python中也是不难的。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论