VS下python爬⾍的简单实现
最近⽐较闲,就准备⼊门⼀下python,正好看到别⼈的python爬⾍案例,就在VS下⾯试了⼀下,还挺好玩,分享给⼤家!(有部分转载内容,有兴趣可以看⼀下这位博主的博客⽂章:)
1. ⾸先安装VS
在安装界⾯有个安装python环境的选项,选中即可,这个就不必赘述了
2. 如果已经安装了VS,忘记了安装python环境
选中 ⼯具->获取⼯具和功能 可以到Python开发组件,选中后点击右下⾓的修改即可。
3. 新建python项⽬
通过 ⽂件->新建->项⽬->Python->Python 应⽤程序->确定 即可
4. 爬⾍代码
此时就可以写最简单的python程序了,但是使⽤爬⾍我们还是需要⼀些其他的⽀持包,这⾥先把代码给出来,可以直接copy进新建的应⽤程序⾥:
# coding=utf-8
import requests#导⼊requests包
from bs4 import BeautifulSoup#从bs4导⼊beautifulsoup包
# 获取html⽂档的函数,下⾯会调⽤
def get_html(url):
"""get the content of the url"""
response = (url)#从链接获取所有的⽹页源码
#返回转化之后的源码
# 获取笑话的函数,下⾯会调⽤
def get_certain_joke(html):
"""get the joke of the html"""
soup = BeautifulSoup(html, 'lxml')#使⽤lxml解析器对⽹页进⾏解析(可以使⽤默认解析器,但是lxml解析器功能更加强⼤)
joke_content = soup.select('a[class="recmd-content"]')[0].get_text()#获取标签为a,属性class为"recmd-content"的内容,取第⼀条的内容(可以查看⽹页源码之后确定搜索的内容)
return joke_content#返回得到的内容
url_joke = "www.qiushibaike"#⽹页地址
html = get_html(url_joke)#获取⽹页源码
joke_content = get_certain_joke(html)#获取内容
print (joke_content)#打印获取的内容
代码很简单,注释也做了,应该都看得懂,下⾯就是配置需要的依赖包了(可以不进⾏下⼀步,⾸先运⾏程序,尝试⼀下,看看哪⾥报错,会有更深的理解)
5. 进⼊windows的命令⾏,
⽅法很简单,⾸先使⽤ win+R 组合键进⼊搜索,然后输⼊ cmd 之后回车或者点击确定均可。或者直接在 Cortana 的搜索⾥⾯搜索 cmd 或者 命令提⽰符 也可以进⼊。
6. 更新pip版本(可以不⽤,最好更新⼀下,赶时髦)输⼊:
python -m pip install --upgrade pip
回车等待即可
7. 然后安装requests依赖包,输⼊:
pip install requests
回车等待即可
9. 安s4依赖包,输⼊:
pip install bs4
回车等待即可
10. 安装lxml解析器,输⼊:
pip3 install lxml
回车等待即可
11. 配置完成,可以直接点击调试,看⼀下效果,应该是如下界⾯:
python新建项目教程12. 这样就完成了⼀个简单的python爬⾍的程序,如果⼤家对beautifulsoup想跟深⼊了解,这⾥有⼀位博主的讲解,我认为讲的⾮常好,分享给⼤家:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论