BeautifulSoup获取指定class样式的div--688IT编程网

BeautifulSoup获取指定class样式的div

如何获取指定的标签的内容是解析⽹页爬取数据的必要⼿段，⽐如想获取<div class='xxx'> ...<div>这样的div标签，通常有三种办法，

1）⽤字符串查⽅法，然后切分字符串（或切⽚操作），如str.index(patternStr)或str.find(patternStr)，这种⽅法快，但步骤多，因为要去头去尾。

2）⽤正则表达式，⽐如'<div class="result_info">([\s\S]+?)</div>'，通过正则表达式的括号，可以获取匹配的内容，即<div ..></div>之间的内容：

import re

def getTags(html):

reg = r'<div class="result_info">([\s\S]+?)</div>'

pattern= repile(reg)

tags= re.findall(pattern, html)

return tags

不过正则表达式仍有缺点，例如'<div class="result_info">([\s\S]+?)</div>'括号中的问号表⽰⾮贪婪匹配，正常情况下可以匹配到所需要的内容，但如果class="result_info"的div中还嵌套了⼦的div，那么正则表达式的后半部分"</div>"将会匹配⼦div的结尾部分</div>，⽽不是希望的⽗div.

假如有这样⼀个html：

<p>some paragraph test 1

</p>

<p>some paragraph test 2

</p>

some contents in sub div

</div>

backend content here

</div>

那么backend contents here这段内容将会匹配不到，正则表达式将会将id为div_sub的</div>作为结尾。

3）使⽤第三⽅库，⽐如BeautifulSoup，优点是准确，缺点是速度会⽐字符串切分、正则表达式慢，下⾯说说BeautifulSoup的⽤法。

soup=BeautifulSoup(html)

print soup.find_all(name='div',attrs={"class":"footer"})#按照字典的形式给attrs参数赋值

完整的：

from bs4 import BeautifulSoup

import urllib2

def getTargetDiv(url,myAttrs):

html=urllib2.urlopen(url).read()

soup=BeautifulSoup(html)

return soup.find_all(name='div',attrs=myAttrs)

正则表达式获取括号内容if__name__=="__main__":

url=r'ummy/software/BeautifulSoup/bs4/doc.zh/'

myAttrs={'class':'footer'}

print getTargetDiv(url, myAttrs)

#1.soup.find_all("a", class_="sister")

#2.css_soup.find_all("p", class_="body")

#3.soup.find_all(href=repile("elsie"))

改成

soup.find_all(name='div',class_=repile('info_item'))

或者

soup.find_all('div',class_='info_item')

都没有匹配结果，经测试需要soup.find_all(name='div',attrs={"class":"footer"})这样以字典的形式给attrs参数赋值才可以。

另⼀个例⼦，获取指定样式的div内的所有图⽚url，并下载保存:

1 urls=[]

2for img in soup.find('div',attrs={'class':'wrap'}).find_all('img'):#到class="wrap"的div⾥⾯的所有<img>标签

3 urls.append(img.attrs['src'])#获取img标签的src属性，即图⽚⽹址

5 i=0

6 savedir=r'C:\Users\hp\Desktop\Images'#路径中不能包含中⽂

7for url in urls:

8 urllib.urlretrieve(url, '%s\%s.jpg'%(savedir,i))

9 i+=1

10print'Done'

688IT编程网

BeautifulSoup获取指定class样式的div

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

BeautifulSoup获取指定class样式的div

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性