BeautifulSoup获取指定class样式的div的实现
如何获取指定的标签的内容是解析⽹页爬取数据的必要⼿段,⽐如想获取<div class='xxx'> ...<div>这样的div标签,通常有三种办法,
1)⽤字符串查⽅法,然后切分字符串(或切⽚操作),如str.index(patternStr)或str.find(patternStr),这种⽅法快,但步骤多,因为要去头去尾。
2)⽤正则表达式,⽐如'<div class="result_info">([\s\S]+?)</div>',通过正则表达式的括号,可以获取匹配的内容,即<div ..> </div>之间的内容:
import re
def getTags(html):
reg = r'<div class="result_info">([\s\S]+?)</div>'
pattern= repile(reg)
tags= re.findall(pattern, html)
return tags
不过正则表达式仍有缺点,例如'<div class="result_info">([\s\S]+?)</div>'括号中的问号表⽰⾮贪婪匹配,正常情况下可以匹配到所需要的内容,但如果class="result_info"的div中还嵌套了⼦的div,那么正则表达式的后半部分"</div>"将会匹配⼦div的结尾部分</div>,⽽不是希望的⽗div.
假如有这样⼀个html:
<div class="result_info">
<p>some paragraph test 1
</p>
<p>some paragraph test 2
</p>
<div id="div_sub" class="sub_div_style">
some contents in sub div
</div>
backend content here
</div>
那么backend contents here这段内容将会匹配不到,正则表达式将会将id为div_sub的</div>作为结尾。
3)使⽤第三⽅库,⽐如BeautifulSoup,优点是准确,缺点是速度会⽐字符串切分、正则表达式慢,下⾯说说BeautifulSoup 的⽤法。
soup=BeautifulSoup(html)
print soup.find_all(name='div',attrs={"class":"footer"})#按照字典的形式给attrs参数赋值
完整的:
from bs4 import BeautifulSoup
import urllib2
def getTargetDiv(url,myAttrs):
html=urllib2.urlopen(url).read()
soup=BeautifulSoup(html)
return soup.find_all(name='div',attrs=myAttrs)
if __name__=="__main__":
url=r'ummy/software/BeautifulSoup/bs4/doc.zh/'
myAttrs={'class':'footer'}
print getTargetDiv(url, myAttrs)
正则匹配指定字符串以后的内容#1.soup.find_all("a", class_="sister")
#2.css_soup.find_all("p", class_="body")
#3.soup.find_all(href=repile("elsie"))
改成
soup.find_all(name='div',class_=repile('info_item'))
或者
soup.find_all('div',class_='info_item')
都没有匹配结果,经测试需要soup.find_all(name='div',attrs={"class":"footer"})这样以字典的形式给attrs参数赋值才可以。
另⼀个例⼦,获取指定样式的div内的所有图⽚url,并下载保存:
urls=[]
for img in soup.find('div',attrs={'class':'wrap'}).find_all('img'):#到class="wrap"的div⾥⾯的所有<img>标签
urls.append(img.attrs['src'])#获取img标签的src属性,即图⽚⽹址
i=0
savedir=r'C:\Users\hp\Desktop\Images'#路径中不能包含中⽂
for url in urls:
urllib.urlretrieve(url, '%s\%s.jpg'%(savedir,i))
i+=1
print 'Done'
到此这篇关于BeautifulSoup获取指定class样式的div的实现的⽂章就介绍到这了,更多相关BeautifulSoup获取class样式的div 内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论