BeautifulSoup获取指定class样式的div
如何获取指定的标签的内容是解析⽹页爬取数据的必要⼿段,⽐如想获取<div class='xxx'> ...<div>这样的div标签,通常有三种办法,
1)⽤字符串查⽅法,然后切分字符串(或切⽚操作),如str.index(patternStr)或str.find(patternStr),这种⽅法快,但步骤多,因为要去头去尾。
2)⽤正则表达式,⽐如'<div class="result_info">([\s\S]+?)</div>',通过正则表达式的括号,可以获取匹配的内容,即<div ..></div>之间的内容:
import re
def getTags(html):
reg = r'<div class="result_info">([\s\S]+?)</div>'
pattern= repile(reg)
tags= re.findall(pattern, html)
return tags
不过正则表达式仍有缺点,例如'<div class="result_info">([\s\S]+?)</div>'括号中的问号表⽰⾮贪婪匹配,正常情况下可以匹配到所需要的内容,但如果class="result_info"的div中还嵌套了⼦的div,那么正则表达式的后半部分"</div>"将会匹配⼦div的结尾部分</div>,⽽不是希望的⽗div.
假如有这样⼀个html:
<div class="result_info">
<p>some paragraph test 1
</p>
<p>some paragraph test 2
</p>
<div id="div_sub" class="sub_div_style">
some contents in sub div
</div>
backend content here
</div>
那么backend contents here这段内容将会匹配不到,正则表达式将会将id为div_sub的</div>作为结尾。
3)使⽤第三⽅库,⽐如BeautifulSoup,优点是准确,缺点是速度会⽐字符串切分、正则表达式慢,下⾯说说BeautifulSoup的⽤法。
soup=BeautifulSoup(html)
print soup.find_all(name='div',attrs={"class":"footer"})#按照字典的形式给attrs参数赋值
完整的:
from bs4 import BeautifulSoup
import urllib2
def getTargetDiv(url,myAttrs):
html=urllib2.urlopen(url).read()
soup=BeautifulSoup(html)
return soup.find_all(name='div',attrs=myAttrs)
正则表达式获取括号内容if__name__=="__main__":
url=r'ummy/software/BeautifulSoup/bs4/doc.zh/'
myAttrs={'class':'footer'}
print getTargetDiv(url, myAttrs)
#1.soup.find_all("a", class_="sister")
#2.css_soup.find_all("p", class_="body")
#3.soup.find_all(href=repile("elsie"))
改成
soup.find_all(name='div',class_=repile('info_item'))
或者
soup.find_all('div',class_='info_item')
都没有匹配结果,经测试需要soup.find_all(name='div',attrs={"class":"footer"})这样以字典的形式给attrs参数赋值才可以。
另⼀个例⼦,获取指定样式的div内的所有图⽚url,并下载保存:
1 urls=[]
2for img in soup.find('div',attrs={'class':'wrap'}).find_all('img'):#到class="wrap"的div⾥⾯的所有<img>标签
3    urls.append(img.attrs['src'])#获取img标签的src属性,即图⽚⽹址
4
5 i=0
6 savedir=r'C:\Users\hp\Desktop\Images'#路径中不能包含中⽂
7for url in urls:
8    urllib.urlretrieve(url, '%s\%s.jpg'%(savedir,i))
9    i+=1
10print'Done'

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。