python爬京东联盟_python爬虫框架scrapy实战之爬取京东商城进阶篇

python爬京东联盟_python爬⾍框架scrapy实战之爬取京东商

城进阶篇

前⾔

之前的⼀篇⽂章已经讲过怎样获取链接，怎样获得参数了，详情请看python爬取京东商城普通篇，本⽂将详细介绍利⽤python爬⾍框架scrapy如何爬取京东商城，下⾯话不多说了，来看看详细的介绍吧。

代码详解

1、⾸先应该构造请求，这⾥使⽤scrapy.Request，这个⽅法默认调⽤的是start_urls构造请求，如果要改变默认的请求，那么必须重载该⽅法，这个⽅法的返回值必须是⼀个可迭代的对象，⼀般是⽤yield返回。

代码如下：

def start_requests(self):

for i in range(1,101):

page=i*2-1 #这⾥是构造请求url的page，表⽰奇数

url=self.start_url+str(page)

yield scrapy.Request(url,meta={'search_page':page+1},callback=self.parse_url) #这⾥使⽤meta想回调函数传⼊数据，回调函数使⽤a['search-page']接受数据

下⾯就是解析⽹页了，从上⾯看出这⾥的解析回调函数是parse_url，因此在此函数中解析⽹页。这⾥还是和上⾯说的⼀样，这个url得到的仅仅是前⼀半的信息，如果想要得到后⼀半的信息还有再次请求，这⾥还有注意的就是⼀个技巧：⼀般先解析出⼀个数据的数组，不急着取出第⼀个数，先要⽤if语句判断，因为如果得到的是[]，那么直接取出[0]是会报错的，这只是⼀个避免报错的⽅法吧。

代码如下:

def parse_url(self,response):

if response.status==200: #判断是否请求成功

# print response.url

pids = set() #这个集合⽤于过滤和保存得到的id,⽤于作为后⾯的ajax请求的url构成

try:

all_goods = response.xpath("//div[@id='J_goodsList']/ul/li") #⾸先得到所有⾐服的整个框架，然后从中抽取每⼀个框架

for goods in all_goods: #从中解析每⼀个

# scrapy.shell.inspect_response(response,self) #这是⼀个调试的⽅法，这⾥会直接打开调试模式

items = JdSpiderItem() #定义要抓取的数据

img_url_src = goods.xpath("div/div[1]/a/img/@src").extract() # 如果不存在就是⼀个空数组[]，因此不能在这⾥取[0]

img_url_delay = goods.xpath(

"div/div[1]/a/img/@data-lazy-img").extract() # 这个是没有加载出来的图⽚，这⾥不能写上数组取第⼀个[0]

price = goods.xpath("div/div[3]/strong/i/text()").extract() #价格

cloths_name = goods.xpath("div/div[4]/a/em/text()").extract()

shop_id = goods.xpath("div/div[7]/@ data-shopid").extract()

cloths_url = goods.xpath("div/div[1]/a/@href").extract()

person_number = goods.xpath("div/div[5]/strong/a/text()").extract()

pid = goods.xpath("@data-pid").extract()

# product_id=goods.xpath("@data-sku").extract()

if pid:

pids.add(pid[0])

if img_url_src: # 如果img_url_src存在

print img_url_src[0]

items['img_url'] = img_url_src[0]

if img_url_delay: # 如果到了没有加载完成的图⽚，就取这个url

print img_url_delay[0]

items['img_url'] = img_url_delay[0] # 这⾥如果数组不是空的，就能写了

if price:

items['price'] = price[0]

if cloths_name:

items['cloths_name'] = cloths_name[0]

if shop_id:

items['shop_id'] = shop_id[0]

shop_url = "mall.jd/index-" + str(shop_id[0]) + ".html"

items['shop_url'] = shop_url

groupby pandasif cloths_url:

items['cloths_url'] = cloths_url[0]

if person_number:

items['person_number'] = person_number[0]

# if product_id:

# print "************************************csdjkvjfskvnk***********************"

# print selfments_url.format(str(product_id[0]),unt))

# yield scrapy.Request(url=selfments_url.format(str(product_id[0]),unt)),callback=selfments)

countif函数用法详解#yield scrapy.Request写在这⾥就是每解析⼀个键裤⼦就会调⽤回调函数⼀次

yield items

except Exception:

print "********************************************ERROR**********************************************************************"

yield

scrapy.Request(url=self.search_url.format(a['search_page']),",".join(pids)),_half_parse) #再次请求，这⾥是请求ajax加载的数据，必须放在这⾥，因为只有等到得到所有的pid才能构成这个请求，回调函数⽤于下⾯的解析

2、从上⾯代码的最后可以看出最后就是解析ajax加载的⽹页了，这⾥调⽤的next_half_parse函数，和解析前⾯⼀个⽹页⼀样，这⾥需要的注意的是，如果前⾯定义的数据没有搜索完毕是不能使⽤yield items的，必须将items通过meta传⼊下⼀个回调函数继续完善后才能yield items，这⾥就不需要了。

代码如下：

#分析异步加载的⽹页

def next_half_parse(self,response):

if response.status==200:

print response.url

items=JdSpiderItem()

mysql比pgsql好在哪里#scrapy.shell.inspect_response(response,self) #y⽤来调试的

try:

lis=response.xpath("//li[@class='gl-item']")xml格式化怎么写>catching up

for li in lis:

cloths_url=li.xpath("div/div[1]/a/@href").extract()

img_url_1=li.xpath("div/div[1]/a/img/@src").extract()

img_url_2=li.xpath("div/div[1]/a/img/@data-lazy-img").extract()

cloths_name=li.xpath("div/div[4]/a/em/text()").extract()

price=li.xpath("div/div[3]/strong/i/text()").extract()

shop_id=li.xpath("div/div[7]/@data-shopid").extract()

person_number=li.xpath("div/div[5]/strong/a/text()").extract()

if cloths_url:

print cloths_url[0]

items['cloths_url']=cloths_url[0]

if img_url_1:京东python入门教程

print img_url_1[0]

items['img_url']=img_url_1

if img_url_2:

print img_url_2[0]

items['img_url']=img_url_2[0]

if cloths_name:

items['cloths_name']=cloths_name[0]

if price:

items['price']=price[0]

if shop_id:

items['shop_id']=shop_id[0]

items['shop_url']="mall.jd/index-" + str(shop_id[0]) + ".html"

if person_number:

items['person_number']=person_number[0]

yield items #⼜⼀次的⽣成，这⾥是完整的数据，因此可以yield items

except Exception:

print "**************************************************"

3、当然这⾥还⽤到了设置请求池，mysql存储，没有使⽤到ip代理，这个在我前⾯的博客中⼜讲到，这⾥就不再赘述了。

想看源代码的朋友请

⼩技巧

⼈们会抱怨为什么⾃⼰的爬⾍在中途断开就要重头开始爬，为什么不能从断开那⾥开始爬呢，这⾥提供⼀个⽅法：在配置⽂件settings.py 中加⼊JOBDIR=file_name，这⾥的file_name是⼀个⽂件的名字

设置下载延迟防⽌被ban:DOWNLOAD_DELAY = 2：设置每⼀次的间隔时间 RANDOMIZE_DOWNLOAD_DELAY = True：这个是随机设置延迟时间在设置的时间的0.5-1.5倍之间，这样可以更有效的防⽌被ban,⼀般是配套使⽤的

ROBOTSTXT_OBEY = False ：这⾥是表⽰不遵循⽂件，默认是True表⽰遵循，这⾥将之改成False

CONCURRENT_REQUESTS ：设置最⼤请求数，这⾥默认的时16，我们可以根据⾃⼰电脑的配置改的⼤⼀点来加快请求的速度

总结

以上就是这篇⽂章的全部内容了，希望本⽂的内容对⼤家的学习或者使⽤python能带来⼀定的帮助，如果有疑问⼤家可以留⾔交流，谢谢⼤家对脚本之家的⽀持。

688IT编程网

python爬京东联盟_python爬虫框架scrapy实战之爬取京东商城进阶篇_百 ...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python爬京东联盟_python爬虫框架scrapy实战之爬取京东商城进阶篇_百 ...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式