Python爬虫获取“房天下“房价数据(上)--688IT编程网

Python爬⾍获取“房天下“房价数据（上）

上期博客我们通过Python爬⾍获取了京东商城的⼿机价格及其详细配置数据, 这期我们试着通过爬⾍在房天下()上获取乌鲁⽊齐的⼆⼿房信息, 同时利⽤之前已经测试过的坐标查询代码来获得每⼀个⼆⼿房的详细位置.

分析URL

进⼊⼆⼿房的销售列表, 其中包括房屋的售卖标题、户型、⾯积、楼层情况、朝向、建成年份、售价、位置等信息. 那么本期就先从房屋的基本属性开始爬取, 关于其详细信息的爬取会在(下)中给出.

进⼊开发者⼯具

不难看出, 存放这些信息的标签很容易就可以到, 那么就很容易了, 先给出结果：

import numpy as np

import matplotlib.pyplot as plt红字发票导入xml文件格式错误

import os

import pandas as pd

from bs4 import BeautifulSoup

import requests

邮件服务器端口

import time

headers ={

'User-Agent':

'Mozilla/5.0(Windows NT 10.0; Win64; x64) AppleWebKit/537.36 \

(KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36' }

#xj.esf.fang/house/i31/ http example

#url = 'xj.esf.fang'

meanUrl ="xj.esf.fang/house/i31"

meanPage = (meanUrl, headers=headers)

print("页⾯状态码:{0}".format(meanPage.status_code))

soup = ,"html.parser")

tag = soup.find_all("script")[3]

a =str(tag).find("rfss")

var_t4 = meanUrl

var_t3 =str(text)[a:a +28]

newUrl = var_t4 +"?"+ var_t3

print("当前访问为 {0}:".format(newUrl))

newPage = (newUrl, headers=headers)

newSoup = ,"html.parser")

#print(newSoup)

fangData =[]

attrs =["户型","⾯积","楼层","朝向","建成时间","经纪⼈","地址","单价"]

df = pd.DataFrame(columns=attrs)

def process_bar(percent, start_str='', end_str='', total_length=0):

bar =''.join(京东python入门教程

["\033[31m%s\033[0m"%' ']*int(percent * total_length))+''

bar ='\r'+ start_str + bar.ljust(total_length)+' {:0>4.1f}%|'.format(

percent *100)+ end_str

print(bar, end='', flush=True)

n =10

for i in range(n):

try:

p = newSoup.find_all("dl",{"class":"clearfix"})[i].dd.p #⾸页信息

span = newSoup.find_all("p",{"class":"add_shop"})[i]#地址信息

info = place("\t","").replace("\n",

"").split("|")#信息汇总(list)

price = newSoup.find_all("dd",{"class":"price_right"})[i]#单价

info.append()

info.append(__)

jquery创建html标签time.sleep(0.5)

df.loc[i]= info

except:

passcriticise

end_str ='100%'

process_bar(i/(n-1), start_str='', end_str=end_str, total_length=15)

newDf = df.reset_index(drop=True)

print(newDf)

运⾏结果

代码中坐标查询部分可以查看我的这期博客: .

tips

需要注意的是我只爬取了第⼀页上的房价信息, ⽽在代码中给出URL则是xj.esf.fang/house/i31⽽不是开始提到的xj.esf.fang/

这是因为在测试代码的过程中, 我发现上述两个URL都指向第⼀页的内容, 但两者给出的商品房信息则是不尽相同的, 下图是xj.esf.fang/house/i31给出的内容(从第⼆条信息开始就不相同了)

tag = soup.find_all("script")[3]

a =str(tag).find("rfss")

var_t4 = meanUrl

var_t3 =str(text)[a:a +28]

newUrl = var_t4 +"?"+ var_t3

这样就能保证正确的访问我们需要的URL了

在爬取的过程中还存在着另外⼀个问题, 即有些标签内并不含有我们需要的信息, 导致find_all()⽆法返回结果就会报错, 所以我们采⽤try except的代码形式来跳过错误或不完整信息

try:

p = newSoup.find_all("dl",{"class":"clearfix"})[i].dd.p #⾸页信息

span = newSoup.find_all("p",{"class":"add_shop"})[i]#地址信息

info = place("\t","").replace("\n",

"").split("|")#信息汇总(list)

price = newSoup.find_all("dd",{"class":"price_right"})[i]#单价

excel表格制作序号怎么拉出来全是1

info.append()

info.append(__)

time.sleep(0.5)

df.loc[i]= info

except:

pass

这虽然能保证代码的正常运⾏, 但跳过⼀些标签也导致了最后返回DataFrame时数据的索引并不是⽆间断排序的, 所以还需要加⼀段newDf = df.reset_index(drop=True)

⼀点说明

def process_bar(percent, start_str='', end_str='', total_length=0):

bar =''.join(

["\033[31m%s\033[0m"%' ']*int(percent * total_length))+''

bar ='\r'+ start_str + bar.ljust(total_length)+' {:0>4.1f}%|'.format(

percent *100)+ end_str

print(bar, end='', flush=True)

这段代码是加⼊了爬取的进度条, 并不是出于美观, ⽽是⼤规模爬⾍时进度条能很快的反映程序有没有出错, 错误在哪⼀次循环, 好让我们快速的debug.

688IT编程网

Python爬虫获取“房天下“房价数据(上)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Python爬虫获取“房天下“房价数据(上)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式