Python爬虫Scrapy测试--688IT编程网

Python爬⾍Scrapy测试# -*- coding:utf-8 -*-

import urllib

import urllib2

import re

import thread

import time

#糗事百科爬⾍类python正则表达式爬虫

class QSBK:

#初始化⽅法，定义⼀些变量

def __init__(self):

self.pageIndex = 1

self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

#初始化headers

self.headers = { 'User-Agent' : self.user_agent }

#存放段⼦的变量，每⼀个元素是每⼀页的段⼦们

self.stories = []

#存放程序是否继续运⾏的变量

#传⼊某⼀页的索引获得页⾯代码

def getPage(self,pageIndex):

try:

url = 'www.qiushibaike/hot/page/' + str(pageIndex)

#构建请求的request

request = urllib2.Request(url,headers = self.headers)

#利⽤urlopen获取页⾯代码

response = urllib2.urlopen(request)

#将页⾯转化为UTF-8编码

pageCode = ad().decode('utf-8')

return pageCode

except urllib2.URLError, e:

if hasattr(e,"reason"):

print u"连接糗事百科失败，错误原因",e.reason

return None

#传⼊某⼀页代码，返回本页不带图⽚的段⼦列表

def getPageItems(self,pageIndex):

pageCode = Page(pageIndex)

if not pageCode:

print "页⾯加载失败...."

return None

pattern = repile('<div.*?author.*?>.*?<a.*?<img.*?</a>.*?<a.*?<h2>(.*?)</h2>.*?</div>.*?<div.*?' + 'content">(.*?)</div>', re.S)

items = re.findall(pattern,pageCode)

#⽤来存储每页的段⼦们

pageStories = []

#遍历正则表达式匹配的信息

for item in items:

#是否含有图⽚

haveImg = re.search("img",item[1])

#如果不含有图⽚，把它加⼊list中

if not haveImg:

replaceBR = repile('<br/>')

text = re.sub(replaceBR,"\n",item[1])

#item[0]是⼀个段⼦的发布者，item[1]是内容，item[2]是发布时间,item[4]是点赞数

pageStories.append([item[0].strip(),text.strip()])

return pageStories

#加载并提取页⾯的内容，加⼊到列表中

def loadPage(self):

#如果当前未看的页数少于2页，则加载新⼀页

able == True:

if len(self.stories) < 2:

#获取新⼀页

pageStories = PageItems(self.pageIndex)

#将该页的段⼦存放到全局list中

if pageStories:

self.stories.append(pageStories)

#获取完之后页码索引加⼀，表⽰下次读取下⼀页

self.pageIndex += 1

#调⽤该⽅法，每次敲回车打印输出⼀个段⼦

def getOneStory(self,pageStories,page):

#遍历⼀页的段⼦

for story in pageStories:

#等待⽤户输⼊

input = raw_input()

#每当输⼊回车⼀次，判断⼀下是否要加载新页⾯

self.loadPage()

#如果输⼊Q则程序结束

if input == "Q":

return

print u"第%d页\t发布⼈:%s\t内容:%s" %(page,story[0],story[1]) #开始⽅法

def start(self):

print u"正在读取糗事百科，按回车查看新段⼦，Q退出"

#使变量为True，程序可以正常运⾏

#先加载⼀页内容

self.loadPage()

#局部变量，控制当前读到了第⼏页

nowPage = 0

able:

if len(self.stories)>0:

#从全局list中获取⼀页的段⼦

pageStories = self.stories[0]

#当前读到的页数加⼀

nowPage += 1

#将全局list中第⼀个元素删除，因为已经取出

del self.stories[0]

#输出该页的段⼦

spider = QSBK()

spider.start()

688IT编程网

Python爬虫Scrapy测试

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Python爬虫Scrapy测试

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式