利用python爬虫抓取OJ上做题信息(终结版)--688IT编程网

利⽤python爬⾍抓取OJ上做题信息（终结版）

import webbrowser

import re

import urllib

#获取hdu⽹页

def getHtml_hdu(url):

page = urllib.urlopen(url)

html = ad()

#unicodehtml = html.decode("utf-8")

#return unicodehtml

return html

#获取poj⽹页

def getHtml_poj(url):

page = urllib.urlopen(url)

html = ad()

#unicodehtml = html.decode("utf-8")

#return unicodehtml

return html

#获取cug⽹页

def getHtml_cug(url):

page = urllib.urlopen(url)

html = ad()

unicodehtml = html.decode("utf-8")

return unicodehtml

#获取hdu中⽤户信息

def zhenghe_hdu(str1,userid,imgre):

html=getHtml_hdu( str1+userid )

return re.findall(imgre,html)

#获取cug中⽤户信息

def zhenghe_cug(str1,userid,imgre):

html=getHtml_cug( str1+userid )

return re.findall(imgre,html)

#获取poj中⽤户信息

爬虫可以干什么

def zhenghe_poj(str1,userid,imgre):

html =getHtml_poj( str1+ userid)

return re.findall(imgre,html)

#⽂件读出⽤户账号进⾏统计

def readFile(result_cug,result_hdu,result_poj):

file_object = open("",'r')

reg_cug = r'<td>Solved<td align=center><a href=.*?>(.*?)</a>'

imgre_cug = repile(reg_cug)

reg_hdu = r'<tr><td>Problems Solved</td><td align=center>(.*?)</td></tr>'

imgre_hdu = repile(reg_hdu)

reg_poj = '<tr><td width=15% align=left>Solved:</td>[\s\S]*?<td align=center width=25%><a href=.*?>(.+?)</a></td>'

imgre_poj = repile(reg_poj)

#将结果输出到html⽹页

html = open('OJ.html', 'w')

html.write("""

<html>

<head>

<title>cug--hdu--poj统计</title>

</head>

<body>

""")

html.write("""

</form></td><td colspan=3 align=right>

</td></tr><tr class='toprow'>

<td><b>Account</b>

<td><b>cugOJ</b>

""")

alist = [] #定义⼀个列表

for line in file_object:

line=line.strip('\n') #去掉读取的每⾏的"\n"

list_hdu = zhenghe_hdu(result_hdu,line,imgre_hdu)

list_cug = zhenghe_cug(result_cug,line,imgre_cug)

list_poj = zhenghe_poj(result_poj,line,imgre_poj)

if len(list_hdu) == 0:

number_hdu = 0

else:

number_hdu = eval(list_hdu[0])

if len(list_cug) == 0:

number_cug = 0

else:

number_cug = eval(list_cug[0])

if len(list_poj) == 0:

number_poj = 0

else:

number_poj = eval(list_poj[0])

alist.append([line,number_cug,number_hdu,number_poj,number_cug+number_hdu+number_poj]) print "处理完⼀个⽤户信息"

for i in range(len(alist)): #冒泡排序

for j in range(len(alist)):

if alist[i][4] > alist[j][4]:

tmp = alist[i]

alist[i] = alist[j]

alist[j] = tmp

for lst in alist: #输出到⽹页

html.write("<p></p>")

html.write("<tr>")

html.write("<td>%s </td>" % lst[0] )

html.write("<td>%s </td>" % str(lst[1]) )

html.write("<td>%s </td>" % str(lst[2]) )

html.write("<td>%s </td>" % str(lst[3]) )

html.write("<td>%s </td>" % str(lst[4]) )

html.write("</table></body><ml>")

html.write('</body></html>')

html.close()

webbrowser.open_new_tab('OJ.html') #⾃动打开⽹页

result_hdu = "acm.hdu.edu/userstatus.php?user="

result_cug = "acm.cug.edu/JudgeOnline/userinfo.php?user="

result_poj = "/userstatus?user_id="

print "正在⽣成html⽹页......"

readFile(result_cug,result_hdu,result_poj)

print "html⽹页⽣成完毕，⾃动打开"

这个python爬⾍程序的主要功能是爬取三个OJ（杭电，北⼤，地⼤）上的做题信息并进⾏题⽬的统计。

输⼊是昵称，其中有些⼈在⼏个OJ上的注册昵称都是⼀样的，有些不是，所以统计出来有些⼈在某个Oj上做题信息为0.要读取的⽂件的信息如下图：

运⾏效果:

688IT编程网

利用python爬虫抓取OJ上做题信息(终结版)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

利用python爬虫抓取OJ上做题信息(终结版)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式