python抓取交易所_Python爬虫爬取上海黄金交易所历史交易数据--688IT编程网

python抓取交易所_Python爬⾍爬取上海黄⾦交易所历史交易

数据

为什么

因为想做上海黄⾦的量化交易，⼜信不过⽹上那些忽悠的神乎其神的App。于是⾃⼰动⼿，丰⾐⾜⾷。

如何做

⾸先要获取权威的交易数据，上海黄⾦交易所官⽹就有历年的交易数据。所以打算⽤熟悉的Python写个爬⾍⾃动获取。

1. ⼯具准备

Python3.6 + requests + lxml + Json

2. ⽹站解析

⾸先到上海黄⾦交易所每⽇⾏情页列表(⾸页 > 数据资讯 > 历史⾏情数据 > 每⽇⾏情)，分析该列表每页显⽰10天

的数据列表，点开后才是每天每个交易合约的交易数据。并且每⼀页的URL采⽤参数⽅式进⾏定位，如：“sjzx/mrhqsj?p=2 ”

getsavefilename

表⽰第⼆页。所以只需要⼀个简单循环就可以到需要的页⾯。

其次要到具体数据页⾯列表的Xpath，可以使⽤浏览器Chrome⾃带的开发者模式，到需要的数据，直接点右键 Copy > Copy Xpath。

3. 上代码

# -*- coding: UTF-8 -*-

# 本模块从上海黄⾦交易所官⽹下载历史交易数据

import os

import time

from Lib.Web import get_Html, get_list, get_List_xpath, add_host

from Lib.os import save_list, save_list_A, save_list_B, makdir, BASE_PATH

headers = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)

Chrome/87.0.4280.88 Safari/537.36‘,

}

def get_table(title, url, headers):

table_xpath = ‘//div[@class="content"]/table/tbody/tr/td[1]/text()‘

html = get_Html(url, headers)

doc = get_list(html, table_xpath)

tab = []

had = []

n = len(doc)

for r in range(1, n+1):

table_xpath = ‘//div[@class="content"]/table/tbody/tr[%d]/td/text()‘ % r

d = get_list(html, table_xpath)

if r == 1:

for i in d:

had.append(str(i).replace(‘\t‘, ‘‘).replace(

‘\n‘, ‘‘).replace(‘\r‘, ‘‘))

else:

row = {}

row[‘交易⽇期‘] = title

try:

for i in range(len(d)):

row[had[i]] = str(d[i]).replace(

‘\t‘, ‘‘).replace(‘\n‘, ‘‘).replace(‘\r‘, ‘‘)

except Exception as e:

pass

tab.append(row)

return tab

if __name__ == "__main__":

# 获得下载链接

for r in range(1, 201):

filename = ‘list_%d.txt‘ % r

cache_dir = "goldlist"

html = get_Html(url, headers)

if not ists(os.path.join(BASE_PATH, cache_dir)):

makdir(os.path.join(BASE_PATH, cache_dir))

filename = os.path.join(BASE_PATH, cache_dir, filename)

if ists(filename):

print("跳过：%s" % filename)

continue

a = ‘/html/body/div[6]/div/div[2]/div[2]/div[2]/ul/li/a/span[2]/text()‘

b = ‘/html/body/div[6]/div/div[2]/div[2]/div[2][email protected]

lst = get_List_xpath(html, a, b)

for item in lst:

lst[item] = add_host(url, lst[item])

save_list_A(filename, lst)

print(‘获取历史⾏情第%d页‘ % r)

time.sleep(3)

# 下载⾏情数据

for r in range(1, 201):

filename = ‘list_%d.txt‘ % r

cache_dir = "goldlist"

filename = os.path.join(BASE_PATH, cache_dir, filename)

if ists(filename):

with open(filename, ‘r‘, encoding=‘utf-8‘) as f:

line = f.readline()

item, url = line.split(‘\t‘)

filename = os.path.join(BASE_PATH, cache_dir, "%s.txt" % item) if ists(filename):

print("跳过：%s" % filename)

continue

doc = get_table(item, str(url).replace(‘\n‘, ‘‘), headers) save_list_B(filename, doc)

print("保存：%s" % filename)

time.sleep(3)

其中使⽤到我⾃⼰为了⽅便建⽴的库函数

def get_host(url):

ul = urlparse(url)

return ul.scheme + ‘://‘ + ul.hostname

def add_host(url, path):

return get_host(url) + path

def get_Html(url, headers, cookies=None, params=None): """ 返回⽹页内容 """

if cookies:

r = (url=url, headers=headers, cookies=cookies) else:

r = (url=url, headers=headers)

return etree.)

def get_list(html, xpath):

""" 返回指定位置的列表 """

return html.xpath(xpath)

def save_list_B(filename, list):

with open(filename, ‘w‘, encoding=‘utf-8‘) as f: f.writelines(json.dumps(list,ensure_ascii=False))

688IT编程网

python抓取交易所_Python爬虫爬取上海黄金交易所历史交易数据

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

python抓取交易所_Python爬虫爬取上海黄金交易所历史交易数据

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行