python爬取--688IT编程网

python爬取

爬取策略

1.需要安装python selenium模块包，通过selenium中的webdriver驱动浏览器获取Cookie的⽅法、来达到登录的效果pip3 install selenium

chromedriver：

chromedriver与chrome的对应关系表

4. 搜索名称

搜索可以获取所有相关的信息，只取第⼀个做测试

获取要爬取的的fakeid

选定要爬取的，获取⽂章接⼝地址

⽂章列表翻页及内容获取

爬取代码

from selenium import webdriver

import time

import json

import random

import requests

import re

account_name = "xx"

password = "xx"

# 登录，获取登录之后的cookies信息，并保存到本地⽂本中

def wechat_login():

# ⽤webdriver启动⾕歌浏览器

print("启动浏览器，打开登录界⾯")

driver = webdriver.Chrome()

<("mp.weixin.qq/")

time.sleep(2)

print("正在输⼊登录账号和密码......")

# 清空账号框中的内容

driver.find_element_by_name("account").clear()

driver.find_element_by_name("account").send_keys(account_name)

time.sleep(1)

driver.find_element_by_name("password").clear()

driver.find_element_by_name("password").send_keys(password)

time.sleep(1)

# 在⾃动输完密码之后需要⼿动点⼀下记住我

print("请在登录界⾯点击：记住账号")

driver.find_element_by_class_name("frm_checkbox_label").click()

time.sleep(5)

# ⾃动点击登录按钮进⾏登录

driver.find_element_by_class_name("btn_login").click()

# 拿⼿机扫⼆维码！

print("请拿⼿机扫码⼆维码登录")

time.sleep(20)

print("登录成功")

cookies = _cookies()

# 获取cookies

cookie_items = _cookies()

post = {}

# 获取到的cookies是列表形式，将cookies转成json形式并存⼊本地名为cookie的⽂本中

for cookie_item in cookie_items:

post[cookie_item['name']] = cookie_item['value']

cookie_str = json.dumps(post)

with open('', 'w+', encoding='utf-8') as f:

f.write(cookie_str)

print("cookies信息已保存到本地")

driver.quit()

# 爬取⽂章，并存在本地⽂本中

def get_content(query):

# query为要爬取的名称

# 主页

url = 'mp.weixin.qq'

# 设置headers

header = {

"HOST": "mp.weixin.qq",

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"

}

from requests.packages import urllib3

urllib3.disable_warnings() # 关闭警告

# 读取上⼀步获取到的cookies

with open('', 'r', encoding='utf-8') as f:

cookie = f.read()

cookies = json.loads(cookie)

# 增加重试连接次数

session = requests.Session()

session.keep_alive = False

# 增加重试连接次数

session.adapters.DEFAULT_RETRIES = 511

time.sleep(5)

# 登录之后的⾸页url变化为：mp.weixin.qq/cgi-bin/home?t=home/index&lang=zh_CN&token=1849751598，从这⾥获取token信息 response = (url=url, cookies=cookies, verify=False)

token = re.findall(r'token=(\d+)', str(response.url))[0]

time.sleep(2)

# 搜索的接⼝地址

search_url = 'mp.weixin.qq/cgi-bin/searchbiz?'

# 搜索接⼝需要传⼊的参数，有三个变量：token、随机数random、搜索的名字 query_id = {

'action': 'search_biz',

'token': token,

'lang': 'zh_CN',

'f': 'json',

'ajax': '1',

'random': random.random(),

'query': query,

'begin': '0',

'count': '5'

}

# 打开搜索接⼝地址，需要传⼊相关参数信息如：cookies、params、headers

search_response = (

search_url,

cookies=cookies,

headers=header,

params=query_id)

# 取搜索结果中的第⼀个

lists = search_response.json().get('list')[0]

print(lists)

# 获取这个的fakeid，后⾯爬取⽂章需要此字段

fakeid = ('fakeid')

# ⽂章接⼝地址

appmsg_url = 'mp.weixin.qq/cgi-bin/appmsg?'

# 搜索⽂章需要传⼊⼏个参数：登录的token、要爬取⽂章的fakeid、随机数random

query_id_data = {

'token': token,

'lang': 'zh_CN',

'f': 'json',

'ajax': '1',

'random': random.random(),

'action': 'list_ex',

'begin': '0', # 不同页，此参数变化，变化规则为每页加5

'count': '5',

'query': '',

'fakeid': fakeid,

'type': '9'

}

# 打开搜索的⽂章列表页

appmsg_response = (

appmsg_url,

cookies=cookies,

headers=header,

params=query_id_data)

# 获取⽂章总数

max_num = appmsg_response.json().get('app_msg_cnt')

# 每页⾄少有5条，获取⽂章总的页数，爬取时需要分页爬

num = int(int(max_num) / 5)

# 起始页begin参数，往后每页加5

begin = 0

seq = 0

while num + 1 > 0:

query_id_data = {

'token': token,

'lang': 'zh_CN',

'f': 'json',

'ajax': '1',

'random': random.random(),

'action': 'list_ex',

'begin': '{}'.format(str(begin)),

selenium获取cookie'count': '5',

'query': '',

'fakeid': fakeid,

'type': '9'

}

print('正在翻页：--------------', begin)

time.sleep(5)

# 获取每⼀页⽂章的标题和链接地址，并写⼊本地⽂本中

query_fakeid_response = (

appmsg_url,

cookies=cookies,

headers=header,

params=query_id_data)

fakeid_list = query_fakeid_response.json().get('app_msg_list')

if fakeid_list:

for item in fakeid_list:

content_link = ('link')

content_title = ('title')

fileName = query + '.txt'

seq += 1

with open(fileName, 'a', encoding='utf-8') as fh:

fh.write(

str(seq) +

"|" +

content_title +

"|" +

content_link +

"\n")

num -= 1

begin = int(begin)

begin += 5

if __name__ == '__main__':

# 登录，获取登录之后的cookies信息，并保存到本地⽂本中 wechat_login()

query = "XXX"

print("开始爬取：" + query)

get_content(query)

print("爬取完成")

# #登录之后，通过后台提供的⽂章接⼝爬取⽂章 # for query in gzlist:

# #爬取⽂章，并存在本地⽂本中

# print("开始爬取："+query)

# get_content(query)

# print("爬取完成")

688IT编程网

python爬取

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python爬取

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式