如何使用python3抓取文章,了解一下?--688IT编程网

如何使⽤python3抓取⽂章，了解⼀下？通过公众平台的查⽂章接⼝，抓取我们需要的相关⽂章

1.⾸先我们先看⼀下，通过正常的登录⾃⼰的，然后⽤⽂章搜索功能，搜索⼀下我们需要查的相关⽂章。

打开mp.weixin.qq

打开⼀个⽂章搜索接⼝

输⼊要搜索的内容后，可以搜索到相关⽂章的标题、出⾃哪个等信息。

2.实现思路

3.获取cookies，话不多说，贴个代码

#!/usr/bin/env python

# _*_ coding: utf-8 _*_

from selenium import webdriver

import time

import json

driver = webdriver.Chrome() #需要⼀个⾕歌驱动，要⽀持你当前⾕歌浏览器的版

本

<('mp.weixin.qq/') #发起get请求打开平台登录页⾯，然后输⼊账号密码登录

driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/form/div[1]/div[1]/div/span/input').clear() #定位到账号输⼊框，清除⾥⾯的内容

driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/form/div[1]/div[1]/div/span/input').send_keys('这⾥输⼊你的账号') #定位到账号输⼊框，输⼊账号time.sleep(3) #等待3秒后执⾏下⼀步操作，避免因为⽹络延迟，浏览器来不及加载出输⼊框，从⽽导致以下的操作失败

driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/form/div[1]/div[2]/div/span/input').clear() #定位到密码输⼊框，清除⾥⾯的内容

driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/form/div[1]/div[2]/div/span/input').send_

keys('这⾥输⼊你的密码') #定位到密码输⼊框，输⼊密码time.sleep(3) #原因和以上相同

driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/form/div[3]/label').click() #点击记住密码

time.sleep(3) #原因和以上相同

driver.find_element_by_xpath('//*[@id="header"]/div[2]/div/div/form/div[4]/a').click() #点击登录

time.sleep(15) #15秒内扫码登录

cookies = _cookies() #获取扫码登录成功之后的cookies

print(cookies) #打印出来看看，如果超时了还不扫码，获取到的cookies是不完整的，不能⽤来登录，所以第⼀次必须扫码登录以获取完整的cookies cookie = {} #定义⼀个空字典，以便把获取的cookies以字典的形式写⼊

for items in cookies: #把登录成功后获取的cookies提取name和value参数写⼊空字典cookie

('name')] = ('value')

with open('','w') as file: #新建并打开⼀个⽂件

file.write(json.dumps(cookie)) #写⼊转成字符串的字典

driver.close() #关闭浏览器

4.新建⼀个py⽂件，代码如下

#!/usr/bin/env python

# _*_ coding: utf-8 _*_

import requests

import json

import re #正则模块

import random #随机数模块

import time

#query = 'python'

#读取之前登录后保存的cookies

python怎么读取py文件with open('','r') as file:

cookie = ad()

url = 'mp.weixin.qq/'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',

'Referer': 'mp.weixin.qq/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&share=1&token=773059916&lang=zh_CN',

'Host': 'mp.weixin.qq',

}

cookies = json.loads(cookie) #加载之前获取的cookies

print(cookies) #可以打印看看，和之前保存的cookies是⼀样的

response = (url, cookies = cookies) #请求mp.weixin.qq/，传cookies参数，登录成功

token = re.findall(r'token=(\d+)',str(response.url))[0] #登录成功后，这是的url⾥是包含token的，要把token参数拿出来，⽅便后⾯构造data数据包发起post请求

#print(token)

#random.random()返回0到1之间随机数

#构造data数据包发起post请求

data = {

'token': token,

'lang': 'zh_CN',

'f': 'json',

'ajax': '1',

'random': random.random(),

'url': 'python',

'begin': '0',

'count': '3',

}

search_url = 'mp.weixin.qq/cgi-bin/operate_appmsg?sub=check_appmsg_copyright_stat' #按F12在浏览器⾥post请求的url（搜索⽂章请求的url）search_response = requests.post(search_url, cookies=cookies, data=data, headers=headers) #发起post请求，传cookies、data、headers参数

max_num = search_response.json().get('total') #获取所有⽂章的条数

num = int(int(max_num/3)) #每页显⽰3篇⽂章，要翻total/3页，不过实际上我搜索了⼏个关键词，发现⽂章搜索的接⼝最多显⽰667页，其实后⾯还有页数

if __name__ == '__main__':

query = input('请输⼊你要搜索的内容：')

begin = 0

while num +1 > 0:

print(begin)

data = {

'token': token,

'lang': 'zh_CN',

'f': 'json',

'ajax': '1',

'random': random.random(),

'url': query,

'begin': '{}'.format(str(begin)),

'count': '3',

}

search_response = requests.post(search_url, cookies=cookies, data=data, headers=headers)

contentt = search_response.json().get('list') #list⾥⾯是我们需要的内容，所以要获取list

for items in contentt: #具体需要list⾥⾯的哪些参数可以⾃⼰选择，这⾥只获取title、url、nickname、author

f = open('',mode='a',) #打开⼀个txt⽂档，把获取的内容写进去，mode='a'是追加的⽅式写⼊，不覆盖

print('⽂章标题：',('title')) #获取⽂章标题

f.write('⽂章标题：')

f.('title'))

f.write("\n")

f.write('⽂章url：')

f.('url'))

f.write("\n")

f.write('：')

f.('nickname'))

f.write("\n")

f.write('作者：')

f.('author'))

f.write("\n")

print('⽂章url：',('url')) #获取⽂章的url

print('：',('nickname')) #获取出⾃哪个 print('⽂章作者：',('author')) #获取⽂章作者

num -= 1

begin = int(begin)

begin += 3

time.sleep(3)

运⾏结果如下：

<⾥保存的内容如下：

688IT编程网

如何使用python3抓取文章,了解一下?

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

如何使用python3抓取文章,了解一下?

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则